1 / 19

コーパス言語学入門

コーパス言語学入門. 2007 年度 1 学期 第 5 回. 本日の内容. 本日はコーパス作成の実習 タグの定義 タグ付け作業. タグの定義. タグの定義 その前に,どんなコーパスを作るかが問題. タグの定義( 2 ). タグの定義 その前に,どんなコーパスを作るかが問題 例として行うので,汎用目的の一般的なもの 新聞記事 小説の一部. タグの定義( 3 ). 対象コーパス 新聞記事  を元に作成する汎用コーパス タグの定義 汎用的な目的に使えそうなタグを定義する タグの種類 素材の管理のための情報 コンピュータでの処理をしやすくする+

Download Presentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 2007年度1学期 第5回

  2. 本日の内容 • 本日はコーパス作成の実習 • タグの定義 • タグ付け作業

  3. タグの定義 • タグの定義 • その前に,どんなコーパスを作るかが問題

  4. タグの定義(2) • タグの定義 • その前に,どんなコーパスを作るかが問題 • 例として行うので,汎用目的の一般的なもの • 新聞記事 • 小説の一部

  5. タグの定義(3) • 対象コーパス • 新聞記事 を元に作成する汎用コーパス • タグの定義 • 汎用的な目的に使えそうなタグを定義する • タグの種類 • 素材の管理のための情報 • コンピュータでの処理をしやすくする+   言語研究での利用をしやすくするための情報

  6. データの入手 • とにかく,データを手にいれる • 自分で作成 • どこかから入手 →今回は,練習なので,新聞記事を選んで入手 読売新聞 朝日新聞 毎日新聞 日経新聞

  7. データの入手(2) • 記事の取得 • 読売新聞朝日新聞毎日新聞日経新聞 • WWWのブラウザ(インターネットエクスプローラ) • とりたい記事を表示 • マウスで記事を選んでコピー • エディタに貼り付け • エディタには,TeraPadかメモ帳を使う • 名前を付けて保存で「enshu01.txt」

  8. タグの定義(4) • タグの定義に話を戻して... • 素材の管理のための情報 • 作成日 • 著者 • 加工日 • 加工者 • 加工者のID(学籍番号)

  9. タグの定義(5) • タグの定義に話を戻して... • 素材の管理のための情報 • 作成日  <pubdate></pubdate> • 著者 <author></author> • 加工日 <tagdate></tagdata> • 加工者 <tagger></tagger> • 加工者のID(学籍番号) <tagger_id></tagger_id>

  10. タグの定義(6) 2.コンピュータでの処理をしやすくする+  言語研究での利用をしやすくするための情報 • 色々考えられるが.. • テキスト構造に関する情報 • 単語の品詞情報 • 固有名の属性情報 • 場所,組織名,数値などの情報 を今回の練習では扱う

  11. タグの定義(7) • コンピュータでの処理をしやすくする+  言語研究での利用をしやすくするための情報 テキスト構造に関する情報 • 文     <sent></sent> • 段落 <para></para> • テキスト <text></text> • 記事全体 <article></article> • 見出し<title></title> • 日付 <date></date>

  12. タグの定義(8) • コンピュータでの処理をしやすくする+  言語研究での利用をしやすくするための情報 単語の品詞情報(自立語だけ) • 名詞   <noun></noun> • 動詞 <verb></verb> • 形容詞 <adj></adj> • 副詞 <adv></adv>

  13. タグの定義(9) • コンピュータでの処理をしやすくする+  言語研究での利用をしやすくするための情報 固有名などの情報(名詞の属性として) 名詞 <noun></noun> • 場所  <noun ne=“loc”></noun> • 組織名 <noun ne=“org”></noun> • 数値 <noun ne=“num”></noun> • 時間 <noun ne=“time”></noun> • 人名 <noun ne=“person”></noun> • 役職 <noun ne=“title”></noun>

  14. タグ付け作業 • 開始 • enshu01.txt として保存

  15. タグをxmlとして利用 • enshu01.txtに次の加工をしてxmlに 先頭に <?xml version="1.0" encoding="ISO-2022-JP" ?> を追加し, <title>の前の<article>を <pubdate>の前に移動する 名前を付けて保存で, enshu01.xml という名前で保存

  16. タグをxmlとして利用(2) • インターネットエクスプローラで enshu01.xml を読み込む.   問題ないか,チェック!

  17. タグをxmlとして利用(3) • 更に,2行目に <?xml:stylesheet type="text/xsl" href="article.xsl" ?> を追加し,再度保存 • article.xsl   をWebページからダウンロード

  18. タグをxmlとして利用(4) • 再びインターネットエクスプローラで enshu01.xml を読み込む.   どのように見えるか,チェック!

  19. まとめ • タグの定義の実際 • どんなパターンがあるかはサンプルを見て検討 • 定義をしっかりしておくことでゆらぎを防ぐ • それでも,言語的な問題で悩むことも多い →少なくとも同一コーパス内では一貫性の保持が必要! • タグをxmlとして利用 • xmlはいろんなことができる • インターネットエクスプローラで表示もできる

More Related