190 likes | 247 Views
コーパス言語学入門. 2007 年度 1 学期 第 5 回. 本日の内容. 本日はコーパス作成の実習 タグの定義 タグ付け作業. タグの定義. タグの定義 その前に,どんなコーパスを作るかが問題. タグの定義( 2 ). タグの定義 その前に,どんなコーパスを作るかが問題 例として行うので,汎用目的の一般的なもの 新聞記事 小説の一部. タグの定義( 3 ). 対象コーパス 新聞記事 を元に作成する汎用コーパス タグの定義 汎用的な目的に使えそうなタグを定義する タグの種類 素材の管理のための情報 コンピュータでの処理をしやすくする+
E N D
コーパス言語学入門 2007年度1学期 第5回
本日の内容 • 本日はコーパス作成の実習 • タグの定義 • タグ付け作業
タグの定義 • タグの定義 • その前に,どんなコーパスを作るかが問題
タグの定義(2) • タグの定義 • その前に,どんなコーパスを作るかが問題 • 例として行うので,汎用目的の一般的なもの • 新聞記事 • 小説の一部
タグの定義(3) • 対象コーパス • 新聞記事 を元に作成する汎用コーパス • タグの定義 • 汎用的な目的に使えそうなタグを定義する • タグの種類 • 素材の管理のための情報 • コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報
データの入手 • とにかく,データを手にいれる • 自分で作成 • どこかから入手 →今回は,練習なので,新聞記事を選んで入手 読売新聞 朝日新聞 毎日新聞 日経新聞
データの入手(2) • 記事の取得 • 読売新聞朝日新聞毎日新聞日経新聞 • WWWのブラウザ(インターネットエクスプローラ) • とりたい記事を表示 • マウスで記事を選んでコピー • エディタに貼り付け • エディタには,TeraPadかメモ帳を使う • 名前を付けて保存で「enshu01.txt」
タグの定義(4) • タグの定義に話を戻して... • 素材の管理のための情報 • 作成日 • 著者 • 加工日 • 加工者 • 加工者のID(学籍番号)
タグの定義(5) • タグの定義に話を戻して... • 素材の管理のための情報 • 作成日 <pubdate></pubdate> • 著者 <author></author> • 加工日 <tagdate></tagdata> • 加工者 <tagger></tagger> • 加工者のID(学籍番号) <tagger_id></tagger_id>
タグの定義(6) 2.コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 • 色々考えられるが.. • テキスト構造に関する情報 • 単語の品詞情報 • 固有名の属性情報 • 場所,組織名,数値などの情報 を今回の練習では扱う
タグの定義(7) • コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 テキスト構造に関する情報 • 文 <sent></sent> • 段落 <para></para> • テキスト <text></text> • 記事全体 <article></article> • 見出し<title></title> • 日付 <date></date>
タグの定義(8) • コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 単語の品詞情報(自立語だけ) • 名詞 <noun></noun> • 動詞 <verb></verb> • 形容詞 <adj></adj> • 副詞 <adv></adv>
タグの定義(9) • コンピュータでの処理をしやすくする+ 言語研究での利用をしやすくするための情報 固有名などの情報(名詞の属性として) 名詞 <noun></noun> • 場所 <noun ne=“loc”></noun> • 組織名 <noun ne=“org”></noun> • 数値 <noun ne=“num”></noun> • 時間 <noun ne=“time”></noun> • 人名 <noun ne=“person”></noun> • 役職 <noun ne=“title”></noun>
タグ付け作業 • 開始 • enshu01.txt として保存
タグをxmlとして利用 • enshu01.txtに次の加工をしてxmlに 先頭に <?xml version="1.0" encoding="ISO-2022-JP" ?> を追加し, <title>の前の<article>を <pubdate>の前に移動する 名前を付けて保存で, enshu01.xml という名前で保存
タグをxmlとして利用(2) • インターネットエクスプローラで enshu01.xml を読み込む. 問題ないか,チェック!
タグをxmlとして利用(3) • 更に,2行目に <?xml:stylesheet type="text/xsl" href="article.xsl" ?> を追加し,再度保存 • article.xsl をWebページからダウンロード
タグをxmlとして利用(4) • 再びインターネットエクスプローラで enshu01.xml を読み込む. どのように見えるか,チェック!
まとめ • タグの定義の実際 • どんなパターンがあるかはサンプルを見て検討 • 定義をしっかりしておくことでゆらぎを防ぐ • それでも,言語的な問題で悩むことも多い →少なくとも同一コーパス内では一貫性の保持が必要! • タグをxmlとして利用 • xmlはいろんなことができる • インターネットエクスプローラで表示もできる