コーパス言語学実践

コーパス言語学実践 2006年度2学期第5回

本日の内容 • 第4回で途中だったところまでの確認 • 続き • Kaigyo01.pl → Kaigyo02.pl への変更 • cabocha　のインストール • 単語の取り出し tangotoridasi.pl • 整形 • seikei01.pl • MS Excelでの読み込み

前回：本文の加工（［＃］） • 内容を見て対応するため手作業 • ということで，内容を見ながら手作業 • エディタで*02.txtを開く • 検索で［＃を探す • 該当個所の扱いを検討　　　　　（統一基準を決めながら進める） • 作業後→　*03.txtとして保存

Kaigyo01.pl → Kaigyo02.pl • 前回のKaigyo01.pl は破棄 • 新しくKaigyo02.pl をダウンロード y:\corpus> perl kaigyo02.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている • もう一度良く見て，変なところを直す *05.txtとして保存例：　gingatetsudo05.txt

前回：1行1文へ • kaigyo01.pl をダウンロード y:\corpus> perl kaigyo01.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている • もう一度良く見て，変なところを直す *05.txtとして保存例：　gingatetsudo05.txt

ChaSenとCabocha • ChaSenのインストール • 日本語形態素解析ツール • Cabochaのインストール • 日本語係受け解析ツール • 文節の作成に使用

ChaSen（茶筅） （東京外国語大学のコンピュータにはインストール済みだが，cabochaのために再インストール） • http://chasen.naist.jp/hiki/ChaSen/へアクセスし，「茶筌の配布」に進む • WinChaをクリック • chasen233_031208.exeをダウンロード • ダブルクリックする． • インストール先を　y:\corpusにする！

ChaSen（茶筅） （東京外国語大学のコンピュータにはインストール済みだが，cabochaのために再インストール） • http://chasen.naist.jp/hiki/ChaSen/へアクセスし，「茶筌の配布」に進む • WinChaをクリック • chasen233_031208.exeをダウンロード • ダブルクリックする． • インストール先を　y:\corpusにする！中止！

ChaSen（ディレクトリ変更） 中止！ Y:\corpus にする Yドライブにする

Cabocha（南瓜） • プログラムをダウンロードhttp://chasen.org/~taku/software/cabocha/から，cabocha-0.53.exeをダウロード • ダブルクリックする • インストール先をy:\corpusにする！ • 祈る

ソフトウェアのダウンロード cabocha-0.53.exe

CaboChaのセットアープwizard

License Agreement

インストール先の変更 Y:\corpus にする

アイコンは作らない ここをチェックする

確認してインストール開始 インストール開始

ChaSenとCaboCha • インストール後の確認 • コマンドプロンプト上で， Y:\corpus> cabochagingatetsudono_yoru05.txt が実行できるか？

ChaSenとCaboCha • インストール後の確認 • コマンドプロンプト上で， Y:\corpus> cabochagingatetsudono_yoru05.txt が実行できるか？多分無理なので， y:\corpus> CaboCha\bin\cabocha gingatetsudono_yoru05.txt が実行できるか？

文節の作成 • cabochaの利用で文節を作る y:\corpus>CaboCha\bin\cabocha –I0 –O2 gingatetsudo05.txt > gignatetsudo06.txt 今日は良い天気でした． * 0 -1O 今日キョウ今日名詞-副詞可能 B-DATE はハは助詞-係助詞 O * 1 -1O 良いヨイ良い形容詞-自立形容詞・アウオ段基本形 O * 2 -1O 天気テンキ天気名詞-一般 O でしデシです助動詞特殊・デス連用形 O たタた助動詞特殊・タ基本形 O ．．．記号-句点 O EOS -I0 アイのゼロ –O2　オーの2

文節の中から自立語を取り出す • tangotoridasi.plの利用 • その前に • 文字コードの変換 • perlでは内部でutf-8という文字コードを使用 • *06.txtの文字コードをutf-8にしておく必要あり． TeraPadで*06.txtを開く． [ファイル]→[漢字改行コード指定保存]→ 漢字コードUTF-8 改行コードCR+LF　　の状態で保存！

文節の中から自立語を取り出す • tangotoridasi.plの利用 y:\corpus>perl –s tangotoridasi.pl –fn=“gingatetsudo” < gingatetsudono_yoru06.txt > gingatetsudono_yoru07.txt 見出し語;品詞;0;表層形\tヨミ\t基本形\t品詞..........*;出展全部　1行に書く!!

ここまでのまとめ • *02.txt　からスタート（先週） • ［＃の解析→　*03.txt の作成 • 今週はここからスタート • 1行1文へ(Kaigyo02.pl) →　*04.txt　の作成 • 変なところを手作業で直す　→ *05.txtの作成 • chabochaでの処理　→*06.txtの作成 • tangotoridasiでの処理　→ *07.txtの作成

もう少し整形を • seikei01.pl をダウンロード y:\corpus > perl seikei01.pl < gingatetsudono_yoru07.txt > gingatetsudono_yoru08.txt これにより，見出し語 \t ヨミ（不完全） \t 表記 \t 品詞 \t 単複 \t 出展（ここで　\t はタブ記号を表す）

Excelでの読み込み • MS-Excelで作成したデータを読み込む [スタート]→［すべてのプログラム］→［Microsoft Office］→［Microsoft Office Excel 2003］起動したら，ファイル→開く→　gingatetsudono_yoru08.txt を選ぶ

Excelでの読み込み（2） • UTF-8 • カンマやタブなどの区切り文字．．．を選ぶ　　　　　　　　次へ

Excelでの読み込み（3） • 次の画面ではタブのチェックを確認　　　　　　次へ

Excelで読み込む（4） • そのまま　　完了を押すちゃんと読み込まれることを確認！

コーパス言語学実践

コーパス言語学実践

Presentation Transcript