1 / 27

コーパス言語学実践

コーパス言語学実践. 2006 年度 2 学期 第 5 回. 本日の内容. 第 4 回で途中だったところまでの確認 続き Kaigyo01.pl → Kaigyo02.pl への変更 cabocha  のインストール 単語の取り出し tangotoridasi.pl 整形 seikei01.pl MS Excel での読み込み. 前回:本文の加工( [#] ). 内容を見て対応するため手作業 ということで,内容を見ながら手作業 エディタで* 02.txt を開く 検索で [# を探す 該当個所の扱いを検討      (統一基準を決めながら進める)

aquila
Download Presentation

コーパス言語学実践

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学実践 2006年度2学期 第5回

  2. 本日の内容 • 第4回で途中だったところまでの確認 • 続き • Kaigyo01.pl → Kaigyo02.pl への変更 • cabocha のインストール • 単語の取り出し tangotoridasi.pl • 整形 • seikei01.pl • MS Excelでの読み込み

  3. 前回:本文の加工( [#] ) • 内容を見て対応するため手作業 • ということで,内容を見ながら手作業 • エディタで*02.txtを開く • 検索で[#を探す • 該当個所の扱いを検討     (統一基準を決めながら進める) • 作業後→ *03.txtとして保存

  4. Kaigyo01.pl → Kaigyo02.pl • 前回のKaigyo01.pl は破棄 • 新しくKaigyo02.pl をダウンロード y:\corpus> perl kaigyo02.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている • もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt

  5. 前回:1行1文へ • kaigyo01.pl をダウンロード y:\corpus> perl kaigyo01.pl < gingatetsudo03.txt > gingatetsudo04.txt これで粗くは改行されている • もう一度良く見て,変なところを直す *05.txtとして保存 例: gingatetsudo05.txt

  6. ChaSenとCabocha • ChaSenのインストール • 日本語形態素解析ツール • Cabochaのインストール • 日本語係受け解析ツール • 文節の作成に使用

  7. ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール) • http://chasen.naist.jp/hiki/ChaSen/へアクセスし,「茶筌の配布」に進む • WinChaをクリック • chasen233_031208.exeをダウンロード • ダブルクリックする. • インストール先を y:\corpusにする!

  8. ChaSen(茶筅) (東京外国語大学のコンピュータにはインストール済みだが,cabochaのために再インストール) • http://chasen.naist.jp/hiki/ChaSen/へアクセスし,「茶筌の配布」に進む • WinChaをクリック • chasen233_031208.exeをダウンロード • ダブルクリックする. • インストール先を y:\corpusにする! 中止!

  9. ChaSen(ディレクトリ変更) 中止! Y:\corpus にする Yドライブにする

  10. Cabocha(南瓜) • プログラムをダウンロードhttp://chasen.org/~taku/software/cabocha/から,cabocha-0.53.exeをダウロード • ダブルクリックする • インストール先をy:\corpusにする! • 祈る

  11. ソフトウェアのダウンロード cabocha-0.53.exe

  12. CaboChaのセットアープwizard

  13. License Agreement

  14. インストール先の変更 Y:\corpus にする

  15. アイコンは作らない ここをチェックする

  16. 確認してインストール開始 インストール開始

  17. ChaSenとCaboCha • インストール後の確認 • コマンドプロンプト上で, Y:\corpus> cabochagingatetsudono_yoru05.txt が実行できるか?

  18. ChaSenとCaboCha • インストール後の確認 • コマンドプロンプト上で, Y:\corpus> cabochagingatetsudono_yoru05.txt が実行できるか?多分無理なので, y:\corpus> CaboCha\bin\cabocha gingatetsudono_yoru05.txt が実行できるか?

  19. 文節の作成 • cabochaの利用で文節を作る y:\corpus>CaboCha\bin\cabocha –I0 –O2 gingatetsudo05.txt > gignatetsudo06.txt 今日は良い天気でした. * 0 -1O 今日 キョウ 今日 名詞-副詞可能 B-DATE は ハ は 助詞-係助詞 O * 1 -1O 良い ヨイ 良い 形容詞-自立 形容詞・アウオ段 基本形 O * 2 -1O 天気 テンキ 天気 名詞-一般 O でし デシ です 助動詞 特殊・デス 連用形 O た タ た 助動詞 特殊・タ 基本形 O . . . 記号-句点 O EOS -I0 アイのゼロ –O2 オーの2

  20. 文節の中から自立語を取り出す • tangotoridasi.plの利用 • その前に • 文字コードの変換 • perlでは内部でutf-8という文字コードを使用 • *06.txtの文字コードをutf-8にしておく必要あり. TeraPadで*06.txtを開く. [ファイル]→[漢字改行コード指定保存]→ 漢字コードUTF-8 改行コードCR+LF  の状態で保存!

  21. 文節の中から自立語を取り出す • tangotoridasi.plの利用 y:\corpus>perl –s tangotoridasi.pl –fn=“gingatetsudo” < gingatetsudono_yoru06.txt > gingatetsudono_yoru07.txt 見出し語;品詞;0;表層形\tヨミ\t基本形\t品詞..........*;出展 全部 1行に書く!!

  22. ここまでのまとめ • *02.txt からスタート(先週) • [#の解析→ *03.txt の作成 • 今週はここからスタート • 1行1文へ(Kaigyo02.pl) → *04.txt の作成 • 変なところを手作業で直す → *05.txtの作成 • chabochaでの処理 →*06.txtの作成 • tangotoridasiでの処理 → *07.txtの作成

  23. もう少し整形を • seikei01.pl をダウンロード y:\corpus > perl seikei01.pl < gingatetsudono_yoru07.txt > gingatetsudono_yoru08.txt これにより, 見出し語 \t ヨミ(不完全) \t 表記 \t 品詞 \t 単複 \t 出展 (ここで \t はタブ記号を表す)

  24. Excelでの読み込み • MS-Excelで作成したデータを読み込む [スタート]→[すべてのプログラム]→[Microsoft Office]→[Microsoft Office Excel 2003] 起動したら,ファイル→開く→ gingatetsudono_yoru08.txt を選ぶ

  25. Excelでの読み込み(2) • UTF-8 • カンマやタブ などの区切り文字 ...を選ぶ         次へ

  26. Excelでの読み込み(3) • 次の画面では タブのチェックを 確認       次へ

  27. Excelで読み込む(4) • そのまま   完了を押す ちゃんと読み込まれることを確認!

More Related