1 / 12

コーパス言語学入門

コーパス言語学入門. 第 7 回. 本日の内容. 前回の復習 コーパスの利用 コーパスを作るときに利用するツール 作成したコーパスの利用例 このときの利用ツールの紹介 本日は,ほぼ実習 ツールのインストール 有名なツールを実際に使ってみる. コーパスの利用. コーパスを作成する場合のツール 形態素解析 構文解析 KNP が Web 上で使えないのでインストール JUMAN Ver.5.1 ( Windows 版)をダウンロード KNP Ver.2.0(Windows 版)をダウンロード 新聞記事を持って来て形態素,構文解析. コーパスの利用( 2 ).

Rita
Download Presentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 第7回

  2. 本日の内容 • 前回の復習 • コーパスの利用 • コーパスを作るときに利用するツール • 作成したコーパスの利用例 • このときの利用ツールの紹介 本日は,ほぼ実習 • ツールのインストール • 有名なツールを実際に使ってみる

  3. コーパスの利用 • コーパスを作成する場合のツール • 形態素解析 • 構文解析 • KNPがWeb上で使えないのでインストール • JUMANVer.5.1(Windows版)をダウンロード • KNP Ver.2.0(Windows版)をダウンロード • 新聞記事を持って来て形態素,構文解析

  4. コーパスの利用(2) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 • スタート→アクセサリ→コマンドプロンプト y:\>juman < **.txt > **.jum • 構文解析 y:\>juman –e2 –B < **.txt | knp y:\>juman –e2 –B < **.txt | knp -tab

  5. コーパスの利用(3) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 tagつけのためのプログラムをperlで自作 • 完全ではないが,多少は作業を楽に進める • スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl jumanとperlプログラムを↑パイプでつなぐ

  6. コーパスの利用(4) • 英語の場合 形態素+POS Tag付与 • Brill Tagger が有名だが... • Web上で試せないので • ConexerのPhrase Tagger • ENGTWOL 形態素解析 構文解析 • ConexerのSyntax (syntactic parser)

  7. コーパスの利用(5) • どんな研究で利用するか • さまざまな単語の頻度,割合 • 特定の単語のさまざまな意味の頻度,割合 • 単語と他の単語の体系的な関連の有無 など →辞書編纂,語の利用の変化,語の使用の偏り  語の組合せ,副詞の用法など

  8. コーパスの利用(6) • どんな研究で利用するか • ほぼ同義の語の使用区別を調べる • 例えば, littleとsmall とか, beginとstart など • ほぼ同じ文法構造の使用区別を調べる • that節とto節

  9. コーパスの利用(7) • コーパス研究で利用するツール • KWIC (KeyWord In Context) • 特定の単語や表現で検索 • その表現の出現位置と周辺の数語を表示 • 元のテキストの情報も参照可能 • 簡単な統計処理機能がついているものもある

  10. コーパスの利用(8) • コーパス研究で利用するツール KWIC (KeyWord In Context) • Business Letter Corpus   (マークトウェインのトムソーヤでTom) • Web Concordancer (Brown Corpus,LOB有) adjustments, parking, car park とか • WebCorp 遅い • SpanishCorpusSearch 遅い (Project Gutenberg):電子テキストアーカイブ

  11. コーパスの利用(9) • コーパス研究で利用するツールの例 KWIC (KeyWord In Context) 日本語 • Ajax を使った KWIC (青空文庫) • Yahooを使ったKWIC (KWIC-search)

  12. コーパスの利用(10) • 検索 • 日本国憲法の日英パラレルコーパス (クマぞーの何でも研究室) • 経済白書データベース (内閣府) • 環境白書(環境省) • 国会会議録検索システム(国会) • 法令データ(e-Gov 電子政府)

More Related