120 likes | 421 Views
コーパス言語学入門. 第 7 回. 本日の内容. 前回の復習 コーパスの利用 コーパスを作るときに利用するツール 作成したコーパスの利用例 このときの利用ツールの紹介 本日は,ほぼ実習 ツールのインストール 有名なツールを実際に使ってみる. コーパスの利用. コーパスを作成する場合のツール 形態素解析 構文解析 KNP が Web 上で使えないのでインストール JUMAN Ver.5.1 ( Windows 版)をダウンロード KNP Ver.2.0(Windows 版)をダウンロード 新聞記事を持って来て形態素,構文解析. コーパスの利用( 2 ).
E N D
コーパス言語学入門 第7回
本日の内容 • 前回の復習 • コーパスの利用 • コーパスを作るときに利用するツール • 作成したコーパスの利用例 • このときの利用ツールの紹介 本日は,ほぼ実習 • ツールのインストール • 有名なツールを実際に使ってみる
コーパスの利用 • コーパスを作成する場合のツール • 形態素解析 • 構文解析 • KNPがWeb上で使えないのでインストール • JUMANVer.5.1(Windows版)をダウンロード • KNP Ver.2.0(Windows版)をダウンロード • 新聞記事を持って来て形態素,構文解析
コーパスの利用(2) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 • スタート→アクセサリ→コマンドプロンプト y:\>juman < **.txt > **.jum • 構文解析 y:\>juman –e2 –B < **.txt | knp y:\>juman –e2 –B < **.txt | knp -tab
コーパスの利用(3) • コーパスを作成する場合のツール • 新聞記事を持って来て形態素解析 tagつけのためのプログラムをperlで自作 • 完全ではないが,多少は作業を楽に進める • スタート→アクセサリ→コマンドプロンプト y:\>juman -e < **.txt | perl tag01.pl jumanとperlプログラムを↑パイプでつなぐ
コーパスの利用(4) • 英語の場合 形態素+POS Tag付与 • Brill Tagger が有名だが... • Web上で試せないので • ConexerのPhrase Tagger • ENGTWOL 形態素解析 構文解析 • ConexerのSyntax (syntactic parser)
コーパスの利用(5) • どんな研究で利用するか • さまざまな単語の頻度,割合 • 特定の単語のさまざまな意味の頻度,割合 • 単語と他の単語の体系的な関連の有無 など →辞書編纂,語の利用の変化,語の使用の偏り 語の組合せ,副詞の用法など
コーパスの利用(6) • どんな研究で利用するか • ほぼ同義の語の使用区別を調べる • 例えば, littleとsmall とか, beginとstart など • ほぼ同じ文法構造の使用区別を調べる • that節とto節
コーパスの利用(7) • コーパス研究で利用するツール • KWIC (KeyWord In Context) • 特定の単語や表現で検索 • その表現の出現位置と周辺の数語を表示 • 元のテキストの情報も参照可能 • 簡単な統計処理機能がついているものもある
コーパスの利用(8) • コーパス研究で利用するツール KWIC (KeyWord In Context) • Business Letter Corpus (マークトウェインのトムソーヤでTom) • Web Concordancer (Brown Corpus,LOB有) adjustments, parking, car park とか • WebCorp 遅い • SpanishCorpusSearch 遅い (Project Gutenberg):電子テキストアーカイブ
コーパスの利用(9) • コーパス研究で利用するツールの例 KWIC (KeyWord In Context) 日本語 • Ajax を使った KWIC (青空文庫) • Yahooを使ったKWIC (KWIC-search)
コーパスの利用(10) • 検索 • 日本国憲法の日英パラレルコーパス (クマぞーの何でも研究室) • 経済白書データベース (内閣府) • 環境白書(環境省) • 国会会議録検索システム(国会) • 法令データ(e-Gov 電子政府)