580 likes | 710 Views
コーパス言語学入門. 2007 年度 1 学期 第 2 回. 本日の内容. 前回のおさらい コーパス言語学とは? コーパスにはどんな種類があるか. コーパス言語学とは? (前回のおさらい). コーパスとは? 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) 代表例:新聞記事,小説など →コーパスを眺めていると, 言語の特徴が見えてくる(はず). コーパス言語学とは? (前回のおさらい). コーパス言語学 言語学の一分野 コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント
E N D
コーパス言語学入門 2007年度1学期 第2回
本日の内容 • 前回のおさらい • コーパス言語学とは? • コーパスにはどんな種類があるか
コーパス言語学とは?(前回のおさらい) • コーパスとは? • 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) • 代表例:新聞記事,小説など →コーパスを眺めていると, 言語の特徴が見えてくる(はず)
コーパス言語学とは?(前回のおさらい) • コーパス言語学 • 言語学の一分野 • コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント • 電子化されたコーパス(機械可読)とコンピュータだからできる規模を生かす • 検索,数え上げ,数値分析など
この授業では • コーパスにはどのような種類があるか • コーパスは,どのように作るか • 集めるかコーパスをどうやって使うか (ツールの話) • コーパスを分析して出た結果を分析する技術,知識 といったことを学ぶ.
コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める ということだが...
コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能
コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能 ↓ どうやってテキストを選んで集めるか?
コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能 ↓ どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか?
コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能 ↓ どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? ここを考える必要がある
コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? 良い とは?
コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? 良い とは? 良い=役に立つ
コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? 良い とは? 良い=役に立つ ただし,コーパスの利用目的によって 何が良いかは異なる
コーパスの種類 どうやってテキストを選んで集めるか? =どうやって良いコーパスを準備するか? ここで, 良い とは? 良い=役に立つ ただし,コーパスの利用目的によって 何が良いかは異なる コーパスを分ける特徴を 整理して,違いを知ろう
コーパスの特徴 • コーパスの違いを区別する特徴5つ • 規模 • 量の変化 • 汎用性 • 収集期間 • 掲載メディア
コーパスの特徴-1.規模(1) • 規模 : どのくらいの量を集めるか? ...収集する量の違いによる分類 大,中,小 最近は 大規模コーパスが多い コンピュータの発達で, 記憶容量↑ インターネットなどの普及で, 流通量↑
コーパスの特徴-1.規模(2) 例でみる規模の差 Brown Corpus ... 米英語の書き言葉のコーパス • 1961年に米で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト
コーパスの特徴-1.規模(3) 例でみる規模の差 Brown Corpus ... 米英語の書き言葉のコーパス • 1961年に米で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト →世界で最初の電子化コーパス 現代では,小規模コーパス
コーパスの特徴-1.規模(4) 例でみる規模の差 LOB Corpus ... 英英語の書き言葉のコーパス • 1961年に英で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト
コーパスの特徴-1.規模(5) 例でみる規模の差 LOB Corpus ... 英英語の書き言葉のコーパス • 1961年に英で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト →Brown Corpusのイギリス英語版 同じく現代では小規模
コーパスの特徴-1.規模(6) 例でみる規模の差 BNC Corpus ... British National Corpus • オクスフォード大を中心,1991~1994のプロジェクト • 総語数 約1億語,イギリス英語 • 90%が書き言葉,10%が話し言葉 約8974万語,3209テキスト →大か中規模の部類 (BNC2というのもある4054テキスト)
コーパスの特徴-1.規模(7) 問い: コーパスの規模は大きいほど良いか?
コーパスの特徴-1.規模(8) 問い: コーパスの規模は大きいほど良いか? 回答: (たぶん)良い. しかし,量が多いだけで質が悪いと逆効果. 少量でも人手によって質を向上させた方が良い. 質が良くて量があれば,なお良い.
コーパスの特徴-2.変化(1) • 量の変化: サンプルコーパス,モニタコーパス コーパスのデータの集め方の違い サンプルコーパスとモニタコーパスに大別
コーパスの特徴-2.変化(2) • サンプルコーパス • 収集されるテキストの量が固定 • 1回集めたら,そこで固定する 例: Brown Corpus, LOB Corpus 100万語 初期のコーパスがほとんどこのタイプ
コーパスの特徴-2.変化(3) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける ある時点で 収集 コーパス
コーパスの特徴-2.変化(4) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける 新しい情報 コーパス
コーパスの特徴-2.変化(5) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける 新しい情報 追加 コーパス
コーパスの特徴-2.変化(6) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける 古い情報 コーパス
コーパスの特徴-2.変化(7) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける 古い情報 取り除く コーパス
コーパスの特徴-2.変化(8) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける 最新状態 維持 コーパス
コーパスの特徴-2.変化(9) • モニタコーパス 例:Bank of English 1980年代にCobuildプロジェクトとして開始 1995年11月時点で約2億語 2002年1月時点で約4.5億語 本,雑誌,新聞,パンフレット,手紙などの書き言葉 ラジオ放送,ミーティング,インタビューなどの話し言葉 イギリス英語中心70%,米英語20%,その他10%
コーパスの特徴-2.変化(10) 問い: サンプルコーパスとモニタコーパス どちらがいいのか?
コーパスの特徴-2.変化(10) 問い: サンプルコーパスとモニタコーパス どちらがいいのか? 回答: どっちがいいとかいう問題とは違う ある時点を切り取って分析するか, 常に現在に近い状態を保って分析するか という方法の違いによる
コーパスの特徴-3.汎用性(1) • 汎用性: 汎用,特殊目的,その他 集められたコーパスの特殊性の違い
コーパスの特徴-3.汎用性(2) • 汎用コーパス 様々な研究目的に使うことを想定して編纂 general purpose corpus 例:Brown Corpus, LOB Corpus, BNC, Bank of English 多くのコーパスが汎用性を持つ
コーパスの特徴-3.汎用性(3) • 特殊目的のコーパス 特定の言語研究を目的に編纂 special purpose corpus 例:ある作家の作品, 幼児の言葉, 語学学習者の作文データ 目的がはっきりしているが,内容は偏っているので,目的外では使いにくい
コーパスの特徴-3.汎用性(4) • その他-パラレルコーパス 2(以上)言語が対になったコーパス 例:ケベック州の議事録,対訳集など 機械翻訳のデータなどに利用
コーパスの特徴-3.汎用性(5) 問い: 汎用的なものと特殊なものどちらを使うべきか?
コーパスの特徴-3.汎用性(6) 問い: 汎用的なものと特殊なものどちらを使うべきか? 回答: 通常は汎用的なものを使う 何か特別な意図があるときは,その目的用を使う
コーパスの特徴-4.収集期間(1) • 収集期間: 共時的,通時的の別 コーパスとして集めたデータが実際に現れた 期間に注目した分類
コーパスの特徴-4.収集期間(2) • 共時コーパス • コーパス(集めたデータなのでサンプルともいう)を,同時代に限って収集 例: Brown Corpus や LOBCorpusは 1961年の言語データに限って収集
コーパスの特徴-4.収集期間(3) • 通時コーパス • 複数の時代区分,時代別にコーパス(集めたデータなのでサンプルともいう)を収集 例: The Helsinki Corpus of English Texts 750年~1710年にわたる160万語弱のコーパス • old English 750 - 1150 約41万語 • middle English 1150- 1500 約60万語 • early modern English, British 1500- 1710 約55万語
コーパスの特徴-4.収集期間(4) 問い: 共時,通時,どちらがよいか?
コーパスの特徴-4.収集期間(5) 問い: 共時,通時,どちらがよいか? 回答: 共時的研究では共時,通時的研究では通時. 時代とともに言語も変わるので,調査対象が自分の目的と大きく変わらないように選ぶ
コーパスの特徴-5.メディア(1) • 掲載メディア: 書き言葉,話し言葉,その他 どんなメディアを通じて発せられた言葉か? 使われる言葉のスタイルが大きく異なる
コーパスの特徴-5.メディア(2) • 書き言葉に属するもの 新聞, 本, 雑誌, パンフレット など • 話し言葉に属するもの 対話,ラジオニュース,テレビニュース, スピーチ, 講義
コーパスの特徴-5.メディア(3) • 話し言葉と書き言葉の中間? わりと新しいメディアの場合に見られる 例: e-mailの文章,WWWの文章, チャット, ブログ, 掲示板 の中で,フォーマルでない場合.
コーパスの特徴-5.メディア(4) 問い: メディアによる言葉の違いが何に影響するか?
コーパスの特徴-5.メディア(5) 問い: メディアによる言葉の違いが何に影響するか? 回答: 書き言葉は,比較的きっちりした文法がある 話し言葉は,文法の見極めもかなり難しい 中間的な言葉は,いろいろ.