1 / 54

コーパス言語学入門

コーパス言語学入門. 2007 年度 1 学期 第 2 回. 本日の内容. 前回のおさらい コーパス言語学とは? コーパスにはどんな種類があるか. コーパス言語学とは? (前回のおさらい). コーパスとは? 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) 代表例:新聞記事,小説など →コーパスを眺めていると,   言語の特徴が見えてくる(はず). コーパス言語学とは? (前回のおさらい). コーパス言語学 言語学の一分野 コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント

Download Presentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 2007年度1学期 第2回

  2. 本日の内容 • 前回のおさらい • コーパス言語学とは? • コーパスにはどんな種類があるか

  3. コーパス言語学とは?(前回のおさらい) • コーパスとは? • 実際に使用されている言語を 言語データとして大量に収集したもの(≒電子化) • 代表例:新聞記事,小説など →コーパスを眺めていると,   言語の特徴が見えてくる(はず)

  4. コーパス言語学とは?(前回のおさらい) • コーパス言語学 • 言語学の一分野 • コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント • 電子化されたコーパス(機械可読)とコンピュータだからできる規模を生かす • 検索,数え上げ,数値分析など

  5. この授業では • コーパスにはどのような種類があるか • コーパスは,どのように作るか • 集めるかコーパスをどうやって使うか  (ツールの話) • コーパスを分析して出た結果を分析する技術,知識 といったことを学ぶ.

  6. コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める ということだが...

  7. コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能

  8. コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能             ↓    どうやってテキストを選んで集めるか?

  9. コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能             ↓    どうやってテキストを選んで集めるか?   =どうやって良いコーパスを準備するか?

  10. コーパスの種類 • コーパス: • 実際に使用されている言葉を切り取って集める (普通に考えれば)全てを集めることは不可能             ↓    どうやってテキストを選んで集めるか?   =どうやって良いコーパスを準備するか? ここを考える必要がある

  11. コーパスの種類 どうやってテキストを選んで集めるか?  =どうやって良いコーパスを準備するか? 良い とは?

  12. コーパスの種類 どうやってテキストを選んで集めるか?  =どうやって良いコーパスを準備するか? 良い とは? 良い=役に立つ

  13. コーパスの種類 どうやってテキストを選んで集めるか?  =どうやって良いコーパスを準備するか? 良い とは? 良い=役に立つ   ただし,コーパスの利用目的によって         何が良いかは異なる   

  14. コーパスの種類 どうやってテキストを選んで集めるか?  =どうやって良いコーパスを準備するか? ここで, 良い とは? 良い=役に立つ   ただし,コーパスの利用目的によって         何が良いかは異なる コーパスを分ける特徴を 整理して,違いを知ろう

  15. コーパスの特徴 • コーパスの違いを区別する特徴5つ • 規模 • 量の変化 • 汎用性 • 収集期間 • 掲載メディア

  16. コーパスの特徴-1.規模(1) • 規模 : どのくらいの量を集めるか?  ...収集する量の違いによる分類 大,中,小  最近は 大規模コーパスが多い   コンピュータの発達で,  記憶容量↑ インターネットなどの普及で,  流通量↑

  17. コーパスの特徴-1.規模(2) 例でみる規模の差 Brown Corpus ... 米英語の書き言葉のコーパス • 1961年に米で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト

  18. コーパスの特徴-1.規模(3) 例でみる規模の差 Brown Corpus ... 米英語の書き言葉のコーパス • 1961年に米で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト →世界で最初の電子化コーパス   現代では,小規模コーパス

  19. コーパスの特徴-1.規模(4) 例でみる規模の差 LOB Corpus ... 英英語の書き言葉のコーパス • 1961年に英で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト

  20. コーパスの特徴-1.規模(5) 例でみる規模の差 LOB Corpus ... 英英語の書き言葉のコーパス • 1961年に英で出版された本,新聞,雑誌など • 15カテゴリー,計500テキスト • 総語数 約100万語,平均約2000語/テキスト →Brown Corpusのイギリス英語版   同じく現代では小規模

  21. コーパスの特徴-1.規模(6) 例でみる規模の差 BNC Corpus ... British National Corpus • オクスフォード大を中心,1991~1994のプロジェクト • 総語数 約1億語,イギリス英語 • 90%が書き言葉,10%が話し言葉  約8974万語,3209テキスト →大か中規模の部類  (BNC2というのもある4054テキスト)

  22. コーパスの特徴-1.規模(7) 問い: コーパスの規模は大きいほど良いか?

  23. コーパスの特徴-1.規模(8) 問い: コーパスの規模は大きいほど良いか? 回答: (たぶん)良い. しかし,量が多いだけで質が悪いと逆効果. 少量でも人手によって質を向上させた方が良い. 質が良くて量があれば,なお良い.

  24. コーパスの特徴-2.変化(1) • 量の変化: サンプルコーパス,モニタコーパス コーパスのデータの集め方の違い サンプルコーパスとモニタコーパスに大別

  25. コーパスの特徴-2.変化(2) • サンプルコーパス • 収集されるテキストの量が固定 • 1回集めたら,そこで固定する 例: Brown Corpus, LOB Corpus 100万語 初期のコーパスがほとんどこのタイプ

  26. コーパスの特徴-2.変化(3) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける ある時点で                     収集 コーパス

  27. コーパスの特徴-2.変化(4) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける   新しい情報 コーパス

  28. コーパスの特徴-2.変化(5) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける   新しい情報     追加                     コーパス

  29. コーパスの特徴-2.変化(6) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける   古い情報 コーパス

  30. コーパスの特徴-2.変化(7) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける   古い情報    取り除く                  コーパス

  31. コーパスの特徴-2.変化(8) • モニタコーパス • 収集されるテキストの量を固定しない • 1回集めても,収集しつづける   最新状態    維持                  コーパス

  32. コーパスの特徴-2.変化(9) • モニタコーパス 例:Bank of English 1980年代にCobuildプロジェクトとして開始 1995年11月時点で約2億語 2002年1月時点で約4.5億語 本,雑誌,新聞,パンフレット,手紙などの書き言葉  ラジオ放送,ミーティング,インタビューなどの話し言葉  イギリス英語中心70%,米英語20%,その他10%

  33. コーパスの特徴-2.変化(10) 問い: サンプルコーパスとモニタコーパス  どちらがいいのか?

  34. コーパスの特徴-2.変化(10) 問い: サンプルコーパスとモニタコーパス  どちらがいいのか? 回答: どっちがいいとかいう問題とは違う ある時点を切り取って分析するか, 常に現在に近い状態を保って分析するか という方法の違いによる

  35. コーパスの特徴-3.汎用性(1) • 汎用性: 汎用,特殊目的,その他   集められたコーパスの特殊性の違い

  36. コーパスの特徴-3.汎用性(2) • 汎用コーパス  様々な研究目的に使うことを想定して編纂 general purpose corpus 例:Brown Corpus, LOB Corpus, BNC, Bank of English  多くのコーパスが汎用性を持つ

  37. コーパスの特徴-3.汎用性(3) • 特殊目的のコーパス  特定の言語研究を目的に編纂 special purpose corpus 例:ある作家の作品, 幼児の言葉, 語学学習者の作文データ   目的がはっきりしているが,内容は偏っているので,目的外では使いにくい

  38. コーパスの特徴-3.汎用性(4) • その他-パラレルコーパス 2(以上)言語が対になったコーパス 例:ケベック州の議事録,対訳集など   機械翻訳のデータなどに利用

  39. コーパスの特徴-3.汎用性(5) 問い: 汎用的なものと特殊なものどちらを使うべきか?

  40. コーパスの特徴-3.汎用性(6) 問い: 汎用的なものと特殊なものどちらを使うべきか? 回答: 通常は汎用的なものを使う 何か特別な意図があるときは,その目的用を使う

  41. コーパスの特徴-4.収集期間(1) • 収集期間: 共時的,通時的の別 コーパスとして集めたデータが実際に現れた 期間に注目した分類

  42. コーパスの特徴-4.収集期間(2) • 共時コーパス • コーパス(集めたデータなのでサンプルともいう)を,同時代に限って収集 例: Brown Corpus や LOBCorpusは 1961年の言語データに限って収集

  43. コーパスの特徴-4.収集期間(3) • 通時コーパス • 複数の時代区分,時代別にコーパス(集めたデータなのでサンプルともいう)を収集 例: The Helsinki Corpus of English Texts 750年~1710年にわたる160万語弱のコーパス • old English 750 - 1150 約41万語 • middle English 1150- 1500 約60万語 • early modern English, British 1500- 1710 約55万語

  44. コーパスの特徴-4.収集期間(4) 問い: 共時,通時,どちらがよいか?

  45. コーパスの特徴-4.収集期間(5) 問い: 共時,通時,どちらがよいか? 回答: 共時的研究では共時,通時的研究では通時. 時代とともに言語も変わるので,調査対象が自分の目的と大きく変わらないように選ぶ

  46. コーパスの特徴-5.メディア(1) • 掲載メディア: 書き言葉,話し言葉,その他   どんなメディアを通じて発せられた言葉か?   使われる言葉のスタイルが大きく異なる

  47. コーパスの特徴-5.メディア(2) • 書き言葉に属するもの 新聞, 本, 雑誌, パンフレット など • 話し言葉に属するもの 対話,ラジオニュース,テレビニュース,  スピーチ, 講義

  48. コーパスの特徴-5.メディア(3) • 話し言葉と書き言葉の中間? わりと新しいメディアの場合に見られる 例:  e-mailの文章,WWWの文章,       チャット, ブログ, 掲示板    の中で,フォーマルでない場合. 

  49. コーパスの特徴-5.メディア(4) 問い: メディアによる言葉の違いが何に影響するか?

  50. コーパスの特徴-5.メディア(5) 問い: メディアによる言葉の違いが何に影響するか? 回答: 書き言葉は,比較的きっちりした文法がある 話し言葉は,文法の見極めもかなり難しい 中間的な言葉は,いろいろ.

More Related