1 / 40

リ日本語コーパス

リ日本語コーパス. 日本語コーパス. 狭義のコーパス 新聞記事データベース ウエッブ上のテキスト. 分野. 日本語学 日本語教育 自然言語処理. 1990年以降 2000 年以降非常に盛ん. 歴史. 1970年 国立国語研究所 電子計算機による新聞の語彙調査 新聞紙面の文章を入力して集計 結果のみ公表され、コーパスは未公開. 1990 年代 CD-Rom の電子テキストと新聞コーパス 新潮文庫の 100 冊 朝日新聞 毎日新聞 コーパスの構築は行われなかった. 自然言語処理 1980 年代終わりから 音声認識 形態素解析 機械翻訳

maire
Download Presentation

リ日本語コーパス

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. リ日本語コーパス

  2. 日本語コーパス • 狭義のコーパス • 新聞記事データベース • ウエッブ上のテキスト

  3. 分野 • 日本語学 • 日本語教育 • 自然言語処理

  4. 1990年以降 • 2000年以降非常に盛ん

  5. 歴史 • 1970年 • 国立国語研究所 • 電子計算機による新聞の語彙調査 • 新聞紙面の文章を入力して集計 • 結果のみ公表され、コーパスは未公開

  6. 1990年代 • CD-Romの電子テキストと新聞コーパス • 新潮文庫の100冊 • 朝日新聞 • 毎日新聞 • コーパスの構築は行われなかった

  7. 自然言語処理 • 1980年代終わりから • 音声認識 • 形態素解析 • 機械翻訳 • 大量のテキストや音声を集積したコーパスが必要

  8. ATR音声・対訳テキストデータ • 音声認識、機械翻訳、音声合成を含む  音声対話翻訳の技術開発 • EDR日本語コーパス • 日本電子化辞書研究所 • 共起辞書の付録 • 1995年に公開 • 雑誌や新聞の約500万語 • 語義、形態素情報、係り受け構造情報

  9. RWCテキストデータベース • 技術研究組合新情報処理開発機構 • 1996年公開 • 新聞、白書、報告書、岩波国語辞典 • 形態素情報が付与

  10. 1990年代後半 • PCとインターネットの普及 • 青空文庫 http://www.aozora.gr.jp/ • 1997年開設 • 電子図書館 • ボランティアによる著作権の切れた文学作品

  11. 情報処理語学文学研究会 • 古典作品の電子テキストのリンク集 • http://homepage1.nifty.com/mshibata/etxt401.htm • 柴田雅生 日本語テキスト • http://jcmac5.jc.meisei-u.ac.jp/etext-i.htm

  12. 日本文学電子図書館  菊池真一 • http://www.j-texts.com/ • DVDで購入も可能 3000円 • 膨大な資料

  13. 日本文学等テキストファイル • http://www.ne.jp/asahi/nihongo/okajima/bungaku.htm • 岡島昭浩(福井大学) • 小杉秋夫さんのページ、後藤斉さん(東北大学)のページなどを参考 • 古典文学関係 リンク集 • http://www.j-texts.com/linkshu/koten.html • プロジェクト研究会 • http://www.sal.tohoku.ac.jp/~gothit/kanren-jpn.html#project

  14. 日本語教育をベースにしたコーパス • インタビュー形式による日本語会話データベース • http://www.env.kitakyu-u.ac.jp/corpus/ • コーパスも公開 • 上村隆一 • 日本語母語話者54人,非母語話者56人 • OPIを収録した音声コーパス

  15. 日本語学習者の作文コーパス • http://www.nier.go.jp/saka/castelj/yoroku/d11j.htm • 大曽 美恵子,杉浦 正利(名古屋大学) • 平成8年度から平成10年度にかけて科学研究費補助金(基盤研究(A)(1)) を得て行われた研究「日本語学習者の作文コーパス:電子化による共有資源化」の成果の一部 • 誤用分析に焦点

  16. 自然言語処理の分野 • 京都大学テキストコーパス Version 4.0 • http://www-lab25.kuee.kyoto-u.ac.jp/nl-resource/corpus.html • 1995年の毎日新聞に形態素情報、構文情報を付与したコーパス • 情報のみ1997年に公開 • 5000文に対して • 格関係に関する情報、照応・省略関係の情報、共参照情報が付与 • 研究者間で共有

  17. KYコーパス • http://opi.jp/shiryo/ky_corp.html • 鎌田修・山内博之 • KYコーパスとは、90人分のOPIテープを文字化した言語資料 • 中国語、英語、韓国語がそれぞれ30人ずつ • それぞれ、初級5人、中級10人、上級10人、超級5人

  18. 2000年以降の日本語コーパス • 多くの公開されたコーパス • 組織的に構築された大規模コーパス • 個人などによる小規模コーパス

  19. 日本語話し言葉コーパス • http://www.kokken.go.jp/katsudo/seika/corpus/ • 国立国語研究所、情報通信研究機構、東京工業大学 • 大規模は自発音声コーパス • 1999-2004年  • 2004年に公開

  20. 独り言 661時間 752万語 多くの研究用の情報が付与 発話の転記テキスト 形態論情報 節単位情報 イントネーションラベル 係り受け構造情報 談話構造情報 印象評定データ

  21. 言語研究用の大規模コーパスとして日本で初めて言語研究用の大規模コーパスとして日本で初めて • 世界的な水準 • 話ことばや音声認識に現在でも利用されている

  22. 談話コーパス • http://www.tufs.ac.jp/ts/personal/usamiken/corpora.htm • 『BTSによる多言語話し言葉コーパス-日本語会話1(日本語母語話者同士の会話)』 • 『BTSによる多言語話し言葉コーパス-日本語会話2(日本人と学習者の会話)』

  23. 東京外国語大学 • COE • 日本語母語話者と日本語学習者との会話 • 同時発話、挿入、あいづち、笑いなどの記号 • 談話分析のため • 音声コーパスは公開されていない

  24. 太陽コーパス • http://www2.ninjal.ac.jp/lrc/index.php?%C2%C0%CD%DB%A5%B3%A1%BC%A5%D1%A5%B9 • 現代日本語の書き言葉は,19世紀末から20世紀初め,文語文から口語文に移行することを機に,ほぼ確立したと見ることができます。その確立期の現代日本語について,様々な観点から調査研究を行うことができるデータベース

  25. 国立国語研究所 • 1895-1925年 • 月刊誌「太陽」の記事 • 1000人の著者  • 3400本の記事 • 1450万字

  26. 現代日本語書き言葉均衡コーパス • http://www.ninjal.ac.jp/kotonoha/ • http://www.tokuteicorpus.jp/ • http://www.kotonoha.gr.jp/demo/ デモサイト • 国立国語研究所 • 2006年ー • 1976-2005年の30年間

  27. 書き言葉 書籍、雑誌、新聞を中心 • 白書、ベストセラー、教科書、ウエッブのテキスト、国会会議録など • 均衡コーパス • 文字数を調整 • 2011年公開予定 • 現在はモニター版

  28. 日本語教育に基づくコーパス • 日本語学習者による日本語作文と,その母語訳との対訳データベース(作文対訳DB)  • http://jpforlife.jp/taiyakudb.html • 宇佐美洋 • 誤用分析 • 第二言語習得 • 対照言語学

  29. WEBの資料をコーパス • 国会会議録検索システム • http://kokkai.ndl.go.jp/ • 1947年以降のすべての国会のすべての本会議と委員会の発言記録 • 35億文字

  30. Yahoo知恵袋 • http://chiebukuro.yahoo.co.jp/ • 知識検索サービス • 参加者が質問し、他の参加者が答える • 2004年ー • 300万件の質問と1300万件の回答 • 16億字 • 2007年公開 研究用

  31. Webから自動構築した大規模格フレーム • http://www30.atwiki.jp/corpus-ling/pages/17.html#id_5ffcc795 • 河原・黒橋 • ウエッブから収集した約5億文のテキストを構文解析 • 用言と名詞との間で結ばれる格関係を整理したもの

  32. Web日本語Nグラム第1版 • http://www.gsk.or.jp/catalog.html • 42,000円 • Googleがウエッブから収集した約200億文 • 2550億語 • N-gram 1-7語の連語 • かな漢字変換、音声認識などの研究に有益

  33. ブログの評価分析 • Wikipedia • 自動的に抽出

  34. 今後 • 現代日本語書き言葉均衡コーパス • 言語研究用に設計された大規模コーパスの開発と分析 • ウエッブ上のテキストを対象とする大規模なテキスト処理技術の開発 • 視線やジェスチャーなどを含む映像データを対象としたマルチモーダルコーパスの開発

  35. 言語処理ポータル • http://www-lab25.kuee.kyoto-u.ac.jp/NLP_Portal/index.html • 情報のリンク集 • 多くの関連情報を集める • 自然言語処理を中心とした学術研究情報 • 日本の言語資源・ツールのカタログ • http://www-lab25.kuee.kyoto-u.ac.jp/NLP_Portal/lr-cat-j.html

  36. 音声資源コンソーシアム(SRC) • http://research.nii.ac.jp/src/ • 音声コーパスの調査とカタログ化、配布と普及

  37. 言語資源協会(GSK) • http://www.gsk.or.jp/ • コーパス、電子化辞書、言語処理ツール等のカタログ化と配布 • 言語資源の流通を促進する

  38. 北尾研究室 • 日本語 • http://kkitao.e-learning-server.com/kitao/Japanese/index.html

  39. The End

  40. コーパス日本語学のための情報館 - コーパス紹介 • http://www30.atwiki.jp/corpus-ling/pages/17.html

More Related