1 / 16

コーパス言語学入門

コーパス言語学入門. 2007 年度 1 学期 第1回. コーパス言語学入門. 授業科目名:言語情報学基礎 授業題目名:コーパス言語学入門 履修コード: 4006 教室: 216 担当:望月( 1 回~ 8 回)/佐野( 9 回~ 14 回) 一学期開講 授業の進め方 基本的に講義中心ですすめ,時々コンピュータを使う.. 評価方法. 前半の終わり 8 回目にテストを実施 後半ではレポートを3回出す予定 テスト: A4 の紙を手書きに限り 1 枚持ち込み可 授業のフォローは, Web 上で行う 大学のトップページ→外国語学部案内→

Download Presentation

コーパス言語学入門

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパス言語学入門 2007年度1学期 第1回

  2. コーパス言語学入門 • 授業科目名:言語情報学基礎 • 授業題目名:コーパス言語学入門 • 履修コード:4006 • 教室:216 • 担当:望月(1回~8回)/佐野(9回~14回) • 一学期開講 • 授業の進め方 • 基本的に講義中心ですすめ,時々コンピュータを使う.

  3. 評価方法 • 前半の終わり8回目にテストを実施 • 後半ではレポートを3回出す予定 • テスト: • A4の紙を手書きに限り1枚持ち込み可 • 授業のフォローは,Web上で行う 大学のトップページ→外国語学部案内→ 学内ポータル→言語・情報コース→望月のページ →講義関連のコーパス言語学入門へ

  4. 授業予定(前半) 4/17 第1回 概説(今日) • コーパス言語学とは何か? • コーパスとは何か? • 何をする学問なのか? 4/24  第2回 コーパスの種類 5/01 第3回 休講 5/08 第4回 コーパスの作成,加工 5/15 第5回 コーパスの作成,加工(実習) 5/22 第6回 コーパスの利用 5/29  第7回 コーパスデータの分析 6/05 第8回 中間テスト

  5. 授業予定(後半) 6/12 第 9回 コーパスを利用する練習  6/19 第10回 6/26 第11回  7/03 第12回  7/10 第13回 7/17 第14回  9回から14回までは実習を中心に行う. 3回課題提出がある.

  6. 1.概説 • コーパス言語学とは何か? その前に • コーパスとは何か? • 言語データを大量に収集したもの(≒電子化) 例: 新聞記事,雑誌記事,小説...書き言葉    会話データ...音声だと音声コーパス           書き起こすと,書き起こしコーパス 大量(新聞記事は1年で10万~20万記事に)

  7. コーパスとは何か? • コーパス • 生の言語データ,我々が普段使っている言葉を集めたもの. →コーパスをある程度の規模で収集し,調査すると,言語の特徴が見えてくる(はず)

  8. コーパス言語学とは? • コーパス言語学 • 言語学の一分野 • コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント • 電子化されたコーパス(機械可読) → いろいろ良いことがある

  9. 機械可読になってよいこと • 機械可読=コンピュータで利用できる • コンピュータが利用できると良いことがある • 検索が楽 • コーパスの中である「語」や[表現」などが出現する場所をすばやく突き止めることができる. • 語の統計データなどを取りやすい • ある語が何回出現しているか(出現頻度) • ある語とよく一緒に使われる語(共起語) • どのくらいよく一緒に使われるか(共起頻度) →集計したり一覧表にしたり,確率などの計算

  10. 機械可読になってよいこと • 大量のデータを相手にしても比較的容易に処理ができる. • 例: 今日の新聞記事の中で「車」という文字が何回でてくるか?  手作業で調べようと思ったら気が遠くなる...  コンピュータの力を借りれば作業は楽になる では,一年分の記事に「車」が何回出てくるか?  手作業ではちょっと無理を感じる...  コンピュータの力を借りれば,十分可能な作業

  11. コーパスを利用した研究 • どんな研究が行われているのか? • 語彙調査 • 例:英語の違い • アメリカ英語で書かれたコーパス • イギリス英語で書かれたコーパス 同じ時期のものを同じジャンルから同じ量集めて比較 ↓ • 共通に良く出てくる語 • 片方に偏って出てくる語

  12. コーパスを利用した研究(つづき) • 語彙調査 • 例:使用される語の移り変わり • 10年前の日本語 • 今の日本語 同じジャンルから同じ量集めて比較 ↓ • 同一の言語での「はやり」や「すたり」 • 新しい表現,定着

  13. コーパスを利用した研究(つづき) • 仮説の検証 • ある場面では「A」,「B」どちらの語や表現が使われるか?  一般にこっちだ,と言われるような事柄は正しいか? • 実際の言語データ(コーパス)を調べ,どのような使われ方がされているかを検証

  14. コーパスを利用した研究(つづき) • 言語教育への利用 • ある言語の学習者が書いた文章 • 対応する正しい文章  両方の文章の差を調べて,どんな間違いをしやすいかを探る(分析) →教育に利用    例:NHKの100語でスタート!英会話

  15. コーパスを利用した研究(つづき) • 辞書の編纂(編集) • 既存辞書中の例文は,いまどきの言葉か? • これまで辞書で扱われていなかった新しい表現,意味は存在しないか? など • 文体研究 • ある文書の作者は誰か?(著者推定,真贋判定) • 誰々風の文章を作る

  16. まとめ • この授業では次のことを学ぶ. • コーパスにはどのような種類があるか • コーパスをどのように作るか,集めるか • コーパスをどうやって使うか(ツールなど) 注意: 何か分析しようと思えば,何かしらのデータは出てくる. しかし,それが本当に意味あるデータかどうかはわからない • データを分析する,確かめる技術,知識 • 実際のコーパスに触れて利用する練習

More Related