200 likes | 409 Views
コーパス言語学入門. 2007 年度 1 学期 第1回. コーパス言語学入門. 授業科目名:言語情報学基礎 授業題目名:コーパス言語学入門 履修コード: 4006 教室: 216 担当:望月( 1 回~ 8 回)/佐野( 9 回~ 14 回) 一学期開講 授業の進め方 基本的に講義中心ですすめ,時々コンピュータを使う.. 評価方法. 前半の終わり 8 回目にテストを実施 後半ではレポートを3回出す予定 テスト: A4 の紙を手書きに限り 1 枚持ち込み可 授業のフォローは, Web 上で行う 大学のトップページ→外国語学部案内→
E N D
コーパス言語学入門 2007年度1学期 第1回
コーパス言語学入門 • 授業科目名:言語情報学基礎 • 授業題目名:コーパス言語学入門 • 履修コード:4006 • 教室:216 • 担当:望月(1回~8回)/佐野(9回~14回) • 一学期開講 • 授業の進め方 • 基本的に講義中心ですすめ,時々コンピュータを使う.
評価方法 • 前半の終わり8回目にテストを実施 • 後半ではレポートを3回出す予定 • テスト: • A4の紙を手書きに限り1枚持ち込み可 • 授業のフォローは,Web上で行う 大学のトップページ→外国語学部案内→ 学内ポータル→言語・情報コース→望月のページ →講義関連のコーパス言語学入門へ
授業予定(前半) 4/17 第1回 概説(今日) • コーパス言語学とは何か? • コーパスとは何か? • 何をする学問なのか? 4/24 第2回 コーパスの種類 5/01 第3回 休講 5/08 第4回 コーパスの作成,加工 5/15 第5回 コーパスの作成,加工(実習) 5/22 第6回 コーパスの利用 5/29 第7回 コーパスデータの分析 6/05 第8回 中間テスト
授業予定(後半) 6/12 第 9回 コーパスを利用する練習 6/19 第10回 6/26 第11回 7/03 第12回 7/10 第13回 7/17 第14回 9回から14回までは実習を中心に行う. 3回課題提出がある.
1.概説 • コーパス言語学とは何か? その前に • コーパスとは何か? • 言語データを大量に収集したもの(≒電子化) 例: 新聞記事,雑誌記事,小説...書き言葉 会話データ...音声だと音声コーパス 書き起こすと,書き起こしコーパス 大量(新聞記事は1年で10万~20万記事に)
コーパスとは何か? • コーパス • 生の言語データ,我々が普段使っている言葉を集めたもの. →コーパスをある程度の規模で収集し,調査すると,言語の特徴が見えてくる(はず)
コーパス言語学とは? • コーパス言語学 • 言語学の一分野 • コーパス(言語資源)+コンピュータ(のパワー)を利用した言語分析全般 ポイント • 電子化されたコーパス(機械可読) → いろいろ良いことがある
機械可読になってよいこと • 機械可読=コンピュータで利用できる • コンピュータが利用できると良いことがある • 検索が楽 • コーパスの中である「語」や[表現」などが出現する場所をすばやく突き止めることができる. • 語の統計データなどを取りやすい • ある語が何回出現しているか(出現頻度) • ある語とよく一緒に使われる語(共起語) • どのくらいよく一緒に使われるか(共起頻度) →集計したり一覧表にしたり,確率などの計算
機械可読になってよいこと • 大量のデータを相手にしても比較的容易に処理ができる. • 例: 今日の新聞記事の中で「車」という文字が何回でてくるか? 手作業で調べようと思ったら気が遠くなる... コンピュータの力を借りれば作業は楽になる では,一年分の記事に「車」が何回出てくるか? 手作業ではちょっと無理を感じる... コンピュータの力を借りれば,十分可能な作業
コーパスを利用した研究 • どんな研究が行われているのか? • 語彙調査 • 例:英語の違い • アメリカ英語で書かれたコーパス • イギリス英語で書かれたコーパス 同じ時期のものを同じジャンルから同じ量集めて比較 ↓ • 共通に良く出てくる語 • 片方に偏って出てくる語
コーパスを利用した研究(つづき) • 語彙調査 • 例:使用される語の移り変わり • 10年前の日本語 • 今の日本語 同じジャンルから同じ量集めて比較 ↓ • 同一の言語での「はやり」や「すたり」 • 新しい表現,定着
コーパスを利用した研究(つづき) • 仮説の検証 • ある場面では「A」,「B」どちらの語や表現が使われるか? 一般にこっちだ,と言われるような事柄は正しいか? • 実際の言語データ(コーパス)を調べ,どのような使われ方がされているかを検証
コーパスを利用した研究(つづき) • 言語教育への利用 • ある言語の学習者が書いた文章 • 対応する正しい文章 両方の文章の差を調べて,どんな間違いをしやすいかを探る(分析) →教育に利用 例:NHKの100語でスタート!英会話
コーパスを利用した研究(つづき) • 辞書の編纂(編集) • 既存辞書中の例文は,いまどきの言葉か? • これまで辞書で扱われていなかった新しい表現,意味は存在しないか? など • 文体研究 • ある文書の作者は誰か?(著者推定,真贋判定) • 誰々風の文章を作る
まとめ • この授業では次のことを学ぶ. • コーパスにはどのような種類があるか • コーパスをどのように作るか,集めるか • コーパスをどうやって使うか(ツールなど) 注意: 何か分析しようと思えば,何かしらのデータは出てくる. しかし,それが本当に意味あるデータかどうかはわからない • データを分析する,確かめる技術,知識 • 実際のコーパスに触れて利用する練習