450 likes | 586 Views
コーパス言語学入門. 第 6 回. 本日の内容. 前回のおさらい コーパスの作成(補足) コーパスの利用 コーパスの入手 コーパスの加工(一部実習済み) コーパスの利用. 前回のおさらい. タグ付け タグの形式は何でもいい 使い勝手のよい形式が望ましい(実習では xml ) 重要なのは定義をしっかりすること タグ付けを正確に行うのは結構たいへんな作業 通常,複数の人間,複数の日にちをかけて作業 人によって,日によって,タグ付けの基準がずれては困る! だから,基準を明確にし,曖昧さを出さない!. 前回のおさらい. タグに xml 形式を利用
E N D
コーパス言語学入門 第6回
本日の内容 • 前回のおさらい • コーパスの作成(補足) • コーパスの利用 • コーパスの入手 • コーパスの加工(一部実習済み) • コーパスの利用
前回のおさらい • タグ付け • タグの形式は何でもいい • 使い勝手のよい形式が望ましい(実習ではxml) • 重要なのは定義をしっかりすること • タグ付けを正確に行うのは結構たいへんな作業 • 通常,複数の人間,複数の日にちをかけて作業 • 人によって,日によって,タグ付けの基準がずれては困る! だから,基準を明確にし,曖昧さを出さない!
前回のおさらい • タグにxml形式を利用 • xmlはいろんなことができる • インターネットエクスプローラで表示もできる 先頭に以下を追加して,<article>の移動もした <?xml version="1.0" encoding="ISO-2022-JP" ?> さらに,2行目に以下を追加して,article.xsl追加で <?xml:stylesheet type="text/xsl" href="article.xsl" ?> 表示の変更も行った →xmlが便利なので,急速に普及しているのはこのせい
補足:タグ付けの実際 • 実際的な手順 • 「どんなタグが必要か」はサンプルを元に検討 • 初期に考えたタグセット →普通は足りない部分がある • いくつかサンプルとして作業をし,検討 →足りない部分,余分な部分を訂正 • 定義を確定し,明示 • 多人数で共同作業する場合にも有効 • 自分が別の日に作業する場合にも揺らぎを防ぐ
補足:タグ付けの実際 • 細かい部分で困ることは多い 日本語を例として • 単語って? • 特に複合名詞はどこで切れるか • 単語の単位をどうするか • 品詞って? • 名詞,動詞,形容詞,副詞,助詞,助動詞
補足:単語の定義 • 単語(単位語)をどうとらえるか • 国立国語研究所などの研究でもいくつかある (調査によって微妙に違う) • 大雑把に言って... • 短い単位 • 長い単位
補足:単語の定義(2) • 単語(単位語)をどうとらえるか • 短い単位だと,形態素相当 パスタにスペイン風トマトソースを パスタ/に/スペイン/風/トマト/ソース/を パスタ/に/スペイン/風/トマトソース/を ぐらい
補足:単語の定義(3) • 単語(単位語)をどうとらえるか • 長い単位だと,文節(単語)相当 パスタにスペイン風トマトソースを パスタ/に/スペイン風/トマトソース/を パスタに/スペイン風/トマトソースを パスタ/に/スペイン風トマトソース/を パスタに/スペイン風トマトソースを ぐらい
補足:単語の定義(4) • 短い単位 パスタ/に/スペイン/風/トマト/ソース/を パスタ/に/スペイン/風/トマトソース/を • 単位語が抽象的なものとしてとらえられる • 「ソース」で切れると「何とかソース」が全部含まれる • 日本語の基本語彙調査のような,一般的な側面を調査したい場合向き
補足:単語の定義(5) • 長い単位 パスタに/スペイン風/トマトソースを パスタ/に/スペイン風トマトソース/を • 特殊なものとしてとらえられる • 「トマトソース」は「とんかつソース」や「チリソース」とは異なる • 文体的な特徴のような,素材にある特殊な側面を調査したい場合向き
補足:品詞の定義 • 品詞をどう考えるか? • 学校文法 • 名詞,動詞,形容詞,形容動詞,助詞,助動詞,感動詞,接続詞,... • 実際は文法もいろいろある • 茶筅やJUMANでは形容動詞はない →どの文法を使うかは,やはりコーパスを作る側が決めていかなければならない
補足:ゆらぎに注意 • 人間の基準はかなり曖昧 • 感覚で決めてはいけない • 「ゆらぎ」が発生することがあるので,注意 • 品詞の判定,単語(単位語)の取り決め,属性の判断 • ゆらぎが発生して曖昧になると • コーパスの言語データとしての信頼性が低下 • コーパスの価値がなくなることもある • せっかくの苦労(作業)が台無しに...
コーパスの利用 • コーパスの入手 • コーパスの加工 • コーパスの利用 という順番になる. 演習では,かなり省略して1と2を行ったが あらためて,他の事例も見る
コーパスの入手(1) • 実際にコーパスをどうやって入手するか 少なくとも以下の3つが考えられる • 公開されているコーパス(入手可能) • 実はコーパスとして考えられる言語データを入手 (自分で収集し,加工をする) • 完全なる手作り(内容も含め自作する)
コーパスの入手(2) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認)
コーパスの入手(2b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 著作権の問題はおきず...契約するので
コーパスの入手(2c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 個別のコーパス配布先から手続きを経て入手 (BNC,毎日新聞 など Webで確認) 著作権の問題はおきず...契約するので しかし,だいたいの場合,高価!
コーパスの入手(3) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由(LDC,ELRA など Webで確認)
コーパスの入手(3b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由(LDC,ELRA など Webで確認) 著作権の問題はおきず...契約するので
コーパスの入手(3c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(有料) 言語資源を収集し会員制で配布している組織経由(LDC,ELRA など Webで確認) 著作権の問題はおきず...契約するので しかし,だいたいの場合,高価!
コーパスの入手(4) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(無料) 青空文庫
コーパスの入手(4b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(無料) 青空文庫 著作権,版権の切れた素材を掲載 一応は大丈夫だと思われる
コーパスの入手(4c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手可能な公開されているコーパス(無料) 青空文庫 著作権,版権の切れた素材を掲載 一応は大丈夫だと思われる 文学作品に特化している.仮名遣いが古い
コーパスの入手(5) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English
コーパスの入手(5b) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 著作権の問題はおきず...契約するので
コーパスの入手(5c) • 公開されているコーパス(入手可能) • 費用,著作権問題なども考慮して入手先を考える • 入手は無理だが利用可能なコーパス(有料) 利用料を払って検索可能 The Bank of English 著作権の問題はおきず...契約するので 通常検索だけなので,使い方が限定される
コーパスの入手(6) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など
コーパスの入手(6b) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 個人的に利用するだけならほぼ問題ない
コーパスの入手(6c) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 個人的に利用するだけならほぼ問題ない 成果の公開時に著作権問題等が発生
コーパスの入手(6d) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 新聞社などのWebページ 例:読売新聞,朝日新聞,毎日新聞,日経新聞,BBC,CNN • 市販のCD-ROMとかDVD-ROMの中身 例:百科事典,日本語大辞典など 個人的に利用するだけならほぼ問題ない 公開を念頭に置くなら,予め著作権者に許諾をとっておいた方がよい (扱いは難しい) 成果の公開時に著作権問題等が発生
コーパスの入手(7) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料)
コーパスの入手(7b) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 歌詞はJASRAC管理であることが多い
コーパスの入手(7c) • 実はコーパスとして考えられる言語データ (入手後に自分で収集し,加工をする) • 歌詞 • 歌も研究テーマとして言語データになりうる うたまっぷ(登録不要,無料),歌ネット(要登録,無料) 歌詞はJASRAC管理であることが多い 歌詞を前面に出す場合はJASRACを通じて著作権料を支払う必要あり!
コーパスの入手(8) • 完全なる手作り(内容も含め自作する)
コーパスの入手(8b) • 完全なる手作り(内容も含め自作する) 著作権の問題は起こらない(自分にあるから)
コーパスの入手(8c) • 完全なる手作り(内容も含め自作する) • しかし 著作権の問題は起こらない(自分にあるから)
コーパスの入手(8d) • 完全なる手作り(内容も含め自作する) • しかし 信頼性↓ 一般性↓ 客観性↓ コスト↑ 著作権の問題は起こらない(自分にあるから)
コーパスの入手(8e) • 完全なる手作り(内容も含め自作する) • しかし 信頼性↓ 一般性↓ 客観性↓ コスト↑ 著作権の問題は起こらない(自分にあるから) あまり現実的でない...
コーパスの加工(1) • テキストエディタによる手作業 • windows →TeraPad, メモ帳など • MS-Wordや一太郎などのワープロソフトも不可能ではないが,お勧めせず 変なコードがつく(エディタで開いて見ればわかる) • その他のエディタとしては, • emacs, mule, meadow, viなどもある
コーパスの加工(2) • 文字コードは何を使うか? • 文字コードとは? • 日本語:jis, sjis, euc, utf-8 • Windowsでは,標準でsjis • Unix系では,標準でeuc • パソコンで通常使っているのはsjis • 複数の言語を混ぜて使うならutf-8
コーパスの加工(3) • 自然言語処理ツールを使う • 形態素解析・品詞付与 (日本語) • ChaSen(茶筅), • JUMAN, • すもも,など (英語) • Brill Tagger, • Xerox POS-Tagger, • PC-KIMMO
コーパスの加工(4) • 自然言語処理ツールを使う • 構文解析 (日本語) 係り受け解析器 • KNP • Cabocha(かぼちゃ) (英語) 構文解析木 • Apple Pie Parser
コーパスの加工(5) • 自分でプログラムを書く • タグ付けのためのアプリケーションを作る • 自動的に決まった情報を付与するためのプログラムを作る などなど. 簡単なプログラムを書くなら, perlという言語を使うのが手軽.
コーパスの加工(6) • 自分でプログラムを書く • タグ付けのためのアプリケーションを作る • 自動的に決まった情報を付与するためのプログラムを作る などなど. 簡単なプログラムを書くなら, perlという言語を使うのが手軽. この辺は,2学期の実践編で扱う予定