430 likes | 580 Views
映画 DVD を利用して生きた会話を分析する. 同志社大学 北尾謙治 http://kkitao.e-learning-server.com/index.shtml. はじめに. 自然な会話の利用は困難 目的に合ったデータが収集しにくい データが入手できても後の処理が困難. 映画 DVD がその解決策の1つ 台詞の字幕がある 非言語要素も扱える 安価 500 円から 入手が比較的容易 何度でも視聴できる. DVD の利用. 比較的自然な会話表現 字幕は会話とは少し異なる 話者のインターラクション 時間の測定が容易 言語と非言語のコミュニケーション
E N D
映画DVDを利用して生きた会話を分析する 同志社大学 北尾謙治 http://kkitao.e-learning-server.com/index.shtml
はじめに • 自然な会話の利用は困難 • 目的に合ったデータが収集しにくい • データが入手できても後の処理が困難
映画DVDがその解決策の1つ • 台詞の字幕がある • 非言語要素も扱える • 安価 500円から • 入手が比較的容易 • 何度でも視聴できる
DVDの利用 • 比較的自然な会話表現 • 字幕は会話とは少し異なる • 話者のインターラクション • 時間の測定が容易 • 言語と非言語のコミュニケーション • コミュニケーションストラテジー • 英語教育のよい教材
注意 • 著作権の問題 • DVDの著作権は複雑 • 不自然さはある • 目的に完全一致するコーパスはない • 整形作業は必要 • 日本語の処理は困難
ワークショップの内容 1 発話音声の書き起こし 2 DVDから字幕の取り出し 3 字幕をテキストデータに変換 4 時間の計算と表示
5 字幕の整形 (1行1文) 6 時間の計算方法 7 登場人物や性別の表示や集計 8 コーパス処理による解析 9 英語教材の作成 紙の教材 e-ラーニングの教材 10 まとめ
Roman Holiday(ローマの休日) • 1953年のアメリカ映画 • 世界の名作 • 1953年度のアカデミー賞において • 主役の新人オードリー・ヘップバーンがアカデミー最優秀主演女優賞 • 脚本のイアン・マクレライン・ハンターが最優秀脚本賞 • 衣装のイデス・ヘッドが最優秀衣装デザイン賞
1 発話音声の書き起こし 字幕がない場合 台詞どおりのテキストを必要とする場合 (台詞と字幕は異なる) フリーソフト Okoshiyasu2 (最新版もある) Okoshiyasu2 http://www.forest.impress.co.jp/lib/offc/document/docsupt/okoshiyasu2.html
Okoshiyasu2 エディタを使用しながらキーボードから手を離すことなく音声ファイルの再生・停止を可能にする • キーボードにより再生・停止が可能 • 停止と同時に自動的に指定した秒数巻き戻しを行う • 指定した秒数の区間のリピートが可能 • 速度を変えても音程が変わらないので 聴き取り練習にも利用可
2 市販ソフト • Caption DVD • かつて使用されたソフト • 5000円 • 北尾研究室に所蔵 • スキャンされた字幕も豊富
3DVDから字幕の取り出し • DVD Decrypterの使い方 • 上記からダウンロード、解説あり • DVDから字幕を取り出す • ハードディスクのどこに保存するかを確認 • 自分の作業フォルダに取り出すのがよい • 注 既に開発はストップ • DVD Decrypter 入手先当サイトバックアップVer.3.5.4.0
字幕をテキストデータに変換 • SubRipを使ってDVDから字幕をテキストで保存 • 字幕のスキャニング、テキストデータに変換
時間の計算と表示 • Perlのプログラム(a5.pl)で整形 • 字幕数、開始時間、終了時間、所要時間、前の台詞との空き時間 • テキストファイルで出力 • A5.plとb3.plは以下でダウンロード http://www.cis.doshisha.ac.jp/kkitao/Japanese/library/resource/corpus/perl/DVD.doc • エクセルで表示 • OpenOffice.org • http://wiki.services.openoffice.org/wiki/Ja.openoffice.org/documentation/start
字幕の整形 • 1行1文に整形 • 台詞は1行1文ではないので分析に不向き • Perlのプログラム(b3.pl)を使用 • テキストファイルで出力 • エクセルに貼り付ける
4 SRTファイル • http://kkitao.e-learning-server.com/kitao/DVD/ • Roman Holidaysのsrtファイル入手先 映画のDVDの字幕の取り出し srtファイルhttp://kkitao.e-learning-server.com/kitao/DVD/1.doc
srtファイルの整形 http://kkitao.e-learning-server.com/kitao/DVD/2.doc • srtファイルの整形 字幕のみのコーパスの作成 http://kkitao.e-learning-server.com/kitao/DVD/3.doc
注意 • srtファイルはすべての映画にあるとは限らない • ない場合はどうするのか?
インターネットのサイト • Drew's Script-O-Rama http://www.script-o-rama.com/oldindex.shtml セリフを取り出し、加工する方法 http://kkitao.e-learning-server.com/kitao/DVD/4.doc
他の台詞のあるサイト • Movie Scripts and Screenplays • http://www.moviescriptsandscreenplays.com/ • Scripts • http://www.movie-page.com/movie_scripts.htm • Original scripts
Simply Scriptshttp://www.simplyscripts.com/注: Scriptsとtranscriptsがオンライに存在します。Scriptsは実際の映画では変更が加えられている可能性があります。 Transcripts は映画から作成されていますが、作業中にエラーが起こっている可能性があります。 Kenji Kitao
注意 • 自分の関心のある映画の台詞が見つかるとは限らない
コンコーダンサによる解析 AntConc3 http://www.antlab.sci.waseda.ac.jp/software.html Ant Concを使ってみよう http://www11.ocn.ne.jp/~iskwshin/antconc.html
KWIC • ある特定の語(群)がどのような文脈で出現するか • 前後の語は何か • アルファベット順に並べるのも可能 • コロケーション
Collocatesで共起語を一気に調べる • 指定した位置の語彙の頻度表の作成
特定語を含むクラスター • 語数を指定したクラスターの頻度表の作成 • N-gram
「ローマの休日」の日英パラレルコーパス http://kkitao.e-learning-server.com/kitao/DVD/ParaCor.zip
教材の作成 空所補充問題 N番目の語を空白 指定した語を空白 JACET8000のレベルで空白 組み合わせも可能 品詞で空白 組み合わせで実施
Cloze Test 作成ツールについて http://www.oit.ac.jp/ip/~kamiya/mwb/mwb.html