1 / 43

映画 DVD を利用して生きた会話を分析する

映画 DVD を利用して生きた会話を分析する. 同志社大学 北尾謙治 http://kkitao.e-learning-server.com/index.shtml. はじめに. 自然な会話の利用は困難 目的に合ったデータが収集しにくい データが入手できても後の処理が困難. 映画 DVD がその解決策の1つ 台詞の字幕がある 非言語要素も扱える 安価  500 円から 入手が比較的容易 何度でも視聴できる. DVD の利用. 比較的自然な会話表現 字幕は会話とは少し異なる 話者のインターラクション 時間の測定が容易 言語と非言語のコミュニケーション

fifi
Download Presentation

映画 DVD を利用して生きた会話を分析する

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 映画DVDを利用して生きた会話を分析する 同志社大学 北尾謙治 http://kkitao.e-learning-server.com/index.shtml

  2. はじめに • 自然な会話の利用は困難 • 目的に合ったデータが収集しにくい • データが入手できても後の処理が困難

  3. 映画DVDがその解決策の1つ • 台詞の字幕がある • 非言語要素も扱える • 安価 500円から • 入手が比較的容易 • 何度でも視聴できる

  4. DVDの利用 • 比較的自然な会話表現 • 字幕は会話とは少し異なる • 話者のインターラクション • 時間の測定が容易 • 言語と非言語のコミュニケーション • コミュニケーションストラテジー • 英語教育のよい教材

  5. 注意 • 著作権の問題 • DVDの著作権は複雑 • 不自然さはある • 目的に完全一致するコーパスはない • 整形作業は必要 • 日本語の処理は困難

  6. ワークショップの内容 1 発話音声の書き起こし 2 DVDから字幕の取り出し 3 字幕をテキストデータに変換 4 時間の計算と表示

  7. 5 字幕の整形   (1行1文) 6 時間の計算方法 7 登場人物や性別の表示や集計 8 コーパス処理による解析 9 英語教材の作成 紙の教材 e-ラーニングの教材 10 まとめ

  8. Roman Holiday(ローマの休日) • 1953年のアメリカ映画 • 世界の名作 • 1953年度のアカデミー賞において • 主役の新人オードリー・ヘップバーンがアカデミー最優秀主演女優賞 • 脚本のイアン・マクレライン・ハンターが最優秀脚本賞 • 衣装のイデス・ヘッドが最優秀衣装デザイン賞

  9. 1 発話音声の書き起こし 字幕がない場合 台詞どおりのテキストを必要とする場合 (台詞と字幕は異なる) フリーソフト Okoshiyasu2 (最新版もある) Okoshiyasu2 http://www.forest.impress.co.jp/lib/offc/document/docsupt/okoshiyasu2.html

  10. Okoshiyasu2 エディタを使用しながらキーボードから手を離すことなく音声ファイルの再生・停止を可能にする • キーボードにより再生・停止が可能 • 停止と同時に自動的に指定した秒数巻き戻しを行う • 指定した秒数の区間のリピートが可能 • 速度を変えても音程が変わらないので 聴き取り練習にも利用可

  11. 2 市販ソフト • Caption DVD • かつて使用されたソフト • 5000円 • 北尾研究室に所蔵 • スキャンされた字幕も豊富

  12. 3DVDから字幕の取り出し • DVD Decrypterの使い方 • 上記からダウンロード、解説あり • DVDから字幕を取り出す • ハードディスクのどこに保存するかを確認 • 自分の作業フォルダに取り出すのがよい • 注 既に開発はストップ • DVD Decrypter 入手先当サイトバックアップVer.3.5.4.0

  13. 字幕をテキストデータに変換 • SubRipを使ってDVDから字幕をテキストで保存 • 字幕のスキャニング、テキストデータに変換

  14. 時間の計算と表示 • Perlのプログラム(a5.pl)で整形  • 字幕数、開始時間、終了時間、所要時間、前の台詞との空き時間 • テキストファイルで出力 • A5.plとb3.plは以下でダウンロード http://www.cis.doshisha.ac.jp/kkitao/Japanese/library/resource/corpus/perl/DVD.doc • エクセルで表示 • OpenOffice.org • http://wiki.services.openoffice.org/wiki/Ja.openoffice.org/documentation/start

  15. 字幕の整形 • 1行1文に整形  • 台詞は1行1文ではないので分析に不向き • Perlのプログラム(b3.pl)を使用 • テキストファイルで出力 • エクセルに貼り付ける

  16. 4 SRTファイル • http://kkitao.e-learning-server.com/kitao/DVD/ • Roman Holidaysのsrtファイル入手先 映画のDVDの字幕の取り出し srtファイルhttp://kkitao.e-learning-server.com/kitao/DVD/1.doc

  17. srtファイルの整形 http://kkitao.e-learning-server.com/kitao/DVD/2.doc • srtファイルの整形 字幕のみのコーパスの作成 http://kkitao.e-learning-server.com/kitao/DVD/3.doc

  18. 注意 • srtファイルはすべての映画にあるとは限らない • ない場合はどうするのか?

  19. インターネットのサイト • Drew's Script-O-Rama http://www.script-o-rama.com/oldindex.shtml セリフを取り出し、加工する方法 http://kkitao.e-learning-server.com/kitao/DVD/4.doc

  20. 他の台詞のあるサイト • Movie Scripts and Screenplays • http://www.moviescriptsandscreenplays.com/ • Scripts • http://www.movie-page.com/movie_scripts.htm • Original scripts

  21. Simply Scriptshttp://www.simplyscripts.com/注: Scriptsとtranscriptsがオンライに存在します。Scriptsは実際の映画では変更が加えられている可能性があります。 Transcripts は映画から作成されていますが、作業中にエラーが起こっている可能性があります。 Kenji Kitao

  22. 注意 • 自分の関心のある映画の台詞が見つかるとは限らない

  23. コンコーダンサによる解析 AntConc3 http://www.antlab.sci.waseda.ac.jp/software.html Ant Concを使ってみよう http://www11.ocn.ne.jp/~iskwshin/antconc.html

  24. KWIC • ある特定の語(群)がどのような文脈で出現するか • 前後の語は何か • アルファベット順に並べるのも可能 • コロケーション

  25. Collocatesで共起語を一気に調べる • 指定した位置の語彙の頻度表の作成

  26. 特定語を含むクラスター • 語数を指定したクラスターの頻度表の作成 • N-gram

  27. 語彙頻度表の作成

  28. データの中での語の位置関係をみる

  29. 「ローマの休日」の日英パラレルコーパス  http://kkitao.e-learning-server.com/kitao/DVD/ParaCor.zip

  30. 教材の作成 空所補充問題 N番目の語を空白  指定した語を空白 JACET8000のレベルで空白     組み合わせも可能  品詞で空白    組み合わせで実施

  31. Cloze Test 作成ツールについて http://www.oit.ac.jp/ip/~kamiya/mwb/mwb.html

  32. The End

More Related