1 / 14

コーパスによる比較文体学 Corpus-based Comparative Stylistics

コーパスによる比較文体学 Corpus-based Comparative Stylistics. コーパス言語学 2013. 1 .文体比較の方法. 1 .準備 a. 文体比較の尺度 b. 対象テキストの選定 2.データ処理 a. 前処理(品詞タグづけ) b. データ収集( AWK プログラム実行) c. データ解析( R による統計処理) 3.結果と考察. 2.準備. 文体比較のための尺度  (対象テキストに対する調査項目) ①文長(平均、分布) ②語長(平均、分布) Mendenhall, Branigan ③ 語彙の豊富さ

shelly
Download Presentation

コーパスによる比較文体学 Corpus-based Comparative Stylistics

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. コーパスによる比較文体学Corpus-based Comparative Stylistics コーパス言語学2013

  2. 1.文体比較の方法 1.準備 a. 文体比較の尺度 b. 対象テキストの選定 2.データ処理 a. 前処理(品詞タグづけ) b. データ収集(AWKプログラム実行) c. データ解析(Rによる統計処理) 3.結果と考察

  3. 2.準備 • 文体比較のための尺度  (対象テキストに対する調査項目) ①文長(平均、分布) ②語長(平均、分布)Mendenhall, Branigan ③語彙の豊富さ Yule’s K(1944) Gillard’s C Herdan’s D ④ type-token ratio(平均異なり語率)

  4. 2.準備 • 文体比較のための尺度(調査項目) ⑤名詞率 ⑥動詞率 ⑦形容詞(+副詞)率 ⑧接続詞率(順接・逆接) ⑨数詞率 ⑩記号率  ⑤~⑩の調査には、品詞タグづけ処理が必要

  5. 2.準備 • 対象テキスト(作品)の選定 Project Gutenberg (http://www.gutenberg.org/) に公開されている、著作権の消滅した現代英語で書かれた文学作品(fiction)。 (上記サイトからダウンロードしたファイルから、 テキスト本体以外の部分を手作業で除去)

  6. 2.準備 調査対象の作家と作品数 (\work\texts\*.txt)

  7. 3.1.前処理 品詞タグづけ処理 ・Helmut Schmid氏が開発したTreeTaggerのPC-Linux版をダウンロードして使用  (http://www.cis.unimuenchen.de/~schmid/ tools/TreeTagger/) ・PennTreebank Project方式のタグづけ http://www.comp.leeds.ac.uk/ccalas/tagsets/upenn.html http://www.americannationalcorpus.org/OANC/penn.html

  8. 3.1. 前処理 TreeTaggerの使用法 (コマンドライン上から) E: (USBのドライブ名) cd TreeTagger (タガーのフォルダに移動) bin\tag-english.bat <入力ファイル名> 出力例 word  pos  lemma  The  DT  the  TreeTagger NP  TreeTagger  is  VBZ  be  easy  JJ  easy  to  TO  to  use  VB  use  .  SENT  . 

  9. 3.1. 前処理 ・事前に入力形式の修正が必要(pretag.awkを準備)  ・行末のハイフン処理  ・ハイフン2個(ダッシュ)の前後分割 ・AWKプログラムの使い方 awk -f <awkスクリプト名> <input_file> ・処理結果が画面(標準出力)に表示される ・ファイルに出力するには、リダイレクション+出力ファイル名 ・ある処理の出力結果をその次の入力とするには、パイプ ・2つ以上のコマンドをまとめて、一括で処理するには、バッチファイル作成  (バッチファイルから別のバッチ処理を呼び出すことも可能) ⇒textsフォルダの全テキストに品詞タグづけをして、結果ファイルをtagフォルダに収納しておく

  10. 3.2 データ収集 • AWKスクリプトを作成、実行する ①文長(sen_length.awk) SENTからSENTまでの間の語数をカウントし、平均と分布と出力する ②語長(word_length.awk)  語の文字数を取得し、平均と分布を出力する ③Yule’s K特性値(yule_K.awk)  公式に基づいてK特性値を計算する ④異なり語率(type_token.awk)  テキスト先頭部分(一定語数)に関し、延べ語数と異なり語数をカウントし、異なり語の割合を計算する

  11. 3.2 データ収集 • AWKスクリプトを作成、実行する ⑤~⑩特定品詞率 タグづけ出力ファイルに対し、名詞、動詞等、特定品詞の語数をカウントし、割合を算出する。 ※使用語彙(好んで使用される動詞意味クラスの割合) cf. Levin(1993) English Verb Classes ※使用語彙の難易度を判定 cf. ALC12000語リスト、北大語彙表などのリスト ※文体特徴(好んで使用される構文) cf. 受動構文、疑問文・感嘆文、強調構文、関係節、…

  12. 3.2. データ収集 • 行にテキスト名、列に調査項目を取り、対応するセルに数値を入力する。 • 統計解析環境Rを準備し、表形式のデータファイルを読み込む。 Rの使い方:基礎文献  「統計解析ソフトRの備忘録:R tips」(PDF) (http://www.is.titech.ac.jp/~shimo/class/doc/r-tips.pdf)  「Rによるデータ解析」(熊澤吉起) (http://www.biwako.shiga-u.ac.jp/sensei/kumazawa/R/c2.pdf)

  13. 3.3. データ解析 • 全体の平均、標準偏差を算出し、各テキストの偏差値(Z得点)を算出する。 • 調査項目ペアの散布図行列により、作家ごとの特徴が観察されるか。 • 各テキストと他のテキストの「一致度」(一致係数、相関係数など)を計算する。

  14. 参考になる文献 • 金 明哲(2003-2009) 「フリーソフトによるデータ解析・マイニング」、Estrela誌連載記事 • (『Rによるデータサイエンス』『テキストデータの統計科学入門』として後に出版される) • 村上征勝(2004)『シェイクスピアは誰ですか』(文芸春秋新書) • 「文体診断ロゴーン」(http://logoon.org/) • 前川 守(1995)『1000万人のコンピュータ科学(3)文章を科学する』、岩波書店。

More Related