370 likes | 568 Views
老いと < ことば > ブログ・テキストから測る老化. 荒牧 英 治 京都大学/ JST さきがけ 久保 圭 大阪大学 四方 朱子 京都大学. 背景 老化 は 発達 ほど研究されていない. < 老化 > V.S. < 発達 > KAKEN プロジェクト数 5175 V.S. 27986 CiNii 論文数 7688 V.S . 91248. 2014/07/26 accessed. 発達時,何がどのように獲得されるのか? 老いる時,何がどのように失われるのか? 何が普通に起こることなのか?. これまで 老化度の測定 (物理的検査). 骨年齢の判定
E N D
老いと<ことば>ブログ・テキストから測る老化老いと<ことば>ブログ・テキストから測る老化 荒牧英治京都大学/JSTさきがけ 久保圭大阪大学 四方朱子京都大学
背景老化は発達ほど研究されていない • <老化>V.S. <発達> • KAKENプロジェクト数 • 5175 V.S. 27986 • CiNii論文数 • 7688V.S. 91248 2014/07/26 accessed • 発達時,何がどのように獲得されるのか? • 老いる時,何がどのように失われるのか? • 何が普通に起こることなのか?
これまで老化度の測定(物理的検査) • 骨年齢の判定 • 血管年齢の測定 • 血液検査 • 高次脳機能検査 • カードソーティング検査 • 前頭葉機能の評価) • 問診(QOL) (本研究の目指すところ)言語年齢 同志社大学老化度判定ドックの測定項目より抜粋
さまざま言語能力の測定法と本研究の測定法 行為 測定項目 読む 語彙量 理解語彙量 聞く 語彙のレベル 本研究は ウェブ上で 話す 文法の複雑さ 書かれた 書く 表現の丁寧さ 文章について 様々な指標を 計算する
概要 • 背景&目的 • 材料 • ウェブ上からどのようなテキストを集めたか • 手法 • 結果 • 考察
3つの材料 • 小中学生作文データ • 郵便事業株式会社主催「手紙作文コンクール」入賞作品 • 小学生低学年(22人:26人) • 高学年(17人:32人) • 中学生(5人:43人) • 日本語学習者作文データ • 日本語を学ぶ留学生のテキスト • 初級31名,上級124名 • 高齢者ブログデータ • ブログ・リンク集を用いて無作為に抽出 • 50代,60代,70代,80代以上(男女別10名ずつ)
小学生(低学年)男子の例 ぼくは、無線や電気などに興味を持っています。 それで、科学館のアマチュア無線クラブに入っています。 今日は、そのアマチュア無線クラブの活動をしました。 フォックステーリングという、競技をしました。
80歳男性の例 音楽作曲のゴーストライター問題で謝罪記者会見を聴いたがあの会見を聴いていて彼は音楽の素人だと思った。 あの言葉のなかで 「アレンジとか編曲をお願いした」と言っていたが アレンジ=編曲 だから普通の音楽人ならあんな言葉は出ないだろう。
90歳女性の例 20年のオリンピック開催地が東京に決まりました。 私はもともと東京五輪開催にはあまり賛成ではありませんでした。 東京にあまり多くの外国人が入ってくるのは何だか煩わしい感じがしたからです。 でも家族はみな「東京オリンピックが実現するといいね!」と盛り上がっていました。 私にとってオリンピックといえば、昭和11年に開催されたベルリンオリンピックがやはりいちばん印象に残っています。
概要 • 背景&目的 • 材料 • 手法 • 関連研究で提案されてきた手法 • 本研究室で開発した手法 • 結果 • 考察
指標 • 従来から使用されていた指標 • 本研究で開発した指標
D-LEVEL日本語版 (LEV) 文法の複雑さを示す Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.
D-LEVEL日本語版 (LEV) 文法の複雑さを示す Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.
D-LEVEL日本語版 (LEV) 文法の複雑さを示す Cheunga, H. and S. Kemper, Competing complexity metrics and adults' production of complex sentences. Applied Psycholinguistics, 1992. 13(1): p. 53-76.
構文木の深さdepth of sentence tree (DEP) • 文の複雑さを示す. • 構文木の最大の深さ(句構造と依存構造) 5 levels 4 levels http://nlp.ist.i.kyoto-u.ac.jp/index.php?KNP
頻度・使用者数比(≒専門用語)Frequency per User Popularity(FPU) • ソーシャルメディア10万人の発言を8ヶ月間調査 • 語の特殊性 (語の出現頻度/語のユーザ数) • 値が低い → 一般的 • 値が高い → ユーザ数が出現頻度と比較し少ない語 • スラングや専門用語 Eiji Aramaki, Sachiko Maskawa, Mai Miyabe, Mizuki Morita and SachiYasuda: A Word in a Dictionary is used by Numerous Users, International Joint Conference on Natural Language Processing (IJCNLP2013), 2013 (2013/10/18, Nagoya, Japan).
TYPE・TOKEN割合Type Token Ratio(TTR) • Type(異なり語数)とToken(延べ語数)の比率(Type/Token).この値が大きいほど,語彙量が多い.文章全体で集計した. 潜在使用語彙.:19,000 INPUT
日本語学習語彙レベルJapanese Educational Lexicon Level (JEL) 具体性・抽象性Named Entity Ratio (NER) • 語彙の難易度を示す • 難易度は日本語学習辞書に収載されている語彙レベルを用いた • 固有名詞の割合 =固有名詞数÷全名詞数 • 抽象名詞の割合 =抽象名詞数÷全名詞数 砂川有里子, 学習辞書編集支援データベース作成について -『学習辞書科研』プロジェクトの紹介」. 日本語教育連絡会議論文集, 2012. 24.
ポライトネス Politeness of Functional Expression (PLT) 機能表現難度Difficulty of Functional Expression (FNC) • 機能表現のポライトネスの度合い • この値が大きいとき,丁寧であることをあらわす. • 口語体=1,常体=3,敬体=5,堅い文体=5に変換した.文ごとに算出し,平均した. • 機能表現の難易度 • この値が大きいほど,文章内で用いられている機能表現の難易度が高い • 難易度はA1, A2, B, C, Fの5段階に分かれており,これを1 (A1) から 5 (F) に変換した.文ごとに算出し,平均した. 松吉俊, 佐藤理史, and 宇津呂武仁, 日本語機能表現辞書の編纂. 自然言語処理, 2007. 14(5): p. 123-146.
「メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察」上里「メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察」上里
測定例(研究会プロシーディング) 「メンション情報を利用したTwitterユーザプロフィール推定における単語重要度算出手法の考察」上里 et. al 「老いと<ことば>:ブログ・テキストから測る老化」荒牧 et. a 抽象名詞多 専門用語多
概要 • 背景&目的 • 材料 • 手法 • 結果 • (詳細はプロシーディングに) • ワンショットのデータ • 時系列データ(5年) • 考察
発達期では はこひげ図の見方 文法の複雑さ(DEV) 最高値 • いくつかの指標で上昇を確認 • 成長の過程を捉えられている • 女性優位から男性優位へ • では老化においては… 中央値 25%の分布 最低値 語彙の難しさ(JEL) 文法の複雑さ(DEP)
日本語学習語彙レベルを例に小括 • 他にも3指標(LEV, FNC, DEP)が同傾向 • (仮説1)高齢者になっても言語能力は落ちない(結晶化知性) [Horn1967] • (仮説2)言語能力が落ちない高齢者だけが書いている Cattell, R.B., Abilities: Their structure, growth, and action. New York: Houghton Mifflin. 1971. Horn, J.L. and R.B. Cattell, Age differences in fluid and crystallized intelligence. ActaPsychologica, 1967. 26.
6名の長期執筆データ • 高齢者長期ブログデータ(5年執筆; n=5) • 70歳以上,かつ,5年以上の期間にわたって執筆されたタキスト • 執筆年ごとに500文ずつを収集した • 認知症患者長期ブログデータ(5年執筆; n=1) • ある認知症患者(最終執筆時70代男性)のテキスト 2006年11月 2010年12月 桜の花の下でお茶をいただきながら68才の男が桜の花の下でゆっくりとお茶を飲んでいる姿を想像して見てください。その男はこの春(平成17年3月)認知症と診断されて家にひきこもっているのです。それから半年今は結構元気になって…… 言葉が書けない言葉が書けないは・・・文字が書かないとおなじ。 パソコンで文字がかけていたわたしですがなぜか文字の変換が出来ない今日です。 言葉をかくにはそれなりの言葉をさがし読んでいただける言葉にすれなはとはよういではなしのです。 とみにそのかいすが多くなった。
通常の高齢者(70歳以上)語彙レベル変化 個人差はあるものの 低下傾向
通常の高齢者(70歳以上)と認知症患者 発症時から低い
通常の高齢者(70歳以上)と認知症患者 桜の花の下でお茶をいただきながら68才の男が桜の花の下でゆっくりとお茶を飲んでいる姿を想像して見てください。その男はこの春(平成17年3月)認知症と診断されて家にひきこもっているのです。それから半年今は結構元気になって…… 発症時から低い
2つの指標で同様の変化 日本語学習語彙レベル タイプ/トークン比 語彙が簡単になる 語彙のバリエーションが減る 認知症では発症前にそれらが同時に起こった
まとめ • 本研究では • 自然言語処理(NLP)を人間の能力測定の道具として使うこと(新しいNLPの利用法)を提案 • 老化の過程で測定可能な変化あり • 語彙が簡単になる • 語彙のバリエーションが減る • 通常の老化と認知症患者との間の大きな差異あり • BUT: 材料に大きな選択バイアス • 今後の予定 • 大規模データの収集 • 医療応用(認知症,発達障害(アスペルガー症候群))
大規模データの収集 京都大谷高校 (夏休みの宿題)
検査を受けるのを嫌がる 認知症の患者さんは多い 前にアレで見たぞ! 認知症のアレだろう! 失敬な!ワシは ボケてなどおらん! 100から7を引いて, それからまた7を 引いてみて?
Thank you Role of Authors PI 荒牧英治 Ph.D.(総括) 久保圭(データ収集/助言) 四方朱子(実験/統計処理) Acknowledgement 宮部真衣 Ph.D.(ツール構築) COI掲示 本研究遂行にあたって開示すべき 関係にある企業はありません http://mednlp.jp