微小時間における日本語の変化とその法則
This presentation is the property of its rightful owner.
Sponsored Links
1 / 26

微小時間における日本語の変化とその法則 PowerPoint PPT Presentation


  • 41 Views
  • Uploaded on
  • Presentation posted in: General

微小時間における日本語の変化とその法則. 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ. 現代日本語で頻出する 1000 語のうち万葉集において見られるものは 326 語 [ 宮島 1967]. 32.6%. 使用頻度. 時間. 平安時代. 現代. 現代 +Δt. 常用語は固定化されほとんど順位が変化しない. 境界は どこか ?. 非常用語ははげしく 順位が入れ替わる. はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はあるか ? 」 まとめ. 材料.

Download Presentation

微小時間における日本語の変化とその法則

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


5985568

微小時間における日本語の変化とその法則

荒牧英治 *

増川佐知子 **

東京大学 知の構造化センター

**科学技術振興機構 さきがけ

Mar. 9, NLP2011


5985568

Mar. 9, NLP2011


1000 326 1967

現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967]

32.6%

使用頻度

時間

平安時代

現代

現代+Δt

Mar. 9, NLP2011


5985568

常用語は固定化されほとんど順位が変化しない

境界は

どこか?

非常用語ははげしく

順位が入れ替わる

Mar. 9, NLP2011


5985568

  • はじめに

  • Q1 「語彙の頻度の変化速度は?」

  • Q2 「高頻度語と低頻度語に境界はあるか?」

  • まとめ

Mar. 9, NLP2011


5985568

材料

  • Twitterクロールデータ約30億tweet

  • 全データを形態素解析器(juman)にて解析

  • 1日毎に過去30日の語の使用頻度を集計した

    • スライド単位=1日,ウィンドウ幅=30日

    • 本稿では形態素を語とみなす

  • 相対頻度(対象となる形態素頻度/すべての形態素頻度)で正規化

    • 日によってクロール稼働率が異なるため

Mar. 9, NLP2011


5985568

2つの指標

  • N位保存率

    • ある時期でN位以内にいた語がΔt経過後にもN位以内にとどまる割合

  • 順位相関係数(スピアマン)

    • 基準期間で上位N位以内の語の順位(の系列)がΔ t時間経過後の順位とどれくらい類似しているか

Mar. 9, NLP2011


N y t 8

N位保存率(Y軸)とΔt(8ヶ月)論文図表

Mar. 9, NLP2011


N y t 1 5

N位保存率(Y軸)とΔt (1.5年)最新結果

Mar. 9, NLP2011


5985568

順位相関係数とΔt

Mar. 9, NLP2011


T t 180

Δt経過後(Δt=180日)に成長した語と衰退した語

Mar. 9, NLP2011


X t y t 30

どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日)

時間T+Δtでの相対頻度

Δt経過後に頻度aとなった語が

もともと基準期間にどのような

頻度であったかの確率分布

基準期間で頻度aであった語が,Δt経過後にどのような頻度に変化しているかの確率分布

時間Tでの

相対頻度

Mar. 9, NLP2011


Detailed balance

詳細釣り合い(detailed balance)

  • ある過程の起こる確率とその逆過程の起こる確率が等しい状態

    • 企業の成長や気体分子の運動などに見られる

  • 言語の頻度変化で詳細釣り合いが成り立つ範囲

    • 相対頻度2.5e-5より大きい語(使用頻度上位4000語)

  • 語の頻度分布の形は時間の経過とともに変化しない

    • 現時点での言語がZipf則にしたがっているなら今後も従い続ける

Mar. 9, NLP2011


5985568

  • はじめに

  • Q1 「語彙の頻度の変化速度は?」

  • Q2 「高頻度語と低頻度語に境界はあるか?」

  • まとめ

Mar. 9, NLP2011


5985568

具体的には

使用頻度

語彙が

安定している領域

常用語

語彙が

不安定な領域

新語

死語

時間

Mar. 9, NLP2011


5985568

語の成長率とその分布

  • ある語がどれだけ使用頻度を増やしたか

Δt経過後の語wの相対使用頻度

語wの成長率=

基準期間での語wの相対使用頻度

  • 成長率分布 (例:使用頻度1位~10位まで)

頻度

成長率

1

0.5

2

Mar. 9, NLP2011


5985568

成長率の定義

使用頻度

語彙が

安定している領域

成長率=1

成長率=2

語彙が

不安定な領域

成長率=0.5

時間

Mar. 9, NLP2011


T 30 1000

語の成長率の分布 (Δt=30日)高頻度から1000位毎にプロット

Mar. 9, NLP2011


5985568

成長率の分布が同じということは

使用頻度

語彙として安定する境界というものはない

どんな頻度であっても入れ替わりが起こりうる

高頻度ほど大きな頻度変化を起こしやすい

10回→30回≒

10000回→30000回

時間

Mar. 9, NLP2011


5985568

  • はじめに

  • Q1 「語彙の頻度の変化速度は?」

  • Q2 「高頻度語と低頻度語に境界はあるか?」

  • 関連研究

  • まとめ

Mar. 9, NLP2011


5985568

関連研究との差異

  • 語全体の調査

    • あらかじめ注目していた語について,その振る舞いを調査[宮島1967,飛田1966]

    • 本研究では,すべての語での調査を行うため,バイアスがかからず,全体的な挙動を知ることができる.

  • 微小時間の調査

    • いくつかの大規模調査(大西調査[5]や凸版調査[6]など)では10年またはそれ以上の期間が対象

    • 本研究は日単位という微小時間での使用頻度の連続的変化を調査

Mar. 9, NLP2011


5985568

  • はじめに

  • Q1 「語彙の頻度の変化速度は?」

  • Q2 「高頻度語と低頻度語に境界はあるか?」

  • 関連研究

  • まとめ

Mar. 9, NLP2011


1000 1 80

現代日本語で頻出する1000語の1年後でも同順位に入っているものは80%

32.6%

80%

使用頻度

時間

平安時代

現代

現代+Δt

Mar. 9, NLP2011


5985568

まとめ

  • 語の使用頻度は平衡状態を保ちながら言語全体で変化している

    • 詳細釣り合い状態(時間について対象な状態)

  • 語の使用頻度の変化は順位に依存しない

    • 高頻度語も低頻度語も次の瞬間には同様な変化をしうる

Mar. 9, NLP2011


5985568

本研究の限界

  • 一般的な議論を行うためには,さらなる長期観察が必要である

    • 語が変化したのではなくユーザが変化した可能性は?

  • ツィッター上の発言(文書における話し言葉)以外の伝達形式においても本研究での知見が共通するかどうかは不明

Mar. 9, NLP2011


5985568

謝辞

京都大学遠藤智子氏

産業技術総合研究所黒嶋智美氏

金沢学院大学石川温先生

クックパッド兼山元太氏

荒牧英治 [email protected]

Mar. 9, NLP2011


  • Login