slide1
Download
Skip this Video
Download Presentation
微小時間における日本語の変化とその法則

Loading in 2 Seconds...

play fullscreen
1 / 26

微小時間における日本語の変化とその法則 - PowerPoint PPT Presentation


  • 55 Views
  • Uploaded on

微小時間における日本語の変化とその法則. 荒牧英治 * 増川佐知子 ** 東京大学 知の構造化センター ** 科学技術振興機構 さきがけ. 現代日本語で頻出する 1000 語のうち万葉集において見られるものは 326 語 [ 宮島 1967]. 32.6%. 使用頻度. 時間. 平安時代. 現代. 現代 +Δt. 常用語は固定化されほとんど順位が変化しない. 境界は どこか ?. 非常用語ははげしく 順位が入れ替わる. はじめに Q1 「語彙の頻度の変化速度は?」 Q2 「高頻度語と低頻度語に境界はあるか ? 」 まとめ. 材料.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 微小時間における日本語の変化とその法則' - eagan-mcknight


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

微小時間における日本語の変化とその法則

荒牧英治 *

増川佐知子 **

東京大学 知の構造化センター

**科学技術振興機構 さきがけ

Mar. 9, NLP2011

1000 326 1967
現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967]現代日本語で頻出する1000語のうち万葉集において見られるものは326語[宮島1967]

32.6%

使用頻度

時間

平安時代

現代

現代+Δt

Mar. 9, NLP2011

slide4

常用語は固定化されほとんど順位が変化しない常用語は固定化されほとんど順位が変化しない

境界は

どこか?

非常用語ははげしく

順位が入れ替わる

Mar. 9, NLP2011

slide5

はじめに

  • Q1 「語彙の頻度の変化速度は?」
  • Q2 「高頻度語と低頻度語に境界はあるか?」
  • まとめ

Mar. 9, NLP2011

slide6
材料
  • Twitterクロールデータ約30億tweet
  • 全データを形態素解析器(juman)にて解析
  • 1日毎に過去30日の語の使用頻度を集計した
    • スライド単位=1日,ウィンドウ幅=30日
    • 本稿では形態素を語とみなす
  • 相対頻度(対象となる形態素頻度/すべての形態素頻度)で正規化
    • 日によってクロール稼働率が異なるため

Mar. 9, NLP2011

slide7
2つの指標
  • N位保存率
    • ある時期でN位以内にいた語がΔt経過後にもN位以内にとどまる割合
  • 順位相関係数(スピアマン)
    • 基準期間で上位N位以内の語の順位(の系列)がΔ t時間経過後の順位とどれくらい類似しているか

Mar. 9, NLP2011

x t y t 30
どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日)どのような頻度変化が起こっているのか?ある時点で頻度Xだった後がΔt時間経過後に頻度Yになっている頻度(Δt=30日)

時間T+Δtでの相対頻度

Δt経過後に頻度aとなった語が

もともと基準期間にどのような

頻度であったかの確率分布

基準期間で頻度aであった語が,Δt経過後にどのような頻度に変化しているかの確率分布

時間Tでの

相対頻度

Mar. 9, NLP2011

detailed balance
詳細釣り合い(detailed balance)
  • ある過程の起こる確率とその逆過程の起こる確率が等しい状態
    • 企業の成長や気体分子の運動などに見られる
  • 言語の頻度変化で詳細釣り合いが成り立つ範囲
    • 相対頻度2.5e-5より大きい語(使用頻度上位4000語)
  • 語の頻度分布の形は時間の経過とともに変化しない
    • 現時点での言語がZipf則にしたがっているなら今後も従い続ける

Mar. 9, NLP2011

slide14

はじめに

  • Q1 「語彙の頻度の変化速度は?」
  • Q2 「高頻度語と低頻度語に境界はあるか?」
  • まとめ

Mar. 9, NLP2011

slide15
具体的には

使用頻度

語彙が

安定している領域

常用語

語彙が

不安定な領域

新語

死語

時間

Mar. 9, NLP2011

slide16
語の成長率とその分布
  • ある語がどれだけ使用頻度を増やしたか

Δt経過後の語wの相対使用頻度

語wの成長率=

基準期間での語wの相対使用頻度

  • 成長率分布 (例:使用頻度1位~10位まで)

頻度

成長率

1

0.5

2

Mar. 9, NLP2011

slide17
成長率の定義

使用頻度

語彙が

安定している領域

成長率=1

成長率=2

語彙が

不安定な領域

成長率=0.5

時間

Mar. 9, NLP2011

t 30 1000
語の成長率の分布 (Δt=30日)高頻度から1000位毎にプロット

Mar. 9, NLP2011

slide19
成長率の分布が同じということは

使用頻度

語彙として安定する境界というものはない

どんな頻度であっても入れ替わりが起こりうる

高頻度ほど大きな頻度変化を起こしやすい

10回→30回≒

10000回→30000回

時間

Mar. 9, NLP2011

slide20

はじめに

  • Q1 「語彙の頻度の変化速度は?」
  • Q2 「高頻度語と低頻度語に境界はあるか?」
  • 関連研究
  • まとめ

Mar. 9, NLP2011

slide21
関連研究との差異
  • 語全体の調査
    • あらかじめ注目していた語について,その振る舞いを調査[宮島1967,飛田1966]
    • 本研究では,すべての語での調査を行うため,バイアスがかからず,全体的な挙動を知ることができる.
  • 微小時間の調査
    • いくつかの大規模調査(大西調査[5]や凸版調査[6]など)では10年またはそれ以上の期間が対象
    • 本研究は日単位という微小時間での使用頻度の連続的変化を調査

Mar. 9, NLP2011

slide22

はじめに

  • Q1 「語彙の頻度の変化速度は?」
  • Q2 「高頻度語と低頻度語に境界はあるか?」
  • 関連研究
  • まとめ

Mar. 9, NLP2011

1000 1 80
現代日本語で頻出する1000語の1年後でも同順位に入っているものは80%現代日本語で頻出する1000語の1年後でも同順位に入っているものは80%

32.6%

80%

使用頻度

時間

平安時代

現代

現代+Δt

Mar. 9, NLP2011

slide24
まとめ
  • 語の使用頻度は平衡状態を保ちながら言語全体で変化している
    • 詳細釣り合い状態(時間について対象な状態)
  • 語の使用頻度の変化は順位に依存しない
    • 高頻度語も低頻度語も次の瞬間には同様な変化をしうる

Mar. 9, NLP2011

slide25
本研究の限界
  • 一般的な議論を行うためには,さらなる長期観察が必要である
    • 語が変化したのではなくユーザが変化した可能性は?
  • ツィッター上の発言(文書における話し言葉)以外の伝達形式においても本研究での知見が共通するかどうかは不明

Mar. 9, NLP2011

slide26

謝辞

京都大学遠藤智子氏

産業技術総合研究所黒嶋智美氏

金沢学院大学石川温先生

クックパッド兼山元太氏

荒牧英治 [email protected]

Mar. 9, NLP2011

ad