文献计量学
This presentation is the property of its rightful owner.
Sponsored Links
1 / 28

文献计量学 05 PowerPoint PPT Presentation


  • 120 Views
  • Uploaded on
  • Presentation posted in: General

文献计量学 05. 齐普夫定律. 大纲. 齐普夫与最省力法则 齐普夫定律的形成 齐普夫定律的基本原理 齐普夫定律的发展 齐普夫定律的应用. 齐普夫. George Kingsley Zipf (1902-1950) :美国哈佛大学教授、著名的语言学家和心理学家 用大量的统计数据来验证前人有关词频分布规律的研究成果 1948 年出版了 《 人类行为与最省力法则 - 人类生态学引论 》

Download Presentation

文献计量学 05

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


05

文献计量学05

齐普夫定律


05

大纲

  • 齐普夫与最省力法则

  • 齐普夫定律的形成

  • 齐普夫定律的基本原理

  • 齐普夫定律的发展

  • 齐普夫定律的应用


05

齐普夫

  • George Kingsley Zipf (1902-1950):美国哈佛大学教授、著名的语言学家和心理学家

  • 用大量的统计数据来验证前人有关词频分布规律的研究成果

  • 1948年出版了《人类行为与最省力法则-人类生态学引论》

    • Human Behaviour and the Principle of Least Effort: an Introduction to Human Ecology. Addison-Wesley 1949


05

齐普夫的最省力法则

  • 例子:

    • 从A地到B地时,可以走不同的路;从经济上、安全上、时间上并结合本人的主观条件(如身体情况)及客观情况(所处的环境)等种种因素来考虑,设法选择一条最符合自己要求的道路,使得自己付出的“力”最小。

  • 利用语言表达思想时,会受到两个方向相反的力的作用

    • 单一化力:希望尽量简短

    • 多样化力:希望能被对方理解

    • 单一化力与多样化力取得平衡,使自然语言词汇的分布呈现了双曲线。


05

齐普夫经验法则的形成

  • 齐氏定律形成的基础

  • 齐氏定律的确立


05

齐氏定律形成的基础

  • 频率词典(词表)

    • 每一个词在一定长度的文件中出现的频率

    • 两个最基本的数量指标

      • 词的出现频率、词的序号

  • 艾斯杜(J. Estoup,速记员)发现(1916)

    • 较长的文章中,词频分布的定量化形式,

    • Nr×r=C(常数)

      • 词的序号:1,2,…,r,…,D

        (1:绝对频率最大的词,D:绝对频率最小的词)

      • 词的绝对频率:n1,n2,…,nr,…,nD


E condon

贡东(E. Condon)的公式

  • 贡东:美国贝尔电话公司物理学家,电话线路的通讯能力

  • 根据德韦和阿叶斯的资料,得到词频分布图

    • 词的序号的对数为横坐标 log r

    • 词的绝对频率的对数为纵坐标 lognr

  • 定量公式:fr×r=C

    令:tanα=γLog(r γ×nr)=log C

  • C的值究竟是不是常数,还必须加以验证


05

齐普夫定律的确立

  • 检验E. Condon关系式的可靠性并研究C的性质

    • 确定c是一个参数,使得

  • 验证了单参数词频分布公式的正确性

    • Fr × r=c(或者pr × r=c)


05

齐普夫定律的基本原理

  • 齐普夫定律的基本内容

  • 齐普夫定律的图像描述

  • 齐普夫定律的局限性


05

齐普夫定律的基本内容

  • 齐普夫定律

    • fr ×r=c

      • Fr:频次,r:等级序号

  • 齐普夫定律的“最省力法则”的解释

    • 任何语言中,凡是使用频率最高的词,功能总是不会太大;因为其本身在这个场合中价值小,因而传递它们所需要的“力”就不大。


05

齐普夫定律的图像描述

  • 横坐标:等级序号r

  • 纵坐标:相应的频率f

  • 等级r与频率f均取对数。

  • 虚线:lnr+lnf=lnc

  • 实线:blnr+lnf=lnc

  • (斜率为b)


05

齐普夫定律的局限性

  • 对出现频率特别高的词和特别低的词,并不能完全地反映分布规律

    • 低频率的词,序号相同的很多

    • 高频率的词,序号相同的词随着频率的增高而越来越少


05

齐普夫定律的发展

  • 朱斯(M. Joos)修正

  • 芒戴尔伯特B. Mandelbrot修正式

  • 布斯(B. Booth)的齐普夫第二定律


05

朱斯修正式

  • 单参数词频分配律--〉双参数词频分布律

    • Pr=cr-γ中,c和r的负指数(以γ表示)都是参数

    • γ不是一个常数而是一个参数

      • 当词典收词多时,γ会增大,即图像中的α角会增大;当收词少的时候, γ会减少,α角会变小。

  • 双参数词频分布公式

    • Pr=cr-γ

    • γ>0,c>0,对于r=1,……,D,参数γ,c要使

    • 当γ=1时,公式变为Pr=cr-1,就是齐普夫的单参数词频分布律


05

芒戴尔伯特修正公式

  • 三参数频率分布律

    • Pr=c(r+a)-b

      • 0≤ a<1,b>0,c>0,对于r=1,……,D,参数a,b,c要使

      • 参数c:与出现频率最高的词的概率有关

      • 参数b:与高概率词的数量多少有关,对于r<50的高频词,b是r的非减函数,随着r的增大,参数b并不减少

      • 参数a:与词的数量n有关。

  • 当a=0,公式形式为Pr=cr-b

  • 当a=0,b=1时,公式形式为Pr=cr-1


05

齐普夫词汇分布图


05

齐普夫第二定律

  • 齐普夫定律可以分成两大定律

    • 高频词分布的定律 (齐普夫第一定律)

    • 低频词分布的定律(齐普夫第二定律)

      • 布斯的修正


05

齐普夫的推导

  • Pr=n/T ,pr为第r位词出现的概率,T为词的总体集合中不同词出现的总次数,n为序位为r的词汇的绝对频率

  • 仅仅出现一次的词汇,可能有许多个,一般而言:


05

布斯修正公式

  • 称齐普夫第二表达式

  • 英文正文中低频词的数量

    • I1为出现一次的词的数量

    • In为出现n次的词的数量

  • 与正文的长度和常数C无关,仅与单词的频率有关

n=2,3,4……


05

齐普夫定律的应用

  • 文献标引和词表编制

  • 信息检索

  • 在图书情报管理中的应用


05

词表编制

  • 叙词表和标引可以提高计算机检索的效率

  • 根据齐普夫定律的频率分布方法,通过标引试验,找出被标引文献与叙词使用频率的分布特征,确定合乎需要的参数值。

  • 选用原始文献中的术语,统计其发生的频率,研究分布特征,最后决定合乎使用频率的词


05

文献标引

  • 自动标引

    • 利用计算机对每一个词的频率进行统计分析,筛选出适合标引的词汇。

    • 卢恩(Luhn)的频率自动索引方法

      • 去掉高频词

      • 去掉后缀

      • 找出相应的词干

  • 加权标引

    • 斯派克 琼斯(Spack Jones)的加权法

    • 如果有N篇文章,某个检索词涉及其中的n篇,给那么这个词log(N/n)+1的权值,可得到较佳的检索效果


05

Luhn的频率自动标引法


Vector space model

向量空间模型(Vector Space Model)

  • 基本思想是以向量来表示文本(W1,W2,W3……Wn),其中 Wi 为第 i 个特征项的权重,一般可以选择词作为特征项

  • 由这些词作为向量的维数来表示文本,最初的向量表示完全是 0、1 形式,即如果文本中出现了该词,那么文本向量的该维为 1,否则为 0。

  • 词频分为绝对词频和相对词频,绝对词频,即使用词在文本中出现的频率表示文本,相对词频为归一化的词频,其计算方法主要运用 TF-IDF 公式。


Vector space model1

向量空间模型(Vector Space Model)

  • 其中, 为词t在文本 中的权重,而 为词t在文本 中的词频,N为训练文本的总数, 为训练文本集中出现t的文本数,分母为归一化因子。


05

信息检索

  • 用于估计信息检索系统所需要的存储量

  • 倒排档的大小,取决于同属性字段种不同词的数量以及每个词的出现频率

  • 按照齐普夫定律,计算词频出现的几率


05

在图书情报管理中的应用

  • 处理与语言文字有关的问题

  • 将“最省力法则”的原理应用于图书情报信息事业的管理

    • 合理选择图书馆或者信息中心的最佳地理位置,使得使用者能以最省力途径方便到达

    • 用以设计图书馆、信息中心资料库的排架


05

齐普夫公式的汇总

  • 齐普夫第一定律:关于高频词的定律

    • 单参数定律:fr ×r=c

    • 双参数定律: Pr=cr-γ

    • 三参数定律:Pr=c(r+a)-b

  • 齐普夫第二定律:关于低频词的定律


  • Login