slide1
Download
Skip this Video
Download Presentation
计算语言学 (2)

Loading in 2 Seconds...

play fullscreen
1 / 25

计算语言学 (2) - PowerPoint PPT Presentation


  • 99 Views
  • Uploaded on

计算语言学 (2). 侯宏旭 [email protected] 词典与词典编撰方面的研究. 词典学 计算词典学 词典编撰学 计算词典编撰学. 机读词典和人读词典. 人读词典 格式不规范 完整性和一致性不好 非结构化 机读词典 格式规范 完整性和一致性好 结构化. 机读词典的分类. 按信息类型 语法词典 语义词典 双语词典 … 按领域 通用词典 专业词典 专用词典 …. HowNet. 作者:董振东董强 网站: http://www.keenage.com 概念描述举例 NO.=017144 W_C= 打 G_C=V

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' 计算语言学 (2)' - mortimer-coulon


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide2
词典与词典编撰方面的研究
  • 词典学
  • 计算词典学
  • 词典编撰学
  • 计算词典编撰学
slide3
机读词典和人读词典
  • 人读词典
    • 格式不规范
    • 完整性和一致性不好
    • 非结构化
  • 机读词典
    • 格式规范
    • 完整性和一致性好
    • 结构化
slide4
机读词典的分类
  • 按信息类型
    • 语法词典
    • 语义词典
    • 双语词典
  • 按领域
    • 通用词典
    • 专业词典
    • 专用词典
hownet
HowNet
  • 作者:董振东董强
  • 网站:http://www.keenage.com
  • 概念描述举例
    • NO.=017144
    • W_C=打
    • G_C=V
    • E_C=~网球,~牌,~秋千,~太极,球~得很棒
    • W_E=play
    • G_E=V
    • E_E=
    • DEF=exercise|锻练,sport|体育
  • 其中DEF是核心,采用特定的“知识描述语言”
hownet1
HowNet
  • 打017144 exercise|锻练,sport|体育
  • 男人059349 human|人,family|家,male|男
  • 高兴029542 aValue|属性值,circumstances|境况,happy|福,desired|良
  • 生日072280 time|时间,day|日,@ComeToWorld|问世,$congratulate|祝贺
  • 写信089834 write|写,ContentProduct=letter|信件
  • 北京003815 place|地方,capital|国都,ProperName|专,(China|中国)
  • 爱好者000363 human|人,*FondOf|喜欢,#WhileAway|消闲
  • 必须004932 {modality|语气}
  • 串015204 NounUnit|名量,&(grape|葡萄),&(key|钥匙)
  • 从良016251 cease|停做,content=(prostitution|卖淫)
  • 打对折017317 subtract|削减,patient=price|价格, commercial|商, ( range|幅度=50%)
  • 儿童基金会024083 part|部件,%institution|机构, politics|政,#young|幼,#fund|资

金,(institution|机构=UN|联合国)

hownet3
HowNet
  • 义原
    • 大体上说,义原是最基本的、不易于再分割的意义的最小单位
    • 800多个义原
    • 义原的层次关系
      • entity|实体
          • Human|人
            • Humanized|拟人
          • Animal|兽
slide9
同义词词林
  • 梅家驹等,1983,上海辞书出版社
  • 为克服写作和翻译时的词穷现象而编写
  • 目前广泛应用于自然语言处理中
  • 收词近7万(按义项统计)
  • 按义项编排
    • 12大类
    • 94中类
    • 1428小类
    • 3925词群
  • 词群内部的词是同义词
  • 大类、中类、小类之间不一定是上下位关系(有些是领域)
slide10
同义词词林
  • Ag100101 旅客
  • Ag100101 客人
  • Ag100101 旅人
  • Ag100101 客子
  • Ag100101 客行子
  • Ag100101 客
  • Ag100102 过路人
  • Ag100102 过客
  • Ag100103 游人
  • Ag100103 游客
  • Ag100103 游者
  • Ag100103 旅游者
  • Ag100103 观光者
wordnet
WordNet
  • 网址:
    • http://www.cogsci.princeton.edu/~wn/
  • 开发单位:
    • 普林斯顿大学心理语言学实验室
    • 初衷是作为研究人类词汇记忆的心理语言学成果
    • 在自然语言处理中得到广泛的应用
  • 免费的在线词汇数据库
  • 世界很多语种都开发了相应的版本
    • 各种欧洲语言:EuroNet
    • 汉语:CCD(Chinese Concept Dictionary)
wordnet1
WordNet
  • 同义词集Synset
    • 用一组同义词的集合Synset来表示一个概念
    • 每一个概念有一段描述性的说明
  • 关系
    • 上下位关系(hyponymy,troponym)
    • 同义反义关系(synonymy,antonym)
    • 部分整体关系(entailment,metonymy)
    • ……
slide14
词典检索算法
  • 词典检索算法的性能评价
    • 时间复杂度
    • 空间复杂度
    • 检索方式
      • 直接用词语检索
      • 检索句子中某个位置开始的所有词
      • 检索句子中某个位置开始的最长词
      • 模糊检索
      • ……
    • 增量式索引
slide15
索引结构
  • 两个问题
    • 索引结构
    • 查找算法
  • 一种索引结构可以对应不同算法
slide16
顺序索引结构
  • 优点:结构简单,占用空间少
  • 缺点:不能实现增量索引,增加词需要重新排序
slide17
顺序表的二分查找
  • 整词二分查找
    • 时间复杂度O(log2N)
  • 算法
    • l<-0; r<-N
    • while l<r
    • k=(l+r)/2
    • if a[k]==v then break
    • if a[k]<v then l=k+1 else r=k
    • End while
slide18
散列索引结构
  • 索引结构简单,占用空间少
  • 可以实现增量索引
slide19
散列索引的检索
  • 利用Hash函数直接定位
  • 效率高:O(1)
  • 不能按前缀查找
  • 可能存在冲突
    • 利用冲突队列
    • 利用再散列
  • 改进
    • 逐字散列
slide20
分级索引
  • 把词分成若干部分,每一部份建立索引
    • 按字
  • 每级可以采用不同的索引方法
  • 汉语通常用首字作为第一级索引
    • 效率高,空间少
slide23
重复串识别
  • 找到重复多次出现的子串
    • 新词发现
    • 逐字递增
      • 统计所有二字串出现的位置和频率
      • 删除只出现1次的
      • 对其他向后扩展1字
      • 重复上述过程
slide24
思考题
  • 如何把人读词典转换为机读词典?
  • 考虑同义词词典的组织方法,并尝试编写一个简单的同义词词典
  • 实现Trie树词典
slide25
作业
  • 汉语词典快速查询算法研究李江波 周强 陈祖舜
  • 汉语自动分词词典机制的实验研究孙茂松 左正平 黄昌宁
  • 基于<知网>的词汇语义相似度计算 刘群 李素建
  • 汉蒙机器翻译中的蒙古语词语法属性描述巴达玛敖德斯尔
ad