slide1 n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
基于学术信息网络的学者智能推荐技术 研究 PowerPoint Presentation
Download Presentation
基于学术信息网络的学者智能推荐技术 研究

Loading in 2 Seconds...

play fullscreen
1 / 35

基于学术信息网络的学者智能推荐技术 研究 - PowerPoint PPT Presentation


  • 80 Views
  • Uploaded on

基于学术信息网络的学者智能推荐技术 研究. 答 辩 人 : 李欣 指 导 老 师: 周晓 方、 陆嘉恒 教授 专 业: 计算机应用技术. 2014/05/21. 目 录. 研究背景 相关工作 智能学者推荐算法 实验验证 结论及未来工作. 学术会议、学术申请中专家指派问题. 研究背景. 研究背景. 申请人填写类别、评阅回避信息. 申请按照类别进行分类. 针对每个类别按照摘要进行聚类. 专家指派(考虑相关性、回避问题). 评阅专家填写研究领域信息. 随着学术研究的不断发展,学术会议 / 期刊投稿数量激增。.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about '基于学术信息网络的学者智能推荐技术 研究' - tashya-palmer


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
slide1

基于学术信息网络的学者智能推荐技术研究

答 辩 人 : 李欣

指导 老 师: 周晓方、陆嘉恒 教授

专 业: 计算机应用技术

2014/05/21

slide2
目录
  • 研究背景
  • 相关工作
  • 智能学者推荐算法
  • 实验验证
  • 结论及未来工作
slide3
学术会议、学术申请中专家指派问题

研究背景

研究背景

申请人填写类别、评阅回避信息

申请按照类别进行分类

针对每个类别按照摘要进行聚类

专家指派(考虑相关性、回避问题)

评阅专家填写研究领域信息

slide4
随着学术研究的不断发展,学术会议/期刊投稿数量激增。随着学术研究的不断发展,学术会议/期刊投稿数量激增。

研究背景

研究背景
slide5
政府自助机构每年收到的申请数目也大幅增长,涉及到的研究领域越来越多。政府自助机构每年收到的申请数目也大幅增长,涉及到的研究领域越来越多。

研究背景

研究背景
slide6
人工分配的问题

评审过程繁琐,会评成本高

分配人熟悉各个领域的专家

主观因素多,分配人需要考虑回避条件(合作者、同单位、同学等)

互联网上流行的多种文献信息资源组织与导航工具

研究背景

研究背景
slide7
目录
  • 研究背景
  • 相关工作
  • 智能学者推荐算法
  • 实验验证
  • 结论及未来工作
slide8
A Hybrid Knowledge

and Model

A Hybrid Knowledge and

Model Approach for Reviewer

Assignment (Yong-Hong Sun

, Jian Ma)

维护树状领域字典

申请和专家必须按照

字典填写相关信息

使用给定的领域进行

指派

相关研究工作

slide9
Information retrieval Methods

Technical paper recommendation: a study in combining multiple information sources (C. Basu, H. Hirsh, W. Cohen, and C. Nevill-Manning)

为申请书提取特征值

专家特征值

建立特征值相似模型评价相似程度

相关研究工作

slide10
Network flow models

Expertise Matching via Constraint-based Optimization(Wenbin Tang, Jie Tang, and Chenhao Tan)

分析专家发表论文数据得到topic分布特征

分析申请得到topic分布特征

建立专家到申请的网络流图

解决优化问题得到最大网络流

相关研究工作

slide11
现有工作的问题

难以建立完善的知识框架

特征(topic)定义对结果影响较大

没有深入挖掘学术信息网络

专家合作信息

论文引用信息

论文发表状况

相关研究工作

slide12
目录
  • 研究背景
  • 相关工作
  • 智能学者推荐算法
  • 实验验证
  • 结论及未来工作
slide13

智能学者推荐算法

主要研究内容

挖掘学术信息网络进行辅助推荐

基于动态特征提取的专家推荐

学术信息网络的存储设计和建立

slide15

学术信息网络的存储设计和建立

  • 六大实体
  • 实体关系
  • 统计信息
    • 实体排序信息
    • 关键词词频信息

学术信息网络结构

slide16
中英文信息整合

学者重名问题

中英文信息对照问题

施一公 VS. Yigong Shi、Y. G. Shi、Y Shi、Y. Shi

整合方案

学术信息网络的存储设计和建立

主要研究内容
slide17
设计目标

高召回率

要求可以针对各种类型的申请文档给出指派结果

尽量多地检测相关审阅人

低出错率

要求系统给出的指派结果不能与申请、论文完全不相关或相关性很低

需要对指派结果进行交叉验证

基于动态特征提取的专家推荐

主要研究内容
slide18

基于动态特征提取的专家推荐

主要研究内容
  • 数据处理流程
    • 申请分析
    • 备选集合筛选
    • 相似度计算
    • 结果排序
slide19
备选集合递增筛选

尽可能保证备选集合包含足够多备选学者

根据实际情况确定备选集合大小阈值K

基于动态特征提取的专家推荐

主要研究内容
slide20
动态特征选取

从申请书标题、摘要、关键词中抽取与学术信息网络中匹配的关键词

高词频划定申请的大类,低词频明确申请的研究方向

学术信息网络中的关键词及其词频是不断变化

Vp: {(k1, p1, t1), (k2, p2, t2), …, (km, pm, tm)}

Va: {(w1, s1), (w2, s2), …, (wt, st)}

基于动态特征提取的专家推荐

主要研究内容
slide21
动态特征匹配

Vp: {(k1, p1, t1), (k2, p2, t2), …, (km, pm, tm)}

Va: {(w1, s1), (w2, s2), …, (wt, st)}

基于动态特征提取的专家推荐

主要研究内容
slide22
结果排序

S {(a1, s1) , (a2, s2), …, (an, sn) }

可能导致权威性不足

相似度得分按照给定的区间(例如0.1)进行区间划分

基于动态特征提取的专家推荐

主要研究内容
slide23
指派规则回避

备选集合扩充

相似度增益

挖掘学术信息网络进行辅助推荐

主要研究内容
slide24
目录
  • 研究背景
  • 相关工作
  • 智能学者推荐算法
  • 实验验证
  • 结论及未来工作
slide25
验证方法

人工标注

验证维度

数据整合效果

动态特征提取

指派效果

实验验证

主要研究内容
slide26
验证方法

随机选择了与基金委5个领域,给出其中20名专家,输出学术信息网络中对应的学者详细信息

共分析了100位学者

每个学者5个得分点

每个得分点打分范围为[1, 4]

共2000分

数据整合效果

主要研究内容
slide27
验证结果

最终得分1194分

2分和3分的得分

比率较高

关键词得分点

得分较高

数据整合效果

主要研究内容
slide28
人工为特征打分

100篇申请

打分范围[1, 4]

总分800分

最终得分435分

打分偏向长词

动态特征提取

主要研究内容
slide29
验证方法

100篇申请

每篇申请书需要给出10为评阅人及回避的评阅人

每个评阅人打分范围[1, 4]

总分4000分

指派效果

主要研究内容
slide30
验证结果

指派召回率

对于所有100篇随机给定的申请,均给出了10位评阅人

指派准确率

最终得分2340

相关得分的比率占80%

46%可以作为指派结果

20%的指派结果需要

二次人工验证

指派效果

主要研究内容
slide31
目录
  • 研究背景
  • 相关工作
  • 智能学者推荐算法
  • 实验验证
  • 结论及未来工作
slide32
结论

中英文数据的整合较为完整

指派效果具有评阅人指派具有指导性意义,在实际使用中加入最终人工确认环节可以起到较好的效果

未来工作

更丰富的学术信息网络

使用评阅人历史信息

结论及未来工作

主要研究内容
slide33
论文

Ke Deng, Xin Li, Jiaheng Lu, Xiaofang Zhou, Best Keyword Cover Search, TKDE 2013 Accepted.

专利

分布式海量Web数据爬取共享系统,申请人陆嘉恒,李欣,姚彩云。申请日期:2013年10月11日。申请号:201310471593.5。

研究生阶段工作

主要研究内容
slide34
参与项目情况

国家863 计划项目:海量非结构化数据管理系统结构、测试与标准制定(2012AA011001)

负责数据爬取、集成实现

国家自然科学基金委面上项目:基于互联网的学术专家信息感知、挖掘与集成技术研究(M1321006)

负责数据集成、挖掘和学者指派算法的设计、开发

研究生阶段工作

主要研究内容