1 / 35

基于学术信息网络的学者智能推荐技术 研究

基于学术信息网络的学者智能推荐技术 研究. 答 辩 人 : 李欣 指 导 老 师: 周晓 方、 陆嘉恒 教授 专 业: 计算机应用技术. 2014/05/21. 目 录. 研究背景 相关工作 智能学者推荐算法 实验验证 结论及未来工作. 学术会议、学术申请中专家指派问题. 研究背景. 研究背景. 申请人填写类别、评阅回避信息. 申请按照类别进行分类. 针对每个类别按照摘要进行聚类. 专家指派(考虑相关性、回避问题). 评阅专家填写研究领域信息. 随着学术研究的不断发展,学术会议 / 期刊投稿数量激增。.

Download Presentation

基于学术信息网络的学者智能推荐技术 研究

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 基于学术信息网络的学者智能推荐技术研究 答 辩 人 : 李欣 指导 老 师: 周晓方、陆嘉恒 教授 专 业: 计算机应用技术 2014/05/21

  2. 目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作

  3. 学术会议、学术申请中专家指派问题 研究背景 研究背景 申请人填写类别、评阅回避信息 申请按照类别进行分类 针对每个类别按照摘要进行聚类 专家指派(考虑相关性、回避问题) 评阅专家填写研究领域信息

  4. 随着学术研究的不断发展,学术会议/期刊投稿数量激增。随着学术研究的不断发展,学术会议/期刊投稿数量激增。 研究背景 研究背景

  5. 政府自助机构每年收到的申请数目也大幅增长,涉及到的研究领域越来越多。政府自助机构每年收到的申请数目也大幅增长,涉及到的研究领域越来越多。 研究背景 研究背景

  6. 人工分配的问题 评审过程繁琐,会评成本高 分配人熟悉各个领域的专家 主观因素多,分配人需要考虑回避条件(合作者、同单位、同学等) 互联网上流行的多种文献信息资源组织与导航工具 研究背景 研究背景

  7. 目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作

  8. A Hybrid Knowledge and Model A Hybrid Knowledge and Model Approach for Reviewer Assignment (Yong-Hong Sun , Jian Ma) 维护树状领域字典 申请和专家必须按照 字典填写相关信息 使用给定的领域进行 指派 相关研究工作

  9. Information retrieval Methods Technical paper recommendation: a study in combining multiple information sources (C. Basu, H. Hirsh, W. Cohen, and C. Nevill-Manning) 为申请书提取特征值 专家特征值 建立特征值相似模型评价相似程度 相关研究工作

  10. Network flow models Expertise Matching via Constraint-based Optimization(Wenbin Tang, Jie Tang, and Chenhao Tan) 分析专家发表论文数据得到topic分布特征 分析申请得到topic分布特征 建立专家到申请的网络流图 解决优化问题得到最大网络流 相关研究工作

  11. 现有工作的问题 难以建立完善的知识框架 特征(topic)定义对结果影响较大 没有深入挖掘学术信息网络 专家合作信息 论文引用信息 论文发表状况 相关研究工作

  12. 目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作

  13. 智能学者推荐算法 主要研究内容 挖掘学术信息网络进行辅助推荐 基于动态特征提取的专家推荐 学术信息网络的存储设计和建立

  14. 学术信息网络的存储设计和建立 数据整合方案

  15. 学术信息网络的存储设计和建立 • 六大实体 • 实体关系 • 统计信息 • 实体排序信息 • 关键词词频信息 学术信息网络结构

  16. 中英文信息整合 学者重名问题 中英文信息对照问题 施一公 VS. Yigong Shi、Y. G. Shi、Y Shi、Y. Shi 整合方案 学术信息网络的存储设计和建立 主要研究内容

  17. 设计目标 高召回率 要求可以针对各种类型的申请文档给出指派结果 尽量多地检测相关审阅人 低出错率 要求系统给出的指派结果不能与申请、论文完全不相关或相关性很低 需要对指派结果进行交叉验证 基于动态特征提取的专家推荐 主要研究内容

  18. 基于动态特征提取的专家推荐 主要研究内容 • 数据处理流程 • 申请分析 • 备选集合筛选 • 相似度计算 • 结果排序

  19. 备选集合递增筛选 尽可能保证备选集合包含足够多备选学者 根据实际情况确定备选集合大小阈值K 基于动态特征提取的专家推荐 主要研究内容

  20. 动态特征选取 从申请书标题、摘要、关键词中抽取与学术信息网络中匹配的关键词 高词频划定申请的大类,低词频明确申请的研究方向 学术信息网络中的关键词及其词频是不断变化 Vp: {(k1, p1, t1), (k2, p2, t2), …, (km, pm, tm)} Va: {(w1, s1), (w2, s2), …, (wt, st)} 基于动态特征提取的专家推荐 主要研究内容

  21. 动态特征匹配 Vp: {(k1, p1, t1), (k2, p2, t2), …, (km, pm, tm)} Va: {(w1, s1), (w2, s2), …, (wt, st)} 基于动态特征提取的专家推荐 主要研究内容

  22. 结果排序 S {(a1, s1) , (a2, s2), …, (an, sn) } 可能导致权威性不足 相似度得分按照给定的区间(例如0.1)进行区间划分 基于动态特征提取的专家推荐 主要研究内容

  23. 指派规则回避 备选集合扩充 相似度增益 挖掘学术信息网络进行辅助推荐 主要研究内容

  24. 目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作

  25. 验证方法 人工标注 验证维度 数据整合效果 动态特征提取 指派效果 实验验证 主要研究内容

  26. 验证方法 随机选择了与基金委5个领域,给出其中20名专家,输出学术信息网络中对应的学者详细信息 共分析了100位学者 每个学者5个得分点 每个得分点打分范围为[1, 4] 共2000分 数据整合效果 主要研究内容

  27. 验证结果 最终得分1194分 2分和3分的得分 比率较高 关键词得分点 得分较高 数据整合效果 主要研究内容

  28. 人工为特征打分 100篇申请 打分范围[1, 4] 总分800分 最终得分435分 打分偏向长词 动态特征提取 主要研究内容

  29. 验证方法 100篇申请 每篇申请书需要给出10为评阅人及回避的评阅人 每个评阅人打分范围[1, 4] 总分4000分 指派效果 主要研究内容

  30. 验证结果 指派召回率 对于所有100篇随机给定的申请,均给出了10位评阅人 指派准确率 最终得分2340 相关得分的比率占80% 46%可以作为指派结果 20%的指派结果需要 二次人工验证 指派效果 主要研究内容

  31. 目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作

  32. 结论 中英文数据的整合较为完整 指派效果具有评阅人指派具有指导性意义,在实际使用中加入最终人工确认环节可以起到较好的效果 未来工作 更丰富的学术信息网络 使用评阅人历史信息 结论及未来工作 主要研究内容

  33. 论文 Ke Deng, Xin Li, Jiaheng Lu, Xiaofang Zhou, Best Keyword Cover Search, TKDE 2013 Accepted. 专利 分布式海量Web数据爬取共享系统,申请人陆嘉恒,李欣,姚彩云。申请日期:2013年10月11日。申请号:201310471593.5。 研究生阶段工作 主要研究内容

  34. 参与项目情况 国家863 计划项目:海量非结构化数据管理系统结构、测试与标准制定(2012AA011001) 负责数据爬取、集成实现 国家自然科学基金委面上项目:基于互联网的学术专家信息感知、挖掘与集成技术研究(M1321006) 负责数据集成、挖掘和学者指派算法的设计、开发 研究生阶段工作 主要研究内容

  35. 感谢各位老师的指导纠正!

More Related