350 likes | 440 Views
基于学术信息网络的学者智能推荐技术 研究. 答 辩 人 : 李欣 指 导 老 师: 周晓 方、 陆嘉恒 教授 专 业: 计算机应用技术. 2014/05/21. 目 录. 研究背景 相关工作 智能学者推荐算法 实验验证 结论及未来工作. 学术会议、学术申请中专家指派问题. 研究背景. 研究背景. 申请人填写类别、评阅回避信息. 申请按照类别进行分类. 针对每个类别按照摘要进行聚类. 专家指派(考虑相关性、回避问题). 评阅专家填写研究领域信息. 随着学术研究的不断发展,学术会议 / 期刊投稿数量激增。.
E N D
基于学术信息网络的学者智能推荐技术研究 答 辩 人 : 李欣 指导 老 师: 周晓方、陆嘉恒 教授 专 业: 计算机应用技术 2014/05/21
目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作
学术会议、学术申请中专家指派问题 研究背景 研究背景 申请人填写类别、评阅回避信息 申请按照类别进行分类 针对每个类别按照摘要进行聚类 专家指派(考虑相关性、回避问题) 评阅专家填写研究领域信息
随着学术研究的不断发展,学术会议/期刊投稿数量激增。随着学术研究的不断发展,学术会议/期刊投稿数量激增。 研究背景 研究背景
政府自助机构每年收到的申请数目也大幅增长,涉及到的研究领域越来越多。政府自助机构每年收到的申请数目也大幅增长,涉及到的研究领域越来越多。 研究背景 研究背景
人工分配的问题 评审过程繁琐,会评成本高 分配人熟悉各个领域的专家 主观因素多,分配人需要考虑回避条件(合作者、同单位、同学等) 互联网上流行的多种文献信息资源组织与导航工具 研究背景 研究背景
目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作
A Hybrid Knowledge and Model A Hybrid Knowledge and Model Approach for Reviewer Assignment (Yong-Hong Sun , Jian Ma) 维护树状领域字典 申请和专家必须按照 字典填写相关信息 使用给定的领域进行 指派 相关研究工作
Information retrieval Methods Technical paper recommendation: a study in combining multiple information sources (C. Basu, H. Hirsh, W. Cohen, and C. Nevill-Manning) 为申请书提取特征值 专家特征值 建立特征值相似模型评价相似程度 相关研究工作
Network flow models Expertise Matching via Constraint-based Optimization(Wenbin Tang, Jie Tang, and Chenhao Tan) 分析专家发表论文数据得到topic分布特征 分析申请得到topic分布特征 建立专家到申请的网络流图 解决优化问题得到最大网络流 相关研究工作
现有工作的问题 难以建立完善的知识框架 特征(topic)定义对结果影响较大 没有深入挖掘学术信息网络 专家合作信息 论文引用信息 论文发表状况 相关研究工作
目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作
智能学者推荐算法 主要研究内容 挖掘学术信息网络进行辅助推荐 基于动态特征提取的专家推荐 学术信息网络的存储设计和建立
学术信息网络的存储设计和建立 数据整合方案
学术信息网络的存储设计和建立 • 六大实体 • 实体关系 • 统计信息 • 实体排序信息 • 关键词词频信息 学术信息网络结构
中英文信息整合 学者重名问题 中英文信息对照问题 施一公 VS. Yigong Shi、Y. G. Shi、Y Shi、Y. Shi 整合方案 学术信息网络的存储设计和建立 主要研究内容
设计目标 高召回率 要求可以针对各种类型的申请文档给出指派结果 尽量多地检测相关审阅人 低出错率 要求系统给出的指派结果不能与申请、论文完全不相关或相关性很低 需要对指派结果进行交叉验证 基于动态特征提取的专家推荐 主要研究内容
基于动态特征提取的专家推荐 主要研究内容 • 数据处理流程 • 申请分析 • 备选集合筛选 • 相似度计算 • 结果排序
备选集合递增筛选 尽可能保证备选集合包含足够多备选学者 根据实际情况确定备选集合大小阈值K 基于动态特征提取的专家推荐 主要研究内容
动态特征选取 从申请书标题、摘要、关键词中抽取与学术信息网络中匹配的关键词 高词频划定申请的大类,低词频明确申请的研究方向 学术信息网络中的关键词及其词频是不断变化 Vp: {(k1, p1, t1), (k2, p2, t2), …, (km, pm, tm)} Va: {(w1, s1), (w2, s2), …, (wt, st)} 基于动态特征提取的专家推荐 主要研究内容
动态特征匹配 Vp: {(k1, p1, t1), (k2, p2, t2), …, (km, pm, tm)} Va: {(w1, s1), (w2, s2), …, (wt, st)} 基于动态特征提取的专家推荐 主要研究内容
结果排序 S {(a1, s1) , (a2, s2), …, (an, sn) } 可能导致权威性不足 相似度得分按照给定的区间(例如0.1)进行区间划分 基于动态特征提取的专家推荐 主要研究内容
指派规则回避 备选集合扩充 相似度增益 挖掘学术信息网络进行辅助推荐 主要研究内容
目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作
验证方法 人工标注 验证维度 数据整合效果 动态特征提取 指派效果 实验验证 主要研究内容
验证方法 随机选择了与基金委5个领域,给出其中20名专家,输出学术信息网络中对应的学者详细信息 共分析了100位学者 每个学者5个得分点 每个得分点打分范围为[1, 4] 共2000分 数据整合效果 主要研究内容
验证结果 最终得分1194分 2分和3分的得分 比率较高 关键词得分点 得分较高 数据整合效果 主要研究内容
人工为特征打分 100篇申请 打分范围[1, 4] 总分800分 最终得分435分 打分偏向长词 动态特征提取 主要研究内容
验证方法 100篇申请 每篇申请书需要给出10为评阅人及回避的评阅人 每个评阅人打分范围[1, 4] 总分4000分 指派效果 主要研究内容
验证结果 指派召回率 对于所有100篇随机给定的申请,均给出了10位评阅人 指派准确率 最终得分2340 相关得分的比率占80% 46%可以作为指派结果 20%的指派结果需要 二次人工验证 指派效果 主要研究内容
目录 • 研究背景 • 相关工作 • 智能学者推荐算法 • 实验验证 • 结论及未来工作
结论 中英文数据的整合较为完整 指派效果具有评阅人指派具有指导性意义,在实际使用中加入最终人工确认环节可以起到较好的效果 未来工作 更丰富的学术信息网络 使用评阅人历史信息 结论及未来工作 主要研究内容
论文 Ke Deng, Xin Li, Jiaheng Lu, Xiaofang Zhou, Best Keyword Cover Search, TKDE 2013 Accepted. 专利 分布式海量Web数据爬取共享系统,申请人陆嘉恒,李欣,姚彩云。申请日期:2013年10月11日。申请号:201310471593.5。 研究生阶段工作 主要研究内容
参与项目情况 国家863 计划项目:海量非结构化数据管理系统结构、测试与标准制定(2012AA011001) 负责数据爬取、集成实现 国家自然科学基金委面上项目:基于互联网的学术专家信息感知、挖掘与集成技术研究(M1321006) 负责数据集成、挖掘和学者指派算法的设计、开发 研究生阶段工作 主要研究内容