1 / 40

现代信息检索 Modern Information Retrieval

现代信息检索 Modern Information Retrieval. 第○章 课程相关情况简介 (About the course) 授课人:王斌 wangbin@ict.ac.cn http://ir.ict.ac.cn/ircourse/ 2008 年 9 月. 最后更新日期: 2014/8/30. 为什么要开这门课?. 市场发展的需求. 用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易

fausto
Download Presentation

现代信息检索 Modern Information Retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 现代信息检索Modern Information Retrieval 第○章 课程相关情况简介 (About the course) 授课人:王斌 wangbin@ict.ac.cn http://ir.ict.ac.cn/ircourse/ 2008年9月 中科院研究生院2008年度秋季课程 最后更新日期:2014/8/30

  2. 为什么要开这门课? 中科院研究生院2008年度秋季课程

  3. 市场发展的需求 • 用户需要信息检索技术:互联网的信息量太大、噪音太多,寻找所需要的信息非常不容易 • 公司需要信息检索技术:信息检索技术可以挣大钱,搜索引擎改变了很多传统的生活方式,Yahoo、Google、Baidu,还有一些公司如Microsoft、Sina、Sohu、Tecent、Netease都加入到这个搜索技术的竞争。不只是搜索引擎才需要信息检索技术,电子商务(如亚马逊网站、阿里巴巴)、数字图书馆工程都需要信息检索技术 • 人才的竞争:搜索相关人才人数出现缺口,他们非常抢手,待遇如日中天 • 是不是泡沫:2000年左右出现的网络泡沫和现在的互联网有什么不同,搜索引擎在其中占什么位置? 中科院研究生院2008年度秋季课程

  4. 对计算机研究生的基本要求 • 目前国外已经开课多年,国内已经有些大学在本科阶段就开始上信息检索课,科学院研究生院要加大步伐跟进 • 信息检索将会成为一门计算机专业的基础学科 • 搜索的三个层次(个人观点) 中科院研究生院2008年度秋季课程

  5. 应用层次:搜索是一项非常重要的应用! 中科院研究生院2008年度秋季课程

  6. 中间层次:搜索是极其重要的API 中科院研究生院2008年度秋季课程

  7. www.Googlefight.com 中科院研究生院2008年度秋季课程

  8. 介绍一本有趣的书! 中科院研究生院2008年度秋季课程

  9. 核心层次:搜索是未来操作系统的重要组成部分!核心层次:搜索是未来操作系统的重要组成部分! 中科院研究生院2008年度秋季课程

  10. 上了这门课你会学到…… 中科院研究生院2008年度秋季课程

  11. 信息检索的基本原理、模型和方法(含部分机器学习、自然语言处理方法)信息检索的基本原理、模型和方法(含部分机器学习、自然语言处理方法) • 信息检索系统的基本实现方法 • 如何进行(信息检索)研究 • 选题、查找文献、读论文、做实验、写论文、作报告、写申请书等等 中科院研究生院2008年度秋季课程

  12. 提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程

  13. 提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程

  14. 老师介绍(1) • 主讲老师:王斌,中科院计算所博士毕业,副研究员。现为中科院计算所前瞻研究实验室信息检索课题组负责人。先后从事和承担信息检索、自然语言处理相关的国家级研发项目10余项,发表相关论文100余篇。培养研究生16名。计算机学会高级会员,IEEE、中文信息学会会员,中文信息学会信息检索专委会委员,《中文信息学报》编委。 • http://ir.ict.ac.cn/~wangbin/ • wangbin@ict.ac.cn • 办公电话:62601350 中科院研究生院2008年度秋季课程

  15. 老师介绍(2) • 助教:蔡少婕,中科院研究生院信息学院媒体分析课题组3年级硕士研究生。 • sjcai@jdl.ac.cn 中科院研究生院2008年度秋季课程

  16. 提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程

  17. 本课程的特点 • 不是教学生学怎么使用信息检索工具(另有课程),而是了解信息检索工具背后的基本原理和技术,并且能够进行深层的研究或开发相关的应用。 • 基本原理+广泛实践 中科院研究生院2008年度秋季课程

  18. 授课内容简介 • 信息检索的基本概念 • 信息检索的评价 • 信息检索模型和算法 • 模型、相关反馈、查询扩展 • 文本处理技术 • 文本分类和聚类技术(倾向性分析) • 信息过滤技术 • 信息组织和索引 • 并行和分布式检索 • 信息检索的应用 • WEB检索 • 数字图书馆 • 多媒体检索 • 跨语言检索及问答式系统 中科院研究生院2008年度秋季课程

  19. 授课方案 • 课堂讲述和课后练习相结合 • 讲授内容既包含传统内容,也注意吸收最新研究成果 • 学术内容和业界进展相结合 • 既考虑一般学生普及入门的需求,也考虑相关专业学生更高的要求 • 尽量用简单而风趣的语言、形象而逼真的例子进行讲授 中科院研究生院2008年度秋季课程

  20. 提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程

  21. 考核方式 • 平时作业+期末考试(开卷) • 不定期考勤 5% • 若干小作业 15% • 1个大作业 20% • 1篇申请书 10% • 1篇读书报告 15% (顶级会议论文阅读) • 期末考试 35% 中科院研究生院2008年度秋季课程

  22. 2006年选课情况分析 • 来自13个不同培养单位的62名学生选择本课程,其中计算所25人、软件所13人、自动化所5人 • 计算机类专业有48人(占总数的77.4%),图书情报类专业学生有7人(占总数的11.3%),其他专业背景的学生7人(占总数的11.3%)。 中科院研究生院2008年度秋季课程

  23. 2006年考试结果分析 中科院研究生院2008年度秋季课程

  24. 2007年选课情况分析 • 来自12个单位的71人选择该课程,其中计算所30人、网络中心8人、院图7人、软件所和自动化所各6人、其他单位14人。 • 计算机类(计算机、自动化)专业58人(占总数的81.7%)、图书情报类专业9人(占总数的12.7%) 、其他专业(信号处理、数学等)4人 (占总数的5.6%) 中科院研究生院2008年度秋季课程

  25. 2007考试结果分析 中科院研究生院2008年度秋季课程

  26. 提纲 • 授课老师介绍 • 本课程内容介绍 • 考试安排 • 其他信息 中科院研究生院2008年度秋季课程

  27. 国际著名研究机构和代表人物 • 美国康奈尔大学 Salton (1927-1995) • 现代信息检索的奠基人 • SMART的完成人 • 第一任Salton奖得主,ACM Fellow • 英国剑桥大学 Sparck Jones (1935-2007) • 概率检索模型的提出者之一 • NLP和IR中的先辈 • 曾获ACL终身成就奖和Salton奖 中科院研究生院2008年度秋季课程

  28. 国际著名研究机构和代表人物 • 美国 UMass CIIR W. B. Croft,ACM Fellow • 基于统计语言建模IR模型的提出者和倡导者 • 和CMU共同开发了Lemur工具 • Salton奖得主 • 英国Glasgow大学 Rijsbergen, ACM Fellow • 信息检索逻辑推理学派的提出者和倡导者 • 现在试图用量子物理的方法解决IR问题 • Salton奖得主 • 英国微软剑桥研究院、伦敦城市大学 Robertson • 概率检索模型的倡导者 • 开发了OKAPI • Salton奖得主 中科院研究生院2008年度秋季课程

  29. 中科院研究生院2008年度秋季课程

  30. 中科院研究生院2008年度秋季课程

  31. 国际著名研究机构和代表人物 • 美国CMU • 美国UIUC • 微软研究院 • IBM研究院 • Google研究院 中科院研究生院2008年度秋季课程

  32. 一些活跃的华裔学者 • 加拿大蒙特利尔大学聂建云教授 • 跨语言检索 • IR模型 • 美国UIUC Chengxiang Zhai博士 • IR模型 • 美国CMU Yiming Yang教授 • 文本分类 中科院研究生院2008年度秋季课程

  33. 一些活跃的华裔学者 • 台湾中研院 简立峰 • 号称“中文搜索”第一人 • 加入Google研究院 中科院研究生院2008年度秋季课程

  34. 国内一些相关研究机构 • 北京大学 • 复旦大学 • 清华大学 • 哈尔滨工业大学 • 中科院计算所 • 中科院软件所 • 中科院自动化所 • …… 中科院研究生院2008年度秋季课程

  35. 重要会议 • 国际会议(COLING2010、SIGIR2011将在北京举行): • SIGIR、ACL、WWW、SIGKDD、WSDM、ICML • CIKM、EMNLP、COLING • TREC • AIRS、ECIR • 国内会议: • 全国信息检索及内容安全学术会议(2年一届,今年11月中旬在北京西郊宾馆举行) • 全国计算语言学联合会议(2年一届) • 搜索引擎和WEB挖掘学术会议(2年一届) 中科院研究生院2008年度秋季课程

  36. 重要期刊 • 国际: • ACM Transactions on Information Systems (TOIS) • ACM Transactions on Asian Language Information Processing (TALIP) • Information Processing & Management (IP&M) • Information Retrieval • 国内 • 中文信息学报 • 情报学报 中科院研究生院2008年度秋季课程

  37. 重要工具 • Lemur:包含各种IR模型的实验平台,C++ • SMART:向量空间模型工具, C编写 • Weka:分类工具,Java编写 • Lucene:开源检索工具,各种语言编写的版本 • Larbin:采集工具,C++ • Firtex:检索平台,C++,计算所开发 中科院研究生院2008年度秋季课程

  38. 课程网站和邮件列表 • 外部网站:http://ir.ict.ac.cn/ircourse/ • 网站上有邮件列表加入方法 • 研究生院课程主页:http://elearning.gucas.ac.cn/ 中科院研究生院2008年度秋季课程

  39. 参考书籍及文献 • Baeza-Yates, R. & B. Ribeiro-Neto. eds. Modern Information Retrieval. ACM Press, 1999 (国内有机械工业出版社出版的影印版和中文翻译版) • 李国辉等著,信息的组织与检索,科学出版社,2003年 • Witten, Ian et al. Managing Gigabytes. Orlando, FL: Morgan Kaufmann Publishers Incorporated, 1999 • William Frakes & Ricardo Baeza-Yates, Information Retrieval Data Structures and Algorithms. PrenticeHall, 1992 • Karen Sparck Jones & Peter Willet eds. Readings in Information Retrieval, Morgan Kaufmann, 1997 • SIGIR/WWW/SIKDD/TREC/CIKM/ Proceedings • Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to Information Retrieval, Cambridge University Press (to appear in 2008) , 2007 Cambridge University Press. Electronic version can be downloaded from http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html 中科院研究生院2008年度秋季课程

  40. The end 中科院研究生院2008年度秋季课程

More Related