1 / 27

因特网信息资源检索

因特网信息资源检索. 孟祥娟 邮箱: MXJCHCH@163.COM. 因特网信息资源检索.   因特网是一个信息的海洋,如何在这个浩瀚的海洋中迅速而准确地找到你想要的信息呢?. 搜索引擎 (Search Engine). 因特网信息资源检索. § 什么是搜索引擎?. 它以一定的策略在因特网中搜集、发现信息;. 它对信息进行理解、提取、组织和处理;. 它为用户提供检索服务,从而起到信息导航的目的。. 因特网中的信息检索. § 常用信息检索方式. 目录索引. ( 分类搜索 ). 全文搜索. ( 关键字搜索 ). 因特网中的信息检索. § 特色信息检索方式.

Download Presentation

因特网信息资源检索

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 因特网信息资源检索 孟祥娟 邮箱:MXJCHCH@163.COM

  2. 因特网信息资源检索   因特网是一个信息的海洋,如何在这个浩瀚的海洋中迅速而准确地找到你想要的信息呢? 搜索引擎(Search Engine)

  3. 因特网信息资源检索 §什么是搜索引擎? • 它以一定的策略在因特网中搜集、发现信息; • 它对信息进行理解、提取、组织和处理; • 它为用户提供检索服务,从而起到信息导航的目的。

  4. 因特网中的信息检索 §常用信息检索方式 目录索引 (分类搜索) 全文搜索 (关键字搜索)

  5. 因特网中的信息检索 §特色信息检索方式 我们经常使用的一般是综合信息检索工具,而当我们要查找图片、音 频资料、个人电话、地图等信息时,使用综合搜索引擎会找到很多无用的 信息,而且搜索的效率和有效性都不高。 如何解决这个问题呢? 特色搜索引擎(有时是综合检索工具其中的一个功能)。 专门收集某一类的 信息资源,内容丰富,数据量大,能帮助我们迅速找到一些有用的信息。

  6. 因特网中的信息检索 §特色信息检索方式

  7. 因特网中的信息检索 §专业搜索引擎 专业性质的搜索引擎,如 SOSIG 是社会科学信息的专门 的信息检索工具Fhttp://www.sosig.ac.ukG,涉及经济学、哲学、教育、政治、 环境科学、心理学、人类学、社会福利、政府、管理和妇女研究等信息资源。

  8. 因特网中的信息检索 §其他信息检索工具 FTP搜索引擎 FTP搜索引擎的功能是搜集匿名FTP服务器提供的目录列表以及向用户提供文件信息的查询服务。 由于FTP搜索引擎专门针对各种文件,因而相对WWW搜索引擎,寻找软件、图像、电影和音乐等文件时,使用FTP搜索引擎更加便捷。

  9. 因特网中的信息检索 §其他信息检索工具 Archie程序 Archie是第一个自动索引因特网上匿名FTP 网站文件的程序,当时因特网还未出现,但网络中文件传输相当频繁,由于大量的文件散布在各个分散的FTP主机中,查询起来非常不便, 因此,1990 年McGill University的学生Alan Emtage 等想到了开发一个可以用文件名查找文件的系统,于是便有了Archie。

  10. 因特网中的信息检索

  11. 因特网中的信息检索

  12. 因特网中的信息检索 §元搜索引擎 是一种调用其他多个独立搜索引擎的引擎,是对多个独立搜索引擎的整合、调用、控制和优化,能方便地检索多个搜索引擎,扩大搜索范围,提高检索的全面性。 为了借用尽可能多的搜索引擎,元搜索通常只使用简单、直接的搜索策略,一般只支持AND、OR、NOT等比较低级的通用搜索操作,并且检索速度也慢。

  13. 因特网中的信息检索 §因特网信息检索发展趋势 多媒体信息检索 因特网上激增的多媒体数据除了包括传统的文本和数字外,还包括图形、图像、视频、音频、动画。每一种多媒体数据中都有一些特殊的数据,这些数据难以用字符来描述。 另外,由于多媒体形式的多元化和特征的多维性,不同的人因知识、经验不同而有不同的理解,在很多情况下,多媒体信息也无法直接用几个关键字加以描述。

  14. 因特网中的信息检索 §因特网信息检索发展趋势 专业垂直搜索引擎 综合性的搜索引擎收录各方面、各学科、各行业的信息,对用户来说,不相关的信息太多。 垂直类搜索引擎是只面向某一特定领域,专注于自己的特长和核心技术,能够保证对该领域信息的完全收录与及时更新。

  15. 信息检索工具的工作原理 §全文搜索引擎的工作原理 我们先来看一个生活中的小例子。。。 你去买笔,通常会有以下这段对话: 你对老板说:“我要买支笔。” 老板问:“什么笔?” 你对老板说:“圆珠笔。” 老板问:“什么颜色?” 你第老板说:“蓝色。” 老板从柜台拿出一支蓝色的圆珠笔。 购物流程 检索流程

  16. 信息检索工具的工作原理 §全文搜索引擎的工作原理 搜索引擎是如何搜索信息的呢?

  17. 信息检索工具的工作原理 §全文搜索引擎的工作原理 搜索引擎的工作包括三个过程: Step1: 搜索器在因特网中发现、搜索网页信息; Step2: 索引器对所搜集的信息进行提取和组织,并建立索引库; Step3: 由检索器根据用户输入的查询关键词,在索引库中快速检索出相关的文档,进行文档与查询内容的相关度比较,对检出的结果进行排序,并将查询结果返回给用户。

  18. 信息检索工具的工作原理 §全文搜索引擎的工作原理 实例分析:你在“百度”搜索引擎中输入“北京概况”进行检索,结果出来后,有上万条信息,查看其中一项,就看到了相应的网页。(中国西部投资网http://www.cwinvest.com/tzhj.asp?dq=11) 三个过程 : Step1 “百度”的“蜘蛛”程序“爬”到了“中国西部投资网”上,抓到了“http://www.cwinvest.com/tzhj.asp?dq=11”页面; Step2 从页面全文中抽取一系列关键字,包括“北京”、“概况”等等,并把网页网址与这些关键字关联,利用“索引器”建立网页索引数据库; Step3 当用户向“百度”提交了关键字,“百度”就利用“检索器”从索引数据库中搜索,并将搜索到的结果展示在页面上。

  19. 信息检索工具的工作原理 §全文搜索引擎的工作原理 “百度”的“蜘蛛”是如何知道有(中国西部投资网http://www.cwinvest.com/tzhj.asp?dq=11)这个网页的呢? 1、“北京国际投资促进网”在“百度”的网站目录中注册过,“蜘蛛”顺着注册的地址找到其首页,并顺着首页找到“北京概况”这个特定页面。 两个可能 : 2、“蜘蛛”顺着其他网站上的“中国西部投资网”链接爬到了其首页上,并顺藤摸瓜,抓到了“北京概况”这个页面。

  20. 信息检索工具的工作原理 §目录索引类搜索引擎的工作原理 目录索引类搜索引擎一般采用人工方式采集和存储网络信息,依靠手工为每个网站确定一个标题,并给出大概的描述,建立关键字索引,将其放入相应的类目体系中。

  21. 信息检索工具的工作原理 §目录索引类搜索引擎的工作原理 如何进行目录分类呢? 网络目录通常是按网络资源的主题性质进行分类,以某种分类体系为依据,将信息资源分为若干领域的主题范畴,然 后再细分为各科专题目录,最后列出具体的相关网站(资源),形成一个由信息链组成的树状结构,即总目录-专题目录-链接-网站。

  22. 信息检索工具的工作原理 §目录索引类搜索引擎的特点 从使用的角度讲,目录索引类搜索引擎最大的特点就是在查询信息时,事先可以没有特定的信息检索目标(关键词),通过浏览主题了解某一主题的相关资源。 1 而且,目录索引类搜索引擎的网页由人工精选,网页内容丰富,学术性较强。 2

  23. 信息检索工具的工作原理 §目录索引类搜索引擎的不足 因特网上的信息量大,信息资源不断增加、复杂多变,人工分类具有一定的主观性; 同时,由于人工编制和维护要花费大量的人力和时间, 因此,更新速度慢。 1 部分网络目录并不全是人工方式采集和组织信息,而是利用自动功能或者由用户递交的方式来丰富和补充资源。 2 由于目录索引类搜索引擎与全文搜索引擎检索有各自的优点和缺点,目前它们谁也无法完全取代谁,于是很多搜索网站都同时提供这两种类型的服务,例如 Yahoo、Sina 等。

  24. 信息检索工具的工作原理 §因特网信息资源检索的一般策略

  25. 常用医学网站 • 国外生物医学网站 美国国家医学图书馆 (http://www.nlm.nih.gov) 美国国家卫生研究院( http://www.nih.gov ) 世界卫生组织 WHO ( http://www.who.int) 美国疾病控制预防中心( http://www.cdc.gov ) MerckMedicus ( http://www.merckmedicus.com )

  26. 常用医学网站 • 国内生物医学网站 中国医学生物信息网 (http://cmbi.bjmu.cn) 中华人民共和国卫生部( http://www.moh.gov) 中国疾病控制预防中心( http://www.chinacdc.net.cn ) 中华医学会(http://www.cma.iorg.cn ) 丁香园生物医学科技网 ( http://www.dxy.cn )

  27. 因特网信息资源检索 课堂实践

More Related