480 likes | 603 Views
网络信息检索:. 网络信息检索基础. 王建涛 QQ:47072005 Email:nbwangjt@gmail.com. 导言与课程必备 网络信息检索基础 网络信息检索工具. 导言:网络社会. 在第一次课中,我们从教育的未来视频中所了解到信息技术和网络迅猛发展。在现在的网络信息环境下,网络信息资源是我们学习、工作、生活中利用率最高的信息资源之一。对网络信息资源和网络的利用是终身学习的需要,也是个人信息素质中的重要内容。相对与图书馆纸本文献信息资源和数字资源的检索利用,其对人的影响更为深远。. 聚沙成塔:网摘工具 --- 收集网页信息.
E N D
网络信息检索: 网络信息检索基础 王建涛 QQ:47072005 Email:nbwangjt@gmail.com
导言与课程必备 • 网络信息检索基础 • 网络信息检索工具
导言:网络社会 在第一次课中,我们从教育的未来视频中所了解到信息技术和网络迅猛发展。在现在的网络信息环境下,网络信息资源是我们学习、工作、生活中利用率最高的信息资源之一。对网络信息资源和网络的利用是终身学习的需要,也是个人信息素质中的重要内容。相对与图书馆纸本文献信息资源和数字资源的检索利用,其对人的影响更为深远。
聚沙成塔:网摘工具---收集网页信息 • 天天网摘:http://www.365key.com/ • 先进行免费注册。然后下载下载并安装插件(一个注册表文件) 。安装完后,重启浏览器就能够使用天天网摘了。使用时,在页面点右键,从弹出菜单中选择“加入天天网摘”。 • 天极网摘:http://hot.yesky.com • 使用方法同上。 • 文章按类型整合,阅读方便。有文摘、图摘、闪摘、MP3摘。 • 能制作图文并茂的网摘,更生动形象。 • 其它:Google Notebook
移动网络导航:网络收藏夹---收集网址 • 央库 http://www.yangku.com • 百度收藏:http://cang.baidu.com/ • Winodws live favorites http://favorites.live.com/ • 四楼 http://www.4lou.com/ • Google bookmark (基于google工具栏)http://toolbar.google.com/T4/intl/zh-CN/ • 首页网http://www.sooyle.com/ • 抽屉http://www.chouti.com/ • social bookmarkinghttp://del.icio.us
个人仓库:网络存储空间、网络硬盘 • 存储你的文档 http://site.baidu.com/list/156wangluoyingpan.htm • 超大邮箱 Gmail和hotmailhttp://site.baidu.com/list/18youxiang.htmLive mail(原Hotmail) 5 GB(3个月不登录将自动清除) • 其实,有1个G就可以存很多文章了。
推荐:相对完美的解决方案---Google 帐户 • http://www.google.cn/ • Google首页的“登录”入口。 • Gmail -超大邮箱,很好的反垃圾邮件功能。 • iGoogle – 个性化页面。 • Reader – RSS订阅 • 文件– 移动办公环境。 • 其它:网上论坛、网页历史记录 、 Talk( 即时通讯)、日历
网络信息资源检索基础 • 网络基础 • 网络信息资源概念、类型及其特点 • 网络信息资源的评价与选择 • 网络信息检索工具
1.1 认识IP地址 • 人们为了通信的方便给每一台计算机都事先分配一个类似我们日常生活中的电话号码一样的标识地址,称作网络协议地址,是分配给主机的一个32位地址,由4个字节组成。分为动态IP地址和静态IP地址两种。动态IP地址指的是每次连线所取得的地址不同,而静态IP地址是指每次连线均为同样固定的地址。如在图书馆无线上网就是动态IP地址,每次所取得的地址不同。 • 静态地址如学校网站的IP 61.153.148.214
1.2 网络地址和认识域名 • 虽然可以通过IP地址来访问每一台主机,但是要记住那么多枯燥的数字串显然是非常困难的,为此,Internet提供了域名(Domain Name)。 • 域名也由若干部分组成,各部分之间用小数点分开,例如我校主机的域名是 :“www.nit.net.cn”。 • 域名前加上传输协议信息及主机类型信息就构成了网址(URL),例如我校www主机的URL就是:“http:// www.nit.net.cn”。 • 通常,进行网络访问时,域名的www可以省略。如http://www.edu.cn/,可以直接输入http://edu.cn。不能省略的与域名服务器的配置有关。 • 域名一般不会变动。
1.3 网络地址---网址---URL • 网络地址是URL(Uniform Resource Locator)的俗称,一般由三个部分构成,各个部分如下: • 服务器标识符:通过选择服务器标识符能够确定将要访问的服务器的类型,URL中的服务器标识符可以有HTTP://、FTP://、GOPHER://、TELNET://、NWES://等等类型,分别指定为采用超文本传输协议连接、采用文件传输协议连接、与GOPHER服务器连接、与TELNET会话连接、与USENET新闻组相连接。 • 信息资源地址:是由两部分构成的,一是机器名称,如www.edu.cn是用来指示资源所存在的机器,另一个是通信端口号,如HTTP的标准端口号为80,TELNET的标准端口号为23,FTP的标准端口号为21等等。 • 路径名:是给出资源在所在机器上的完整文件名. • 如:http://lib.nit.net.cn/index.php
1.4 域名与网络信息资源有什么关系? 由于Internet最初是在美国发源的,因此最早的域名并无国家标识,人们按用途把它们分为几个大类,它们分别以不同的后缀结尾: 随着Internet向全世界的发展,除了edu、gov、mil、一般只在美国专用外,另外三个大类com、org、net则成为全世界通用,因此这三大类域名通常称为国际域名。ac 代表科研机构 由于国际域名资源有限,各个国家、地区在域名最后加上了国家标识段,由此形成了各个国家、地区自己的国内域名,如: .com.cn 中国的商业.org.hk 香港的组织.net.jp 日本的网络 .com 商业公司 .org 组织、协会等 .net 网络服务 .edu 教育机构 .gov. 政府部门 .mil 军事领域 对网络信息资源的获取与评价有参考作用
全世界为美国打工 • 目前,全世界共有13台根服务器,其中10台在美国,而且2台由美军使用,1台由美国国家航空航天局使用。也就是说,每天世界各地的电子邮件有很多要先由美国人“过目”之后才能去它该去的地方。此外,美国私营公司掌握着全世界互联网域名的分配大权。假如美国与日本的关系急剧恶化,只要美国通过技术手段删去日本的域名“. jp”,日本马上就会成为“网上孤岛”,无法通过网络与外界联系。全世界的网络用户都要向美国支付费用,“全世界都在为美国打工”。 • 中国已经建成了世界第一个同时也是规模最大的纯IPv6网
更多…… • www指的是什么? 即是万维网(WWW-World Wide Web):是基于超文件的、方便用户在因特网上搜索和浏览信息的信息服务系统。它将位于全世界因特网上不同地点的相关数据信息有机地纺织在一起。媒体形式可以是文本、图片、动画、声音等,可以跳转,“网上冲浪”。 • 浏览web信息的网络浏览器有哪些? 微软IE (Internet Explorer )遨游(maxthon) 火狐(FireFox )网景(Netscape)腾讯TT浏览器
更多…… • 在以后的上机和课余时间,欢迎就更多的计算机基础知识和网络话题进行探讨,我很乐意同大家一起学习。 • 今后的社会,网络是一个基本要素,它将对社会经济、科技教育、国防乃至政治产生决定性的影响
2 网络信息资源概念、类型、特点 2.1 概念 网络信息资源是指信息资源以电子数据的形式存放在非印刷型的介质中,并通过网络通信手段,在计算机等终端上再现的信息的总和。
2.2 网络信息资源的类型 按信息内容的表现形式和内容划分可分为 • 全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷型期刊的电子版,网络学院的各类教材,政府出版物,标准全文等; • 事实型信息:天气预报,节目预告,火车车次,飞机航班,城市或景点介绍,工程实况、IP地址等; • 数值型信息:主要是指各种统计数据、实验数据; • 数据库类信息:如DIALOG,万方等,是传统数据库的网络化; • 微内容(web2.0特征):如博客、播客,BBS,聊天,邮件讨论组,网络新闻组等。 • 其它类型:投资行情和分析,图形图象,影视广告等。
按所采用的网络传输协议可分为 • WWW网络资源:因特网信息资源的主流,它使用http协议,使用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的文字、图象、声音和多媒体超文本信息。 • FTP信息资源:它使用ftp协议,该协议主要用语连网计算机之间传输文件。FTP相当于在网络上两个主机之间复制文件。目前仍是发布、传递软件和长文件的主要方法。 • TELNET信息资源:telnet是远程登陆协议。telnet信息资源包括硬件资源和软件资源。许多机构都提供远程登陆的信息系统,如图书馆的公共目录系统,信息服务机构的综合信息系统等。 • 用户服务组资源:包括新闻组,电子邮件组等。这些电子通信组形式所传递和交流的信息资源是网络上最自由、最具有开放性的资源。news
2.3 网络信息资源的特点 • 复杂性:网络信息资源具有大数量、多类型、多媒体、非规范、跨时间、跨地域、跨行业、多语种等特点。 • 在很大程度上网络的增长和信息资源的动态快速增加是由用户驱动的,但缺乏有效的统一管理机制,信息安全和信息质量的不均衡性。 • 信息分布和构成缺乏结构和组织,信息源不仅分散无序,而且其更跌和消亡也往往无法预测,因此增大了信息资源管理和利用的难度。 • 信息发布具有很大的自由性和任意性,隐私型信息进入了公共信息传播渠道;由于缺乏必要的过滤、质量控制和管理机制,不仅学术信息、商业信息,政府信息、个人信息、不合适(反动、黄色)的信息混为一体,质量良莠不齐。增加了信息识别和利用的难度。
续 • 正式出版物和非正式信息交流交织在一起,使传统的人类信息交流链的格局被打破,各方在网络上既可以是信息的生产者、发布者,也可以是传播者和使用者,对学术交流环境和信息利用产生了深刻的影响。 • 网络营造了“地球村”,既极大地促进了人类信息资源的共享,又带来了一些意想不到的问题,如文化冲突、信息侵略、信息威慑等。 • 使用成本低 • 共享程度高 • 是信息资源的宝库……
2.4 网络信息资源的评价与选择 相同内容的信息资源的载体形态或利用、获取的方式不同,可以根据需要选择。 网络信息资源的评价与选择主要是针对信息源。 • 内容因素。内容是评价与选择的核心和重点,从中可以反映网络信息资源的本质。评价网络信息资源的内容因素主要有:权威性、完备性、可靠性、原创性、新颖性、稳定性等。 • 形式因素。形式指标反映了外部特征以及操作使用等方面,是为提示内容服务的,主要包括:美观性、条理性、查检性、帮助性、快捷性、低耗性等。 • 定量的评价:Google的pagerank;星数评价等级。
权威性 • 在本学科领域具有一定的影响、具有较高的学术水平、具有较高的知名度;Google网页级别评价作为重要的指标,非独特性资源网页级别需3/10以上。 • 主要关注如下问题:所采集的网站(页)的主办者是否为有声誉的大学、学会/协会、实验室?网站是否通过权威评价机构评价过?所选的站点是否被多个internet站点链接?网站是由某公司、机构还是某领域的著名的权威或专家赞助?信息提供者的教育背景和职业背景及其研究方向?责任者有知名的出版物吗?信息是否经过过滤?信息是否经同行评议过?资源是否由相关的权威推荐?是否有与权威机构的页面的共同链接?出版社是否知名和有声望?出版社是否是公认的出版界的权威?出版社是否是大学的出版社?是否有任何原创作品?选择的资源与其它作品有相关性吗?
准确性 • 信息资源需严肃正规、准确无误、完整规范。一方面是内容的准确性,另一方面是格式和链接的准确性。对资源的导航需能正常访问。 • 主要考虑所选网站(页)提供的信息是否准确?是否提供了信息的来源和出处以备用户进一步核查;网页引证的书目或提供的参考能否证实信息的准确性?页面的句法和拼写是否准确?有否排印错误?提供的信息是否完整规范?
稳定性 • 信息资源需有较长的稳定期或有稳定运行的保障机制。 • 主要看所选网站(页)提供信息的时间、更新频率、最近的修改日期,链接速度,断线率等。是否能持续提供给用户使用?
可获得性 • 信息资源揭示信息的层次中,至少一个能无障碍地获得。 主要要考虑的是题名信息还是文摘信息或全文信息? 是否有对信息结论的阐述标准?是否给出了表明信息内容的关键词或主题词?希望在该网页上找到何种信息?主题的涵盖面是否全?索引或目次页是否隐含了综合性的内容?是否免费?是否注册?是否国际流量?是否符合标准?是否有其它格式或镜像? 某种类型的信息有使用期限制吗?访问资源的方式是否依赖用户使用的设备?是否需要专门软件(如浏览器)?是否有方便的导航?是否容易链接所需的信息?是否有清晰的链接标签?是否能分别打印页面和文献的某一部分?是否能发送到电子邮箱?是否提供多种检索方式?检索信息的效率如何?
附:人肉搜索 • 基于大信息环境观念的信息搜索、挖掘、选择、评价、分析、综合 • 请通过百度百科中的“人肉搜索引擎”词条了解人肉搜索http://baike.baidu.com/view/860941.htm • 人肉搜索,其实是情报学中的信息分析和情报调研过程,是信息检索技能、信息分析方法和情报调研过程的集中应用。其最大的特点是应用web2.0的思路,网聚人力,虚拟与现实结合。
3 网络信息检索工具 • 当已经知道地址时直接通过地址访问。 • 当不知道地址的时候,需要借助检索工具 • 3.1搜索引擎 • 3.2网络资源目录 • 3.3信息门户 • 3.4搜索软件
3.1 搜索引擎 • 搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。 获取更多定义:define:搜索引擎 • “机器人”工作机理 • 起始URL分析页面URL列表新页面
都有哪些搜索引擎…… • 中文搜索引擎指南网[搜网]:http://www.sowang.com/ • 搜索引擎观察[专业、元、多媒体、购物]http://searchenginewatch.com/links/ • 著名搜索引擎简介:http://www.se-express.com/about-se.htm
3.1.1 水平门户_综合搜索引擎[中文] 中文常用搜索引擎 • 百度中文搜索引擎:http://www.baidu.com/ • Google中文搜索引擎:http://www.google.cn/ • 搜狗搜索:http://www.sogou.com/ • 雅虎:http://cn.yahoo.com/ • 腾讯搜搜 http://www.soso.com/ • 中搜 http://www.zhongsou.com/ • MSN搜索 http://cn.msn.com/ • 新浪:http://cha.iask.com/ • 网易有道 :http://www.yodao.com/ • TOM搜索: http://i.tom.com/ • 北大天网搜索引擎:http://www.tianwang.com/ • 奇虎 http://www.qihoo.com/
3.1.1 水平门户_综合搜索引擎[英文] 国外英文常用搜索引擎 • Google — 以搜索精度高、速度快成为最受欢迎的搜索引擎,是目前搜索界的领军人物。 • Fast/AllTheWeb — 总部位于挪威的搜索引擎后起之秀,风头直逼google。 • AltaVista — 曾经的搜索引擎巨人,目前仍被认为是最好的搜索引擎之一。 • Overture — 最著名的搜索引擎广告商,竞价排名的始作俑者,也是全文搜索引擎。 • Lycos — 发源于西班牙的搜索引擎,网络遍布世界各地。 • HotBot — 隶属于Lycos Networks,搜索结果来自其他搜索引擎及目录索引。
Google杀手:Cuil • http://www.cuil.com/
Google杀手? WolframAlpha • http://www.wolframalpha.com/ ,将知识转化为可计算
Google新的竞争者:必应 • http://cn.bing.com/
3.1.2 垂直搜索引擎 • 垂直搜索引擎:即专业或专用搜索引擎,它专门用来检索某一主题范围或某一类型信息,追求专业性与服务深度是它的特点。 • 垂直搜索引擎不但可保证此领域信息的收录齐全与更新及时,而且检索深度和分类细化远远优于综合搜索引擎。垂直搜索引擎的检出结果虽可能较综合搜索引擎少,但 检出结果重复率低、相关性强 、查准率高,适合于满足较具体的 、针对性强的检索要求 。目前已经涉及到购物,旅游,汽车,工作,房产,交友等行业。
垂直搜索引擎举例:1 找工作的搜索引擎:http://www.deepdo.com/http://www.totojob.com/ google学术搜索:http://scholar.google.com/ google图书搜索:http://book.google.com/Patent Search 比价购物搜索引擎:http://go.8848.com/http://www.askyaya.com/博客与RSS搜索引擎:http://www.oao.cn/ [中客]http://so.blogchinese.com/ [博客中国人]http://www.feedsearch.net/http://www.8fang.net/ [八方 ]人脉搜索引擎: http://www.linkist.com/ [交友,找工作, 商机]https://www.linkedin.com/http://www.digdig.com.cn/ [人物、软件]论坛搜索引擎:http://www.teein.com/
垂直搜索引擎举例:2 The Music Finder http://www.music-finder.netSingingfish(只能搜寻声音和录像) http://www.singingfish.com旅行TripAdvisor http://www.tripadvisor.com计算机科学研究和文章 http://www.researchindex.com图像搜索引擎:http://cn.gograph.com/ [图像词典] 商业搜索引擎Business http://www.business.com生意定向搜索引擎。 DailyStocks http://www.dailystocks.com可以了解被查询公司存货的信息已经相关的新闻报导,研究, 引述和其他数据。 FMLX http://www.fmlx.com 英国定向的关于公司,存货数据,分析和研究的搜索引擎。 eBizSearch http://www.ebizsearch.org 关于电子商务的文章和报告。
3.1.3 综合搜索引擎的专门化趋势 • 搜狗(Sogou) [人物、音乐、购物、图片、地图] http://www.sogou.com/gengduo.htm • GOOGLE 学术搜索:http://scholar.google.com/ • GOOGLE 图书搜索http://book.google.cn/http://book.google.com/ • AllTheWeb [能专门对图像、多媒体信息。] http://www.alltheweb.com
更多搜索引擎: • 参见“搜索引擎观察”之专门搜索引擎 • Answers Searching| Computer Search Engines • Domain Searching| Financial Search Engines • Government Search| Invisible Web (看不见的网页) • Legal Search Engines| Mailing Lists • Medical Search Engines| Newsgroup Search • Science Search Engines|Shopping Search • Travel Search Engines| WAP Search Engines
3.1.4 元搜索引擎 • 元搜索引擎(matesearch)又称集合型搜索引擎,将多个单一搜索引擎集成在一起,提供统一的检索界面,将用户的检索提问一次搜索多个搜索引擎,并将结果返回给用户。有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合。 优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的广度。 缺点:因为有时后并不能对一个搜索引擎全部查完,有时后也会漏掉一些重要信息。
中文元搜索引擎 • 早期的元搜索引擎 • metaFisher中文元搜索引擎 http://www.hsfz.net.cn/fish/做的较早,核心功能较弱,没有现代主流搜索引擎的界面风格。 • 万纬搜索 http://www.widewaysearch.com/ 功能上和第一个元搜索引擎一样,核心功能很弱,制作一般 • 多元搜索 http://web.soaso.com/做得较早,虽然号称整合的搜索引擎最多,但实际使用效果很差,查询速度也慢,返回结果基本未作处理。 • 新近出现的元搜索引擎 • http://www.seekle.cn/集合了Google,Baidu,Sogou,Yahoo四大中文搜索引擎的结果。特色:有深入搜索提示 • 知识搜索 http://www.zhihere.com/search/主要用作学习工具,功能上尽量保证全面实用 • 一家搜 http://www.ejear.com/对相似结果的处理有点特色 • bbmao http://www.bbmao.com是国内唯一具有自动聚类功能的元搜索引擎,技术和功能上都比较强 • 狠搜 http://www.hensou.com/可以定制源搜索引擎,同时提供商业信息搜索,核心功能一般
3.2 网络资源目录 • 由人工采集网上信息,然后按照一定分类标准,比如学科类型、主题等,建立网站分类目录,并将筛选后的信息分门别类放入各类目中供用户进行浏览。 • 优点:1 .信息组织的专题性较强,满足族性检索要求;2.使用简单,只要选择相关类目,依照页面之间的超链接指引很快就能到达目的信息,适于检索不熟悉的领域或建议不熟悉网络的用户使用. • 缺点:1.人工采集信息的收录范围小,更新慢;2.受主观因素影响,类目设置不够科学,缺少规范
搜索引擎目录[目录索引]:新浪目录http://dir.iask.com/搜索引擎目录[目录索引]:新浪目录http://dir.iask.com/ • 开放目录[ODP] http://dmoz.org/、http://odp.nit.net.cn/中国艺术开放目录 http://www.aod.org.cn/http://china.ndodo.com/ • 专题网址如搜索引擎的专题网址:http://daohang.google.cn/?hl=zh-CN&tab=wA 什么情况下使用网络资源指南? • 当检索一个范围较广的题目,并希望了解与该题目相关的信息时。 • 当没有明确的信息需求,仅仅想在网络上“溜达”时。 • 仅仅想浏览某一方面的消息和动态信息时,并不严格限于某几个检索词的。 • 当信息需求更专一时。
3.3 信息门户 • 学科信息门户、行业信息门户、政府信息门户、商业信息门户、公司信息门户 • 中国医药网 http://www.pharmnet.com.cn/提供几十种医药行业领域的各类数据库。如关于药品标准,在其药典部分,收录内容包括:中国药典2005版、中国药典2000版、中药部颁、西药部颁、中药注射剂标准、部颁药材标准、新药转正标准、藏药部颁。数据涉及标准源、质量指标、检验方法、生产工艺、处方、制法、鉴别、功能主治等内容。 • 中国医药信息网:http://www.cpi.gov.cn/国家食品药品信息管理中心主办,也提供大量的数据库和数据查询。 • 学科信息门户列表 • 如导航库请用“学科导航库”在搜索引擎搜索
3.4 搜索软件(工具) • 中华搜索宝 http://www.chinassb.com/ • 更多http://download.enet.com.cn/subcategory.php?scid=119
小结 • 网络常备工具 • 与网络相关的一些基本概念:IP、域名、URL、www • 网络信息资源的类型不仅仅是网页形式(www)的信息资源,还有FTP等形式的信息资源。 • 网络信息资源比传统文献信息资源复杂,利用和开发都很难 • 网络信息资源的评价与选择是有一些基本方法可循的 • 搜索引擎除了综合性搜索引擎外,还有更多特色的垂直搜索引擎,以及整合多个搜索引擎搜索结果的元搜索引擎 • 除了搜索引擎是网络信息检索的重要工具外,还有信息门户、网页目录以及搜索软件等
一些疑问? • 搜索引擎到底有什么搜索技术? • 搜索引擎技术都有哪些应用? • 是不是也有应用实例演示? • …… • 我们将进入本次课程下一个部分的学习…………
欢迎提问! 欢迎交流!