网络信息资源选择

网络信息资源选择

提纲： 广义网络信息资源狭义网络信息资源

设别网络信息资源 什么是网络资源？随着科技的迅速发达，有许多信息资源藉由网络而生。WWW（World Wide Web）是国际互联网中一种主流服务形式，因此Web资源，也就是我们常见和常用的网络资源类型。广义的学术性的网络资源不仅包括图书馆网络数据库资源与目录，还有更多的散布在网络上的有价值的学术信息。充分利用网络资源，可以帮助我们拥有一个更广泛、更及时、更有效的信息资源环境。狭义的网络资源主要指WWW网页资源。本讲座先从网页资源谈起，对图书馆网络数据库以举例形式来说明

网页内容的分类 网页的内容分为五大类：个人网页公司/企业/营利机构网页政府网页非政府机构、专业组织网页教育机构网页

各类型网页资源后缀

网页资源查找途径 1. 学科信息门户的利用学科信息门户是一种整合学科领域的文献信息资源和服务，对特定学科领域网络资源提供权威可靠的导航，提供信息查询和定制服务的系统。它将任何与某一特定学科领域有关的网络资源进行系统收集，构成以学科分类和资源类型为核心的、多功能交叉检索的规范专业的网络资源导航系统，面向科研、兼顾教育以及其他用户，提供免费的学科领域网络信息资源。借助于这些学科信息门户，您可以很快地发现在您关心的学科领域或专题中，有什么政府网站、有什么相关组织和机构、有什么同行论坛、有什么工具网站，还有什么相关的政策文件、软件平台、学术团体等等信息。

网页资源查找途径 2、搜索引擎的利用通过网络搜索引擎查询网络资源是最方便、最快捷的途径。可时，因为不同的搜索引擎在查询范围、检索功能及检索方法上各有差异，因此有必要熟悉和掌握一些常用搜索引擎的性能、特点和一般使用方法；为了获得较理想的搜索效果，还可以使用多个搜索引擎。

学术性的搜索引擎

网页信息资源评价 形形色色、各式各样的网络资源，真的可以说是取之不尽用之不绝啊！但是，有太多的信息垃圾夹杂在真正有用的信息宝藏之间，我们要怎么样去选择、评估这些检索到的资源呢？我们又该以怎样的准则去评估呢？

这个评估准则是由UCLA（University of California, Los Angeles）Grassian和Zwemer二位学者所提出的六项准则：

1.权威性(authority)和正确性(accuracy) (1)看看网页上的信息是由谁放上去的？(2)网页作者的身份背景、学经资历、以及在此学科方面的权威性如何？(3)是否有提供一种查证渠道，可以验证网页上所提供的信息？

2.观点立场(advocacy)和客观性(objectivity) (1)网页的作者所提供的信息是事实，还是个人之意见、亦或是揣测之词呢？(2)提供论点或意见是以中立者的角度来叙述或是以主观者的角度在评论？注意是否具有相当的客观性？(3)网页内容的观点和立场是否与常理相违背？亦或是谬论？

3.时效和(currency)范围(coverage) (1)网页内容似否有时时更新、或定期更新？并且有没有把更新日期标示出来？(2)注意网页信息是不是最新的？或是已过时？(3)网页内容是否完整涵盖了主要的范围？与主题相关的资料是断章取义、还是搜集完备？

深网资源 一直以来，人们对于搜索引擎最大的误解就是认为它能提供对网络最为全面的覆盖。事实上，没有任何一个搜索引擎能知道网站的每一个网页。由于搜索引擎在网络信息资源采集方法、索引技术和处理能力等方面的原因，致使越来越多的信息不能被有效地索引而被隐藏起来，从而形成了为数众多的看不见的网站。看不见的网站是指在万维网上可获得的资源，但由于技术限制，或是由于特定选择而不能或未被纳入通用搜索引擎网页索引中的文本网页、文件或其他高质量的权威性信息资源。我们有时也叫它“深度网站”或“黑洞”。具体地说，看不见的网站有通用搜索引擎所不包含的内容。实际上这些内容本身并不是“看不见的”，只有由于绝大部分网络用户使用信息检索工具很难找到这些内容而已。除非你知道它的确切位置，否则就很难找到它。国外对深网的研究只有10年左右的时间。1994年，Jill Ellsworth博士首次提出隐形网的概念，但没有引起重视。直到2000年以后，才又有相关的研究论文及成果发表，并迅速引发了热烈的讨论。

Chris Sherman和Gary Price将“隐形网”定义为：“在互联网上可获得的但传统的搜索引擎由于技术限制不能或者经过慎重考虑后不愿意作索引的那些文本网页、文件或其他高质量的全文信息。”Michael Dahn持有类似的观点，认为：“隐形网由可检索的但内容不能被传统搜索引擎索引的信息资源组成。这些信息资源包括数据库、档案资料和交互式工具如计算器、字典。由于这些信息资源被嵌入在成千上万的个人Web站点，因此对于目前的搜索引擎来说是不可见的。”

国内的研究者也大多倾向于从这个角度来认识深网。有的学者称之为“看不见的网站”，有的称之为“隐形网络”，还有的称之为“隐性信息”、“隐蔽网络”。无论是“看不见”，还是“隐形”、“隐性”、“隐蔽”，都是相对于搜索引擎而言的。

2000年，BrightPlanet公司首创了“深网”术语，用来表述那些将信息内容存贮在检索数据库中而仅仅响应直接查询提问的网站。由此可以看出，“深网”与“隐形网”表述的是同一个概念。许多研究者将这两个术语作为同义词同时使用，但是这二者之间还是有着微妙的区别。2000年，BrightPlanet公司首创了“深网”术语，用来表述那些将信息内容存贮在检索数据库中而仅仅响应直接查询提问的网站。由此可以看出，“深网”与“隐形网”表述的是同一个概念。许多研究者将这两个术语作为同义词同时使用，但是这二者之间还是有着微妙的区别。

“深网”隐含着对信息内容结构的揭示。与“深网”相对应的概念是“表面网”，它包括的内容基本上都是非结构化的HTML信息，而深网包括的内容大多数为结构化的数据库信息，因此，“深”在这里就有了结构层次更丰富的意味。同时，“深网”更多地考虑了信息用户和信息服务的因素。“深”还意味着用户获取所需信息的难度更大，需要使用更多的精力和更精致的检索策略，因而需要更细致更深入的信息服务。“深网”隐含着对信息内容结构的揭示。与“深网”相对应的概念是“表面网”，它包括的内容基本上都是非结构化的HTML信息，而深网包括的内容大多数为结构化的数据库信息，因此，“深”在这里就有了结构层次更丰富的意味。同时，“深网”更多地考虑了信息用户和信息服务的因素。“深”还意味着用户获取所需信息的难度更大，需要使用更多的精力和更精致的检索策略，因而需要更细致更深入的信息服务。

“隐形网”则是以搜索引擎为中心，把搜索引擎作为获取网络信息的惟一途径。但事实上搜索引擎只是获取信息的一种方式。但“隐形网”术语本身存在一个悖论：“网上搜索引擎搜索的内容也是存储在数据库中，且只有在用户查询时才能提供。我们是不是也应该把搜索引擎收录的信息看成隐形的?我们将某种仅可通过用户查询才能获取的东西视作隐形的(隐形网)，因为它不能从另外一种仅可通过用户查询才能获取的东西(搜索引擎)获取，这种逻辑站不住脚。”　　因此，“深网”这个术语相对而言更准确，更能反映网络信息资源开发与利用的方向。

BrightPlanet公司对深网的规模和相关性进行了研究，结果显示：深网中的公共信息是表面网的400～550倍；深网的容量有7500TB，而表面网只有19TB；深网有近5500亿个独立文件，而表面网只有10亿；目前存在的深网网站已经突破20万个；60个最大的深网网站共包含750TB的信息，比表面网信息的40倍还多；深网的月流量通常比表面网要多出50％，并且更容易被链接；深网是Internet上增长最快的新信息类型；在内容上，深网网站比传统的表面网站要更专、更深；深网内容的全部价值是表面网的1000至2000倍；深网的信息内容与所有的信息需求、市场和领域高度相关；一半以上的深网内容存贮在专题数据库中：95％的深网信息可以公共获取而无需付费或订阅。BrightPlanet公司对深网的规模和相关性进行了研究，结果显示：深网中的公共信息是表面网的400～550倍；深网的容量有7500TB，而表面网只有19TB；深网有近5500亿个独立文件，而表面网只有10亿；目前存在的深网网站已经突破20万个；60个最大的深网网站共包含750TB的信息，比表面网信息的40倍还多；深网的月流量通常比表面网要多出50％，并且更容易被链接；深网是Internet上增长最快的新信息类型；在内容上，深网网站比传统的表面网站要更专、更深；深网内容的全部价值是表面网的1000至2000倍；深网的信息内容与所有的信息需求、市场和领域高度相关；一半以上的深网内容存贮在专题数据库中：95％的深网信息可以公共获取而无需付费或订阅。

深网规模越来越大，并且包含的信息内容质量好、价值高，这些都吸引了信息供应商和信息服务商越来越强烈的关注。各大搜索引擎要想巩固甚至强化在搜索市场的地位，就必须重视深网，发展搜索技术，提高竞争力。各大搜索引擎公司的新一轮角逐已经进入深网领域。深网规模越来越大，并且包含的信息内容质量好、价值高，这些都吸引了信息供应商和信息服务商越来越强烈的关注。各大搜索引擎要想巩固甚至强化在搜索市场的地位，就必须重视深网，发展搜索技术，提高竞争力。各大搜索引擎公司的新一轮角逐已经进入深网领域。 2004年2月底，Google声称该公司的搜索数据库收录了60亿个页面，并有望成为全球最大的信息资源库。一周以后，Yahoo!网站介绍了其最新的“内容获取项目”，该项目试图通过接触大约100亿到1000亿个“深网”页面，提升Yahoo 索引项的全面性，借此夺回其在上世纪90年代末期一直占据的网上搜索市场的霸主地位。但是，无论技术如何发展，受信息生产规模扩大、网页信息更新频率加快、新的文件格式出现等因素的影响，深网将一直存在，并将越来越“深”。

深网资源的类型 1．未被链接的网页。根据搜索引擎原理，若没有任何其他网页链接指向某一网页，搜索引擎的Spider程序就不能沿着其他网页中的URL爬行到该网页，也就不能将该网页的相关信息搜集到索引库，那么通过搜索引擎就无法找到这些未被链接的孤岛网页。未被链接的网页是深网最基本的组成部分。可以采取两种方法让未被链接的网页逃逸出深网，成为易于被搜索到的表面网中的内容：一是在被链接的网页中添加未被链接网页的链接，使得Spider程序能够发现这一链接，并索引该网页；二是网页设计者向搜索引擎提交网址，使得该网页能够被搜索引擎索引。

2．动态生成的网页。当搜索引擎的Spider程序遇到大量由cgi、asp、javascript等专门制作动态网页的脚本语言所编写的网页或者URL中包含“?”的动态网页时，一般会很慎重地考虑是否索引该网页。从技术层面来说，这些动态生成的网页是可以被搜索引擎索引的。但是，有些不道德的程序员试图编写恶意程序“诱骗”搜索引擎来索引，并由此导致Spider程序进入死循环。因此，如果不是值得足够信赖的网站，搜索引擎为了避免“机器人陷阱”都会拒绝索引这些动态生成的网页。2．动态生成的网页。当搜索引擎的Spider程序遇到大量由cgi、asp、javascript等专门制作动态网页的脚本语言所编写的网页或者URL中包含“?”的动态网页时，一般会很慎重地考虑是否索引该网页。从技术层面来说，这些动态生成的网页是可以被搜索引擎索引的。但是，有些不道德的程序员试图编写恶意程序“诱骗”搜索引擎来索引，并由此导致Spider程序进入死循环。因此，如果不是值得足够信赖的网站，搜索引擎为了避免“机器人陷阱”都会拒绝索引这些动态生成的网页。

3．网上可检索的数据库。网上可检索的数据库中绝大部分都是结构化的数据。这些数据“隐藏”在网络检索界面后端，存储在Access、Oracle、SQL Server、DB2等数据库系统中。当需要检索数据时，必须使用本网站的搜索工具进行直接查询，在交互式检索窗体中输入检索提问式或选择检索选项，数据库响应请求后，将相应的检索结果按一定的排序规则显示在网页上。网上可检索的数据库可以分为两种类型：可自由获取的公共数据库和需订阅或者付费的数据库。由于搜索引擎的Spider程序尚不具备在交互式检索窗体中填写或选择所需字段信息的能力，无法向数据库提交检索提问式。同时，对于一些必须使用用户名和密码登录的需注册或者付费的网站中的数据库来说，搜索引擎的Spider程序同样没有足够的智能注册后登录系统。因此，无论是哪种类型的数据库，搜索引擎都无法获取其中的数据。有价值的网络信息一般都存储在数据库中。网上可检索的数据库是深网最大的组成部分，也是深网信息规模大、质量高的最主要原因。

4．实时数据。针对信息用户对股票、天气、航班等即时信息的强烈需求，许多网站提供动态更新的实时数据服务。实时数据信息量大、更新频繁、时效性强。从技术上来说，实时数据大部分是可以被搜索引擎索引。但由于每个搜索引擎的搜索程序都按一定周期抓取更新的网页，而目前大部分搜索引擎数据库的更新周期是20天左右，难以跟上实时数据的更新速度。搜索引擎要保持与实时数据同步更新，并抓取所有密度高、数量大的实时信息，需要耗费大量的资源。此外，实时数据时效性强，对一般用户来说，失去时效后几乎没有搜索价值。因此，大多数搜索引擎都放弃索引实时数据。4．实时数据。针对信息用户对股票、天气、航班等即时信息的强烈需求，许多网站提供动态更新的实时数据服务。实时数据信息量大、更新频繁、时效性强。从技术上来说，实时数据大部分是可以被搜索引擎索引。但由于每个搜索引擎的搜索程序都按一定周期抓取更新的网页，而目前大部分搜索引擎数据库的更新周期是20天左右，难以跟上实时数据的更新速度。搜索引擎要保持与实时数据同步更新，并抓取所有密度高、数量大的实时信息，需要耗费大量的资源。此外，实时数据时效性强，对一般用户来说，失去时效后几乎没有搜索价值。因此，大多数搜索引擎都放弃索引实时数据。

5．部分非HTML格式文件。搜索引擎曾一度只能搜索HTML格式，所有非HTML格式的网页内容都被深藏在信息海洋的海底。随着技术的发展，搜索引擎已经开始涉足非HTML格式领域的信息挖掘。Google是第一个开始处理非HTML格式网页内容的传统搜索引擎。2001年初，Google开始索引PDF文件。Google的发言人宣称：“能够被Google索引的新的文件类型将包括：Word、Excel、PowerPoint、Rich Text Format和PostScript文件。”而AlhheWeb除可以索引PDF和Word文件外，还可以索引Flash文件。虽然还有些搜索引擎也能够索引Word、PDF、Flash文件，但是仍有许多搜索引擎不能索引非HTML格式文件，或者对这些格式文件的大小等方面进行限制。此外，考虑到技术和经济等因素，搜索引擎目前对可执行程序、压缩文件、流媒体等类型的文件仍然未予索引。因此，虽然部分非HTML格式文件已渐渐浮出了表面，但是仍有大量非HTML格式文件埋在深网中。

6．需要密码或注册的网站。目前许多网站需要注册并使用用户名和密码登录后才能访问，另外，有些网页需要密码或会员权限才能访问。而搜索引擎无法获取密码自动完成“输入内容”。因此，这些站点或网页中的内容难以被搜索引擎索引。也有部分网站的所有者为了商业等方面利益，通过协议赋予搜索引擎相应权限搜索部分或者全部内容，但当检索者点击查看该网页时，仍然需要提供相应的权限验证，使用用户名和密码登录后才能访问。目前，大部分需要密码或注册的网页通过搜索引擎仍然搜索不到。6．需要密码或注册的网站。目前许多网站需要注册并使用用户名和密码登录后才能访问，另外，有些网页需要密码或会员权限才能访问。而搜索引擎无法获取密码自动完成“输入内容”。因此，这些站点或网页中的内容难以被搜索引擎索引。也有部分网站的所有者为了商业等方面利益，通过协议赋予搜索引擎相应权限搜索部分或者全部内容，但当检索者点击查看该网页时，仍然需要提供相应的权限验证，使用用户名和密码登录后才能访问。目前，大部分需要密码或注册的网页通过搜索引擎仍然搜索不到。

7．其他难以搜索的内容。有些网站出于版权和隐私等方面的考虑，会使用“Robots．txt”协议或者其他方式拒绝Spider程序访问。搜索引擎搜索任何信息都需消耗资源，而搜索深层的信息和占用大量空间的网页需要耗费更多的资源。从节约成本角度考虑，大多数搜索引擎对Spider程序的爬行深度和网页的大小都进行了限制，对于过深或者过大的网页不予索引。此外，有些违反法律、社会道德或者政府出于某些因素的考虑而屏蔽掉的网页，也不能通过搜索引擎搜索或者访问。

网页资源的著录

学术隐蔽网络数据库查找探析

学术数据库检索案例

检索主题： “近视眼手术治疗” 检索用数据库：(即维普、万方、CNKI) , 选择同样的检索时间段( 1998—2009 年底, 篇名检索

原样输入，自动分词 布尔逻辑检索排除不必要的检索词词干检索增加专有名词同义词扩展尝试族性检索

总结： 1) 中文短语也可考虑截断或省略处理。在英文检索词的处理中, 人们常用截词的方法来处理词尾的规则性变换, 或词形的变化, 如econom？ , 用以表示economy, economic, economics, economiist等 , 用t? re, 用以表示tire,tyre等。中文虽没有如英文形式的词尾的变换, 但却也有大量的词干不变, 仅变化修饰性定语的词类, 如苏绣、湘绣、粤绣、蜀绣、双面绣、十字绣等, 仅输入“绣”可覆盖大量有关刺绣的检索; 又如木桥、水泥桥、拱型桥、斜拉桥、悬索桥等 , 仅输入“桥”也可进行有关各类桥梁的检索; 再如本文所讨论的塑型术、矫正术、切削术、磨镶术等, 仅以“术”来表示也可在一定程度上满足有关近视眼手术的检索。由此可见, 在词干相同的情况下, 如果要查检某上位类所覆盖的有关下位类的文献, 可以省略修饰性的定语。这样的处理方法近似于主题体系中的倒置标题词, 只不过将倒置标题逗号后面的内容全部省略了。这在特性检索的主题体系当中, 可以在一定程度上弥补族性分类的不足。

2）分解单元越少越好, 检索词越简练越好。尽量减少检索词的数量, 排除重复的和不必要的概念。比如“近视眼”、 “手术”、 “治疗”中, “治疗”就是一个需要排除的不必要的检索词。尽量精练检索词, 如“近视眼”一词中减少一个“眼”字, “手术”一词中减少一个“手”字, 其结果就大不一样。可将这种方法比作钓鱼,将以最少最简练的词去获取最大最多的结果。

3）各类数据库系统应最大程度地提高检索功能。现有的许多检索系统在检索功能方面还显得很脆弱, 有的系统要区分大小写, 有的系统要区分空格与否, 有的系统只允许用算术运算符, 有的系统只允许少量检索词的匹配有的系统遇稍微复杂的检索式就出错, 还有的系统甚至连用户自己输入一个运算符都易出错, 一定要点击系统提供的运算符才能勉强运算起来。

4）强化系统的查全查准功能。有的系统只重视检索用户的普及应用需求, 强调系统的易检性, 而忽略了系统的高端应用需求, 缺乏对复杂检索应用条件的提供。越来越多的系统趋向于采用搜索引擎的方法来建立学术性的数据库。如此发展下去, 人们将会见到越来越多的搜索引擎, 而非学术性数据库。

专题讨论结束，谢谢！

网络信息资源选择

网络信息资源选择

Presentation Transcript