網路搜尋引擎的發展與其重要性

網路搜尋引擎的發展 與其重要性資管一 B87705004 駱怡榮

研究動機 • Internet旋風 • WWW的新興 • 莊老師指示 • 上天的旨意要我抽到

名詞解釋 • 搜尋引擎（search engine） • 網路指南（directories） • 混血兒（hybrids）

又稱「蜘蛛」（spider）、「爬行類」（crawler）又稱「蜘蛛」（spider）、「爬行類」（crawler）養小蟲（worm），可以自動偵查網站優點：提供較佳的及時性缺點：資訊提供缺乏人性Ｅｘ：HotBot 搜尋引擎（search engine）

網路指南（directories） • 索引內容由人工負責 • 各大站台必須申請 • 優點：站台簡介較詳細、分類較清楚 • 缺點：及時性不足 • Ｅｘ：Yahoo!

混血兒（hybrids） • 養小蟲（worm）、又加人工 • 校正頻率較網路指南（directories）高 • 優點：＝“搜尋引擎的”＋“網路指南的” • 缺點：＝“搜尋引擎的”＋“網路指南的” • 特點：查詢項目找不到時，並不會顯示──使用者快按上一頁吧！

搜尋引擎的發展 • 第一期：「檔案」、「文件」搜尋 • 第二期：「網站」或「網頁」的找尋 • 第三期：綜合各大搜尋引擎

第一期(1)──Archie • 搜尋引擎的老祖宗──Archie • 1990年由蒙特婁的麥奎爾大學的學生Alan Emtage所發明 • 目的：解決當時FTP檔案清單取得之不易 • 方法：聯合原稿架設的資料搜尋家 • 方便性：可以不必透過Internet，而且可以直接在螢幕上列出搜尋結果今日的Archie，詳見“http://www.bunyip.com/products/archie“ 更多資訊

第一期(2)──Veronica • 搜尋引擎的老祖母──Veronica • University ofNevadaSystemComputingService所發展 • 設計原理類似Archie • 搜尋Gopher檔案(純文字檔案)

第一期(2)──Jughead • 較Veronica晚問世 • 為了完成連環漫畫三巨頭而生 • 一樣是Gopher搜尋裝置 • 較Veronica好記、功能也差不多，不過也讓大家感覺在設計上比Veronica粗糙一點點。

第二期(1)──WWW Wanderer • 搜尋引擎之母 • 第一個非人工整理的搜尋引擎，會追蹤站台的增加或改變 • 最早向URL挑戰的搜尋引擎(雖然失敗了) • 機器代替人工的作法備受爭議

第二期(2)──ALIWEB • Archie的http形式 • 欲在索引清單中查到站台，必須由該網站的管理員提出申請 • 部分申請人的介紹不夠周全 • ─→造成工作人員負擔 • ─→經常退件 • ─→資料不足

網站的成長造成分類上的麻煩 電腦工程師設計出一隻蜘蛛(spider)，透過原始起動的主機站台來探勘過度的找尋造成網路負載量過大(因為同一系列的網站但被不同蜘蛛抓回來) Ex：JumpStation、WWW worm、RBSE 第二期(3)──Spider的應用更多資訊 ...

Excite • 原名“Archivetext” • 利用統計學的分析，以區別、整合關鍵字間的關係 • 剛推出時是提供給網站管理員使用，更名為Excite後才開始架構在伺服器上

Tradewave • 初名“ElNet Galaxy” • 為解決笨蜘蛛造成的問題而生 • 最早將各類網站做細部分類，以縮小使用者的搜尋範圍 • 還另外提供了Gopher和Telnet的搜尋 • 真正的搜尋引擎──各項資訊完全依賴人工

Yahoo! • 1994年4月由David Filo和楊致遠所創 • 起初是簡易的搜尋引擎，後來為了整理資料而轉型成網路指南(約1個月整理一次) • 成功攻佔URL(關鍵在於詳細的網站敘述) • 資料整理主要是靠人工，但也有養小蟲(worm)，這點使Yahoo!的定位模糊

WebCrawler • 第一個提供網頁全文的搜尋引擎 • 大量需求造成頻寬等資源不足，後來由AOL買下其系統來解決問題 • 1997年被Excite收購 • 搜尋結果的完整性最讓人津津樂道 • 諸如Infoseek、Lycos、還有OpenText早先都是其贊助者，如此也造成它們日後的蓬勃發展

Lycos • 1994年1月由現在Lycos公司內首席科學家──Michael Mauldin所生 • 1994年10月與Netscape合作進攻URL • 資料庫、文件增加速度驚人 • Lycos的最大本錢： • 1.關鍵字字首以及相似字的查詢 • 2.最大的資料儲存站

Infoseek • 早期隸屬於其他公司的搜尋引擎 • 最大特點在於user-friendly以及額外的服務(諸如URL追蹤、News、還有分類指南等等) • 1995年12月與Netscape策略聯盟後才正式具有逐鹿中原的資格

AltaVista • 它的傳輸、搜尋速度令前輩們望塵莫及 • 史上第一個： • 1.使關鍵字的輸入可以用白話文 • 2.運用Boolean operators • 3.超大範圍的搜尋 • 4.允許使用者增減其索引中的URL • 5.具有翻譯能力

AltaVista • 提供站台以連結特殊的URL • 設計許多小技巧(tip)──此特點其他搜尋引擎廣為採納 • 1997年發明了LiveTopics(一個物件導向的系統) 關於LiveTopics，請至 http://altavista.software.digital.com/search/showcase/two/index.htm 更多資訊 ...

HotBot • Inktomi公司設計，早先架構於HotWired • 養了超強力蜘蛛──每天可以搜尋1000萬個網頁 • 設計了「小餅乾(cookie)」的延伸技術來儲存個人搜尋的優先資訊 • HotBot曾在PC Computing Search Engine Challenge(搜尋引擎主角間的競賽)中所獲評比最高

第三期 • 各大搜尋引擎皆有其優缺點、而且差異日趨縮小，所以「潛在性」的因素往往是影響工作效率的主因。 • 第三期的搜尋引擎即是為了整合各大搜尋引擎、同時提供最佳效率所生。 • 此期之搜尋引擎統稱為“META engine” • 此期搜尋引擎特點：方便但不完備

第三期(1)──MetaCrawler • META engine的第一人 • Eric Selburg (華盛頓大學碩士)所發明 • 方法：同時跑遍各大搜尋引擎 • 優點：將各大搜尋引擎的搜尋結果加以整合，而且輸出時提供給使用者更簡易的索引

第三期(2)──Savvy Engine • Colorado州立大學所創 • 它可以一次找完20個搜尋引擎的資料，包括特殊開頭的指南(例如Four11，e-mail地址)、FTPSearch95(網路上的檔案)、以及DejaNews(UseNet的資料庫)。

第三期(3)──搜尋引擎軟體 • Netscape不敵IE，因此致力於Intranet • 業主為方便員工搜尋，商請各大搜尋引擎公司設計 • 為各大搜尋引擎公司提供另一項收入來源 • 缺點：資料的保密性更為曝短

未來展望與潛在危機 • 各大搜尋引擎對於使用者感覺不出太大的差異，造成搜尋引擎的「工具性」不彰 • 業主轉向提供搜尋引擎的「媒體性」 • 搜尋引擎的「工具性」發展式微 • 國內網路發展將受限於「盜拷」

資料來源 更多資訊 ... • 1. http://web.mit.edu • 2. http://www.mit.edu • 3. http://www.mit.edu:8001/sipb/documents/ • 4. Michael Maudlin, "Lycos: Design choices in an Internet search service" 1997 • 5.http://www.netins.net/showcase/phdss/search/engine/players.htm • 6. http://www.searchenginewatch.com/ • 7. http://gais.cs.ccu.edu.tw/cgais.html

附錄 • ?/?/1990 Archie Alan Emtage • ?/?/1993 Veronica以及Judhead • ?/?/1993 Wanderer • 10/?/1993 ALIWEB • 中期/1993 JumpStation、WWW worm以及RBSE • 12/?/1993 Excite • 1/?/1994 Tradewave • 4/?/1994 Yahoo! • 5/?/1994 Lycos • 後期/1994 Infoseek • 12/?/1995 AltaVista • 5/20/1996 HotBot

備註(1) • 原欲取名為“Archive”，但為了符合Unix系統不得不更名 • 當初的FTP：因為重要檔案侷限在少數FTP伺服器，而且大多數的資料儲存站名稱與Internet同名，所以造成混亂。不少人發E-mail、或是進入討論室(discussing forum)，用以宣布檔案取得之合法性。

備註(2) • Veronica=Very Easy Rodent-Oriented Netwide Index to Computerized Archives • Jughead=Jonzy's Universal Gopher Hierarchy Excavation and Display

備註(3) • JumpStation搜集的是關於title和header的資訊。它會把搜尋結果取回系統站台。使用者查詢時，這套系統會直接尋找資料庫、再找符合關鍵字的地方 • WWW Worm則是列出title的清單以及URL上它逛過的網頁、還會定期地表現在搜尋的清單裡 • 這些搜尋的結果容易造成網頁內容和清單中完全不相符。RSBE發明了第一流的系統，使關鍵字更關鍵

備註(4) • 由於MetaCrawler成長過快，不得不移往另一個站台，也因而轉型為go2net search engine • 受到各大搜尋引擎公司的抗議 • 為了轉型的彌補措施

備註(5) • Savvy Engine遇上不同搜尋引擎相異的查詢格式時，解決的法子就是「算了」。 • 不論是MetaCrawler或是Savvy Engine，都只能提供方便，品質仍無法與各大搜尋引擎相比

網路搜尋引擎的發展 與其重要性