340 likes | 490 Views
網路搜尋引擎的發展 與其重要性. 資管一 B87705004 駱怡榮. 研究動機. Internet 旋風 WWW 的新興 莊老師指示 上天的旨意要我抽到. 名詞解釋. 搜尋引擎( search engine) 網路指南( directories) 混血兒( hybrids). 又稱「蜘蛛」( spider )、「 爬行類」( crawler ) 養小蟲( worm ), 可以自動偵查網站 優點:提供較佳的及時性 缺點:資訊提供缺乏人性 Ex: HotBot.
E N D
網路搜尋引擎的發展 與其重要性 資管一 B87705004 駱怡榮
研究動機 • Internet旋風 • WWW的新興 • 莊老師指示 • 上天的旨意要我抽到
名詞解釋 • 搜尋引擎(search engine) • 網路指南(directories) • 混血兒(hybrids)
又稱「蜘蛛」(spider)、「爬行類」(crawler)又稱「蜘蛛」(spider)、「爬行類」(crawler) 養小蟲(worm),可以自動偵查網站 優點:提供較佳的及時性 缺點:資訊提供缺乏人性 Ex:HotBot 搜尋引擎(search engine)
網路指南(directories) • 索引內容由人工負責 • 各大站台必須申請 • 優點:站台簡介較詳細、分類較清楚 • 缺點:及時性不足 • Ex:Yahoo!
混血兒(hybrids) • 養小蟲(worm)、又加人工 • 校正頻率較網路指南(directories)高 • 優點:=“搜尋引擎的”+“網路指南的” • 缺點:=“搜尋引擎的”+“網路指南的” • 特點:查詢項目找不到時,並不會顯示──使用者快按上一頁吧!
搜尋引擎的發展 • 第一期:「檔案」、「文件」搜尋 • 第二期:「網站」或「網頁」的找尋 • 第三期:綜合各大搜尋引擎
第一期(1)──Archie • 搜尋引擎的老祖宗──Archie • 1990年由蒙特婁的麥奎爾大學的學生Alan Emtage所發明 • 目的:解決當時FTP檔案清單取得之不易 • 方法:聯合原稿架設的資料搜尋家 • 方便性:可以不必透過Internet,而且可以直接在螢幕上列出搜尋結果 今日的Archie,詳見“http://www.bunyip.com/products/archie“ 更多資訊
第一期(2)──Veronica • 搜尋引擎的老祖母──Veronica • University ofNevadaSystemComputingService所發展 • 設計原理類似Archie • 搜尋Gopher檔案(純文字檔案)
第一期(2)──Jughead • 較Veronica晚問世 • 為了完成連環漫畫三巨頭而生 • 一樣是Gopher搜尋裝置 • 較Veronica好記、功能也差不多,不過也讓大家感覺在設計上比Veronica粗糙一點點。
第二期(1)──WWW Wanderer • 搜尋引擎之母 • 第一個非人工整理的搜尋引擎,會追蹤站台的增加或改變 • 最早向URL挑戰的搜尋引擎(雖然失敗了) • 機器代替人工的作法備受爭議
第二期(2)──ALIWEB • Archie的http形式 • 欲在索引清單中查到站台,必須由該網站的管理員提出申請 • 部分申請人的介紹不夠周全 • ─→造成工作人員負擔 • ─→經常退件 • ─→資料不足
網站的成長造成分類上的麻煩 電腦工程師設計出一隻蜘蛛(spider),透過原始起動的主機站台來探勘 過度的找尋造成網路負載量過大(因為同一系列的網站但被不同蜘蛛抓回來) Ex:JumpStation、WWW worm、RBSE 第二期(3)──Spider的應用 更多資訊 ...
Excite • 原名“Archivetext” • 利用統計學的分析,以區別、整合關鍵字間的關係 • 剛推出時是提供給網站管理員使用,更名為Excite後才開始架構在伺服器上
Tradewave • 初名“ElNet Galaxy” • 為解決笨蜘蛛造成的問題而生 • 最早將各類網站做細部分類,以縮小使用者的搜尋範圍 • 還另外提供了Gopher和Telnet的搜尋 • 真正的搜尋引擎──各項資訊完全依賴人工
Yahoo! • 1994年4月由David Filo和楊致遠所創 • 起初是簡易的搜尋引擎,後來為了整理資料而轉型成網路指南(約1個月整理一次) • 成功攻佔URL(關鍵在於詳細的網站敘述) • 資料整理主要是靠人工,但也有養小蟲(worm),這點使Yahoo!的定位模糊
WebCrawler • 第一個提供網頁全文的搜尋引擎 • 大量需求造成頻寬等資源不足,後來由AOL買下其系統來解決問題 • 1997年被Excite收購 • 搜尋結果的完整性最讓人津津樂道 • 諸如Infoseek、Lycos、還有OpenText早先都是其贊助者,如此也造成它們日後的蓬勃發展
Lycos • 1994年1月由現在Lycos公司內首席科學家──Michael Mauldin所生 • 1994年10月與Netscape合作進攻URL • 資料庫、文件增加速度驚人 • Lycos的最大本錢: • 1.關鍵字字首以及相似字的查詢 • 2.最大的資料儲存站
Infoseek • 早期隸屬於其他公司的搜尋引擎 • 最大特點在於user-friendly以及額外的服務(諸如URL追蹤、News、還有分類指南等等) • 1995年12月與Netscape策略聯盟後才正式具有逐鹿中原的資格
AltaVista • 它的傳輸、搜尋速度令前輩們望塵莫及 • 史上第一個: • 1.使關鍵字的輸入可以用白話文 • 2.運用Boolean operators • 3.超大範圍的搜尋 • 4.允許使用者增減其索引中的URL • 5.具有翻譯能力
AltaVista • 提供站台以連結特殊的URL • 設計許多小技巧(tip)──此特點其他搜尋引擎廣為採納 • 1997年發明了LiveTopics(一個物件導向的系統) 關於LiveTopics,請至 http://altavista.software.digital.com/search/showcase/two/index.htm 更多資訊 ...
HotBot • Inktomi公司設計,早先架構於HotWired • 養了超強力蜘蛛──每天可以搜尋1000萬個網頁 • 設計了「小餅乾(cookie)」的延伸技術來儲存個人搜尋的優先資訊 • HotBot曾在PC Computing Search Engine Challenge(搜尋引擎主角間的競賽)中所獲評比最高
第三期 • 各大搜尋引擎皆有其優缺點、而且差異日趨縮小,所以「潛在性」的因素往往是影響工作效率的主因。 • 第三期的搜尋引擎即是為了整合各大搜尋引擎、同時提供最佳效率所生。 • 此期之搜尋引擎統稱為“META engine” • 此期搜尋引擎特點:方便但不完備
第三期(1)──MetaCrawler • META engine的第一人 • Eric Selburg (華盛頓大學碩士)所發明 • 方法:同時跑遍各大搜尋引擎 • 優點:將各大搜尋引擎的搜尋結果加以整合,而且輸出時提供給使用者更簡易的索引
第三期(2)──Savvy Engine • Colorado州立大學所創 • 它可以一次找完20個搜尋引擎的資料,包括特殊開頭的指南(例如Four11,e-mail地址)、FTPSearch95(網路上的檔案)、以及DejaNews(UseNet的資料庫)。
第三期(3)──搜尋引擎軟體 • Netscape不敵IE,因此致力於Intranet • 業主為方便員工搜尋,商請各大搜尋引擎公司設計 • 為各大搜尋引擎公司提供另一項收入來源 • 缺點:資料的保密性更為曝短
未來展望與潛在危機 • 各大搜尋引擎對於使用者感覺不出太大的差異,造成搜尋引擎的「工具性」不彰 • 業主轉向提供搜尋引擎的「媒體性」 • 搜尋引擎的「工具性」發展式微 • 國內網路發展將受限於「盜拷」
資料來源 更多資訊 ... • 1. http://web.mit.edu • 2. http://www.mit.edu • 3. http://www.mit.edu:8001/sipb/documents/ • 4. Michael Maudlin, "Lycos: Design choices in an Internet search service" 1997 • 5.http://www.netins.net/showcase/phdss/search/engine/players.htm • 6. http://www.searchenginewatch.com/ • 7. http://gais.cs.ccu.edu.tw/cgais.html
附錄 • ?/?/1990 Archie Alan Emtage • ?/?/1993 Veronica以及Judhead • ?/?/1993 Wanderer • 10/?/1993 ALIWEB • 中期/1993 JumpStation、WWW worm以及RBSE • 12/?/1993 Excite • 1/?/1994 Tradewave • 4/?/1994 Yahoo! • 5/?/1994 Lycos • 後期/1994 Infoseek • 12/?/1995 AltaVista • 5/20/1996 HotBot
備註(1) • 原欲取名為“Archive”,但為了符合Unix系統不得不更名 • 當初的FTP:因為重要檔案侷限在少數FTP伺服器,而且大多數的資料儲存站名稱與Internet同名,所以造成混亂。不少人發E-mail、或是進入討論室(discussing forum),用以宣布檔案取得之合法性。
備註(2) • Veronica=Very Easy Rodent-Oriented Netwide Index to Computerized Archives • Jughead=Jonzy's Universal Gopher Hierarchy Excavation and Display
備註(3) • JumpStation搜集的是關於title和header的資訊。它會把搜尋結果取回系統站台。使用者查詢時,這套系統會直接尋找資料庫、再找符合關鍵字的地方 • WWW Worm則是列出title的清單以及URL上它逛過的網頁、還會定期地表現在搜尋的清單裡 • 這些搜尋的結果容易造成網頁內容和清單中完全不相符。RSBE發明了第一流的系統,使關鍵字更關鍵
備註(4) • 由於MetaCrawler成長過快,不得不移往另一個站台,也因而轉型為go2net search engine • 受到各大搜尋引擎公司的抗議 • 為了轉型的彌補措施
備註(5) • Savvy Engine遇上不同搜尋引擎相異的查詢格式時,解決的法子就是「算了」。 • 不論是MetaCrawler或是Savvy Engine,都只能提供方便,品質仍無法與各大搜尋引擎相比