1 / 34

網路搜尋引擎的發展 與其重要性

網路搜尋引擎的發展 與其重要性. 資管一 B87705004 駱怡榮. 研究動機. Internet 旋風 WWW 的新興 莊老師指示 上天的旨意要我抽到. 名詞解釋. 搜尋引擎( search engine) 網路指南( directories) 混血兒( hybrids). 又稱「蜘蛛」( spider )、「 爬行類」( crawler ) 養小蟲( worm ), 可以自動偵查網站 優點:提供較佳的及時性 缺點:資訊提供缺乏人性 Ex: HotBot.

artan
Download Presentation

網路搜尋引擎的發展 與其重要性

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 網路搜尋引擎的發展 與其重要性 資管一 B87705004 駱怡榮

  2. 研究動機 • Internet旋風 • WWW的新興 • 莊老師指示 • 上天的旨意要我抽到

  3. 名詞解釋 • 搜尋引擎(search engine) • 網路指南(directories) • 混血兒(hybrids)

  4. 又稱「蜘蛛」(spider)、「爬行類」(crawler)又稱「蜘蛛」(spider)、「爬行類」(crawler) 養小蟲(worm),可以自動偵查網站 優點:提供較佳的及時性 缺點:資訊提供缺乏人性 Ex:HotBot 搜尋引擎(search engine)

  5. 網路指南(directories) • 索引內容由人工負責 • 各大站台必須申請 • 優點:站台簡介較詳細、分類較清楚 • 缺點:及時性不足 • Ex:Yahoo!

  6. 混血兒(hybrids) • 養小蟲(worm)、又加人工 • 校正頻率較網路指南(directories)高 • 優點:=“搜尋引擎的”+“網路指南的” • 缺點:=“搜尋引擎的”+“網路指南的” • 特點:查詢項目找不到時,並不會顯示──使用者快按上一頁吧!

  7. 搜尋引擎的發展 • 第一期:「檔案」、「文件」搜尋 • 第二期:「網站」或「網頁」的找尋 • 第三期:綜合各大搜尋引擎

  8. 第一期(1)──Archie • 搜尋引擎的老祖宗──Archie • 1990年由蒙特婁的麥奎爾大學的學生Alan Emtage所發明 • 目的:解決當時FTP檔案清單取得之不易 • 方法:聯合原稿架設的資料搜尋家 • 方便性:可以不必透過Internet,而且可以直接在螢幕上列出搜尋結果 今日的Archie,詳見“http://www.bunyip.com/products/archie“ 更多資訊

  9. 第一期(2)──Veronica • 搜尋引擎的老祖母──Veronica • University ofNevadaSystemComputingService所發展 • 設計原理類似Archie • 搜尋Gopher檔案(純文字檔案)

  10. 第一期(2)──Jughead • 較Veronica晚問世 • 為了完成連環漫畫三巨頭而生 • 一樣是Gopher搜尋裝置 • 較Veronica好記、功能也差不多,不過也讓大家感覺在設計上比Veronica粗糙一點點。

  11. 第二期(1)──WWW Wanderer • 搜尋引擎之母 • 第一個非人工整理的搜尋引擎,會追蹤站台的增加或改變 • 最早向URL挑戰的搜尋引擎(雖然失敗了) • 機器代替人工的作法備受爭議

  12. 第二期(2)──ALIWEB • Archie的http形式 • 欲在索引清單中查到站台,必須由該網站的管理員提出申請 • 部分申請人的介紹不夠周全 • ─→造成工作人員負擔 • ─→經常退件 • ─→資料不足

  13. 網站的成長造成分類上的麻煩 電腦工程師設計出一隻蜘蛛(spider),透過原始起動的主機站台來探勘 過度的找尋造成網路負載量過大(因為同一系列的網站但被不同蜘蛛抓回來) Ex:JumpStation、WWW worm、RBSE 第二期(3)──Spider的應用 更多資訊 ...

  14. Excite • 原名“Archivetext” • 利用統計學的分析,以區別、整合關鍵字間的關係 • 剛推出時是提供給網站管理員使用,更名為Excite後才開始架構在伺服器上

  15. Tradewave • 初名“ElNet Galaxy” • 為解決笨蜘蛛造成的問題而生 • 最早將各類網站做細部分類,以縮小使用者的搜尋範圍 • 還另外提供了Gopher和Telnet的搜尋 • 真正的搜尋引擎──各項資訊完全依賴人工

  16. Yahoo! • 1994年4月由David Filo和楊致遠所創 • 起初是簡易的搜尋引擎,後來為了整理資料而轉型成網路指南(約1個月整理一次) • 成功攻佔URL(關鍵在於詳細的網站敘述) • 資料整理主要是靠人工,但也有養小蟲(worm),這點使Yahoo!的定位模糊

  17. WebCrawler • 第一個提供網頁全文的搜尋引擎 • 大量需求造成頻寬等資源不足,後來由AOL買下其系統來解決問題 • 1997年被Excite收購 • 搜尋結果的完整性最讓人津津樂道 • 諸如Infoseek、Lycos、還有OpenText早先都是其贊助者,如此也造成它們日後的蓬勃發展

  18. Lycos • 1994年1月由現在Lycos公司內首席科學家──Michael Mauldin所生 • 1994年10月與Netscape合作進攻URL • 資料庫、文件增加速度驚人 • Lycos的最大本錢: • 1.關鍵字字首以及相似字的查詢 • 2.最大的資料儲存站

  19. Infoseek • 早期隸屬於其他公司的搜尋引擎 • 最大特點在於user-friendly以及額外的服務(諸如URL追蹤、News、還有分類指南等等) • 1995年12月與Netscape策略聯盟後才正式具有逐鹿中原的資格

  20. AltaVista • 它的傳輸、搜尋速度令前輩們望塵莫及 • 史上第一個: • 1.使關鍵字的輸入可以用白話文 • 2.運用Boolean operators • 3.超大範圍的搜尋 • 4.允許使用者增減其索引中的URL • 5.具有翻譯能力

  21. AltaVista • 提供站台以連結特殊的URL • 設計許多小技巧(tip)──此特點其他搜尋引擎廣為採納 • 1997年發明了LiveTopics(一個物件導向的系統) 關於LiveTopics,請至 http://altavista.software.digital.com/search/showcase/two/index.htm 更多資訊 ...

  22. HotBot • Inktomi公司設計,早先架構於HotWired • 養了超強力蜘蛛──每天可以搜尋1000萬個網頁 • 設計了「小餅乾(cookie)」的延伸技術來儲存個人搜尋的優先資訊 • HotBot曾在PC Computing Search Engine Challenge(搜尋引擎主角間的競賽)中所獲評比最高

  23. 第三期 • 各大搜尋引擎皆有其優缺點、而且差異日趨縮小,所以「潛在性」的因素往往是影響工作效率的主因。 • 第三期的搜尋引擎即是為了整合各大搜尋引擎、同時提供最佳效率所生。 • 此期之搜尋引擎統稱為“META engine” • 此期搜尋引擎特點:方便但不完備

  24. 第三期(1)──MetaCrawler • META engine的第一人 • Eric Selburg (華盛頓大學碩士)所發明 • 方法:同時跑遍各大搜尋引擎 • 優點:將各大搜尋引擎的搜尋結果加以整合,而且輸出時提供給使用者更簡易的索引

  25. 第三期(2)──Savvy Engine • Colorado州立大學所創 • 它可以一次找完20個搜尋引擎的資料,包括特殊開頭的指南(例如Four11,e-mail地址)、FTPSearch95(網路上的檔案)、以及DejaNews(UseNet的資料庫)。

  26. 第三期(3)──搜尋引擎軟體 • Netscape不敵IE,因此致力於Intranet • 業主為方便員工搜尋,商請各大搜尋引擎公司設計 • 為各大搜尋引擎公司提供另一項收入來源 • 缺點:資料的保密性更為曝短

  27. 未來展望與潛在危機 • 各大搜尋引擎對於使用者感覺不出太大的差異,造成搜尋引擎的「工具性」不彰 • 業主轉向提供搜尋引擎的「媒體性」 • 搜尋引擎的「工具性」發展式微 • 國內網路發展將受限於「盜拷」

  28. 資料來源 更多資訊 ... • 1. http://web.mit.edu • 2. http://www.mit.edu • 3. http://www.mit.edu:8001/sipb/documents/ • 4. Michael Maudlin, "Lycos: Design choices in an Internet search service" 1997 • 5.http://www.netins.net/showcase/phdss/search/engine/players.htm • 6. http://www.searchenginewatch.com/ • 7. http://gais.cs.ccu.edu.tw/cgais.html

  29. 附錄 • ?/?/1990 Archie Alan Emtage • ?/?/1993 Veronica以及Judhead • ?/?/1993 Wanderer • 10/?/1993 ALIWEB • 中期/1993 JumpStation、WWW worm以及RBSE • 12/?/1993 Excite • 1/?/1994 Tradewave • 4/?/1994 Yahoo! • 5/?/1994 Lycos • 後期/1994 Infoseek • 12/?/1995 AltaVista • 5/20/1996 HotBot

  30. 備註(1) • 原欲取名為“Archive”,但為了符合Unix系統不得不更名 • 當初的FTP:因為重要檔案侷限在少數FTP伺服器,而且大多數的資料儲存站名稱與Internet同名,所以造成混亂。不少人發E-mail、或是進入討論室(discussing forum),用以宣布檔案取得之合法性。

  31. 備註(2) • Veronica=Very Easy Rodent-Oriented Netwide Index to Computerized Archives • Jughead=Jonzy's Universal Gopher Hierarchy Excavation and Display

  32. 備註(3) • JumpStation搜集的是關於title和header的資訊。它會把搜尋結果取回系統站台。使用者查詢時,這套系統會直接尋找資料庫、再找符合關鍵字的地方 • WWW Worm則是列出title的清單以及URL上它逛過的網頁、還會定期地表現在搜尋的清單裡 • 這些搜尋的結果容易造成網頁內容和清單中完全不相符。RSBE發明了第一流的系統,使關鍵字更關鍵

  33. 備註(4) • 由於MetaCrawler成長過快,不得不移往另一個站台,也因而轉型為go2net search engine • 受到各大搜尋引擎公司的抗議 • 為了轉型的彌補措施

  34. 備註(5) • Savvy Engine遇上不同搜尋引擎相異的查詢格式時,解決的法子就是「算了」。 • 不論是MetaCrawler或是Savvy Engine,都只能提供方便,品質仍無法與各大搜尋引擎相比

More Related