1 / 26

Wyszukiwanie informacji w Internecie

Wyszukiwanie informacji w Internecie. Szymon Bohdanowicz. Internet. Ile jest stron internetowych? netcraft w kwietniu 2011 - 312,693,296. Z czym mamy do czynienia?. wyszukiwarki tekstowe metawyszukiwarki multiwyszukiwarki szperacze szukacze katalogi stron internetowych silniki.

Download Presentation

Wyszukiwanie informacji w Internecie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Wyszukiwanie informacji w Internecie Szymon Bohdanowicz

  2. Internet • Ile jest stron internetowych? netcraft w kwietniu 2011 - 312,693,296

  3. Z czym mamy do czynienia? • wyszukiwarki tekstowe • metawyszukiwarki • multiwyszukiwarki • szperacze • szukacze • katalogi stron internetowych • silniki

  4. Katalogi stron internetowych • posiadają strukturę drzewiastą • pogrupowane tematycznie bądź regionalnie • na ogół są aktualizowane oddolnie • Rodzaje: • katalogi globalne • regionalne • tematyczne • katalogi firm • itd…

  5. Przykłady • http://www.dmoz.org – ogólno światowy katalog otwarty, redagowany przez społeczność • http://dir.yahoo.com - katalog komercyjny • http://katalog.wp.pl – polski katalog stron • http://kataloog.info/ - ciekawa inicjatywa • http://www.pf.pl/ - katalog firm • http://najlepsze-blogi.pl – katalog blogów

  6. Zalety • Treść oraz aktualność stron jest weryfikowana • Stosunkowo przejrzysty sposób prezentowania informacji Wady • Mała liczba stron – konieczność weryfikacji • Komercyjność - linki sponsorowane są wyżej na liście • Problem z kategoriami – często jedna strona może być przypisana do wielu kategorii

  7. Kilka ogólnych uwag • Katalogi stron w sensie tradycyjnym są zjawiskiem wymierającym – widać to po ilości stron • Wyjątkiem od tej reguły jest allegro, ebay – tylko czy te strony to wciąż katalogi??

  8. Wyszukiwarki internetowe • strony internetowych serwisów wyszukujących - czyli implementacji oprogramowania wyszukującego działającego z interfejsem WWW ogólnodostępnym dla internautów • Aktualnie są to naprawdę skomplikowane narzędzia składające się z: • Crawler, Robot, Pająk, Spider lub Bot czyli robot internetowy– moduł pobierający dokumenty z sieci. • Indekser - program analizujący i oceniający. • Searcher - interfejs odpowiadający na zapytania – czyli analizator zapytań + moduł prezentacji wyników.

  9. W jaki sposób strony są wybierane • Analiza tekstowa – użyte algorytmy korzystają z informacji podanych w kodach stron, np. na podanych tytułach, nagłówkach i słowach kluczowych. Są zatem bardzo podatne na nadużycia, przez co użytkownik zamiast użytecznych informacji dostaje linki na strony nie mające nic wspólnego z jego zapytaniem. • Przykład -> w przeglądarce

  10. W jaki sposób strony są wybierane cd. • Analiza topologiczna – strona jest dodawana do wyników wyszukiwania jeśli wiele innych stron o podobnej tematyce na nią wskazuje. Wyszukiwarki oparte na analizie topologicznej są często uważane za bardzo odporne na nadużycia(pozwalają uniknąć wyświetlania spamu).

  11. Dodatkowe elementy wyszukiwarek • programy konwersji dokumentów(dziś wyszukiwarki przeglądają nie tylko strony htmlowe ale również pliki pdf, ppt, doc itd..) • programy archiwizujące repozytorium, • programy analizy technik zabronionych [spam], • moduły administracyjne.

  12. Najważniejszy atut wyszukiwarki • Najważniejszymi algorytmami stosowanymi w wyszukiwarkach są algorytmy oceny relewancji dokumentu względem szukanej frazy oraz algorytmy oceny zawartości strony. Często są strategiczną tajemnicą właściciela wyszukiwarki, przesądzającą o jej skuteczności.

  13. Dodatkowe funkcje wyszukiwarek • Podpowiadanie • Poprawianie pisowni • Automatyczne tłumaczenie • Wyszukiwanie zaawansowane(znaki dodatkowe -> ””, + , -), w określonym języku • Wyszukiwanie innych mediów niż tekst -> obrazy, video, pliki muzyczne

  14. Google – lider absolutny • http://www.ranking.pl/pl/rankings/search-engines-domains.html • Jako pierwszy zastosował analizę topologiczną • Jego algorytmy relewancji uznawane są za najdoskonalsze

  15. Metawyszukiwarki • Są to serwisy internetowe, które nie posiadają własnej bazy danych, ale potrafią wysłać nasze zapytanie do kilku lub kilkunastu samodzielnych szperaczy, odebrać je od nich i przedstawić w przejrzystej formie. • Niektóre metawyszukiwarki dodatkowo opracowują otrzymaną listę wyników: Usuwają powtarzające się adresy i te, które już nie istnieją w internecie, a są jeszcze zapisane w bazie wyszukiwarki. Dodatkowo mogą sortować na różne sposoby wyświetloną listę

  16. Przykłady • Metacrawler – działa online • http://www.ixquick.com/ - online • Copernic Agent – oprogramowanie pulpitowe, komercyjne(podstawowa wersja jest bezpłatna)

  17. Coś więcej? -> deepweb(głęboka sieć)

  18. Struktura sieci Strony internetowe przestały być statycznymi dokumentami HTML o niezmiennej zawartości. • Warstwa pierwsza - strony WWW o ogólnej tematyce oraz stałej, nie ulegającej zmianom zawartości • Warstwa druga - strony tematyczne, zorientowane na jedno, konkretne zagadnienie. Część zasobów znajdujących się w tej warstwie można zaliczyć już do głębokiego Internetu.

  19. Struktura sieci (głęboka) • Warstwa trzecia - bazy danych o dynamicznie zmieniającej się zawartości. • Warstwa czwarta - prywatne witryny o dynamicznej zawartości. Uzyskać dostęp do ich zasobów można wyłącznie po wcześniejszej rejestracji w bazie użytkowników, bądź wniesieniu określonych opłat. Mamy więc do czynienia z Internetem niewidzialnym, ukrytym bądź głębokim.

  20. Przeszukiwanie deepwebu • www.completeplanet.com – ma dostęp do 70000 baz danych, ułatwieniem jest katalog tematyczny • http://infomine.ucr.edu/ - wyszukiwarka akademicka • http://www.ipl.org/ - wyszukiwarka bibliotekarzy

  21. Kilka technicznych porad • Podczas wpisywania wyszukiwanej frazy w pole wyszukiwania możemy użyć dodatkowych znaków, które mogą pomóc w uzyskaniu dokładniejszej listy wyników.

  22. + i - przed użytymi słowami Zastosowanie znaku + przed słowem oznacza, że musi ono wystąpić w dokumencie. Zastosowanie znaku - oznacza, że nie może w nim wystąpić. • wyszukiwanie całych zdań/wyrażeń Fraza objęta cudzysłowem musi wystąpić dokładnie w takiej formie w wyszukiwanym dokumencie.

  23. wielkie litery Zazwyczaj zaleca się używanie małych liter w większości poszukiwań. Niektóre wyszukiwarki rozróżniają wielkie i małe litery, co znacznie ogranicza listę rezultatów. Operatory AND, OR • Tego zabiegu używamy w sytuacji gdy chcemy zadać złożone zapytanie – (żeglarstwo AND jacht -> strony zawierające oba słowa), (żeglarstwo OR jacht -> strony zawierające jedno lub drugie słowo)

  24. Kilka słów kluczowych dla googla • define: pozwala na wyszukanie definicji danego terminu(dobrze działa dla słów angielskich) • info: wyświetli podstawowe informacje o danej witrynie • related: wyświetli strony o podobnym charakterze, podobnej treści • filetype:(rozszerzenie pliku) wyszuka pliki ze wskazanym rozszerzeniem zawierające pożądaną treść • weather:(lokalizacja)wyświetli pogodę dla określonej lokalizacji

  25. Jeszcze kilka • link: (nazwa strony) – wyświetlone zostaną strony, które linkują wybrany adres • * - gwiazdki pomiędzy kolejnymi słowami wyszukują stron, na których wpisane słowa znajdują się niedaleko siebie w tekście • site:(typ strony .edu) – wyświetlone zostaną witryny tylko określonego typu

  26. Czas na coś wesołego? • Mam x lat – czyli google prawdę Ci powie Ważne linki • http://websearch.about.com – kompendium wiedzy o wyszukiwaniu informacji Coś ciekawego • http://www.azuon.com/– ciekawa wyszukiwarka lotów

More Related