1 / 53

Vyhledávání v prostředí internetu

Barbora Poláková ; Martin Kozel. Vyhledávání v prostředí internetu. Osnova přednášky. Co se děje? změny v přístupu a práci s informacemi Co s tím ? Struktura informací na webu – teorie a praxe Jak na to ? Strategie vyhledávání a postupy. Informace.

armina
Download Presentation

Vyhledávání v prostředí internetu

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Barbora Poláková ; Martin Kozel Vyhledávání v prostředí internetu

  2. Osnova přednášky • Co se děje? • změny v přístupu a práci s informacemi • Co s tím ? • Struktura informací na webu – teorie a praxe • Jak na to ? • Strategie vyhledávání a postupy

  3. Informace • Komunikovatelný popis jevu, jehož přijetím dochází ke změnám v informačním systému. • Odstraněná ENTROPIE Vyšší míra uspořádanosti • Čím více neurčitosti odstraní tím větší má informace hodnotu.(Shannon,1948) • popsatelná • kontextově nezávislá • organizovatelná • informační zdroj/pramen

  4. Informační společnost • je taková společnost, ve které je věnována pozornost informační činnosti natolik, že dojde ke snížení zájmu o zemědělskou a průmyslovou výrobu (Vlasák, 2000) • Marc Uri Porat (1976). Information economy : definition and measurement • 70.léta – postindustriální společnost • průmysl ----- > služby

  5. 80.léta – informační společnost • propojení počítačového průmyslu s ostatními průmyslovými odvětvími • rozvoj informační a počítačové GRAMOTNOSTI • INFORMAČNÍ SEKTOR – profese tvorby, sběru, zpracovávání, uchovávání, zpětného vyhledávání a dalšího šíření informací (Vlasák, 2000)

  6. Informačníexploze • Informace = Moc = Peníze !!! • Prudký rozvoj informačních technologií a jejich dostupnost • KVANTITATIVNÍ nárůst informací a informačních zdrojů • Redundance ; relevance ; pertinence • Mrtvá data – long tail effect

  7. Informační smog (Shenk 1997) • lidstvo se nevyvíjí dost rychle aby zvládalo množství informací • Exformace - informace existující za hranicemi našeho vědomí (Gore, 1994) • Zahlcení • snížení citlivosti k obsahu  - mozková kapacita je stále stejná (Černohlávková, 2006)

  8. Znalostní společnost • nadstavba informační společnosti založená na kolaboraci a interakci mezi uživateli • Web 2.0 - Tim Bernards-Lee (2000) • Znalost • kontextově závislá ; pragmatický obraz informace reprezentovaný intelektuálním kapitálem jednotlivce (Bukh, 2001)

  9. Terminologické vyjasnění • Základní abstraktní pojmy : • INFORMACE • ZNALOSTI • Základní konkrétní pojmy : • Informační / elektronický zdroj • digitální / informační objekt / entita

  10. Publikační procesy

  11. Publikační proces informačního zdroje - původní • Nakladatelství, časopisy, databáze, databázová centra

  12. Publikační proces informačního zdroje – nyní Web 2.0 – sociální sítě, wiki, blog

  13. Hodnocení • + • Aktuálnost • Rychlost • Kooperace • - • Kontrola kvality, relevance • Korektura • Odborný dohled • Distribuce a popis jsou na autorovi – NEDOHLEDATELNOST

  14. KDE TO VŠECHNO MŮŽEME NAJÍT ?

  15. World Wide Web • Viditelný / povrchový web • informační entity volně přístupné a snadno dostupné pomocí vyhledávacích strojů • Neviditelný / hluboký web • neviditelný pro běžné vyhledavače • databáze, adresáře, rejstříky, dokumenty v nepodporovaných formátech, licencované stránky • 500x větší než povrchový web

  16. Web povrchový a hluboký (Bergman,2001)

  17. Obsahové rozvrstvení hlubokého webu (Bergman, 2001)

  18. CO TAM MŮŽEME NAJÍT ?

  19. Digitální objekt (DO) • základní entita • Hledisko původu: • digitalizované informační zdroje • E-book ; postprinty • born digital • Webové stránky, fóra, komunity, blogy, wiki

  20. Hledisko typů DO • MIME - Multipurpose Internet Mail Extension • Specifikuje charakter obsahu oficiálně komunikovaných DO na internetu • Typy: • Text • Obraz • Video • Zvuk • Software • Trojrozměrné digitální objekty

  21. Digitální objekt Hlavička / Metadata Obsah Podpis

  22. Metadata – Velká a mocná • „Data o datech“ • Strukturované informace, které popisují, osvětlují, lokalizují a usnadňují vyhledávání a využívání informačního zdroje. (Guidlines for Digitalization, 2007)

  23. Popis DO • Předobraz metadatového popisu je v popisu tradičních zdrojů. • strojem čitelný X stroji srozumitelný • Dvě úrovně popisu: • věcná – obsah, anotace, abstrakt, klíčová slova, kódy systematického třídění … • popisná –popis dokumentu podle formálních znaků ; autor, název, vydavatel, rok vyd. …

  24. Tradiční bbg. Záznam - MARC 21

  25. Dublin Core Metadata Initiative -DCMI • Dublin Core • Soubor 15 metadatovýchkvalifikovatelných prvků • Původně popis zdrojů na WWW ; současně popis jakéhokoli objektu • Garant popisu - autor user-friendly • Dublin CoreCzech • DCMI homepage

  26. Prvky DC • Název • Tvůrce • Předmět • Popis • Vydavatel • Přispěvatel • Datum • Typ zdroje • Formát • Identifikátor • Zdroj • Jazyk • Vztah • Pokrytí • Práva

  27. Identifikátory • URL • Adresa DO; určuje pozici DO v prostředí webu • URN • Znakový řetězec nebo číslo, které jednoznačně identifikuje dokument • Trvalé, nepřenosné • Generátory metadat • XML soubory

  28. Metadata - DC

  29. TAK JSME TO HEZKY POPSALI … A JAK TO NAJDEM?

  30. Vyhledávací nástroje „HLAVORUČNÍ“ • Předmětové katalogy - directories- • Seznam katalog, Yahoo katalog • třídění a organizace DO podle předem dané taxonomie nebo předmětové klasifikace • Nejpodobnější tradičním knihovnám • Lidský faktor • Malé pokrytí, úplnost taxonomie

  31. Vyhledávací nástroje AUTOMATICKÉ • Vyhledavače - searchengine • Altavista • Metavyhledavače • víc indexů najednou • Open Text • Sekvenční analýza • Automatická INDEXACE digitálních objektů za pomoci speciálního softwaru • Robot ; crawler ; spiders ; bot • Index – reprezentace fondu úplných textů - metadata

  32. Vyhledavač – obecné schéma Vyhledavač Prostředíwebu (Poláková, 2009)

  33. Google Schéma(Brin & Page, 2000)

  34. Uživatelské rozhraní–1/2 Textové • Textový vyhledávací dotaz • Textová reprezentace výsledku • Index – zkrácená informace o příslušném zdroji • odkaz na fulltext • Google

  35. Question answering 2/2

  36. Uživatelské rozhraní – 1/3Clustry • Vektorová logika – • Vážení podobnosti dokumentů s dotazy – relevance • Informační prostor – soubor prvku a vztahů mezi nimi udržovaných informačním systémem (Ingwersen 1996)

  37. Clustry 2/3v informačním prostoru (Traykovski &Sosisk, 2007)

  38. Clusty.com 3/3

  39. Uživatelské rozhraní – 1/3Vizuální

  40. Carrot22/3

  41. Searchme 3/3

  42. CO, KDE, a JAK Strategie vyhledávání

  43. Základní princip CO? KDE? JAK?

  44. Co chci najít? • Informační potřeba • to co vím mi nestačí • Požadavek • konkretizovaná představa o informační potřebě • Dotaz • Kladu přímo zdroji, ve kterém hledám • Ve vyhledávačích obecně: navigační, informační, transakční (např. co, kdy, kde atd.)

  45. Informační potřeba • V 80-90 letech se rozvíjí věda nazvaná „informační chování uživatele“ • Posun v přístupu computer-centred => user-centred • Tři základní přístupy • Kognitivní • Sociální • Sociokognitivní (nejvíc in, kombinace individualismu s kontextualitou prostředí)

  46. KDE • Typ zdroje • Primární zdroje • Sekundární zdroje • Terciální zdroje • Vyhledavače, katalogy, databáze, encyklopedie • Globální / lokální charakter, Gatekeeping

  47. JAK • Vychytávky • Boolean logika (AND, OR, NOT ) • Proximitní operátory (NEAR, WITHIN, SAME, „…“) • Lematizace (skloňování, ?, * atd.) • Typy vyhledávání • Fulltextové • Faktografické • Atd. • Rešeršní strategie

  48. JAK • ANALYTICKÉ VYHLEDÁVÁNÍ • Systematická strategie • Příprava, promýšlení problému, předdotazy • PROHLÍŽENÍ (browsing) • Intuitivní vyhledávání

  49. ZPĚTNÁ VAZBA

More Related