1 / 23

Cvičení č. 2

Cvičení č. 2. Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr , David Pejčoch. Základní linie kurzu 4iz210. Semistrukturovaná data. Strukturovaná data (databáze). Nestrukturovaná data (volný text). t. Několik rozsáhlých databází Dynamický obsah.

reina
Download Presentation

Cvičení č. 2

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Cvičení č. 2 Vyhledávání na Internetu (pro pokročilé) Autor:David Chudán, Tomáš Kliegr, David Pejčoch

  2. Základní linie kurzu 4iz210 Semistrukturovaná data Strukturovaná data (databáze) Nestrukturovaná data (volný text) t • Několik rozsáhlých databází • Dynamický obsah • Mnoho malých dokumentů • Statický obsah <?xml version=„1.0“?> <osoba> <jmeno>David Veliký</jmeno> <tel>2191 4264</tel> <email>mujmail@mailbox.cz</email> </osoba> MyDB

  3. Vyhledávání na internetu - motivace • Vysoké procento uživatelů velmi důvěřuje svým schopnostem ve vyhledávání na Internetu. • Výsledky starší studie* (2005): • 92% uživatelů důvěřuje svým schopnostem ve vyhledávání, 52% potom velmi důvěřuje • Je tento optimismus oprávněný? *http://www.pewinternet.org/Reports/2005/Search-Engine-Users.aspx?r=1

  4. Fulltextové vyhledávání • Neprohledávají se strukturovaná data, ale volně psané texty, kde může být tatáž událost popsána více autory různými způsoby: • Různé slovní obraty • Různá slova stejného významu (synonymie) • … • Neexistuje objektivně nejlepší řešení. • Správnost (relevance) výsledků podléhá subjektivnímu názoru dotazovatele.

  5. Jak vyhledávače fungují? Zjednodušeně ve třech krocích: • Sběr dat pomocí crawlerů (robotů) • Zpracování do databáze (indexování) • Zpřístupnění uživatelům pomocí vyhledávacího okna Robots.txt User-agent: * Disallow: /downloads/ Request-rate: 1/5 Visit-time: 0600-0845 Sitemap: http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml Sitemap: http://www.google.com/hostednews/sitemap_index.xml Meta tags <meta name="description" content=„My content."> <meta name="keywords" content=„všechno možné"> <meta name="robots" content="noindex,follow"> <meta name="googlebot" content="nosnippet,noarchive"> <meta http-equiv="Content-language" content="cs">

  6. Nejsou však všemocné… • Neviditelný web • Intranety – fyzicky nedostupné • Zaheslovaný obsah • Obsah přístupný přes formuláře • Flash prezentace, PDF, komprimované soubory, nedostatek textu • Limity počtu indexovaných stránek v rámci domény • Robots.txt • Neumí indexovat dynamický obsah, … • neviditelný web je až 500krát větší než tzv. povrchový web • obsahuje kvalitní dokumenty (1000 až 2000krát kvalitnější než v povrchovém webu) • je to nejrychleji rostoucí část webu Brány: www.completeplanet.com, http://www.ipl.org/

  7. Informační profesionál • Nepoužívá jediný vyhledávač (search engine) • „předpojatost“ vyhledávačů, užití různých algoritmů, ze stejného webu mohou indexovat různý počet stránek • Používá placené zdroje. • „V extrémních případech“ možnost vytvoření vlastního crawleru. • A rozhodně nepoužívá jediný informační zdroj.

  8. Jak poznat kvalitní informační zdroj? • Odborná erudice autora (vyhledání informací o autorovi) • Scientometrie – metoda stanovení kvality vědecké práce – čím více si vědecká (odborná) komunita všímá určité publikace, tím větší má hodnotu • Spolehlivost informačního zdroje – míra citovanosti, zjišťovaná impact faktorem (kolikrát byl článek v časopise citován během dvou let od jeho publikování)

  9. Jak poznat kvalitní informační zdroj? • Stáří informace – užitná hodnota informace klesá v závislosti na čase (existují však informace, jejichž užitná hodnota v čase neklesá). • Informační cyklus se díky možnosti publikovat online dramaticky zrychlil.

  10. Problémy při vyhledávání - nevýznamová a nespecifická slov • Využití negativního slovníku, seznam stop-slov • Vytvoření negativního slovníku: • Volba druhů slov, které nenesou význam a slouží pouze pro syntaktické účely (např. spojky, předložky, částice, mluvnické členy apod.), • Volba slov s vysokou frekvencí v textu dokumentu (resp. Ve všech dokumentech) • Volba velmi krátkých slov

  11. Problémy při vyhledávání - homonymie a synonymie • Synonymie – více slov má stejný význam • Homonymie – jedno slovo má více významů Např. „Jel kolem nás.“ „Nechoď sem s tím kolem.“ „Šel kolem nás s kolem.“ • Stejný tvar pro různé pády a další gramatické jevy (např. vzor kost – shoda 2., 3., 5., 6. p. č.j.) • Jeden tvar slova může mít různý význam (hnát, tři, kohoutek…) • Pro vyhledávače VELMI obtížné rozlišit, o jaký význam se jedná.

  12. Techniky při zpracování dotazu - Desambiguace Desambiguace = Zjednoznačnění = proces pomáhající strojovému porozumění textu. = určení významu slova podle jeho kontextu – odstranění víceznačnosti. Základní algoritmus: • Přiřaď každému slovu <některé|všechny možné> značky. (pomocí slovníku, korpusu, morfologického analyzátoru) • Pomocí pravidel <vytvořených člověkem|naučených> zruš nesprávné značky. • Odstraň ručně <některé|všechny zbývající> dvojznačnosti. http://nlp.fi.muni.cz/projekty/wwwajka/WwwAjkaSkripty/morph.cgi?jazyk=0

  13. Techniky při zpracování dotazu - Lemmatizace Lemmatizace = redukce slov na jejich základní tvary (1. pád jednotného čísla…) Metody: • Využití slovníku kmenů nebo kořenů • Odstranění afixů, tj. předpon a přípon – problém nepravidelné flexe (např. hláskové změny pes, psi) • Statisticky – na základě variety po sobě následujících písmen

  14. Pokročilé techniky – text mining, informationretrieval • Identifikace hlavních termínů na zkoumaném webu (term frequency DF – inverse document frequency IDF) • Identifikace témat na zkoumaném webu -Latentní sémantické indexování (LSO) (např. dříve AdSense od Google): • Nalezení dokumentů, které se vztahují k určitému tématu – porovnávání s ostatními webovými stránkami, které obsahují daná klíčová slova • Pracuje se synonymy • Nevyžaduje žádné další informace v dokumentu, ani v dotazu počet dokumentů v korpusu IDF = log --------------------------------------- počet dokumentů s výskytem

  15. Tak trochu jiné (sémantické) vyhledávače • Hakia.com • Stále betaverze • Technologie QDEX (QueryDetection and Extraction) • Automatické rozšiřování dotazu o synonyma • Kategorizace, zobecňování, zvýraznění • www.sensebot.net (text mining + multidocument sum.) stáhnutelnýFirefoxadd-on • www.powerset.com „Google-killer“ hledá celkový význam nad rámec jednotlivých slov; koupil Microsoft => Bing • www.wolframalpha.com encyklopedie + výpočty

  16. Služby týkající se webových stránek • Měření reputace stránek: Page Rank, Srank, Jyxo rank • Zjišťování návštěvnosti webů: Alexa.com, Toplist.cz • Webové archivy (starší verze stránek): Google cache – vhodné pro aktuální, právě nepřístupný obsah • www.archive.org – delší historie www.vse.cz: Google page rank (max) Complete rank (min) Alexa rank (min) Jyxo rank (max) Seznam s-rank (max) http://pagerank.jklir.net/

  17. Tipy pro vyhledávání • I klasické operátory stále mají smysl (?, *, AND, OR…) • Site: omezení vyhledávání na určitou doménu • Filetype: omezení na určený typ souborů • ~ : dotaz rozšiřuje o synonyma (Google) • Symbolem „-“ můžeme označit slova, která nechceme mít ve výsledcích vyhledávání. Možno kombinovat například s operátorem site. http://www.googleguide.com/advanced_operators.html

  18. Doplňkové zdroje informací k CI studii • Hospodářská komora České republiky http://www.komora.cz/ • Česká agentura na podporu obchodu http://www.czechtrade.cz/Global • Ministerstvo financí(ARES) http://wwwinfo.mfcr.cz/ares/ • Ministerstvo spravedlnosti (Justice.cz) http://portal.justice.cz/ • Státní správa http://www.statnisprava.cz/ • Registr živnostenského podnikání http://www.rzp.cz • http://obchodni-rejstrik.cz • http://www.b2m.cz • http://www.axis4.info Základní informace o firmě • http://www.ckds.cz Česká komora detektivních služeb • http://www.dnbczech.cz • http://www.isvz.cz/isvz/ Informační systém o veřejných zakázkách • http://www.businessinfo.cz/cz/ - Oficiální portál pro podnikání a export

  19. SWOT analýza jako součást dlouhodobého plánování firmy Free nástroj: www.smartdraw.com

  20. Příklad SWOT – je to dobrý příklad?

  21. Porter http://rossresults.com/library/The_Five_Competitive_Forces_That_Shape_Strategy.pdf M. Porter = guru a stratég v oblasti podnikání, profesor podnikového řízení na Harvard Business School 5 sil: hrozba vstupu nových konkurentů intenzita konkurenční síly hrozby substitutů vyjednávací síla zákazníků

More Related