1 / 9

Priindexovanie textov liniek k dokumentom

Priindexovanie textov liniek k dokumentom. Ondrej Urban. Problém, motivácia. Text linky obsahuje informácie o dokumente Text linky patrí dokumentu, n a ktorý ukazuje Na rovnaký dokument ukazujú viaceré linky Relevancia podobná ako nadpis dokumentu. Existujúce riešenia. Google

jeroen
Download Presentation

Priindexovanie textov liniek k dokumentom

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Priindexovanie textov liniek k dokumentom Ondrej Urban

  2. Problém, motivácia • Text linky obsahuje informácie o dokumente • Text linky patrí dokumentu, na ktorý ukazuje • Na rovnaký dokument ukazujú viaceré linky • Relevancia podobná ako nadpis dokumentu

  3. Existujúce riešenia • Google • Samostatný index anchor textov • Hľadanie možné len v anchor textoch • Linky určujú relevanciu dokumentu • Nutch • Pri 1.prechode vytvorí crawlDb a linkDb • Inveruje linky do dokumentov a indexuje

  4. Popis riešenia • Pracuje na 1 prechod dokumentami • Priebežne pridáva anchor texty do dokumentov a indexuje ich • Na záver priindexuje zvyšné linky k dokumentom • Vyhľadávanie vo viacerých poliach dokumentu • Používateľ zadá, v ktorých poliach chce hľadať

  5. Implementácia • Projekt irLessons, • Jazyk Java, knižnica Lucene • Príkazový riadok, argumenty programu • Zaputie/vypnutie indexácie liniek • Nastavenie „boost“ poľa anchor textov • Sťahuje dokumenty z predvolenej url adresy • http://irlesons.sourceforge.net/data/1.html

  6. Testovanie • Testovacie dáta boli použité vzorové z projektu • Otestované dopyty: • FIIT STU • UISAV • Informatiky • Výsledky pri zapnutom/vypnutom indexovaní anchor textov • Výsledky pre „boost“ anchor textov rovný 1.0 a 2.0

  7. Program-indexovanie

  8. Program-vyhľadávanie

  9. Záver • Indexovanie liniek zvyšuje relevanciu dokumentu • Nájde aj text, ktorý sa nenachádza priamo v dokumente • Možné vylepšenia: • Grafické rozhranie • Výber cesty k dokumentom a indexu • Konfiguračný súbor s nastaveniami

More Related