Mapovanie opisu na vyhľadávanie

Mapovanieopisu na vyhľadávanie Ladislav Lenčucha

Požiadavky • Java verzia 1.5 • mySQL databáza • Vyhľadávanie ontológií • Opis ontológie • Vyžitie „dedičnosti“ pri vyhľadávaní • Samotné vyhľadávanie • Štatistika a vytváranie záverov • Postup • Opísanie ontológie • Vytvorenie popisu na konkrétnom životopise • Vytvorenie popisu špeciálnymi pravidlami • Vyhľadávanie • Analyzovanie okolia pri vyhľadávaní Adaptive systems: Student's knowledge evaluation using adaptive AHA! system

Základné kategorizovanie typov slov/slovných spojení 1. Presne definované výrazy dajú sa opísať cez regulárne výrazy a je to takto vyhovujúce Príklad: dátumy, sumy, názvy inštitúcií, značky áut

Základné kategorizovanie typov slov/slovných spojení 2. Výrazy dané viacerými slovnýmispojeniami alebo zhlukom slov v rôznom poradí v lepšom prípade sa dajú opísať viacerými regulárnymi výrazmi, častejšie však ide o rôzne slová, ktoré sa nemusia vyskytovať spolu a v danom poradí Príklad: Čiastkové výrazy, ktoré charakterizujú všeobecný pojem (ontológia nebola nadefinovaná do detailov) „ovládam prácu s počítačom“ / „znalosť práce s PC“

Základné kategorizovanie typov slov/slovných spojení 3. Neznáme výrazy, ktoré sa nedajú vopred definovať Predchádzajúce 2 typy presne vedia, čo majú hľadať. V tomto prípade ide o výrazy, ktoré chceme vydolovať, ale nevieme vlastne čo hľadáme. Opis je daný pozíciou v texte, pozíciou vzhľadom na okolité výrazy (výrazy pre iné ontológie), alebo pozíciou vzhľadom na konkrétne slová. Príklad: Priezvisko človeka v texte vieme určiť na základe pozície (dole pri podpise, alebo hore) a na základe toho, že sa nachádza v osobitnom bloku vedľa krstného mena (máme v DB) <b>John Doe</b>

Základné kategorizovanie typov slov/slovných spojení 4. Najlepšie výsledky sa dosiahnu kombináciou týchto typov častokrát sa presnosť inak dosiahnuť nedá Príklad: Adresa je daná (aj) ako časť medzi PSČ a mestom (máme v DB) a má formát v štýle [slovo/slová] [číslo domu]

Vytvorenie modelu úložiska dát • Prvotná myšlienka bola vytvoriť opis ontológie v nejakom formáte, ktorý vychádza z XML (podobne ako OWL). • Množstvo dát a opakovanosť procesu a vyžaduje minimalizovanie týchto (v podstate úplne) zbytočných úloh. • XML ––> Indexovaná databáza mySQL

Vytvorenie modelu úložiska dát

Postup pri vyhľadávaní • Pôvodne malo byť vyhľadávanie založené na vyhľadávaní pomocou prezenčných štruktúr, ktoré poskytli text v podobe, ktorá bola potrebná pre daný typ vyhľadávania a zároveň vystihovala štruktúru dokumentu • Časom sa stala orientácia a definovanie pravidiel nejasnými kvôli miešaniu štruktúry a formátovania (tagov) • Rozdelenie štruktúr na 2 samostatné: • popis štruktúry dokumentu (do istej miery zasahujú aj tagy) • popis formátovania (komplikovanejšie tagy, zvýrazňovanie) • Tieto štruktúry však vedia ako jedna druhú prelínajú

Postup pri vyhľadávaní

Postup pri vyhľadávaní • Postup pri vyhľadávaní • Zozbieranie informácií z databázy o tom, čo sa ide hľadať • Rozloženie dokumentu vo formáte HTML do reprezentačných štruktúr • Postupné vyhľadávanie od jednoznačných výrazov po nejednoznačné • Aplikovanie zložitejších pravidiel a vyhľadanie výrazov, ktoré sa nedajú presne určiť • Vypočítanie fitness každého nálezu a na jeho základe vylúčenie tých nálezov, ktoré spôsobujú že výsledné úseky nie sú disjunktné • Štatistika okolia každého výrazu – vytvorenie databázy slov, ktoré sa podozrivo často vyskytujú v okolí výrazu • TODO: Zaradenie slov s výbornou štatistikou priamo ku výrazu • TODO: využitie týchto údajov aj v rozhodovacom procese

Postup pri vyhľadávaní • Zozbieranie informácií z databázy o tom, čo sa ide hľadať • Pozostáva z vyhľadania reprezentantov, ktorý zodpovedajú ontológiám, ktoré sa idú hľadať. • Určenie závislostí a prebratie pravidiel rodičov/dekomponovanie ontológie • Určenie zložitosti voči ostatným reprezentantom a usporiadanie podľa náročnosti

Postup pri vyhľadávaní 2. Rozloženie dokumentu vo formáte HTML do reprezentačných štruktúr Náročný krok, kedy sa HTML dokument pretransformuje do údajových štruktúr, ktoré sú vhodné na vyhľadávanie Na rozloženie dokumentu som použil NekoHTML 0.9.5 open source parser (ako inak ako na HTML), ktorý je dostupný aj pre Javu a je založený na Xerces knižnici. http://www.apache.org/~andyc/neko/doc/html/ http://xerces.apache.org/xerces2-j/

Postup pri vyhľadávaní 3. Postupné vyhľadávanie od jednoznačných výrazov po nejednoznačné na základe pravidiel pre reprezentantov dôjde k určeniu toho, čo dokážeme momentálne v danom stave určiť. Pokiaľ momentálne pre daného reprezentanta nevieme nič určiť, počká sa na ďalšie kolo vyhľadávania, kedy budú možno známe ďalšie hodnoty, ktoré môžu napomôcť. Príklad: Na nájdenie ulice a čísla domu treba počkať na nájdenie mena a mesta osoby, pretože tento výraz je silne závislý od pozícií uvedených 2 reprezentantov.

Postup pri vyhľadávaní 4. Aplikovanie zložitejších pravidiel a vyhľadanie výrazov, ktoré sa nedajú presne určiť Zahŕňa využitie vzťahov medzi slovami a pre každý nález prezrie výskyt slov, ktoré sa tam majú alebo nemajú nachádzať. Slúži vlastne na prvotné obmedzenie nálezov, ktorých môže byť inak pre každého reprezentanta veľmi veľa Príklad: boli nájdené výrazy „znalosť“ – na začiatku dokumentu „počítač“ – v strede dokumentu „výborne“, - v strede dokumentu „ovládam“. – v ¾ dokumentu V tejto fáze dôjde k zlúčeniu výskytu slov „znalosť“ a „počítač“, pretože sa nachádzajú hneď vedľa seba (definované vzťahom minimálnej a maximálnej vzdialenosti).

Postup pri vyhľadávaní 5. Vypočítanie fitness každého nálezu a na jeho základe vylúčenie tých nálezov, ktoré spôsobujú že výsledné úseky nie sú disjunktné V tejto fáze už reálne dochádza k odstráneniu nálezov, ktoré „prehrajú bitku“, pretože ich fitness nie je dostatočné. Takisto sa môžu vylúčiť nálezy, ktoré nemajú dostatočný fitness na samého seba. Pôvodne sa mala táto fáza vykonávať v jednom cykle s bodmi 3 a 4, ale takto nemôže dôjsť k vylúčeniu nálezu, pre ktorý ešte nebolo nájdených dostatok informácií a v konečnom dôsledku je správny. Príklad: slovo počítač nebude určené ako reprezentant „znalosti práce s počítačom“, pretože koeficient slova počítač je 10, no minimum na určenie je 30 (napr. 10 za „počítač“, 10 za „znalosť“ a 10 za väzbu)

Postup pri vyhľadávaní 6. a 7. Štatistika okolia každého výrazu – vytvorenie databázy slov, ktoré sa podozrivo často vyskytujú v okolí výrazu Po úspešnom potvrdení nálezu ( t.j. určení že bol správny) prebehne ešte kontrola okolia nálezu - slúži na vytvorenie databázy slov, ktoré môžu indikovať prítomnosť výrazu alebo reprezentanta. Dôjde k pridaniu slov v aktuálnom vyhľadávaní Dôjde k odstráneniu slov, ktorých percentuálna časť na vyhľadávaní je príliš nízka a teda len zbytočne zaberajú miesto, pretože nič neznamenajú.

Čo chýba • Frontend • - Nástroj na prezeranie ontológie a jej prehľadné namapovanie priamo označovaním častí zobrazeného HTML a písaním pravidiel • Nástroj na výstup vyhľadávania a spätnú väzbu (priamo pri poloautomatickom spracovaní, alebo neskôr po vyhľadávaní a ručnej kontrole) • Využitie štatistického modulu • - Využitie skúseností môže podstatne ovplyvniť proces vyhľadávania a to napríklad aj tým, že si systém pamätá ktorá voľba bola dobrá a ktorá zlá alebo ktorý výraz sa vyskytuje častejšie, preto má väčšie šance a teda by mal mať v danej konfigurácii vyššie fitness.

Čo chýba Ďakujem za pozornosť

Mapovanie opisu na vyhľadávanie