1 / 21

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval. Pavel Moravec , pavel.moravec _at_ vsb.cz Michal Kolovrat , michal.kolovrat@vsb.cz Václav Snášel , vaclav.snasel@vsb.cz Katedra informatiky VŠB-Technická univerzita Ostrava. Dateso 2004. Obsah. Vektorový model

temira
Download Presentation

LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LSI vs. WordNet Ontology for Dimension Reduction in Information Retrieval Pavel Moravec, pavel.moravec_at_vsb.cz Michal Kolovrat, michal.kolovrat@vsb.cz Václav Snášel, vaclav.snasel@vsb.cz Katedra informatiky VŠB-Technická univerzita Ostrava Dateso 2004

  2. Obsah • Vektorový model • Singulární rozklad • Indexování latentní sémantiky • WordNet • Využití WordNetu pro redukci dimenze • Experimentální výsledky • Shrnutí

  3. Vektorový model Ve vektorovém modelu reprezentuje dokumenty jako sloupcové vektory vahtermů matice termů v dokumentech A

  4. Vyhledávání ve vekt. modelu • Podobnost dvou dokumentů nebo dokumentu a dotazu je vypočtena jako normovaný skalární součin jejich vektorů – kosinová míra. • Obsahují-li dotazy větší počet termů, je vhodné kolekci indexovat. • Většina struktur použitých pro indexování se chová špatně ve vyšších dimenzích – tzv. „prokletí dimenzionality“, proto se pokoušíme dimenzi redukovat • Indexy založené na aproximacích (např. VA-files) vytvářejí dlouhé aproximační řetězce a pro (řídkou) matici termů v dokumentech nejsou vhodné

  5. Redukce dimenze matice A Na matici A lze použít postupy známé z lineární algebry (zejména rozklady) • Výpočet vlastních čísel kovarianční matice (PCA) • Singulární rozklad matice (SVD) • ULV rozklad matice • Náhodnou projekci vektorů (RP) • atd.

  6. Singulární rozklad • Matici A lze rozložit singulárním rozkladem na součin matic U S VT, kde U a V jsou sloupcově-ortonormální matice singulárních vektorů a S je diagonální matice obsahující singulární čísla • Počet nenulových singulárních čísel r je nejvýše roven menšímu z rozměrů A

  7. k-redukovaný singulární rozklad • Použijeme jen k největších singulárních čísel a odpovídající souřadnice singulárních vektorů • Malé k a řídká matice A=> metoda Lanczos • Eckart-Young: Mezi všemi maticemi C hodnosti nejvýše k minimalizuje Akhodnotu ||A-C||F

  8. Indexování latentní sémantiky (LSI) a skrytá sémantika • LSI – k-redukovaný singulární rozklad matice termů v dokumentech • Skrytá sémantika – skryté vazby mezi termy a dokumenty na základě obsahu • Matice dokumentů Dk= VkSk(resp.Dk’ =Vk) • Matice termů Tk= UkSk(resp.Tk’ = Uk) • Dotaz v red. dimenzi qk= UkT q (resp. qk’ = Sk-1 UkTq)

  9. Klady a zápory LSI • Klady • Snížení dimenze vektorů • Omezení vlivu „prokletí dimenzionality“ • Nalezení skrytých vztahů v datech • Až na určení redukované dimenze lze provádět zcela automaticky • Zápory • Časová složitost výpočtu • Problematické přidávání dokumentů a termů

  10. Dvoufázový algoritmus výpočtu LSI (Papadimitriou) • Redukce do dostatečně velké dimenze l pomocí náhodné projekce (redukce dimenze násobením zleva projekční maticí, jejíž řádky mají nulovou střední hodnotu a jednotkový rozptyl) • Výpočet 2k-redukovaného singulárního rozkladu v této dimenzi Euklidovské vzdálenostibudou dostatečně zachovány Frobeniova norma aproximace matice vůči LSIk je kde e je koeficient změny vzdálenosti z J-L lemmatu.

  11. WordNet • Tezaurus, slovník synonym • V ontologii jsou uloženy synsety - sady synonym pro podstatná jména, přídavná jména, slovesa a příslovce • Pro podstatná jména a slovesa existují i další vztahy, mj. Je nadřazeným/podřízeným konceptem – hypernymum/hyponymum • Vazba mezi hlavními koncepty v národních WordNetech pomocí Inter-lingual index

  12. Ukázka konceptů ve WordNetu biology, biological science => life science, bioscience => natural science => science, scientific discipline => discipline, subject, subject area, … , branch of knowledge => knowledge domain, knowledge base => content, cognitive content, mental object => cognition, knowledge, noesis => psychological feature

  13. Využití WordNetu místo LSI • Proč? • Místo termů využijeme přímo synsety • Známe vztahy mezi synsety – nemusíme počítat rozklad, snadnější vkládání nových termů a dokumentů • Jak? • Převedeme termy na synsety a na jejich základě spočteme váhy termů v nadřazených konceptech • Použijeme jen nejvýznamnější koncepty nebo ty na nejvyšších úrovních

  14. Tvorba konceptů • Započteme váhy termů do synsetů • Váhu synsetu započteme do váhy hypernyma na dané úrovni (předchozí; 1. – l-tá) • Je-li potřeba, vybereme jen k nejvýznamnějších synsetů • Vytvoříme projekční matici termů na synsety • Promítneme matici termů v dokumentech do redukované dimenze • Je-li redukovaná dimenze příliš vysoká, využijeme dvoufázového algoritmu výpočtu LSIk a vytvoříme novou projekční matici

  15. Klady a zápory metody • Klady • Snížení dimenze vektorů • Využití synonym, matice dokumentů stále dosti řídká • Snadné přidávání nových dokumentů a termů • Zvýšení úplnosti • Přesnost a úplnost při použití dvoufázového algoritmu by měly být vyšší než u náhodných projekcí • Zápory • Jen podstatná jména a slovesa, obsažená ve WordNetu • Vyšší dimenze než u LSI

  16. Experimenty – testovací data • Použito 5000 dokumentů z kolekce TREC o cca. 57 tisících termech (LATIMES 01/89) • Přesnost a úplnost vyhodnocována pomocí 50 TREC queries (dotazy a odpovědi) • relevantní dokumenty • nerelevantní dokumenty • ostatní dokumenty (pravděpodobně nerelevantní) • Využit anglický WordNet 2.0 a jeho SDK, přímý přístup ke strukturám WordNetu (pomalý) • Vypočtena projekční matice převádějící matici termů v dokumentech na matici synsetů v dokumentech

  17. Experimenty – provedené testy • Klasické LSI do dimenzí 100 a 200 • Náhodná projekce do dimenze 1000 • Redukce na nejvyšší 2 a 3 úrovně synsetů anglického WordNetu • LSI do dimenze 200 dvoustupňovým algoritmem • náhodná projekce do dimenze 1000 • redukce 4 nejvyšších úrovní synsetů WordNetu

  18. Experimenty – čas a velikost

  19. Experimenty – přesnost a úplnost

  20. Závěr • Lepší výsledky než náhodné projekce • Srovnatelné s LSI, lze použít tam kde by byl výpočet LSI nemožný vzhledem k velikosti kolekce • Vylepšuje úplnost (na úkor přesnosti) • Možnost převodu dokumentů v různých jazycích pomocí mezijazykového indexu (ILI) na nejvyšších úrovních synsetů pro přibližné vyhledávání dokumentů • Nutno vyřešit problém s absencí hierarchie a synsetů pro některé termy • Možnost vyzkoušet jinou ontologii

  21. Literatura • D. Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems, 2001. • E. Bingham and H. Mannila. Random projection in dimensionality reduction: Applications to image and text data. In Knowledge Discovery and Data Mining, p. 245–250, 2001. • M. W. Berry and R. D. Fierro. Low-Rank Orthogonal Decomposition for Information Retrieval Applications. Numerical Algebra with Applications, 1(1):1–27, 1996. • C. H. Papadimitriou, H. Tamaki, P. Raghavan, and S. Vempala. Latent semantic indexing: A probabilistic analysis. p. 159–168, 1998. • K. Pala, T. Pavelek. VisDic – A Tool for WordNets, Znalosti 2003, 2003

More Related