text ov datab zy n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Text ové Datab á zy PowerPoint Presentation
Download Presentation
Text ové Datab á zy

Loading in 2 Seconds...

play fullscreen
1 / 22

Text ové Datab á zy - PowerPoint PPT Presentation


  • 134 Views
  • Uploaded on

Text ové Datab á zy. Ján GENČI PDT. Obsah. Literat úra Terminol ógia Vymedzenie pojmu textové databázy Typy dotazov Fulltextové vyhľadávanie Lingvistick é korpusy. Literatúra. Pokorný J. : Datab ázové systémy 2, Nakladatelství ČVUT, 2007

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Text ové Datab á zy' - deepak


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
text ov datab zy

Textové Databázy

Ján GENČI

PDT

obsah
Obsah
  • Literatúra
  • Terminológia
  • Vymedzenie pojmu textové databázy
  • Typy dotazov
  • Fulltextové vyhľadávanie
  • Lingvistické korpusy
literat ra
Literatúra
  • Pokorný J.: Databázové systémy 2, Nakladatelství ČVUT, 2007
  • Pokorný J., Snášel V., Kopecký M.: Dokumentografické informačné systémy, Nakladatelství Karolinum, 2005.
  • Laura C. Rivero, Jorge H. Doorn, Viviana E. Ferraggine: Encyclopedia Of Database Technologies And Applications. Idea Group Publishing, 2005 (heslo Text Databases, p. 688)
  • Erickson J.: Database Technologies:Concepts,Methodologies,Tools, and Applications. IGI Global, 2009. ISBN 978-1-60566-058-5 (pp. 931-939)
literat ra cont 2
Literatúra (cont.-2)
  • Oracle Text. http://www.oracle.com/technology/products/text/index.html
  • Oracle Text. An Oracle Technical White Paper. June, 2007 (prečítať) http://www.oracle.com/technology/products/text/pdf/11goracletexttwp.pdf
txt db terminol gia
TXT DB – Terminológia
  • Information retrieval
  • Textové databázy (informačné systémy)
  • Dokumentové databázy (Document databases)
  • Dokumentografické informačné systémy
defin cia
Definícia
  • Text je akákoľvek postupnosť symbolov z nejakej abecedy.
  • Veľká časť informácií dostupných v elektronickej podobe je práve v textovej forme :
    • Text prirodzeného jazyka (napr. knihy, časopisy, noviny, právne dokumenty, databázy, korporátna informácia, Web),
    • Biologické sekvencie (napr. DNA, sekvencie proteinov),
    • ...
  • Textová databáza je systém, ktorý spravuje (zvyčajne veľké) kolekcie textov a poskytuje rýchly a bezchybný/presný prístup k nim.
  • Tieto požiadavky sú protichodné, ale obe sú kritické, ak máme mať úžitok z texotvých kolekcií.
txt db typ y dotazov
TXT DB – Typy dotazov
  • Syntaktickévyhľadávanie (vyjadrené ako postupnosť znakov prítomných v texte):
    • String matching (najjednoduchší typ dotazu, cely rad algoritmov – Knut-Morris-Pratt first O(n))
    • Regulárnevýrazy
    • Approximate searching (poskytuje možnosť eliminovať rôzne typy chýb, ktoré môžu byť obsiahnuté v texte – či už prehľadávanom, alebo dotaze - napr.edit distance)
  • Sémantickévyhľadávanie(má veľký význam) – používateľ zadá informáciu, ktorú požaduje a systém vyhľadá súbor textov (dokumentov) relevantných požiadavkám používateľa; dokonca aj vtedy ak sa výsledok priamo neobjavuje v dotaze. Systém ohodnocuje dokumenty a dokumenty s najvyšším ohodnotením ponúkne používateľovi. V tomto prípade nehovoríme o správnej alebo nesprávnej odpovedi, ale iba lepšej alebo horšej.
fulltex tov vyh ad vanie
Fulltextové vyhľadávanie
  • V tradičných SRBD je manipulácia s textom obmedzená bežnými reťazcovými funkciami (exact matching podreťazcov)
  • Tradičné reťazcové operácie sú mimoriadne drahé pre veľké dokumenty – SRBD nemajú efektívnu podporu pre tieto operácie a preto sú rozširované o špeciálne moduly – fulltexotvého vyhľadávania (full-text search;FTS).
alternat vy implement cie fts
Alternatívy implementácie FTS
  • FTS moduly ako súčasť SRBD (Oracle, Microsoft SQLServer, Postgres, mySQL; Informix Text Datablade; )
  • Databázovo nezávislé FTS (SPSS LexiQuest, SAS Text Miner, dtSearch, Statistica Text Miner, ...)
sp soby spracovania
Spôsoby spracovania
  • Text mining
  • Full text search
text mining
Text mining
  • Podoblasť správy dokumentov, ktorej cieľom je spracovanie, vyhľadávanie a analýza dokumentov
  • Cieľ – objaviť netriviálne skryté charakteristiky dokumentov samotnýchalebo ich súborov
  • Interdisciplinárna oblasť strojového učenia, ktorá využíva prístupy a nástroje z oblastí:
    • computational linguistics,
    • natural language processing,
    • information retrieval,
    • data mining.
information extraction
Information Extraction
  • Príklady podúloh:
    • Rozpoznanie pomenovaných objektov (osoby, geografické názvy, firmy, kluby, ...),
    • co-reference resolution – identifikácia fragmentov textu odkazujúcich na tie isté entity/objekty,
    • Identifikácia rolí a ich vzťahov
kategoriz cia textov
Kategorizácia textov
  • Cieľ – zaradenie dokumentovv rámci stanovenej kategorizácie; napr.:
    • document filtering –spamfiltering, alebo newsfeed;
    • patent document routing – determination ofexperts in the given fields;
    • assisted categorization – helping domainexperts in manual categorization with valuablesuggestion;
    • automatic metadata generation.
zhlukovanie dokumentov
Zhlukovanie dokumentov
  • Zhlukovanie/združovanie elementov kolekcie na základe ich podobnosri.
  • Dokumentysu zvyčajne zhlukované na základe obsahu.
  • Zhlukovanie môže byť aplikované napr. na:
    • Zhlukovanie výsledkov vyhľadávania kvôli lepšej orientácii používateľa vo výsledkoch,
    • Zvýšenie výkonnosti tzv. vector space based information retrieval,
    • Realizáciu „navigačného“ prístupu k prehľadávaniu dokumentov.
summariz cia
Summarizácia
  • Automatické generovanie krátkeho zhrnutia dokumentu
fulltextov indexy
Fulltextové indexy
  • Kľúčový problém v oblasti spracovanie textov (information retrieval)je návrh a implementácia efektívnych dátovych štruktúr a algoritmov pre indexovaniea vyhľadávanie informačných objektov, ktoré sú opísané nejasne.
  • Najčastejšie používané štruktúry:
    • invertované súbory (inverted files);
    • signatúrové súbory (signature files);
    • bitmapové indexy.
informix
Informix
  • Excalibur Text DataBlade Module provides text search capabilities that include:
    • phrase matching,
    • exact and fuzzy searches,
    • compensation for misspelling,
    • synonym matching.
lingvistick korpusy
Lingvistické korpusy
  • Kolekcie textov v konkrétnom jazyku určené primárne pre lingvistický výskum
  • Značkované texty
  • Príklady:
    • British National Corpus (100 mil. slov)
    • Slovenský národný korpus (530 mil. tokenov)
    • Český národný korpus (300 mil. slov)
  • Paralelné korpusy