1 / 10

Sémantická anotácie pre podnikové aplikácie

Sémantická anotácie pre podnikové aplikácie. Michal Laclavík , Marek Cigla n, Martin Šeleng, Zoltán Balogh. Metóda Ontea. Moti vácia Vytvoriť alebo nájsť sémantické dáta v texte Aj pomocou externých zdrojov Spôsob metódy Aj neštruktúrovaný text obsahuje nejaké vzory

vidar
Download Presentation

Sémantická anotácie pre podnikové aplikácie

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sémantická anotácie pre podnikové aplikácie Michal Laclavík, Marek Ciglan, Martin Šeleng, Zoltán Balogh

  2. Metóda Ontea • Motivácia • Vytvoriť alebo nájsť sémantické dáta v texte • Aj pomocou externých zdrojov • Spôsob metódy • Aj neštruktúrovaný text obsahuje nejaké vzory • Vzory môžu byť použité na extrakciu objektov a ich vlastností • Výsledok: key - value pairs (kľúč-hodnota) • Transformácia na ontology individuals • Class – individual • Individual – property 6.-7. november 2008

  3. Text Bratislava is the capital of Slovakia. Slovakia is in Europe. Pattern: “(in|by) + (the)? *([A-Z][a-z]+)” for Location Ontea discovers key – value pair: Location – Europe By transformation to ontology knowledge base - it finds Europe as continent using inference (sub-class of Location) Continent – Europe More Examples are in the table: Príklady výsledkov 6.-7. november 2008

  4. Features • Identification of concept instances from the ontology • Automatic population of ontologies with instances • Identifying relevance, when creating instances using information retrieval techniques • Key-value pairs transofrmation • Integration with data from external systems • Large scale semantic annotation of documents or texts using Google’s MapReduce architecture. 6.-7. november 2008

  5. Príklad transformácie procesu • Transformation example: • Text: “Slovensko je v Európe“=> • Extraction: Location – Európe => • Transformation, Lemmatization: Location – Európa => • Transformation, Ontology: Continent – Europe 6.-7. november 2008

  6. Transformácia z externých zdrojov • Text: obsahuje napr. doménu • Použijem vzor: ([_-a-zA-Z0-9]+\\.sk), • napr.: domain:SK – toyota.sk • Pomocou registrátora www.SK-NIC.sktransformujem pár na: • IČO – 31585973 • SystemConnector pomocou stránky obchodného registrawww.orsr.sk • company:Name - TOYOTA MOTOR SLOVAKIA s.r.o. • alebo prípadne ďalšie údaje o objekte firmy ako adresa a podobne. Web Connector Key-value Meta-Connector SpreadSheetConnector Transformed Key-value DatabaseConnector 6.-7. november 2008

  7. Experiment • sadu 8579 emailov • databázu zákazníkov a služieb Identifikácia zákazníka podľa • Adresa odosielateľa • Meno firmy • Telefónne číslo • Internetová doména ktorá reprezentuje službu poskytovanú zákazníkovi DatabaseConnector 1 Key-value Meta-Connector DatabaseConnector 2 Key-value DatabaseConnector 3 6.-7. november 2008

  8. Acoma 6.-7. november 2008

  9. Záver • Použitie dát ktoré nie sú priamo v texte • Vhodné pre vnútro podnikové aplikácie • Spracovanie archívov • Elektronickej komunikácie • Intranet systémov • Architektúra založená na transformácii párov • Rozširovateľnosť • Škálovateľnosť (MapReduce) • Prisposobiteľnosť 6.-7. november 2008

  10. Ďakujem za pozornosť http://ontea.sourceforge.net/

More Related