1 / 9

Extrakcia udalost í

Extrakcia udalost í. Robert Švajdlenka. Zadanie. Extrakcia udalostí z e-mailov – pomocou regulárnych výrazov Názov udalosti Čas konania udalosti Miesto konania udalosti (nepovinné) Podudalosti (nepovinné) – názov a čas konania udalosti Export do Google kalendára

clarke
Download Presentation

Extrakcia udalost í

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extrakcia udalostí Robert Švajdlenka

  2. Zadanie • Extrakcia udalostí z e-mailov – pomocou regulárnych výrazov • Názov udalosti • Čas konania udalosti • Miesto konania udalosti (nepovinné) • Podudalosti (nepovinné) – názov a čas konania udalosti • Export do Google kalendára • Vstupné dáta – Dbworld e-maily v samostatných súboroch • MIME formát • Extrakcia udalostí z textu e-mailu • Výpočet presnosti a pokrytia na základe Dbworld hlavičiek

  3. Vstupné dáta - hlavičky • na porovnanie s údajmi extrahovanými z textu • Predmet (Subject) e-mailu – názov udalosti • "Subject: [Dbworld] názovudalosti" • "Subject: názovudalosti„ • Príklad: Subject: [Dbworld] BIBM Final Call for Posters • Dbworld hlavičky – dátum a miesto konania udalosti • "x-dbworld-start-date: dátum udalosti" • "x-dbworld-location: miesto konania udalosti„ • Príklad: X-DBWorld-Start-Date: 18-Dec-2010X-DBWorld-Location: Hong Kong; China; Asia

  4. Vstupné dáta – text e-mailu Call for PostersIEEE International Conference on Bioinformatics & Biomedicine (BIBM'10) Hong Kong, China. December 18-21, 2010http://www.math.hkbu.edu.hk/BIBM2010/Poster submissions are welcome in all areas of bioinformatics and biomedicine relevant to the scope of BIBM (for a detailed list of topics see the call for papers). Poster presentations offer the opportunity to present late-breaking results, work in progress, or other significant research that is best communicated in a graphical or interactive format. We expect the poster session to be the focus of interactions between authors and other conference participants, leading to discussions about the work presented, fostering possible collaborations, and providing the authors with valuable feedback about their work.Poster co-chairsFrancisco M Couto, University of LisbonJun (Luke) Huan, University of KansasSiu Ming Yiu, The University of Hong KongThe poster co-chairs can be reached at bibm10-posters@wi-lab.com for additional information, questions, or clarifications.Important dates* October 20, 2010 - Poster submission deadline* October 28, 2010 - Notification of poster acceptance* November 7, 2010 - Camera-ready submission of poster

  5. Riešenie • VisualStudio 2010, .NET Framework 3.5, jazyk C# • Parsovanie e-mailov v MIME formáte pomocou SharpMimeTools • Odstránenie HTML značiek pomocou regulárneho výrazu <((/)|(!--))?[^>]+> • Extrakcia informácií o udalostiach pomocou regulárnych výrazov (sú uvedené v textovej časti projektu) • Export do Google kalendára pomocou webových služieb prostredníctvom GoogleCalendarData API

  6. Riešenie - algoritmus • vyhľadajú sa všetky dátumy a rozsahy dátumov (od-do) • pre prvý dátum sa nájde prvý názov udalosti do 200 znakov pred prvým znakom dátumu alebo max. 100 znakov za dátumom - ak sa nepodarí nájsť, tak sa nepokračuje a v e-maile sa nenájdu žiadne udalosti • do 100 znakov za posledným znakom dátumu sa hľadá lokalita udalosti • pre zostávajúce dátumy sa hľadajú pod-udalosti pred/za dátumami v rámci rovnakého riadku, pričom sa už nehľadá lokalita

  7. Riešenie - GUI - hlavné okno

  8. Riešenie - GUI – export

  9. Vyhodnotenie • Vzorka 122 Dbworld e-mailov • Vyhodnocuje sa na základe porovnávania extrahovaných udalostí z textu e-mailu s hlavičkami (niektoré hlavičky sú nepresné, čo zhoršuje presnosť a pokrytie približne o 10%) • Dátum je označený za správny, ak dátum/rozsah dátumov pre hlavnú udalosť v e-maily je zhodný/obsahuje dátum z Dbworld hlavičky • Názov udalosti je správny, ak je zhodný aspoň s 50% slov predmetu e-mailu alebo musia byť zhodné aspoň 3 slová • Rovnako sa overuje miesto konania udalosti voči príslušnej hlavičke • Názov udalosti je správny, aj v prípade zhody prvých veľkých písmen za sebou nasledujúcich 3 a viacerých slov začínajúcich na veľké písmeno (skratka názvu udalosti)

More Related