1 / 12

Università degli Studi di Modena e Reggio Emilia

Università degli Studi di Modena e Reggio Emilia. Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento. Information Extraction: il rapporto GATE – Named Entity Recognition. Relatore: Candidato: Prof. Sonia Bergamaschi Simone Ferrari.

bevan
Download Presentation

Università degli Studi di Modena e Reggio Emilia

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Università degli Studi di Modena e Reggio Emilia Facoltà di Ingegneria – Sede di Modena Corso di Laurea in Ingegneria Informatica – Nuovo Ordinamento Information Extraction: il rapporto GATE – Named Entity Recognition Relatore: Candidato: Prof. Sonia Bergamaschi Simone Ferrari Anno Accademico 2005 – 2006

  2. Iter seguito • Differenziazione Information Retrievial – Information Extraction • Discussione Information Extraction • Named Entity Recognition • Descrizione GATE • ANNIE • Applicazione a siti web di GATE per NER • Valutazione prestazioni • Conclusioni e sviluppi futuri

  3. Information Retrievial vs Information Extraction Sistema IR Input: insieme di documenti (corpus) + query (key words) Output: documenti rilevanti + score Sistema IE Input: insieme di documenti (corpus) + query (key words) Output: frammenti dei documenti con informazioni poco ambigue in formato prestabilito • Vantaggi IE: • minor tempo d’analisi • formato dell’output • Svantaggi IE: • difficoltà d’implementazione • in alcuni casi meno accurato rispetto alla lettura umana

  4. Information Extraction Jim bought 300 shares of Acme Corp. in 2006 • Concetto nato all’interno delle MUCs • In MUC (1998) • - Named Entity recognition (NE) • - Coreference resolution (CO) • - Template Element construction (TE) • - Template Relation construction (TR) • - Scenario Template production (ST) • Successore di MUC : ACE (1999) <ENAMEX TYPE="PERSON">Jim</ENAMEX> bought <NUMEX TYPE="QUANTITY">300</NUMEX> shares of <ENAMEX TYPE="ORGANIZATION">Acme Corp.</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>

  5. GATE • a General Architecture for Text Engineering • Hamish Cunningham (University of Sheffield) • versione 1 nel 1996; versione 3.1 su http://gate.ac.uk/download/ • algoritmi + dati + GUI = applicazioni • Language Resources (LRs) • Processing Resources (PRs) • Visual Resources (VRs) = CREOLE a Collection of REusable Objects for Language Engineering

  6. ANNIE • A Nearly New IE system • contiene al suo interno le PRs • Tokeniser • Gazetteer • Sentence Splitter • POS Tagger • Semantic Tagger • OrthoMatcher (NameMatcher)

  7. Attività sperimentale • NER utilizzando GATE applicato a siti WISDOM • (http://dbgroup.unimo.it/wisdom/) • output • codice • prestazioni • modifiche e prestazioni2

  8. Booking.com Input Output

  9. XML Booking.com • Attività preliminare del Tokeniser • Creazione dell’annotation set di default da parte del Tokeniser − <Annotation Id="2567" Type="Location" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">rule1</Name> <Value className="java.lang.String">Location1</Value> </Feature> − <Feature> <Name className="java.lang.String">rule2</Name> <Value className="java.lang.String">LocFinal</Value> </Feature> − <Feature> <Name className="java.lang.String">locType</Name> <Value className="java.lang.String">city</Value> </Feature> − <Feature> <Name className="java.lang.String">matches</Name> <Value className="java.util.ArrayList" itemClassName="java.lang.Integer">2567;2568;2686</Value> </Feature> </Annotation> − <TextWithNodes> <Node id="0"/> BOOKING <Node id="7"/> . <Node id="8"/> COM <Node id="11"/> <Node id="12"/> online <Node id="18"/> <Node id="19"/> hotel <Node id="24"/> <Node id="25"/> reservations <Node id="37"/> (…) </TextWithNodes> − <Annotation Id="2317" Type="Lookup" StartNode="450" EndNode="456"> − <Feature> <Name className="java.lang.String">majorType</Name> <Value className="java.lang.String">location</Value> </Feature> − <Feature> <Name className="java.lang.String">minorType</Name> <Value className="java.lang.String">city</Value> </Feature> </Annotation> <Node id="450"/> Berlin <Node id="456"/> Serialized Nodes Berlin→city.lst:location:city

  10. Valutazione delle prestazioni Tramite l’AnnotationDiff Tool di GATE • consente di confrontare due set di annotazioni • Confronto prestazioni di GATE nell’IE: • inglese vs italiano • inglese referenziato vs inglese • italiano referenziato vs italiano

  11. Inglese referenziato vs Inglese Default Dopo Modifiche: Norwalk, Loulè→city.lst; Tuscany→region.lst; PT →country_cap.lst 48,84% 58,14% Miss rimanenti: mancanza di regole adeguate

  12. Conclusioni e sviluppi futuri • Sistema GATE fornito in modalità “primitiva”: • necessità di un raffinamento (Gazetteer, POS e Semantic Tagger) • Training pesante (centinaia di testi, mesi) • Sviluppo multilingua recente (molto da implementare) • PRs sempre più intelligenti • → background working

More Related