1 / 33

Lexika

Sehr große Korpora für große Wörterbücher Manfred Pinkal Kolloquium Korpus-Annotierung Saarbrücken, 15.2.02. Lexika. Wörterbücher für menschliche Benutzer. Bedeutungswörter-bücher für menschliche Benutzer. Wörterbücher für sprachtechnologische Anwendung.

tovah
Download Presentation

Lexika

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sehr große Korpora für große WörterbücherManfred PinkalKolloquium Korpus-AnnotierungSaarbrücken, 15.2.02

  2. Lexika Wörterbücher für menschliche Benutzer Bedeutungswörter-bücher für menschliche Benutzer Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter-bücher für sprachtechnologische Anwendung Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  3. Lexika Wörterbücher für menschliche Benutzer Wahrig-Projekt I Bedeutungswörter-bücher für menschliche Benutzer Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter-bücher für sprachtechnologische Anwendung Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  4. Lexika Wörterbücher für menschliche Benutzer Wahrig-Projekt I Bedeutungswörter-bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter-bücher für sprachtechnologische Anwendung Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  5. Lexika Wörterbücher für menschliche Benutzer Wahrig-Projekt I Bedeutungswörter-bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter-bücher für sprachtechnologische Anwendung Leibniz-Projekt Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  6. Das Wahrig Textkorpus digital • Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000 Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  7. Das Wahrig Textkorpus digital • Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000 • Berliner Zeitung • Süddeutsche Zeitung • Der Spiegel Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  8. Das Wahrig Textkorpus digital • Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000 • Berliner Zeitung • Süddeutsche Zeitung • Der Spiegel • Neue Zürcher Zeitung • Der Standard Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  9. Das Wahrig Textkorpus digital • Korpus mit (bisher) 6 Jahrgängen deutschsprachiger Periodika 1995-2000 • Berliner Zeitung • Süddeutsche Zeitung • Der Spiegel • Neue Zürcher Zeitung • Der Standard • Spektrum der Wissenschaft (ab 1993) • Brigitte (ab 1997) Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  10. Das WTD: Umfang • 450 Mio. Textwörter Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  11. Das WTD: Struktur • XML-Format (CES/TEI) • Kodierung meta-linguistischer Header-Information beim Dokument (z.Zt. 20 Tags) • Kodierung linguistischer Information beim Token (später) • Markierung von Nicht-Texten („Schrottfilter“): zwischen 1 und 10% des Umfangs ausgefiltert Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  12. Metalinguistische Information • <abschnitt> <ressort>Nachrichten</ressort> <rubrik>SPORT AKTUELL</rubrik> </abschnitt> • <titel> <dt>Neue Ideen, Kraftfahrzeuge optimal erscheinen zu lassen</dt> <t>Wenn die Lichter angehen</t> <ut>Bei Hecklichtern und Innenraumbeleuchtung werden Sicherheit und Komfort ausgebaut</ut> </titel> Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  13. Schrott • <p>Primärmarktkurse für Franken-Neuemissionen </p><p>Betrag Emissions-Rendite(inMio.) CouponZeichnungsfristLiberierungpreisGeldBrief(in%)Inlandschuldner12513/4Eurofima99/0410.5.9917.5.99100,900­2,000­1,8001,9430021/4KantonBern99/0730.4.9918.5.9999,800­1,350­1,1502,4420027/8KantonalbankAargau99/08 ... </p> (NZZ 1999) • <p>1. Bundesliga Herren: Alba Berlin - TuS Herten 115:94, Bayer Leverkusen - TVG Trier 91:69, Tally Oberelchingen - MTV Gießen 55:59, Hitachi Landshut - Steiner Bayreuth 80:89; Spitze: 1. Bayer Leverkusen 28:2 Pkt., 2. Alba Berlin 24:4, 3. Brandt Hagen 22:8, 4. TTL Bamberg 20:8.</p> (Berliner Zeitung 1996) Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  14. Das WTD im Vergleich Umfang Anz. Dokumenttypen BNC 100 Mio. 4000 DWDS 150 Mio.(500 Mio.) 1500 IdS ? ? WTD 450 Mio. 7 FR/WSJ 1 Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  15. Linguistische Annotation I • Wortart-Tagging (TnT, STTS) • Korrektheit ca. 96,5 % • Nach Training Korrektheit ca. 97,5 % • Lemmatisierung, zweifach, auf der Basis von • Bertelsmann deutsche Rechtschreibung • Wahrig, Deutsches Wörterbuch • Korrektheit >96 % • Harmonisierung der Rechtschreibung (Corrigo) Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  16. Lückensuche: SZ 5/99 • Ausgangsbasis: Liste nicht-lemmatisierter Tokens Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  17. Automatische Auswahlverfahren I • Ausfiltern von: • Eigennamen (BLV- Eigennamenlisten): 0,5% • Eigennamen (Tagger): 16% • Fremdsprachiges Material (Tagger): 2% • Abkürzungen: 0,3% • Nichtwörtern (ßenseiter, schööön, www.festspiel-plus-heimat.de ...): 4,6% (Wortfilter, reg. Ausdrücke) • „irrelevanten Wörtern“ (Straßennamen, Ortsableitungen, Wörter mit vielen Bindestrichen ...): 22% (Wortfilter, reg. Ausdrücke) Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  18. Filterung Ca. 450.000 Textwörter, 135.000 Wortformen, 90.000 gute Kandidaten Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  19. Automatische Auswahlverfahren I • Weitere Reduktion durch Trunkierung: Bsp: [Abgeordnetensitzes, Abgeordnetensitzen, Abgeordnetensitze]> Abgeordnetensitz [Abhörprotokoll, Abhörprotokollen, Abhörprotokolle]> Abhörprotokoll [abbrannte, abbrannten] > abbrannten • wortartspezifische Reduktion um ca.: Nomen 16%, Verben 17%, Adjektive 56% Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  20. Stichprobe: 1000 Wörter Rohliste Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  21. Beispiele • gute Kandidaten/Lücke: • Tierhaltung, Wahlhelfer, Wohngebiet, zerstörerisch • gute Kandidaten/Neologismus • Datenautobahn, Docu-Soap,Kinderfreibetrag, Solidaritätszuschlag, Abfallwirtschaft • falsche Kandidaten: • wolfsburger, Xetra-Computerhandel, zweitgrößter, Überraschungskonzert, ästhetisch-harmlos Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  22. Automatische Auswahlverfahren II • Streuung über Jahrgänge und Titel: • positive Bewertung: z.B. Frequenzsteigung über mehrere Jahrgänge hinweg (floppen: 2/5/5/13/27 über 5 Jahrgänge SZ) • positive Bewertung: regional interessantes Vorkommen nur in einem Titel wie NZZ (auszonen) • negative Bewertung: z.B. Vorkommen (fast) nur in einem Titel (Klausenerplatz: Gesamtfrequenz 79, davon 77 Berliner Zeitung) Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  23. Wahrig,Deutsche Rechtschreibung • 5000 Neuaufnahmekandidaten: 80% mit Bewertungsverfahren ermittelt / 20% nach höchster Gesamtfrequenz ca. 78% Substantive, 17%Adjektive, 5% Verben • 570 schweiz./850 österr. Kandidaten • Ca. 700 als Lemmata übernommen • 400 aus anderen Quellen (v.a. Sprachberatung) Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  24. schwächeln:Häufigkeit in Jahrgängen Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  25. schwächeln:Häufigkeit in Ressorts Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  26. Neue Verwendungen • Tagger (ADJD) gegen Lemmatisierer (Verb) zunehmend, überwiegend, genügend, vorwiegend, besorgt, begeistert, zwingend Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  27. Häufigkeit von Verbbelegen Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  28. Leichenschau • Abelmoschus, Abendfalter, Abendländerin, Abenduniversität, abendwärts, Abendweite, Aberhundert, Aberraute, aberrieren, Abersaat, Abertausend, ABF, abfasen, abfasern, abfleischen, abfluchten Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  29. Signifikante Belege Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  30. Definitionen: Beispiele • UnterTelematikversteht man technische Systeme, die die Verkehrsströme so intelligent verteilen und steuern sollen, dass auf der vorhandenen Verkehrsfläche mehr Autos flüssiger vorankommen. • UnterLigaschießenversteht man ein freies Schießen, bei dem sich mehrere Vereine für das Finalschießen qualifizieren. • Unter Ökostromversteht man Energie, die aus Wasser- und Windkraft, Biomasse oder Sonne erzeugt wird. Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  31. Definitionen: Mehr Beispiele Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  32. Morphologie: Wortschatzgruppierung Agrarminister Arbeitsminister Arbeitsministerin Außenminister Außenministerin Bauminister Bundesminister Bundesministerin Europaminister Finanzminister Gesundheitsministerin Handelsminister Innenminister Justizminister Kanzleramtsminister Kultusminister Kultusministerin Landwirtschaftsminister Olympiaminister Premierminister Sozialministerin Staatskanzleiminister Staatsminister Tourismusminister Umweltminister Verkehrsminister Verteidigungsminister Wirtschaftsminister Wohnungsbauminister Bundesarbeitsminister Bundesbildungsminister Bundesfinanzminister Bundeswirtschaftsminister DDR-Staatssicherheitsmin. Kultur-Staatsminister SPD-Innenminister US-Außenminister US-Verteidigungsminister Bundesminister Exminister Kriegsminister Kultusminister  Kultusministerin Premierminister Reichsminister Minister Manfred Pinkal, Sehr große Korpora für große Wörterbücher

  33. Lexika Wörterbücher für menschliche Benutzer Wahrig-Projekt I Bedeutungswörter-bücher für menschliche Benutzer Wahrig-Projekt II Wörterbücher für sprachtechnologische Anwendung Bedeutungswörter-bücher für sprachtechnologische Anwendung Leibniz-Projekt Manfred Pinkal, Sehr große Korpora für große Wörterbücher

More Related