Www.
This presentation is the property of its rightful owner.
Sponsored Links
1 / 14

bkms PowerPoint PPT Presentation


  • 79 Views
  • Uploaded on
  • Presentation posted in: General

www. bkms .org. B osnisch. K roatisch. M ontenegrinisch. S erbisch. 3. Symposium „Die grammatikalischen Unterschiede zwischen dem Bosnischen/Bosniakischen, Kroatischen und Serbischen“ Graz, 16.-18. April 2009. Bernd-Kristian Kaczenski Humboldt-Universität zu Berlin.

Download Presentation

bkms

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Bkms

www.bkms.org

Bosnisch

Kroatisch

Montenegrinisch

Serbisch

3. Symposium „Die grammatikalischen Unterschiede

zwischen dem Bosnischen/Bosniakischen,

Kroatischen und Serbischen“

Graz, 16.-18. April 2009

Bernd-Kristian Kaczenski

Humboldt-Universität zu Berlin


Variet tenraum nach gibbon 1998

Varietätenraum(nach: Gibbon 1998)‏


Variationsraum dimensionen und variet ten

Variationsraum: Dimensionen und Varietäten


Bkms

Definition „Varietätenkorpus“:

Ein Varietätenkorpus erfasst mit Metadaten annotierte, schriftlich oder mündlich geäußerte Texte eines Varietätenraumes, und macht Varietäten als Teilmengen des Varietätenraumes durch eine exogene Rahmenstruktur sichtbar und vergleichbar. Dabei sind Varietäten selbst Teilmengen anderer Varietäten, sie überschneiden sich und bilden Schnittmengen. Die kleinste Varietät ist der Ideolekt, also die Sprache eines Sprechers oder die eines Textes. Textimmanente Varietät wird per definitionem nicht betrachtet, obwohl streng genommen manch ein Text (besonders Romane) eine Art Mikrovarietätenraum (Sprache des Erzählers vs. Sprache der Charaktere, etc.) eröffnet. Die primäre Funktion eines Varietätenkorpus ist die Ausdifferenzierung von Varietäten.


Bkms

„In den meisten großen Korpora wird zu jeder vorgesehenen Annotationsebene, wie z.B. Wortart-Ebene oder Lemma-Ebene, genau eine Interpretation angeboten“

(Lüdeling, A. (2007): Das Zusammenspiel von qualitativen und quantitativen Methoden in der Korpuslinguistik. In: Kallmeyer, W. / Zifonum, G. (eds.): Sprachkorpora – Daten­mengen und Erkenntnisfortschritt (= Institut für Deutsche Sprache, Jahrbuch 2006). Berlin, New York. S. 28 – 48.)

STTS (Stuttgart-Tübingen Tagset)

CLAWS Tag Set /Penn Treebank Tag Set

Hunden_NN_­MASK_­AKK_­PL


Bkms

MULTEXT Richtlinien

MSD (morpho­syntactic descriptions)

Ncms is equivalent to

PoS:Noun,

Type:common,

Gender:masculine,

Number:singular“


Bkms

m Tags

Können konkurrieren

Können widersprüchlich sein

Erweiterbar

individuell

n Token

Token 1 : Tag 1manuell durch xyz eingefügt

Token 1: Tag 73auto 73%

Token 1: Tag 132auto 52%

Token 2: Tag 2auto 95%

Token 2: Tag 132auto 67%

KEINE NULLSTELLEN !!!


Bkms

  • Strikte Trennung von Annotations- und Referenzebene

  • Keine Redundanz

  • Ein Wortform = eine ID

  • 3 Entitäten: Lemmata, Typs und Tags

  • Entitäten können bei Suchabfragen beliebig kombiniert werden.


Ausblick

Ausblick

  • Statistisch abgesicherte Daten für beliebige Vergleichsabfragen in allen Dimensionen des Varietätenraumes

  • Benutzerfreundlichkeit durch AJAX-Technologie (Visualisierung)

  • Dynamik, Flexibilität und Erweiterbarkeit

  •  Übersetzungssoftware und Textverarbeitungsprogramme


  • Login