1 / 20

Oslokorpuset og Oslo-Bergen taggeren

18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skj ø nnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo-Bergen taggeren . Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen.

kim
Download Presentation

Oslokorpuset og Oslo-Bergen taggeren

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 18, 5 millioner ord fra varierte skriftlige kilder. Tre genre: skjønnlitteratur (1.7 mill.), aviser/magasiner (9.6 mill.) og faglitteratur (6.9 mill.). Tagget med Oslo-Bergen taggeren Utviklet i samarbeid mellom Tekstlaboratoriet og HIT – senteret i Bergen. Skrevet i Constraint Grammar. En morfosyntaktisk tagger av løpende tekst. Oslokorpuset og Oslo-Bergen taggeren

  2. Utfordringen – norsk ordstilling • SVO, men med mulighet for OVS – topikalisering av objektet. • Stort antall flertydigheter mellom subjekt- og objektsfunksjon i Oslokorpuset.

  3. Reelt problem – eller? • Svært få topikaliserte konstruksjoner med nominalt subjekt og objekt. • Disambiguering ved pronomen og kasus: Men – trykksterke nominative pronomener i norsk:

  4. Flertydigheter i Oslokorpuset

  5. Prominens og syntaktisk funksjon • Prominenshierarkier fra typologisk lingvistikk: • Animathet: Human > Animat > Inanimat • Bestemthet: Pronomen > Egennavn > Bestemt NP > Ubestemt NP • Syntaktisk funksjon: Subjekt > Ikke-subjekt (Objekt)

  6. Prominens og syntaktisk funksjon • Aissen (1999, 2000) –harmonic alignment av hierarkiene over. • Prominente elementer på ett hierarki tiltrekker seg prominente elementer på andre hierarkier. Subjekter typisk animate, bestemte. Objekter typisk inanimate, ubestemte.

  7. Teoretiske og praktiske problemstillinger • Forholdet mellom subjekt og objekt i henhold til hierarkiene over? • Hva med tilfeller der generaliseringen ikke holder stand? Hva kjennetegner disse? • Kan 1) – 2) modelleres/forklares ved bruk av Optimalitetsteori? • Hvordan kan innsikter fra 1) – 3) bidra til å forbedre taggerens prestasjon?

  8. 1. Forholdet mellom subjekt og objekt – animathet og bestemthet • Svensk korpusundersøkelse: ”More than 97% of all transitive sentences obey the constraint that the subject should not be lower than the object in animacy.” • Bare 1-2% av alle subjektene var ubestemte. (NB! Talespråkskorpus) (Dahl og Fraurud, 1996; Dahl, 1997)

  9. 2. Problemverb • Avvik i animathet, men først og fremst i tematiske roller utdelt til argumentene. • Agent > Benefactive > Exp > Theme > Loc

  10. Problemverbene og ordstilling • En rekke språk: ”frysing” til kanonisk leddstilling ved verb med uvanlig linking av argumenter. Gjelder dette for norsk? • Særlig psyk-verb viser en tendens mot dette:

  11. 3. OT-formalisering • Ingen absolutt tendens – derfor passer bra med en grammatikk som en mengde føringer (constraints) som kan brytes.

  12. 4. Praktiske konsekvenser Trenger mer informasjon i leksikon: • Animathet (og bestemthet) • Seleksjonsrestriksjoner • Argumentstruktur m/ tematiske roller

  13. Seleksjonsrestriksjoner • Verbets semantiske restriksjoner på argumentene • Samspill med animathet og bestemthet • SIMPLE – leksikonet angir bl.a. seleksjonsrestriksjoner, for 10 000 ord (verb og substantiv)

  14. Argumentstruktur • Taggerens leksikon er markert med koder fra NorKompleks - et leksikon av norske verb m/ argumentstruktur og tematiske roller

  15. Topic og Fokus • Diskursrelaterte begreper – ny vs. gitt informasjon • Vanskelig å utlede automatisk • Henger sammen med andre, mer leksikalske egenskaper, som for eksempel bestemthet

  16. Navnegjenkjenning Å fastslå syntaktisk funksjon gir informasjon: • Subjektet tiltrekker seg prominente elementer: Pronomen > Egennavn > Best NP > Ubest NP Subjektposisjon typisk posisjon for egennavn • Subjektet ofte animat – person, dyr eller form for personifisering

  17. Navnegjenkjenning • Metonymisk bruk

  18. Navnegjenkjenning • Identifisering av problemverb sier noe om egenskaper ved mulige argumenter (egennavn).

More Related