1 / 28

Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

Eckhard Bick. Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum. Eckhard Bick, 2000. Korpus90 og Korpus2000. blandet tekst, ca. 28 mill. ord hver sætningsrandomiseret citatkorpus kompileret af DSL (www.dsl.dk) morfosyntaktisk opmærket af VISL (visl.sdu.dk).

italia
Download Presentation

Morfosyntaktisk opmærkede korpora for dansk: Korpus90 og Korpus2000 Arboretum

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Eckhard Bick Morfosyntaktisk opmærkede korpora for dansk:Korpus90 og Korpus2000Arboretum Eckhard Bick, 2000

  2. Korpus90 og Korpus2000 • blandet tekst, ca. 28 mill. ord hver • sætningsrandomiseret citatkorpus • kompileret af DSL (www.dsl.dk) • morfosyntaktisk opmærket af VISL (visl.sdu.dk)

  3. Korpus90/2000 på www.dsl.dk

  4. Korpus90/2000 på corp.hum.sdu.dk

  5. Korpus90/2000 som træbankpå corp.hum.sdu.dk/arboretum.html

  6. Søgningsresultater somsyntaktisketræstrukturer

  7. Korpusopmærkning: DanPars • Præprocessering: Separation, polyleksika • Morfologisk analysemaskine og leksikon • Postprocessering: Valens- og semantisk potentiale • Morfologisk disambiguering (CG) • Syntaktisk mapping og disambiguering (CG) • Propriums-CG, Case role-CG • PSG-overbygning: Arboretum

  8. De mest almindelige syntaktiske funktioner

  9. Syntaktiske funktioner i Korpus2000: sætningsniveau

  10. Syntaktiske funktioner i Korpus2000: gruppeniveau

  11. Syntaktiske funktioner i Korpus2000:specielle funktioner

  12. Leksikokgrafisk arbejde fx leksemer der indgår i bestemte syntaktiske sekvenser:@SUBJ> (subjekt) @MV (main verb) @<ACC (objekt)”hest” ”æde” ”hø” opmærkning med semantiske prototyper:21 aflyse <occ> (arrangementer)19 aflyse <act-c> (tallelige handlinger og aktiviteter)4 aflyse <ac> (tallelige abstrakta)4 aflyse <act> (handlinger og aktiviteter)4 aflyse <sem-l> (musikalske værker m.m.)3 aflyse <event> (hændelser)3 aflyse <sit> (situationer)

  13. Selektionsrestriktioner for objekter forflytte <Hprof>_2 (human professional) forfægte <pp>_3 (tankeprodukt) forfølge <ac>_8 <Hprof>_6 <H>_4 .... (aktiviteter og mennesker) forføre <H>_3 (people) forgylde <H>_4 <Hprof>_3 (mennesker) forhale <act-c>_3 <act>_3 (handlinger og aktiviteter) forhandle <ac>_17 <sem-r>_9 <conv>_8 .... (tællelige abstrakta, "readables", aftaler) forhaste <pp>_3 <sem>_3 (tankeprodukter) forhindre <act>_35 <Hprof>_23 <ac>_18 <act>_18 <H>_17 <HH>_14 <event-c>_9 forhøje <ac>_13 <mon>_7 <mon-c>_5 ... (abstrakta og pengebeløb) forkaste <pp>_5 <Hprof>_4 <ac>_3 <conv>_3 .. (tankeprodukter, profess., aftaler) forklare <ac>_39 <act-c>_7 <act>_6 ... (abstrakta og handlinger) forkorte <per>_4 (perioder)

  14. Selektionsrestriktioner for subjekter advare <Hprof>_44 <HH>_10 <ac>_6 <inst>_6 ... (professionelle, grupper, institutioner) afblæse <HH>_3 <Hprof>_2 ... (grupper og professionelle) afbryde <Hprof>_28 <HH>_10 <H>_8 <ac>_6 <Hfam>_4 ... (professionelle og almindelige mennesker) afdække <act-c>_7 <sem>_6 <Hprof>_5 <ac>_4 (handlinger, intellektuele frembringlelser, professionelle) affyre <H>_8 <Vair>_7 <inst>_7 <HH>_5 ... (mennesker, fly og grupper) affærdige <Hprof>_3 afføde <ac>_12 <act-c>_10 <act>_8 ... (abstrakta, handlinger og aktiviteter) afgive <Hprof>_34 <HH>_24 <inst>_17 ... (professionelle, grupper og institutioner) afgøre <ac>_25 <HH>_14 <act-c>_11 <H>_6 ... (abstracta, grupper, handlinger)

  15. Berømte navne omkring Y2K ?

  16. Teksttypologi: Passivkonstruktioner • Passivfrekvens som stilmærke for kancellistil, abstraktionsniveau m.m.? • 3,1% alle passiver, 2,3% finitte former inkl. aktiv participium, 5,9 infinitiver • s-passiv eller blive-passiv • leksemspecifikke passivnormaler?

  17. (a) Børnene flokkedes omkring ismaskinen. *Børnene blev flokket.Leksikaliseret S-passiv ("slås", "synes") • (b) Løgene svitses. Løgene bliver svitset. Høj Spas/akt, høj Spas/Bpas • (c) Aktieudbytte beskattes med 25%. Aktieudbytte bliver beskattet med 25%.Høj Spas/akt, neutral Spas/Bpas • (d) Minimælk fås kun fra Arla. *Minimælk bliver fået.Lav Spas/akt, høj Spas/Bpas • (e) Der arbejdes på en løsning. Der bliver arbejdet. *Den bliver arbejdet.Blive-passiv kun med formelt subjekt. • (f1) Bøgerne er solgt d. 10. oktober (=er blevet). *Bøgerne er solgte d. 10. oktober.(f2) Tallene er vist (=vises) med rød skrift. *Tallene er viste med rød skrift.Være-passiv enten som s- eller som blive-passiv

  18. Teksttypologi: Passivkonstruktioner

  19. Foranstillede adverbier i præpositionsstyrede infinitiver Rød = fokusadverbierblå = tidsadverbiergrøn = bøjede adverbier

  20. Vp-indskudte adverbierog deres positionspecificitet Rød = attitude-adverbierblå = konjunktionelle adverbier

  21. Direkte objekter 7,1 % i 1,1 millioner ord fra Korpus2000

  22. Foranstillede nominale objekter

  23. Pronominal-ellipse i relativsætninger

  24. Genus-fluktuation i dansk • Hypotese: Noget/meget + utrum substantiv:-> Projektion af +mass • meget/megen er mindre markeret (50/50) • noget/nogen er mere markeret (1 : 6 fordeling) (a1) Øllet var stærkt og mørkt. (a2) De drak en øl hver. (b) Det var noget godt mad, du lavede. (c) Vejen får ekstra meget trafik om morgenen.

  25. Hypotese: konkret-abstrakt-gradient for meget og positivnoget (a1) Jeg har ikke noget glas. (--> … at drikke af) (a2) Jeg har ikke noget krus. (--> … at drikke af) (b1) ?Jeg har noget glas. (--> materialet) (b2) *Jeg har noget krus. (--> Jeg har et krus) (c1) Jeg har lavet noget (nogen?) aftensmad. --> konkret (c2) Han har vist nogen (noget?) interesse for forslaget. --> abstr. (c3) *Han har nogen bil.

  26. Korpus90/2000:http://www.dsl.dk http://corp.hum.sdu.dk Arboretum: ~/arboretum.html ************** Morfosyntaktisk opmærkede CG-korpora tillader bl.a.: • Leksikografiske undersøgelser mht. argumenttypologi, feltdistribution, bøjningsfluktuation m.m. • Grammatisk teksttypologi • Kvantitative undersøgelser af syntaktiske fænomener

More Related