korpukset ja kieli ctl310 corp kev t 200 3 antti arppe
Download
Skip this Video
Download Presentation
Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe

Loading in 2 Seconds...

play fullscreen
1 / 104

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe - PowerPoint PPT Presentation


  • 113 Views
  • Uploaded on

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe. Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa. Aloitusluento 7.3.2002 klo 12-15. Hallinnolliset kuviot kurssin tavoitteet

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe' - ivo


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
korpukset ja kieli ctl310 corp kev t 200 3 antti arppe

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe

Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan?

Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa

aloitusluento 7 3 2002 klo 12 15
Aloitusluento 7.3.2002 klo 12-15
  • Hallinnolliset kuviot
    • kurssin tavoitteet
    • kurssin rakenne ja suoritus
    • kurssin ohjelma ja aikataulu
  • Mitä ovat korpukset
  • Mitä on korpuslingvistiika
kurssin motivaatio ja tavoitteet
Kurssin motivaatio ja tavoitteet
  • Kurssin tavoitteena on kokemusperäisesti tarkastella, miten korpuksia voidaan käyttää kielen tutkimuksessa.
  • Minkälaisia tutkimuskysymyksiä kannattaa esittää korpuksille
  • miten korpuksia kannattaa tutkia, ja
  • mitä tulosten pohjalta voidaan sanoa kielestä.
kurssin rakenne ja suoritus
Kurssin rakenne ja suoritus
  • Kuusi luentoa
  • Tentti (1 ov)
  • Harjoitustyö (1 ov)
suoritus i luennot
Suoritus I: luennot
  • pe 7.3., 14.3., 21.3., 28.3., 4.4. ja 11.4.
  • kello 12-15
  • Siltavuorenpenger 20, sh 359/UNIX-luokka
  • “teoria”- ja vierailuluentoja
  • luentomateriaalit löytyvät verkosta kurssin verkkosivuilta
    • http://www.ling.helsinki.fi/kit/2003k/ctl310corp
suoritus ii tentti
Suoritus II: tentti
  • Laajuus 1 opintoviikko
  • pe 25.4. klo 12-14 luentosalissa sh359 ja tiedekuntatenttipäivänä ke 14.5.
  • Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use
suoritus iii harjoitusty
Suoritus III: harjoitustyö
  • laajuus 1 opintoviikko
  • pienimuotoinen korpustutkimus kiinnittäen huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihin

tai

  • olemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllä
  • palautus pe x.4.2003
  • tarkempi ohjeistus kolmannella luentokerralla (pe 21.3.)
luentojen rakenne ja aikataul u i
Luentojenrakenne ja aikataulu I

Pe 7.3.

  • Johdanto ja kurssin suoritus
  • Mikä on korpus, minkälaisia korpuksia on?
  • Minkälaista on korpuslähtöinen kielentutkimus –käytäntö ja teoria ?

Pe 14.3. (poikkeuksellisesti 9-11.30)

  • Korpuksen valitseminen ja koostaminen
  • korpuksen suhde hypoteesiin – mikä on edustava korpus?

Pe 21.3.

  • Korpuksen esiprosessointi
  • annotoinnin filtteröinti
  • lingvistiset analyysityökalut – hyödyt ja haitat
luennot ii
Luennot II
  • Pe 28.3.(12-14)

Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan?

  • Pe 4.4.

Korpusten tilastollinen käsittely

tilastolliset menetelmät ja kieli

  • Pe 11.4.

Korpusten tulkinta - "korpukset ja kieli”

entäs sitten?

kuinka moni teist on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen

Kuinka moni teistä on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen?

Hypoteesi – aineisto – menetelmä – tulkinta?

mik on korpus
Mikä on korpus?
  • yksittäinen tekstifragmentti
  • yksittäinen sanomalehtiartikkeli?
  • kaunokirjallinen kirja?
  • yksi sanomalehti kokonaisuudessaan?
  • Assyrian valtionartiston savitaulut kokonaisuudessaan?
  • yksittäisen tv-ohjelman transkriptio?
  • muita...?
mik on korpus1
Mikä on korpus?
  • corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts.(cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)
korpus
Korpus...
  • CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database.
korpus1
Korpus...
  • Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus.(cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2
korpuksen m ritelm
Korpuksen määritelmä
  • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm

Korpus ei ole mikä tahansa tekstinpätkä, vaan:

  • tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelma
  • kooltaan rajattu ja sisällöltään määritetty
  • elektronisessa muodossa
    • siitä on saatavissa enemmän tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin käsin
    • uusien analyysien kustannukset ovat verrattaen pienet verrattuna käsin laskemiseen
  • yleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)
korpuksen k sitteen monimuotoisuus
Korpuksen käsitteen monimuotoisuus
  • määrätietoisesti etukäteen asetettujen periaatteiden ja kriteerien mukaan kesätty kokoelma kieliaineistoja (= yo. määritelmä)
  • kokoelma, johon on kerätty mahdollisimman paljon kaikkea kieliaineistoa mitä on vaan on kätevästi ja saatavilla
  • oma tutkimusaineisto
miksi korpuksia k ytet n
Miksi korpuksia käytetään?
  • kun introspektio ei riitä
    • introspektiivisiä havaintoja ei voida ulkoisesti observoida
    • introspektiivinen data on useimmiten keinotekoista
    • ihmisillä on vain epämääräinen mielikuva lingvistisen ilmiön yleisyydestä
miksi korpuksia
Miksi korpuksia?
  • korpusaineistojen hyödyt
    • korpukset ovat avoimempia tulosten objektiiviselle verifikaatiolle
    • korpukset edustavat miten ihmiset todellisissa käyttötilanteissa tuottavat kieltä, ei jonkun kielioppikuvauksen sisältämää idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivät)
    • kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on harvinaisempaa paremmin kuin introspektio
    • tietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun
mink laisia korpuksia on
Minkälaisia korpuksia on?
  • Kansainväliset klassikot

http://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htm

    • Brown (kirjoitettua amerikan-englantia 60-luvulta  balansoitu: 500 tekstinfragmenttia à 2000 sanaa)
    • Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta)
    • Lond-Lund (puhuttua englantia)
korpuksia
Korpuksia...
  • Uudempia englanninkielisiä
    • Bank of English (320 Mw  450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.html
    • British National Corpus (100 Mw)
    • International Corpus of English (1 Mw kustakin englannin kansallisesta variantista)

http://www.ucl.ac.uk/english-usage/ice/index.htm

    • Child Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten puhetta eri kielillä, mm. englanti ja saksa)
  • Korpuksia ympäri maailman

http://www.ruf.rice.edu/~barlow/corpus.html

korpuksia1
Korpuksia...
  • Tunnetuimmat kotimaiset
    • Suomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia)

http://www.csc.fi/kielipankki/

    • KOTUS:en korpukset (historiallista kirjasuomea)

http://www.kotus.fi/aineistot/

    • Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967)
    • Savonlinnan käännöskorpus
korpusten luokitteluntapainen
Korpusten luokitteluntapainen
  • kielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjallisetkorpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English)
  • synkroninen variaatio (kansalliskielen [standardin] sisäinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvälisen englannin korpus
luokittelu
Luokittelu...
  • historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit)
  • maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sisältää otoksia puhujista kaikkialta Britanniasta)
luokittelu1
Luokittelu...
  • ikä: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot)
  • tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypit
  • aivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)
luokittelu2
Luokittelu...
  • saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillä
  • yksikielisyys vs. monikielisyys (kohdistetut käännöskorpukset); alkuperäiset (supisuomi) vs. käännetyt (käännössuomi)
mink laista korpuspohjainen kielentutkimus on
Minkälaista korpuspohjainen kielentutkimus on?
  • Korpuspohjaisen lingvistiikan esihistoriaa
    • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm

 Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaa

  • Korpuspohjaisen lingvistiikan varsinainen käynnistyminen
    • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm

 Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna

korpuspohjainen kielentutkimus t n n
Puheentutkimus

Leksikografia

Kielioppi/syntaksi

Semantiikka

Pragmatiikka

Sosiolingvistiikka

Stilistiikka

Kielenopetus

Historiallinen kielitiede

Murretutkimus

Psykolingvistiikka

Kulttuurintutkimus

Sosiopsykologia

Korpuspohjainen kielentutkimus tänään?
korpuslingvistiikka t n n
Korpuslingvistiikka tänään
  • Corpus Linguistics 2003 –konferenssi (Lancaster 28-31.3.2003)

http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers

korpukset ja kieli ctl310 corp kev t 200 3 antti arppe1

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe

Luento 14.3.

Metodologinen yleiskatsaus – empiirisen tutkimuksen rakenne

Hypoteesin muodostaminen

Aineiston valitseminen ja koostaminen

korpuspohjainen kielentutkimuksen tyypit
Korpuspohjainen kielentutkimuksen tyypit?
  • kvalitatiivinen - laadullinen
    • analyysin rikkaus
    • tarkkuus ja
    • perusteellisuus
  • kvantitatiivinen - määrällinen
    • tilastollisesti luotettavat ja
    • yleistettävät tulokset
kvalitatiivinen kvantitatiivinen
Kvalitatiivinen – kvantitatiivinen
  • Kvalitatiivinen
    • tavoitteena täydellinen, yksityiskohtainen kuvaus
    • ilmiöiden frekvenssien merkitys on vähäisempi, yksittäiset tapauksetkin saavat huomiota
    • kielen monitulkintaisuus sallitaantulokset eivät välttämättä ole varmuudella yleistettävissä kieleen kokonaisuudessaan
kvalitatiivinen kvantitatiivinen1
Kvalitatiivinen – kvantitatiivinen
  • kvantitatiivinen
    • piirteitä luokitellaan, niiden lukumääriä lasketaan ja vertaillaan
    • piirteiden yhteisesiintymistä voidaan tehdä monimutkaisia tilastollisia malleja
    • eri korpuksia voidaan vertailla keskenään
    • yleisten, tyypillisten ilmiöiden erottaminen (mahdollisesti) satunnaisista esiintymistä
    • luokitukset tyypillisesti kategorisia
    • edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan tehdä – harvinaiset ilmiöt jäävät paitsioon  kategorioita saatetaan tästä johtuen niputtaa yhteen
kvantitatiivinen kvalitatiivinen
Kvantitatiivinen – kvalitatiivinen
  • monimetodisuus, eri tutkimusmenetelmiä ja –aineistoja yhdistyvä tutkimus yleistymyssä ihmistieteissä
  • kvalitatiivinen tutkimus voi edeltää kvantitatiivista

 intuitiivinen yleiskuva tutkittavasta ilmiöstä ja aineistosta

 kategoriat on ensiksi identifioitava

tutkimuksen tyypit
Tutkimuksen tyypit
  • eksploratiivinen – tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssinä  kuinkas sitä kieltä oikein käytetään
  • deskriptiivinen – kuvaava  systemaattisempi ja kokonaisvaltaisempi
  • konstruktiivinen – teorioita muodostava  tavoitteena enemmän kuin jonkun yksittäisen lingvistisen olion kuvaus
  • testaava – teorioiden validiteetin tarkastelua
tutkimuksen tyypit henkil kohtaisia esimerkkej
Tutkimuksen tyypit – henkilökohtaisia esimerkkejä
  • eksploratiivinen: onko synonyymien käyttökonteksteissa eroja?
  • deskriptiivinen: minkälaista on jonkun synonyymiryhmän käyttö; miten käyttökontekstit eroavat toisistaan?
  • konstruktiivinen: mistä synonyymien käyttökontekstien erilaisuudet johtuvat?
  • testaava: päteekö yllä esitetty teoria käyttökontekstien erilaisuudesta myös muiden synonyymiperheiden kohdalla?
mallitutkimuksen rakenne
Mallitutkimuksen rakenne
  • [Teoreettinen tausta: aikaisempi tutkimus]
  • hypoteesi
  • aineisto eli korpus
  • menetelmä
  • tulkinta
  • [Kytkentä teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]
hypoteesi
Hypoteesi
  • mikä on riittävän hyvä/perusteltu hypoteesi?
    • perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen?
    • perustuu tutkijan tai tutkijayhteisön omaan intuitioon?
  • tutkijan kannalta tärkeää on ankkuroida hypoteesi ajankohtaiseen tutkimukseen
    • teoria X väittää jotain Y kaikista kielistä: pitääkö Y paikkansa kielessä Z
    • teoria X on yksi kielen rakenteen kuvauksen yleisistä malleista: miten teoriaa X voisi soveltaa kielessä Y
aineisto
Aineisto
  • hypoteesin perusteella

 minkälainen aineisto on (riittävän) edustava hypoteesin kannalta

 edustavuus/kattavuus voiko mikään aineisto koskaan olla täysin representatiivinen kielen kannalta?

  • kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista  yhdestä aineistosta ei voi välttämättä päätellä kaikesta kielenkäytöstä
menetelm
Menetelmä
  • esiprosessointi: ylimääräisen annotoinnin poistaminen
  • lingvistinen (automaattinen) analyysi
    • virheiden huomioiminen ja vaikutus
    • automaattisen analyysin täydentäminen käsin
    • lingvistisen analysaattorin implisiittisesti sisältämä malli kielestä  miten analysaattori vaikuttaa ja ennakoi tuloksia
  • tilastolliset mallit
    • Miten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta
tulkinta
Tulkinta
  • miten tulokset vastaavat hypoteeseja
  • miten paljon voidaan sanoa kielestä ylipäänsä

 mistä tulokset itse asiassa kertovat

  • kuinka merkitseviä tulokset ovat?

 keskeistä on aina kuitenkin lingvistin tulkinta: mitä lingvisti nostaa esille tai näkee merkittävänä – kielitieteen kannalta

tutkimuksen suunnittelun t rkeys
Tutkimuksen suunnittelun tärkeys
  • ekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden väliset erot, murteet, idiolektit)
  • aineistoon ja annotointiin perehtyminen: kuinka täydellisesti/perusteellisesti/oikein aineisto on esikäsitelty
  • työkalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysityökalut toimivat
  • esitutkimuksen tärkeys  ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlyömistä
hypoteesin muodostaminen k yt nn ss oman tutkimuksen teoreettista taustaa
Hypoteesin muodostaminen käytännössä – oman tutkimuksen teoreettista taustaa
  • erityisesti englannin osalta on osoitettu, että synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998)
  • myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim. begin vs. start (Biber 1998):

 SUBJ start (intransitiivinen käyttö)

 SUBJ begin OBJ

 SUBJ begin TO-V

  • lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)
alkuper inen tavoite
Alkuperäinen tavoite
  • jos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisessä morfologisesti köyhässä kielessä), niin eikö suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osalta
  • Hypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?
hypoteesin konkretisoiminen mit on synonymia
Hypoteesin konkretisoiminen: mitä on synonymia?
  • synonymian määritelmä ja käsittely näyttää seuraavan siitä miten merkitys ymmärretään
    • merkitys kompositionaalisten, kategoristen piirteiden joukkona  synonymia tietyntyyppisenä erona ko. piirteissä
    • merkityksen syntyminen käyttöyhteyden kautta (Firth)  synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)
synomia absoluuttinen synonymia l hisynonymia
Synomia - absoluuttinen synonymia – lähisynonymia
  • absoluuttinen synonymia edellyttäisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tämä on oletetusti käytännössä erittäin harvinaista
    • käytännössä joutuu tutkimaan lähisynonymiaa (l. plesionymiaa)
    • synonymia on kuitenkin jollakin naivilla tasolla todellista, sillä tavalliset kielenkäyttäjät mieltävät synonyymien olemassaolon ja kokevat että sanoja voidaan usein vaihtaa toisiin ilman että lauseen merkitys ja konnotataatiot oleellisesti muuttuvat
tutkimuksen rajaaminen tutkittavien synonyymien valinta
Tutkimuksen rajaaminen:tutkittavien synonyymien valinta
  • ei ole mielekästä ryhtyä tutkimaan kaikkia potentiaalisia synonyymejä: yksikin pari voi riittää
  • tavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sekä syntaktisen että semanttisen valenssin suhteen kuin mahdollista
  • kaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nämä yhdistettiin elektronisen synonyymisanakirjan sisältöön
  • kullekin synonyymiryhmälle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmät rankattiin
tutkimuksen rajaaminen synonyymilistan top 1000
Tutkimuksen rajaaminen: synonyymilistan Top 1000
  • 1000 kollektiivisesti yleisintä synonyymiryhmää
tutkimuksen rajaaminen
Tutkimuksen rajaaminen
  • rankatut synonyymiryhmät arvioitiin subjektiivisesti
  • mikäli jossakin synonyymiryhmässä ei ensi näkemältä tuntunut olevan ilmiselviä eroja merkityskentän tai syntaktisen käytön suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisäksi Pajunen (1982)
  • mitä enemmän sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sitä parempi
  • polyseemisiä kandidaatteja hyljeksittiin
lopullinen rajaus ja hypoteesi
Lopullinen rajaus ja hypoteesi
  • kognitiviiset verbit pohtia and miettiä
  • myös ajatella, tuumia ja harkita voisivat tulla kyseeseen
  • Hypoteesi: verbien pohtia ja miettiä morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan
aineiston valinta edustavuus
Aineiston valinta – edustavuus
  • kun ilmiötä ei voida tai haluta tutkia (kvantitatiivisessa tutkimuksessa) kokonaisuudessaan, ihmistieteissä turvaudutaan tyypillisesti satunnaisotantaan
    • Satunnaisotanta edellyttää, että lähtökohtapopulaatio on mahdollisimman selkeästi määritelty ja rajattu
    • miten otannan populaatio määritellään kielitieteessä?
edustavuus populaatio
Edustavuus – populaatio
  • miten hyvin populaatio on määriteltävissä?

 Tutkimushypoteesi määrää

    • kattava bibliografinen indeksi: kaikki Suomessa julkaistu kaunokirjallisuus vuosina 1990-2000
    • sanomalehtiteksti Suomessa vuonna 1994/vuosina 1990-2000
    • Keskisuomalainen vuonna 1994
    • Ylioppilasaineet vuonna 2000
edustavuus populaatio1
Edustavuus - populaatio
  • mikä voisi olla (suomen) kielen populaatio?

 mitä ”koko” kieleen kuuluu?

  • kirjoitettu kieli:
    • sanomalehdet
    • kaunokirjalliset kirjat: alkuperäiset vs. käännöstekstit
    • juridiset tekstit
    • tekniskaupalliset tekstit
    • kirjeet
    • sähköiset uutisryhmät
    • chattipalstat, IRC
suomen kielen populaatio
(Suomen) kielen populaatio?
  • puhuttu kieli:
    • uutislähetykset
    • esitelmät kirjoitetun tekstin pohjalta
    • ihmisten väliset nauhoitetut spontaanit keskustelut
    • jne...
koko kielen populaation problematiikkaa
”Koko” kielen populaation problematiikkaa?
  • mikä tulisi olla ”kielen” eri osa-alueiden keskinäiset kokosuhteet ”koko” kieltä edustavassa populaatiossa?
    • onko ylipäänsä väitettävissä, että kielestä (esimerkiksi) 50% on kirjoitettua ja 50% puhuttua
    • onko ylipäänsä mielekästä yrittää muodostaa otosta ”koko” kielestä
    • onko ylipäänsä mielekästä edes yrittää tutkia kieltä ”kokonaisuudessaan”
    • häviävätkö kielen eri osa-alueiden erot kun ne niputetaan yhteen?  olisiko mielekäämpää yrittää tarkastella kielen eri osa-alueiden välisiä samankaltaisuuksia ja eroja? (Biber)
lingvistisen populaation problematiikkaa
Lingvistisen populaation problematiikkaa
  • kuinka homogeenisia yksittäiset osa-alueet ovat? esim. sanomalehtiteksti sisältää laajan kirjon eri tekstityyppejä ja yhdistää kirjoitettua ja puhuttaa kieltä (sitaatit)
  • Esimerkkejä sanomalehtitekstistä (HS 13.3.2003)
    • poliittinen artikkeli
    • urheiluartikkeli
    • mielipidekirjoitus
    • tiedeartikkeli

 Yksittäisenkin kielen osa-alueen sisällä tulee pohtia, mitkä tekijät mahdollisesti aiheuttaisivat variaatiota (esim. toimittajien idiolektit)

satunnaisotannan periaatteita korpustutkimuksessa biber
Satunnaisotannan periaatteita korpustutkimuksessa (Biber)
  • lähtökohtana määritellä tutkittavan populaation hierarkinen stratifioituminen

 jaottelun eri tekstityyppeihin tulisi perustua hypoteesistä lähtevään tutkimusasetelmaan ja sen teoreettisiin taustaolettamuksiin

 käytännössä tekstityyppijaottelussa joutuu turvautumaan käytettävissä olevien korpusten jaotteluihin ja niiden sisältämään ekstralingvistiseen tietoon (Kielipankin aineistot)

  • stratifioitunut otanta on vähintään yhtä edustava kuin puhdas satunnaisotanta, sillä se varmistaa kunkin tekstityypin mukanaolon
oman tutkimuksen otanta
Oman tutkimuksen otanta
  • sanomalehtiteksti on hyvä lähtökohta, sillä se pitää sisällään useita eri tekstityyppejä
  • Keskisuomalaisen aineisto (1994, 2 Mw) sisälsi tarvittavaa ekstralingvististä tietoa sekä tekstityypeistä että artikkelien kirjoittajista
    • tekstityypin tai idiolektin mahdollinen vaikutus tuloksiin  esiintyykö variaatiota?
  • Koko sanomalehtikorpus (16 Mw Keskisuomalaisen lisäksi mm. Hesarin) oli kooltaan 8-kertainen, jolloin harvinaisemmat ilmiöt olivat havaittavissa ( tilastollinen merkitsevyys)
otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteita
Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteita
  • otoksen on oltava riittävän suuri, jotta tulokset ovat (tilastollisesti) luotettavia
  • otoksen ei kannata olla liian suuri, jottei tule tehneeksi turhaa työtä, esim. automaattisen analyysin tarkistamisessa ja korjaamisessa tai omien lisäluokittelujen tekemisessä
  • otoksen kokoon vaikuttavat tutkittavan ilmiön kategorioiden (sanaluokat, yksittäiset lekseemit, yksittäiset taivutusmuodot, morfeemit, tms.) määrä ja kunkin kategorian esiintymisfrekvenssit
rajaamisen periaatteita
Rajaamisen periaatteita
  • otos on riittävän suuri, saavutetaan jäätymis/saturaatiopiste uusien tapauksien määrä ei enää oleellisesti lisäänny otosta kasvettaessa
  • otos on riittävän suuri, kun tutkittavien ilmiöiden keskinäiset suhteet eivät enää merkittävästi muutu  otoksen kasvun myötä kasvavilla lukumäärillä ei ole enää (tilastollisesti) merkittävää vaikutusta käytettäviin tilastollisiin tunnuslukuihin
  • yleisten ilmiöiden kohdalla saturaatiopiste saavutetaan pienemmällä korpuksella kuin harvinaisempien ilmiöiden kohdalla  harvinaisempien ilmiöiden tarkastelua varten ei kenties koskaan ole kasattavissa riittävän suurta korpusta
otoksen kasvun vaikutuksia k yt nn ss
Otoksen kasvun vaikutuksia käytännössä
  • pintamuotojen määrän kehitys suomenkielisessä sanomalehtitekstissä
  • perusmuotojen määrän kehitys
  • verbien taivutusmuotojen määrän kehitys
  • ajatella-verbien taivutusmuotojen määrän kehitys
  • pohtia/miettiä-verbien taivutusmuotojen määrän kehitys
otoksen m r n vaikutus tilastolliseen tulkintaan
Otoksen määrän vaikutus tilastolliseen tulkintaan
  • otoksen koon kasvaessa havaittavien lingvististen ilmiöiden määrä ja niiden frekvenssi kasvaa
    • Frekvenssien kasvaessa ilmiöiden tilastollisen merkitsevyyden mahdollisuus kasvaa
    • Mutta tilastollinen merkitsevyys voidaan saavuttaa pienemmillä suhde-eroilla (22/23 vs. 932/1562 ovat tilastollisesti yhtä merkittäviä)
    • Mahdollisesti/todennäköisesti samat pienemmässä korpuksessa tilastollisesti merkitseviksi havaittavat ilmiöt ovat sitä myös suuremmissa korpuksissa  frekvenssit mihin ne perustuvat ovat vain suuremmat
  • pienemmässä otoksessa mahdollisuus tarkempaan analyysiin ja perusteellisempaan virheiden tarkistamiseen
  • Oman tutkimuksen kaksi korpusta: 855 vs. 4545 tapausta = tarkistettavien analyysien edellyttämän työmäärän kasvu
yhtenev iset ilmi t molemmissa korpuksissa
miettiä

I infinitiivi (77/112) vs. (417/670)

yks. 1. persoona (22/23) vs. (88/96)

yks. 1. persoona JA imperfekti vs. (15/15) (53/56)

pohtia

yks. 3. persoona (199/320) vs. (932/1562)

preesens JA yks. 3. persoona

Yhteneväiset ilmiöt molemmissa korpuksissa

Korpuksen määrän kasvattaminen ei näiden ilmiöiden kohdalla vaikuttanut keskinäisiin suhteisiin ja tilastolliseen merkitsevyyteen

yksityiskohtaisemmat ilmi t pienemm ss korpuksessa
miettiä

I infinitiivi (77/112)

yks. 1. persoona (22/23)

toimittajat aaa, bbb ja ccc

urheiluosasto

yks. 1. persoona JA imperfekti

pohtia

yks. 3. persoona (199/320)

ulkomaanosasto

preesens JA yks. 3. persoona

preesens

toimittaja bbb

Yksityiskohtaisemmat ilmiöt pienemmässä korpuksessa

Nämä tiedot olivat saatavissa perusteellisemman analyysin johdosta

havaitut uudet ilmi t laajemmassa korpuksessa
miettiä

I infinitiivi (417/670)

yks. 1. persoona (88/96)

yks. 1. persoona JA imperfekti (53/56)

III infinitiivi

passiivi ja 1. partisiippi

imperatiivi (23/28  )

pohtia

passiivi JA indikatiivi (341/481)

mon. 3. persoona JA indikatiivi (1474/2468)

yks. 3. persoona (932/1562)

passiivi JA imperfekti (111/142)

yks. 3. persoona JA indikatiivi (924/1551)

mon. 3. persoona (178/252)

Havaitut uudet ilmiöt laajemmassa korpuksessa

Nämä ilmiöt nousivat tilastollisesti merkittävinä esille korpuksen kasvattamisen johdosta

korpukset ja kieli ctl310 corp kev t 200 3 antti arppe2

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe

Luento 21.3.

Annotointi

Aineiston esikäsittely

Automaattiset analyysityökalut

annotointi
Annotointi
  • korpukset voivat olla:
    • raakoja = tekstejä sellaisenaan
    • annotoituja eli tekstin alunperin kuulumattomalla, pääosin lingvistisellä informaatiolla varustettuja
      • annotaatio voi koostua yksittäisistä tageista (esim. Brown collects_VVZ) tai tagirymistä (esim. ENGTWOL collects V IND PRES SG3)

 Vaikuttaa tagien määrään ja käsittelyn

      • sanakohtainen tai virkekohtainen (KOTUS) annotaatio
    • lingvistisen annotaation lisäksi korpukset sisältävät nykyisin myös lähde- ja rakenteellista tietoa (esim. SGML/TEI/XML-taggauksen muodossa)
tei sgml formatoitua ja annotoitua korpusta keskisuomalainen 1994 csc
TEI/SGML-formatoitua ja annotoitua korpusta (Keskisuomalainen 1994/CSC)

Kansanedustaja ja taiteilija joululomalla Bosniassa

Tähtäimessä punainen risti

Kun monet espanjalaisparlamentaarikot selailivat joulun alla matkaoppaita lehtereillä, 29–vuotias kansaned

ustaja Tomas Burgos lastaili kiireisenä kahdeksaa pakettiautoa ja kahta rekkaa. Matkakohteeksi oli valittu talvinen Bosnia.

lingvistisesti annotoitua korpusta fdg conexor
Lingvistisesti annotoitua korpusta (FDG/Conexor)

0

1 Kun kun pm:>4 &CS CS

2 monet moni attr:>3 &A> PRON PL NOM

3 espanjalaisparlamentaarikot espanjalais#parlamentaarikko subj:>4 &NH N PL NOM

4 selailivat selailla &+MV V ACT IND PAST PL3

5 joulun joulu loc:>4 &NH N SG GEN

6 alla alla pm:>5 &PM PSP

7 matkaoppaita matka#opas &NH N PL PTV

8 lehtereillä lehteri &NH N PL ADE

, ,

10 29 29 &NH NUM CARD

- -

12 vuotias vuotias attr:>13 &A> A SG NOM

13 kansanedustaja kansan#edustaja attr:>15 &NH N SG NOM

14 Tomas Tomas attr:>15 &A> N SG NOM

15 Burgos burgos subj:>16 &NH N SG NOM

16 lastaili lastailla &+MV V ACT IND PAST SG3

17 kiireisenä kiireinen copr:>16 &NH A SG ESS

18 kahdeksaa kahdeksan qn:>19 &QN> NUM CARD SG PTV

19 pakettiautoa paketti#auto &NH N SG PTV

20 ja ja cc:>19 &CC CC

21 kahta kaksi qn:>22 &QN> NUM CARD SG PTV

22 rekkaa rekka cc:>19 &NH N SG PTV

. .

24 Matkakohteeksi matka#kohde &NH N SG TRA

25 oli olla main:>23 &+MV V ACT IND PAST SG3

26 valittu valita attr:>28 &-MV V PASS PCP2 SG NOM

27 talvinen talvinen attr:>28 &A> A SG NOM

28 Bosnia Bosnia &NH N SG NOM

. .

30 >29

hyv n annotoinnin periaatteet leech
Hyvän annotoinnin periaatteet (Leech)
  • 1. Annotoinnin tulisi olla erotettavissa/irrotettavissa/siivottavissa alkuperäisestä/varsinaisesta korpuksesta
    • Claire_NP1 collects_VVZ shoes_NN2”

 "Claire collects shoes”

  • 2. Annotoinnit tulisi olla sellaisinaan irrotettavissa korpuksesta esim. eri tilastollisia tarkasteluja varten
    • Claire_NP1 collects_VVZ shoes_NN2”

NP1 VVZ NN2

annotoinnista
Annotoinnista...
  • 3. Annotoinnin periaatteiden pitäisi olla (helposti) korpuksen käyttäjän saatavilla
    • annotoinnissa käytettävien tagien merkitykset pitäisi olla saatavilla samoin kuin esimerkit niin yleisistä tapauksista kuin rajanpetotilanteista
    • tämä ei valitettavasti aina pidä riittävän pitkälle paikkaansa esim. akateemisesti kehitettyjen analyysityökalujen kohdalla
  • 4. Annotoinnin tekijän, mahdollisen muuttajan ja annotointiajankohdan pitäisi olla selkeästi merkittynä
    • aikaisemmat annotoinnit pitäisi muutos/korjaustapauksissa olla jätetty jäljelle, mikäli halutaan palata korpuksen aikaisempaan versioon
annotoinnista1
Annotoinnista ...
  • 5. Korpuksen käyttäjälle tulisi tehdä selväksi, että annotointi ole virheetön eikä lopullinen – lisäksi tulisi korostaa, että annotointi on aina jonkun teoreettisen näkökannan mukainen tulkinta eikä ainoa mahdollinen vaihtoehto
  • 6. Annotoinnin periaatteidein tulisi laajalti hyväksyttyjä ja teorianeutraaleja
    • tämä ei ole mitenkään helppo periaate, sillä korpusten moninaiset käyttötarkoituksen voivat olla ristiriidassa tämän kanssa
  • 7. Yksikään annotointiperiaatetta ei saisi esittää a priori standardina – standardit syntyvät käytännön hyväksynnän ja konsensuksen kautta
miksi alkuper inen annotointi kannattaa s st tekij tiedot er ss sanomalehtikorpuksessa
Miksi alkuperäinen annotointi kannattaa säästää (tekijätiedot eräässä sanomalehtikorpuksessa)

J–kyläläinen Piiat–yhtye voitti Imatralla

Keskisuomalainen

tekij tietojen sekavuus
Tekijätietojen sekavuus ...

+ 8 ANITA = NO_BYLINE#,3994,4173,5637,6520,6827,6897,6912,6954

+ 6 ANITA = Anita Kärki #,4304,4397,4964,5154,5458,7469

+ 5 ANITA = ANITA KÄRKI #,1332,4261,6395,6880,7999

+ 2 ANITA = Anita Kärki = ANITA KÄRKI #,4969,5162

- 2 ANITA = Anita Kärki = Ari Haapa-aho #,5700,7676

- 2 ANITA = Anita Kärki = Jorma Pärssinen #,6010,7146

- 2 ANITA = ANITA KÄRKI = Jorma Pärssinen #,7368,7559

+ 2 ANITA = Keskisuomalainen #,5629,6968

- 1 ANITA = Anita Kärki = Anita Kärki = Risto Aalto #,7228

- 1 ANITA = Anita Kärki = Matti Salmi #,7298

- 1 ANITA = Anita Kärki = Mauri Ratilainen #,8165

- 1 ANITA = Anita Kärki = Risto Aalto #,5791

- 1 ANITA = ANITA KÄRKI = Risto Aalto #,6392

- 1 ANITA = GOA, ANJUNA-BEACH ANITA KÄRKI KUVAT #,6743

annotoinnin lajit
Annotoinnin lajit
  • sanaluokka-annotointi – Part-of-speech (POS) taggaus
  • lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, disambiguoituna tai ilman (XXXTWOL)
  • syntaktinen parsaus: osittainen (lauseke)analyysi (XXXCG/Lingsoft, XXXLITE/Connexor) – pinta-analyysi – lausekerakenneanalyysi – funktionaalinen dependenssianalyysi (FDG Machinese/Connexor)
  • semanttinen analyysis (WordNet)
  • diskurssi/tekstilingvistiset analyysit
  • foneettinen transkribointi
  • prosodinen transkribointi
  • ongelma-kohtainen annotoiminen
sanaluokka annotointi part of speech pos taggaus
Sanaluokka-annotointi – Part-of-speech (POS) taggaus

Spoken English Corpus (C7 tagset)

Perdita&NN1-NP0; ,&PUN; covering&VVG;the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN1; .&PUN;

pos tagit c7
AJ0: general adjective

AT0: article, neutral for number

AV0: general adverb

AVP: prepositional adverb

CJC: co-ordinating conjunction

CJS: subordinating conjunction

CJT: that conjunction

DPS: possessive determiner

DT0: singular determiner

NN0: common noun, neutral for number

NN1: singular common noun

NN2: plural common noun

NP0: proper noun

POS: genitive marker

PNP: pronoun

PRF: of

PRP: prepostition

PUN: punctuation

TO0: infintive to

VBI: be

VM0: modal auxiliary

VVB: base form of lexicalVerb

VVD: past tense form of

lexical verb

VVG: -ing form of lexical verb

VVI: infinitive form of lexical verb

VVN: past participle form of lexical verb

POS-tagit (C7)
lemmatisointi perusmuotoon palautus ja morfologinen analyysi engtwol
Lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, (ENGTWOL)

""

"<,>"

""

"cover"

PCP1

""

"the" DET CENTRAL ART SG/PL @DN>

"” (monitulkintainen eli ambiguöösi sana)

"bottom" N NOM SG

"bottom" V PRES -SG3 VFIN @+FMAINV

"bottom" V INF

"bottom" V IMP VFIN @+FMAINV

"bottom" V SUBJUNCTIVE VFIN @+FMAINV

""

"of" PREP

""

"the" DET CENTRAL ART SG/PL @DN>

""

"lorry" N NOM PL

""

"with" PREP

""

"straw" <-Indef> N NOM SG

"straw" V PRES -SG3 VFIN @+FMAINV

"straw" V INF

"straw" V IMP VFIN @+FMAINV

"straw" V SUBJUNCTIVE VFIN @+FMAINV

syntaktinen parsaus osittainen lauseke analyysi enlite pinta analyysi lausekerakenneanalyysi
Syntaktinen parsaus: osittainen (lauseke)analyysi (ENLITE) – pinta-analyysi – lausekerakenneanalyysi

Perdita perdita &NH N SG  

, ,  

covering cover &VA ING  

the the &>N DET  

bottom bottom &NH N SG  [disambiguoitu sana]

of of &N< PREP  

the the &>N DET

lorries lorry&NH N PL  

with with &N< PREP &AH PREP  

straw straw &NH N SG  

to to &AUX INFMARK>  

protect protect &VA V INF  

the the &>N DET  

ponies' pony &>N N PL  

feet foot &NH N PL  

, ,  

suddenly suddenly &>A ADV &AH ADV  

heard heard &>N EN &VA V PAST  

Alejandro alejandro &>N N SG&NH N SG  

shouting shouting &NH ING &VA ING  

that that &CS CS &NH PRON  

she she &NH PRON SG3  

better well &AH ADV CMP &>N A CMP

&NH A CMP  

dig dig &NH N SG &VA V INF 

&VA V PRES  

out out &AH ADV  

a a &>N DET SG  

pair pair &NH N  

of of &N< PREP  

clean clean &>N A ABS  

breeches breech &NH N PL

slide84
Semanttis/funktionaalinen analyysi

0

1SanSa &NH N SG GEN &A> N SG GEN

2CristobalinCristobal attr:>3&A> N SG GEN

3kaupungin kaupunki obj:>4 &NH N SG GEN

4vallanneet vallata attr:>5 &-MV V ACT PCP2 PL NOM

5intiaanitintiaani subj:>6_AGE:>6 &NH N PL NOM SEM_HUMAN_INDIVIDUAL PHR_COMMON

6pohtivatpohtia main:>0&+MV V ACT IND PAST PL3 SEM_THINK

7sunnuntai sunnuntai attr:>9 &A> N SG NOM

- -

9iltanailta _TMP:>6 &NH N SG ESS SEM_TIME

10seuraavaa seurata attr:>11 &-MV V ACT PCP1 SG PTV &A> A SG PTV

11siirtoaansiirto _PAT:>6&NH N SG PTV SEM_ACTIVITY

12kaupungintalon kaupungin#talo attr:>13&A> N SG GEN

13käytävilläkäytävä _LOC:>6&NH N PL ADE SEM_LOCATION

. .

15 >14

automaattisten analyysity kalujen k yt st
Automaattisten analyysityökalujen käytöstä
  • analysaattorit perustuvat aina johonkin malliin, joka perustuu johonkin kielitieteelliseen teoriaan
    • teoria vaikuttaa analysaattorin yksittäisiin tuloksiin:
      • Esim. Conexorin FDG perustuu Tésnieren dependenssikielioppiin 1950-luvulta
    • analysaattori saattaa toimia systemaattisesti oikein omien periaatteidensa mukaan, muttei samalla sopia haluttuun tutkimustarkoitukseen:
      • Esim. dependenssikieliopissa yhdessä lauseessa voi olla kunkin funktion edustajia ainoastaan yksi, esim. lauseella ei voi olla kahta tempusfunktiota
      • * Harjoittelen aamulla-TMP ja illalla-? (periaatteessa ko. lause nähdään kahden lauseen yhdistelmänä, jossa funktiot erotettu)  Harjoittelen aamulla-TMP + Harjoittelen illalla-TMP
yksi vai useampi temporaalifunktio 1 2
Yksi vai useampi temporaalifunktio? (1/2)

0

1 YK YK subj:>2 &NH N

2 arvioi arvioida main:>0 &+MV V ACT IND PRES SG3 &+MV V ACT IND PAST SG3

3 syyskuussa syyskuu tmp:>2 &NH N SG INE

4 Bosnia Bosnia attr:>6 &A> N SG NOM

- -

6 Hertsegovinan Hertsegovina attr:>7 &A> N SG GEN

7 ruuan ruoka &NH N SG GEN

8 tarpeeksi tarpeeksi &ADV ADV

9 32 32 qn:>10 &QN> NUM CARD

10 miljardia miljardi qn:>11 &QN> NUM CARD SG PTV

11 tonnia tonni qua:>2 &NH N SG PTV

12 kuukaudessa kuukausi loc:>2 &NH N SG INE

. .

14 >13

yksi vai useampi temporaalifunktio 2 2
Yksi vai useampi temporaalifunktio? (2/2)

0

1 Edellä edellä phr:>2 &ADV ADV

2 mainitun mainita attr:>3 &-MV V PASS PCP2 SG GEN

3 rajan raja obj:>4 &NH N SG GEN

4 alittamisesta alittaa &-MV V ACT INF4 ELA

5 annetaan antaa main:>0 &+MV V PASS IND PRES

6 ensin ensin &ADV ADV

7 neuvontaa neuvonta obj:>5 &NH N SG PTV

8 ja ja &CC CC

9 myöhemmin myöhemmin tmp:>10 &ADV ADV

10 opetetaan opettaa &+MV V PASS IND PRES

11 liikennekulttuuria liikenne#kulttuuri obj:>12 &NH N SG PTV

12 sakottamalla sakottaa man:>10 &-MV V ACT INF3 SG ADE

. .

14 >13

automaattiset analyysity kalut
Automaattiset analyysityökalut...
  • Analysaattorit tekevät aina välttämättä jonkin verran virheitä tai eivät pysty antamaan yhtä ainoaa oikeaa vastausta (täydellistä disambiguaatiota)
    • On tutkittu, etteivät edes ihmiset (maallikot saati asiantuntijat) pysty aina pääsemään yhteisymmärrykseen oikeasta analyysistä (esim. Churchin tutkimukset)  kielessä on siis aina implisiittisesti hiukan monitulkintaisuutta, mitä voidaan pitää automaattisten työkalujen oikeellisuuden teoreettisena ylärajana (97-98%)
preesens vai imperfekti
Preesens vai imperfekti?

EU-ministeri eu-#ministeri &NH N SG NOM

pohtivat pohtia &+MV V ACT IND PRES PL3 &+MV V ACT IND PAST PL3

Euroopan eurooppa &A> N SG GEN

kilpailukykyä kilpailu#kyky &NH N SG PTV

EU:n eu &A> N SG GEN

teollisuusministerit teollisuus#ministeri &NH N PL NOM

etsivät etsivä &NH N PL NOM

viikonvaihteessa viikon#vaihde &NH N SG INE

Bilbaossa bilbao &NH N SG INE

Espanjassa espanja &NH N SG INE

keinoja keino &NH N PL PTV

lisätä lisätä &-MV V ACT INF1

Euroopan eurooppa &A> N SG GEN

kykyä kyky &NH N SG PTV

kilpailla kilpailla &-MV V ACT INF1

maailmanlaajuisesti maailman#laajuisesti &ADV ADV

. . PUNCT

preesens vai imperfekti1
Preesens vai imperfekti? ...

...

Kilpailukyky kilpailu#kyky &NH N SG NOM

todettiin todeta &+MV V PASS IND PAST

olennaiseksi olennainen &A> A SG TRA

tekijäksi tekijä &NH N SG TRA

pyrittäessä pyrkiä &-MV V PASS INF2 INE

Eli siis tarvittiin melkoisesti lausekontekstia, että voitiin manuaalisti päätellä imperfekti oikeaksi analyysiksi – muita vinkkejä: ajan ilmaukset – joskus tarvitsisi tietää artikkelin esiintymisajankohdan ajallisen tapahtumaympäristön  miten käsitelty tapahtuma sijoittuu artikkelin julkaisuajankohtaan?

automaattiset analyysity kalut1
Automaattiset analyysityökalut ...
  • analysaattoreita kehitetään ja testataan (erit. kaupalliset) tyypillisisti suurilla yleiskielisillä aineistoilla, jolloin ne luonnollisesti toimivat parhaiten ko. tekstityyppien analyysissä
  • analysaattorit eivät ole koskaan täysin valmiita, erityisesti leksikko ei ole koskaan täysin kattava
    • Jotkut työkalut käyttävät heuristiikkoja (esim. sanojen päätteitä) tuntemattomien sanojen joidenkin piirteiden arvaukseen, mikä voi olla virheiden lähde
    • kehityksen alkuvaiheessa kuvaukset saattavat olla kielen jonkin osa-alueen kohdalla epätäydellisiä, jolloin työkalu tekee kyseisen lingvistisen ilmiön kohdalla systemaattisesti aina saman virheen
tuuma vai tuumia
Tuuma vai tuumia?

0

1 Tänä tämä attr:>2 &A> PRON SG ESS

2 vuonna vuosi tmp:>6 &NH N SG ESS

3 valtio valtio cc:>5 &NH N SG NOM

4 ja ja cc:>5 &CC CC

5 kaupunki kaupunki subj:>6 &NH N SG NOM

6 leikkasivat leikata main:>0 &+MV V ACT IND PAST PL3

7 orkesterin orkesteri attr:>8 &A> N SG GEN

8 budjettia budjetti obj:>6 &NH N SG PTV

9 yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE

10 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1

. .

tuuma vai tuumia1
Tuuma vai tuumia?

0

1 Kaikki kaikki &NH PRON NOM &A> PRON NOM

2 kolme kolme &NH NUM CARD SG NOM

3 ovat olla main:>0 &+MV V ACT IND PRES PL3

4 esitutkinnassa esi#tutkinta loc:>5 &NH N SG INE

5 kiistäneet kiistää comp:>3 &-MV V ACT PCP2 PL

6 toimineensa toimia obj:>5 &-MV V ACT PCP2

7 yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE

8 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1

. .

10 >9

automaattiset analyysity kalut2
Automaattiset analyysityökalut
  • analyysin teoreettisen oikeellisuuden ja yksiselitteisyyden aste riippuu tavoiteltavan tehtävän monimutkaisuudesta
    • morfologinen analyysi  morfologinen disambiguointi  osittaisanalyysi  syntaktinen analyysi  semanttinen analyysi
  • analysaattorin hyödyntämisessä on valittava joko tulosten manuaalinen läpikäynti tai virheellisyyksien hyväksyminen  analyysin laadun tarkastelu tutkittavan ilmiön kohdalla tilastollisen otoksen perusteella
slide95
1-selitteisiä morfologisia analyysejä: 128882 (91% sanamuodoista)

2-selitteisiä: 9494

3-selitteisiä:1667

4-selitteisiä:711

5-selitteisiä: 333

6-selitteisiä: 91

7-selitteisiä: 13

8-selitteisiä: 4

9-selitteisiä: 1

10-selitteisiä: 1

384089 syntaktisesti analysoitua (74% sanoista)

Tilastoa automaattisen analyysin oikeellisuudesta/ yksitulkintaisuudesta (517624 sanaa/141202 sanamuotoa)
morfosyntaktisesti monitulkintaisimman sanan sis lt v lause toinen 10 tulkintaa
Helsingissä Helsinki loc:>2 &NH N SG INE

tapahtuva tapahtua attr:>3 &-MV V ACT PCP1 SG NOM

perushenkirikos perus#henki#rikos subj:>4 &NH N SG NOM

on olla main:>0 &+MV V ACT IND PRES SG3

edelleenkin edelleen goa:>4 &ADV ADV -KIN

poliisin poliisi attr:>7 &A> N SG GEN

suussa suu loc:>4 &NH N SG INE

lauantaitappona lauantai#tappo copr:>4 &NH N SG ESS

kulkeva kulkea attr:>10 &-MV V ACT PCP1 SG NOM &A> A SG NOM

surma surma &NH N SG NOM

. . PUNCT

tekijä tekijä cc:>14 &NH N SG NOM

ja ja cc:>14 &CC CC

uhri uhri subj:>15 &NH N SG NOM

Morfosyntaktisesti monitulkintaisimman sanan sisältävä lause (”toinen”  10 tulkintaa)
toinen
”Toinen” ...

...

tuntevat tuntea main:>11 &+MV V ACT IND PRES PL3

toisensa toinen &NH NUM ORD SG NOM &A> NUM ORD SG NOM &NH NUM ORD SG GEN &NH NUM ORD PL NOM

&A> NUM ORD PL NOM &NH PRON SG NOM &A> PRON SG NOM &NH PRON SG GEN &NH PRON PL NOM &A> PRON PL NOM

tai tai cc:>15 &CC CC

ovat olla cc:>15 &+MV V ACT IND PRES PL3

sukua suku &NH N SG PTV

keskenään keskenänsä &ADV ADV

viina viina subj:>23 &NH N SG NOM

on olla &+MV V ACT IND PRES SG3

mukana mukana phr:>23 &ADV ADV

kuvassa kuva loc:>23 &NH N SG INE

ja ja cc:>23 &CC CC

teko teko subj:>28 &NH N SG NOM

tapahtuu tapahtua cc:>23 &+MV V ACT IND PRES SG3

pikaistuksissa pikaistus loc:>28 &NH N PL INE

monitulkintaisimmat sanat 2 5
Monitulkintaisimmat sanat: 2-5

a=9 n=1 hallituksensa hallitus &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM &NH A SG TRA &A> A SG TRA &-MV V PASS PCP2 SG TRA

a=8 n=1 asuvasi asua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN&A> A SG GEN &NH A PL NOM &A> A PL NOM

a=8 n=1 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &-MV V PASS PCP2 PL NOM &NH A SG NOM &A> A SG NOM

a=8 n=1 kuuluvansa kuulua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM

monitulkintaisimmat sanat 6 10
Monitulkintaisimmat sanat: 6-10

a=8 n=1 tekevänsä tehdä &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM

a=7 n=11 tullut tultu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM

a=7 n=6 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM

a=7 n=3 sinänsä sinänsä &ADV ADV &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM

a=7 n=2 parinkymmenen pari#kymmentä &NH NUM CARD SG GEN &A> NUM CARD SG GEN &QN> NUM CARD SG GEN&NH NUM CARD SG NOM &QN> NUM CARD SG NOM &NH N SG GEN &A> N SG GEN

monitulkintaisimmat perusmuodot 2 tai useampitulkintaisten taivutusmuotojen lukum r
69 toinen

65 olla

63 yksi

48 tulla

43 seurata

43 nuori

39 se

38 hyvä

36 vastata

35 toimia

33 saada

31 tehdä

31 suuri

30 aika

28 tämä

28 kaikki

27 muu

27 alkaa

25 elää

23 joka

22 itse

21 vanha

21 nähdä

90 voida

90 elää

89 ottaa

Monitulkintaisimmat perusmuodot (2- tai useampitulkintaisten taivutusmuotojen lukumäärä)
yleisimm t monitulkintaiset morfologiset analyysit
Yleisimmät monitulkintaiset morfologiset analyysit

2220&NH N SG GEN&A> N SG GEN

381&NH A SG NOM &A> A SG NOM

325&NH N PL GEN &A> N PL GEN

307&NH A SG GEN &A> A SG GEN

289&NH NUM CARD &A> NUM CARD &QN> NUM CARD

276&-MV V ACT INF1&+MV V ACT IND PRES SG3

219&NH A PL GEN &A> A PL GEN

217&NH A SG PTV &A> A SG PTV

194&NH A PL PTV &A> A PL PTV

178&-MV V ACT PCP1 SG NOM &A> A SG NOM

172&-MV V ACT PCP1 PL NOM &+MV V ACT IND PRES PL3

158&NH A PL NOM &A> A PL NOM

156&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG

&-MV V ACT PCP2 SG&NH A SG NOM &A> A SG NOM

155 &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG

&-MV V ACT PCP2 SG &NH A SG NOM

151&NH A SG ESS&A> A SG ESS

147&NH N SG NOM&NH N PL NOM

133&-MV V ACT INF1&-MV V PASS IND PRES

mit t st opimme
Mitä tästä opimme?
  • Valmiisiin annotointeihin ei saa luottaa sokeasti, vaan on pistokokein varmistettava tehdyn annotoinnin perusteellisuus ja systemaattisuus
  • Mitään ei kannata hävittää aineistoa esi- ja jälkikäsiteltäessä, siis poistetun tiedon palauttaminen jälkikäteen voi olla vähintäänkin työlästä
  • Automaattisiin analyysityökaluihin ei saa luottaa sokeasti, vaan on selvitettävä itselleen ne periaatteet minkä mukaan työkalu toimii ja pistokokein tarkistettava analyysin oikeellisuus ja luotettavuus
kurssin harjoitusty
Kurssin harjoitustyö
  • kansainvälisessä, referoiduissa akateemisissä julkaisuissa julkaistun korpustutkimukseen perustuvan tieteellisen artikkelin kriittinen arvio kurssilla esitettyjen näkökulmien mukaan
  • pienimuotoisen korpuspohjaisen tutkimuksen tekeminen kurssilla esitettyjen periaatteiden mukaan
  • mahdollisten vaihtoehtojen pohdiskelu ja tehtyjen valintojen perustelu tai kriittinen arviointi
  • palautus pe x.4.2003
ctl310pro korpukset ja kieli antti arppe p t skalvo
Ctl310proKorpukset ja kieliAntti ArppePäätöskalvo
  • Kysymyksiä?
  • Ehdotuksia ensi luentokierrosta varten
  • Palautelomake
ad