Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe - PowerPoint PPT Presentation

Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe
Download
1 / 104

 • 86 Views
 • Uploaded on
 • Presentation posted in: General

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe. Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa. Aloitusluento 7.3.2002 klo 12-15. Hallinnolliset kuviot kurssin tavoitteet

I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.

Download Presentation

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe

Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan?

Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa


Aloitusluento 7 3 2002 klo 12 15

Aloitusluento 7.3.2002 klo 12-15

 • Hallinnolliset kuviot

  • kurssin tavoitteet

  • kurssin rakenne ja suoritus

  • kurssin ohjelma ja aikataulu

 • Mitä ovat korpukset

 • Mitä on korpuslingvistiika


Kurssin motivaatio ja tavoitteet

Kurssin motivaatio ja tavoitteet

 • Kurssin tavoitteena on kokemusperäisesti tarkastella, miten korpuksia voidaan käyttää kielen tutkimuksessa.

 • Minkälaisia tutkimuskysymyksiä kannattaa esittää korpuksille

 • miten korpuksia kannattaa tutkia, ja

 • mitä tulosten pohjalta voidaan sanoa kielestä.


Kurssin rakenne ja suoritus

Kurssin rakenne ja suoritus

 • Kuusi luentoa

 • Tentti (1 ov)

 • Harjoitustyö (1 ov)


Suoritus i luennot

Suoritus I: luennot

 • pe 7.3., 14.3., 21.3., 28.3., 4.4. ja 11.4.

 • kello 12-15

 • Siltavuorenpenger 20, sh 359/UNIX-luokka

 • “teoria”- ja vierailuluentoja

 • luentomateriaalit löytyvät verkosta kurssin verkkosivuilta

  • http://www.ling.helsinki.fi/kit/2003k/ctl310corp


Suoritus ii tentti

Suoritus II: tentti

 • Laajuus 1 opintoviikko

 • pe 25.4. klo 12-14 luentosalissa sh359 ja tiedekuntatenttipäivänä ke 14.5.

 • Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use


Suoritus iii harjoitusty

Suoritus III: harjoitustyö

 • laajuus 1 opintoviikko

 • pienimuotoinen korpustutkimus kiinnittäen huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihin

  tai

 • olemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllä

 • palautus pe x.4.2003

 • tarkempi ohjeistus kolmannella luentokerralla (pe 21.3.)


Luentojen rakenne ja aikataul u i

Luentojenrakenne ja aikataulu I

Pe 7.3.

 • Johdanto ja kurssin suoritus

 • Mikä on korpus, minkälaisia korpuksia on?

 • Minkälaista on korpuslähtöinen kielentutkimus –käytäntö ja teoria ?

  Pe 14.3. (poikkeuksellisesti 9-11.30)

 • Korpuksen valitseminen ja koostaminen

 • korpuksen suhde hypoteesiin – mikä on edustava korpus?

  Pe 21.3.

 • Korpuksen esiprosessointi

 • annotoinnin filtteröinti

 • lingvistiset analyysityökalut – hyödyt ja haitat


Luennot ii

Luennot II

 • Pe 28.3.(12-14)

  Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan?

 • Pe 4.4.

  Korpusten tilastollinen käsittely

  tilastolliset menetelmät ja kieli

 • Pe 11.4.

  Korpusten tulkinta - "korpukset ja kieli”

  entäs sitten?


Kuinka moni teist on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen

Kuinka moni teistä on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen?

Hypoteesi – aineisto – menetelmä – tulkinta?


Mik on korpus

Mikä on korpus?

 • yksittäinen tekstifragmentti

 • yksittäinen sanomalehtiartikkeli?

 • kaunokirjallinen kirja?

 • yksi sanomalehti kokonaisuudessaan?

 • Assyrian valtionartiston savitaulut kokonaisuudessaan?

 • yksittäisen tv-ohjelman transkriptio?

 • muita...?


Mik on korpus1

Mikä on korpus?

 • corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts.(cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)


Korpus

Korpus...

 • CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database.


Korpus1

Korpus...

 • Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus.(cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2


Korpuksen m ritelm

Korpuksen määritelmä

 • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm

  Korpus ei ole mikä tahansa tekstinpätkä, vaan:

 • tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelma

 • kooltaan rajattu ja sisällöltään määritetty

 • elektronisessa muodossa

  • siitä on saatavissa enemmän tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin käsin

  • uusien analyysien kustannukset ovat verrattaen pienet verrattuna käsin laskemiseen

 • yleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)


Korpuksen k sitteen monimuotoisuus

Korpuksen käsitteen monimuotoisuus

 • määrätietoisesti etukäteen asetettujen periaatteiden ja kriteerien mukaan kesätty kokoelma kieliaineistoja (= yo. määritelmä)

 • kokoelma, johon on kerätty mahdollisimman paljon kaikkea kieliaineistoa mitä on vaan on kätevästi ja saatavilla

 • oma tutkimusaineisto


Miksi korpuksia k ytet n

Miksi korpuksia käytetään?

 • kun introspektio ei riitä

  • introspektiivisiä havaintoja ei voida ulkoisesti observoida

  • introspektiivinen data on useimmiten keinotekoista

  • ihmisillä on vain epämääräinen mielikuva lingvistisen ilmiön yleisyydestä


Miksi korpuksia

Miksi korpuksia?

 • korpusaineistojen hyödyt

  • korpukset ovat avoimempia tulosten objektiiviselle verifikaatiolle

  • korpukset edustavat miten ihmiset todellisissa käyttötilanteissa tuottavat kieltä, ei jonkun kielioppikuvauksen sisältämää idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivät)

  • kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on harvinaisempaa paremmin kuin introspektio

  • tietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun


Mink laisia korpuksia on

Minkälaisia korpuksia on?

 • Kansainväliset klassikot

  http://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htm

  • Brown (kirjoitettua amerikan-englantia 60-luvulta  balansoitu: 500 tekstinfragmenttia à 2000 sanaa)

  • Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta)

  • Lond-Lund (puhuttua englantia)


Korpuksia

Korpuksia...

 • Uudempia englanninkielisiä

  • Bank of English (320 Mw  450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.html

  • British National Corpus (100 Mw)

  • International Corpus of English (1 Mw kustakin englannin kansallisesta variantista)

   http://www.ucl.ac.uk/english-usage/ice/index.htm

  • Child Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten puhetta eri kielillä, mm. englanti ja saksa)

 • Korpuksia ympäri maailman

  http://www.ruf.rice.edu/~barlow/corpus.html


Korpuksia1

Korpuksia...

 • Tunnetuimmat kotimaiset

  • Suomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia)

   http://www.csc.fi/kielipankki/

  • KOTUS:en korpukset (historiallista kirjasuomea)

   http://www.kotus.fi/aineistot/

  • Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967)

  • Savonlinnan käännöskorpus


Korpusten luokitteluntapainen

Korpusten luokitteluntapainen

 • kielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjallisetkorpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English)

 • synkroninen variaatio (kansalliskielen [standardin] sisäinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvälisen englannin korpus


Luokittelu

Luokittelu...

 • historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit)

 • maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sisältää otoksia puhujista kaikkialta Britanniasta)


Luokittelu1

Luokittelu...

 • ikä: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot)

 • tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypit

 • aivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)


Luokittelu2

Luokittelu...

 • saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillä

 • yksikielisyys vs. monikielisyys (kohdistetut käännöskorpukset); alkuperäiset (supisuomi) vs. käännetyt (käännössuomi)


Mink laista korpuspohjainen kielentutkimus on

Minkälaista korpuspohjainen kielentutkimus on?

 • Korpuspohjaisen lingvistiikan esihistoriaa

  • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm

    Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaa

 • Korpuspohjaisen lingvistiikan varsinainen käynnistyminen

  • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm

    Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna


Korpuspohjainen kielentutkimus t n n

Puheentutkimus

Leksikografia

Kielioppi/syntaksi

Semantiikka

Pragmatiikka

Sosiolingvistiikka

Stilistiikka

Kielenopetus

Historiallinen kielitiede

Murretutkimus

Psykolingvistiikka

Kulttuurintutkimus

Sosiopsykologia

Korpuspohjainen kielentutkimus tänään?


Korpuslingvistiikka t n n

Korpuslingvistiikka tänään

 • Corpus Linguistics 2003 –konferenssi (Lancaster 28-31.3.2003)

  http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers


Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe1

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe

Luento 14.3.

Metodologinen yleiskatsaus – empiirisen tutkimuksen rakenne

Hypoteesin muodostaminen

Aineiston valitseminen ja koostaminen


Korpuspohjainen kielentutkimuksen tyypit

Korpuspohjainen kielentutkimuksen tyypit?

 • kvalitatiivinen - laadullinen

  • analyysin rikkaus

  • tarkkuus ja

  • perusteellisuus

 • kvantitatiivinen - määrällinen

  • tilastollisesti luotettavat ja

  • yleistettävät tulokset


Kvalitatiivinen kvantitatiivinen

Kvalitatiivinen – kvantitatiivinen

 • Kvalitatiivinen

  • tavoitteena täydellinen, yksityiskohtainen kuvaus

  • ilmiöiden frekvenssien merkitys on vähäisempi, yksittäiset tapauksetkin saavat huomiota

  • kielen monitulkintaisuus sallitaantulokset eivät välttämättä ole varmuudella yleistettävissä kieleen kokonaisuudessaan


Kvalitatiivinen kvantitatiivinen1

Kvalitatiivinen – kvantitatiivinen

 • kvantitatiivinen

  • piirteitä luokitellaan, niiden lukumääriä lasketaan ja vertaillaan

  • piirteiden yhteisesiintymistä voidaan tehdä monimutkaisia tilastollisia malleja

  • eri korpuksia voidaan vertailla keskenään

  • yleisten, tyypillisten ilmiöiden erottaminen (mahdollisesti) satunnaisista esiintymistä

  • luokitukset tyypillisesti kategorisia

  • edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan tehdä – harvinaiset ilmiöt jäävät paitsioon  kategorioita saatetaan tästä johtuen niputtaa yhteen


Kvantitatiivinen kvalitatiivinen

Kvantitatiivinen – kvalitatiivinen

 • monimetodisuus, eri tutkimusmenetelmiä ja –aineistoja yhdistyvä tutkimus yleistymyssä ihmistieteissä

 • kvalitatiivinen tutkimus voi edeltää kvantitatiivista

   intuitiivinen yleiskuva tutkittavasta ilmiöstä ja aineistosta

   kategoriat on ensiksi identifioitava


Tutkimuksen tyypit

Tutkimuksen tyypit

 • eksploratiivinen – tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssinä  kuinkas sitä kieltä oikein käytetään

 • deskriptiivinen – kuvaava  systemaattisempi ja kokonaisvaltaisempi

 • konstruktiivinen – teorioita muodostava  tavoitteena enemmän kuin jonkun yksittäisen lingvistisen olion kuvaus

 • testaava – teorioiden validiteetin tarkastelua


Tutkimuksen tyypit henkil kohtaisia esimerkkej

Tutkimuksen tyypit – henkilökohtaisia esimerkkejä

 • eksploratiivinen: onko synonyymien käyttökonteksteissa eroja?

 • deskriptiivinen: minkälaista on jonkun synonyymiryhmän käyttö; miten käyttökontekstit eroavat toisistaan?

 • konstruktiivinen: mistä synonyymien käyttökontekstien erilaisuudet johtuvat?

 • testaava: päteekö yllä esitetty teoria käyttökontekstien erilaisuudesta myös muiden synonyymiperheiden kohdalla?


Mallitutkimuksen rakenne

Mallitutkimuksen rakenne

 • [Teoreettinen tausta: aikaisempi tutkimus]

 • hypoteesi

 • aineisto eli korpus

 • menetelmä

 • tulkinta

 • [Kytkentä teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]


Hypoteesi

Hypoteesi

 • mikä on riittävän hyvä/perusteltu hypoteesi?

  • perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen?

  • perustuu tutkijan tai tutkijayhteisön omaan intuitioon?

 • tutkijan kannalta tärkeää on ankkuroida hypoteesi ajankohtaiseen tutkimukseen

  • teoria X väittää jotain Y kaikista kielistä: pitääkö Y paikkansa kielessä Z

  • teoria X on yksi kielen rakenteen kuvauksen yleisistä malleista: miten teoriaa X voisi soveltaa kielessä Y


Aineisto

Aineisto

 • hypoteesin perusteella

   minkälainen aineisto on (riittävän) edustava hypoteesin kannalta

   edustavuus/kattavuus voiko mikään aineisto koskaan olla täysin representatiivinen kielen kannalta?

 • kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista  yhdestä aineistosta ei voi välttämättä päätellä kaikesta kielenkäytöstä


Menetelm

Menetelmä

 • esiprosessointi: ylimääräisen annotoinnin poistaminen

 • lingvistinen (automaattinen) analyysi

  • virheiden huomioiminen ja vaikutus

  • automaattisen analyysin täydentäminen käsin

  • lingvistisen analysaattorin implisiittisesti sisältämä malli kielestä  miten analysaattori vaikuttaa ja ennakoi tuloksia

 • tilastolliset mallit

  • Miten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta


Tulkinta

Tulkinta

 • miten tulokset vastaavat hypoteeseja

 • miten paljon voidaan sanoa kielestä ylipäänsä

   mistä tulokset itse asiassa kertovat

 • kuinka merkitseviä tulokset ovat?

   keskeistä on aina kuitenkin lingvistin tulkinta: mitä lingvisti nostaa esille tai näkee merkittävänä – kielitieteen kannalta


Tutkimuksen suunnittelun t rkeys

Tutkimuksen suunnittelun tärkeys

 • ekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden väliset erot, murteet, idiolektit)

 • aineistoon ja annotointiin perehtyminen: kuinka täydellisesti/perusteellisesti/oikein aineisto on esikäsitelty

 • työkalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysityökalut toimivat

 • esitutkimuksen tärkeys  ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlyömistä


Esimerkkej hypoteeseista int l journal of corpus linguistics

Esimerkkejä hypoteeseista: Int’l Journal of Corpus Linguistics


Hypoteesin muodostaminen k yt nn ss oman tutkimuksen teoreettista taustaa

Hypoteesin muodostaminen käytännössä – oman tutkimuksen teoreettista taustaa

 • erityisesti englannin osalta on osoitettu, että synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998)

 • myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim. begin vs. start (Biber 1998):

   SUBJ start (intransitiivinen käyttö)

   SUBJ begin OBJ

   SUBJ begin TO-V

 • lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)


Alkuper inen tavoite

Alkuperäinen tavoite

 • jos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisessä morfologisesti köyhässä kielessä), niin eikö suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osalta

 • Hypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?


Hypoteesin konkretisoiminen mit on synonymia

Hypoteesin konkretisoiminen: mitä on synonymia?

 • synonymian määritelmä ja käsittely näyttää seuraavan siitä miten merkitys ymmärretään

  • merkitys kompositionaalisten, kategoristen piirteiden joukkona  synonymia tietyntyyppisenä erona ko. piirteissä

  • merkityksen syntyminen käyttöyhteyden kautta (Firth)  synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)


Synomia absoluuttinen synonymia l hisynonymia

Synomia - absoluuttinen synonymia – lähisynonymia

 • absoluuttinen synonymia edellyttäisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tämä on oletetusti käytännössä erittäin harvinaista

  • käytännössä joutuu tutkimaan lähisynonymiaa (l. plesionymiaa)

  • synonymia on kuitenkin jollakin naivilla tasolla todellista, sillä tavalliset kielenkäyttäjät mieltävät synonyymien olemassaolon ja kokevat että sanoja voidaan usein vaihtaa toisiin ilman että lauseen merkitys ja konnotataatiot oleellisesti muuttuvat


Tutkimuksen rajaaminen tutkittavien synonyymien valinta

Tutkimuksen rajaaminen:tutkittavien synonyymien valinta

 • ei ole mielekästä ryhtyä tutkimaan kaikkia potentiaalisia synonyymejä: yksikin pari voi riittää

 • tavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sekä syntaktisen että semanttisen valenssin suhteen kuin mahdollista

 • kaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nämä yhdistettiin elektronisen synonyymisanakirjan sisältöön

 • kullekin synonyymiryhmälle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmät rankattiin


Tutkimuksen rajaaminen synonyymilistan top 1000

Tutkimuksen rajaaminen: synonyymilistan Top 1000

 • 1000 kollektiivisesti yleisintä synonyymiryhmää


Tutkimuksen rajaaminen

Tutkimuksen rajaaminen

 • rankatut synonyymiryhmät arvioitiin subjektiivisesti

 • mikäli jossakin synonyymiryhmässä ei ensi näkemältä tuntunut olevan ilmiselviä eroja merkityskentän tai syntaktisen käytön suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisäksi Pajunen (1982)

 • mitä enemmän sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sitä parempi

 • polyseemisiä kandidaatteja hyljeksittiin


Lopullinen rajaus ja hypoteesi

Lopullinen rajaus ja hypoteesi

 • kognitiviiset verbit pohtia and miettiä

 • myös ajatella, tuumia ja harkita voisivat tulla kyseeseen

 • Hypoteesi: verbien pohtia ja miettiä morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan


Aineiston valinta edustavuus

Aineiston valinta – edustavuus

 • kun ilmiötä ei voida tai haluta tutkia (kvantitatiivisessa tutkimuksessa) kokonaisuudessaan, ihmistieteissä turvaudutaan tyypillisesti satunnaisotantaan

  • Satunnaisotanta edellyttää, että lähtökohtapopulaatio on mahdollisimman selkeästi määritelty ja rajattu

  • miten otannan populaatio määritellään kielitieteessä?


Edustavuus populaatio

Edustavuus – populaatio

 • miten hyvin populaatio on määriteltävissä?

   Tutkimushypoteesi määrää

  • kattava bibliografinen indeksi: kaikki Suomessa julkaistu kaunokirjallisuus vuosina 1990-2000

  • sanomalehtiteksti Suomessa vuonna 1994/vuosina 1990-2000

  • Keskisuomalainen vuonna 1994

  • Ylioppilasaineet vuonna 2000


Edustavuus populaatio1

Edustavuus - populaatio

 • mikä voisi olla (suomen) kielen populaatio?

   mitä ”koko” kieleen kuuluu?

 • kirjoitettu kieli:

  • sanomalehdet

  • kaunokirjalliset kirjat: alkuperäiset vs. käännöstekstit

  • juridiset tekstit

  • tekniskaupalliset tekstit

  • kirjeet

  • sähköiset uutisryhmät

  • chattipalstat, IRC


Suomen kielen populaatio

(Suomen) kielen populaatio?

 • puhuttu kieli:

  • uutislähetykset

  • esitelmät kirjoitetun tekstin pohjalta

  • ihmisten väliset nauhoitetut spontaanit keskustelut

  • jne...


Koko kielen populaation problematiikkaa

”Koko” kielen populaation problematiikkaa?

 • mikä tulisi olla ”kielen” eri osa-alueiden keskinäiset kokosuhteet ”koko” kieltä edustavassa populaatiossa?

  • onko ylipäänsä väitettävissä, että kielestä (esimerkiksi) 50% on kirjoitettua ja 50% puhuttua

  • onko ylipäänsä mielekästä yrittää muodostaa otosta ”koko” kielestä

  • onko ylipäänsä mielekästä edes yrittää tutkia kieltä ”kokonaisuudessaan”

  • häviävätkö kielen eri osa-alueiden erot kun ne niputetaan yhteen?  olisiko mielekäämpää yrittää tarkastella kielen eri osa-alueiden välisiä samankaltaisuuksia ja eroja? (Biber)


Lingvistisen populaation problematiikkaa

Lingvistisen populaation problematiikkaa

 • kuinka homogeenisia yksittäiset osa-alueet ovat? esim. sanomalehtiteksti sisältää laajan kirjon eri tekstityyppejä ja yhdistää kirjoitettua ja puhuttaa kieltä (sitaatit)

 • Esimerkkejä sanomalehtitekstistä (HS 13.3.2003)

  • poliittinen artikkeli

  • urheiluartikkeli

  • mielipidekirjoitus

  • tiedeartikkeli

    Yksittäisenkin kielen osa-alueen sisällä tulee pohtia, mitkä tekijät mahdollisesti aiheuttaisivat variaatiota (esim. toimittajien idiolektit)


Satunnaisotannan periaatteita korpustutkimuksessa biber

Satunnaisotannan periaatteita korpustutkimuksessa (Biber)

 • lähtökohtana määritellä tutkittavan populaation hierarkinen stratifioituminen

   jaottelun eri tekstityyppeihin tulisi perustua hypoteesistä lähtevään tutkimusasetelmaan ja sen teoreettisiin taustaolettamuksiin

   käytännössä tekstityyppijaottelussa joutuu turvautumaan käytettävissä olevien korpusten jaotteluihin ja niiden sisältämään ekstralingvistiseen tietoon (Kielipankin aineistot)

 • stratifioitunut otanta on vähintään yhtä edustava kuin puhdas satunnaisotanta, sillä se varmistaa kunkin tekstityypin mukanaolon


Oman tutkimuksen otanta

Oman tutkimuksen otanta

 • sanomalehtiteksti on hyvä lähtökohta, sillä se pitää sisällään useita eri tekstityyppejä

 • Keskisuomalaisen aineisto (1994, 2 Mw) sisälsi tarvittavaa ekstralingvististä tietoa sekä tekstityypeistä että artikkelien kirjoittajista

  • tekstityypin tai idiolektin mahdollinen vaikutus tuloksiin  esiintyykö variaatiota?

 • Koko sanomalehtikorpus (16 Mw Keskisuomalaisen lisäksi mm. Hesarin) oli kooltaan 8-kertainen, jolloin harvinaisemmat ilmiöt olivat havaittavissa ( tilastollinen merkitsevyys)


Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteita

Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteita

 • otoksen on oltava riittävän suuri, jotta tulokset ovat (tilastollisesti) luotettavia

 • otoksen ei kannata olla liian suuri, jottei tule tehneeksi turhaa työtä, esim. automaattisen analyysin tarkistamisessa ja korjaamisessa tai omien lisäluokittelujen tekemisessä

 • otoksen kokoon vaikuttavat tutkittavan ilmiön kategorioiden (sanaluokat, yksittäiset lekseemit, yksittäiset taivutusmuodot, morfeemit, tms.) määrä ja kunkin kategorian esiintymisfrekvenssit


Rajaamisen periaatteita

Rajaamisen periaatteita

 • otos on riittävän suuri, saavutetaan jäätymis/saturaatiopiste uusien tapauksien määrä ei enää oleellisesti lisäänny otosta kasvettaessa

 • otos on riittävän suuri, kun tutkittavien ilmiöiden keskinäiset suhteet eivät enää merkittävästi muutu  otoksen kasvun myötä kasvavilla lukumäärillä ei ole enää (tilastollisesti) merkittävää vaikutusta käytettäviin tilastollisiin tunnuslukuihin

 • yleisten ilmiöiden kohdalla saturaatiopiste saavutetaan pienemmällä korpuksella kuin harvinaisempien ilmiöiden kohdalla  harvinaisempien ilmiöiden tarkastelua varten ei kenties koskaan ole kasattavissa riittävän suurta korpusta


Otoksen kasvun vaikutuksia k yt nn ss

Otoksen kasvun vaikutuksia käytännössä

 • pintamuotojen määrän kehitys suomenkielisessä sanomalehtitekstissä

 • perusmuotojen määrän kehitys

 • verbien taivutusmuotojen määrän kehitys

 • ajatella-verbien taivutusmuotojen määrän kehitys

 • pohtia/miettiä-verbien taivutusmuotojen määrän kehitys


Otoksen m r n vaikutus tilastolliseen tulkintaan

Otoksen määrän vaikutus tilastolliseen tulkintaan

 • otoksen koon kasvaessa havaittavien lingvististen ilmiöiden määrä ja niiden frekvenssi kasvaa

  • Frekvenssien kasvaessa ilmiöiden tilastollisen merkitsevyyden mahdollisuus kasvaa

  • Mutta tilastollinen merkitsevyys voidaan saavuttaa pienemmillä suhde-eroilla (22/23 vs. 932/1562 ovat tilastollisesti yhtä merkittäviä)

  • Mahdollisesti/todennäköisesti samat pienemmässä korpuksessa tilastollisesti merkitseviksi havaittavat ilmiöt ovat sitä myös suuremmissa korpuksissa  frekvenssit mihin ne perustuvat ovat vain suuremmat

 • pienemmässä otoksessa mahdollisuus tarkempaan analyysiin ja perusteellisempaan virheiden tarkistamiseen

 • Oman tutkimuksen kaksi korpusta: 855 vs. 4545 tapausta = tarkistettavien analyysien edellyttämän työmäärän kasvu


Oma tutkimus pienempi korpus 2 mw

Oma tutkimus: pienempi korpus (2 Mw)


Pienempi korpus

Pienempi korpus...


Oma tutkimus suurempi korpus

Oma tutkimus: suurempi korpus


Suurempi korpus 16 mw

Suurempi korpus (16 Mw) ...


Yhtenev iset ilmi t molemmissa korpuksissa

miettiä

I infinitiivi (77/112) vs. (417/670)

yks. 1. persoona (22/23) vs. (88/96)

yks. 1. persoona JA imperfekti vs. (15/15) (53/56)

pohtia

yks. 3. persoona (199/320) vs. (932/1562)

preesens JA yks. 3. persoona

Yhteneväiset ilmiöt molemmissa korpuksissa

Korpuksen määrän kasvattaminen ei näiden ilmiöiden kohdalla vaikuttanut keskinäisiin suhteisiin ja tilastolliseen merkitsevyyteen


Yksityiskohtaisemmat ilmi t pienemm ss korpuksessa

miettiä

I infinitiivi (77/112)

yks. 1. persoona (22/23)

toimittajat aaa, bbb ja ccc

urheiluosasto

yks. 1. persoona JA imperfekti

pohtia

yks. 3. persoona (199/320)

ulkomaanosasto

preesens JA yks. 3. persoona

preesens

toimittaja bbb

Yksityiskohtaisemmat ilmiöt pienemmässä korpuksessa

Nämä tiedot olivat saatavissa perusteellisemman analyysin johdosta


Havaitut uudet ilmi t laajemmassa korpuksessa

miettiä

I infinitiivi (417/670)

yks. 1. persoona (88/96)

yks. 1. persoona JA imperfekti (53/56)

III infinitiivi

passiivi ja 1. partisiippi

imperatiivi (23/28  )

pohtia

passiivi JA indikatiivi (341/481)

mon. 3. persoona JA indikatiivi (1474/2468)

yks. 3. persoona (932/1562)

passiivi JA imperfekti (111/142)

yks. 3. persoona JA indikatiivi (924/1551)

mon. 3. persoona (178/252)

Havaitut uudet ilmiöt laajemmassa korpuksessa

Nämä ilmiöt nousivat tilastollisesti merkittävinä esille korpuksen kasvattamisen johdosta


Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe2

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe

Luento 21.3.

Annotointi

Aineiston esikäsittely

Automaattiset analyysityökalut


Annotointi

Annotointi

 • korpukset voivat olla:

  • raakoja = tekstejä sellaisenaan

  • annotoituja eli tekstin alunperin kuulumattomalla, pääosin lingvistisellä informaatiolla varustettuja

   • annotaatio voi koostua yksittäisistä tageista (esim. Brown collects_VVZ) tai tagirymistä (esim. ENGTWOL collects V IND PRES SG3)

     Vaikuttaa tagien määrään ja käsittelyn

   • sanakohtainen tai virkekohtainen (KOTUS) annotaatio

  • lingvistisen annotaation lisäksi korpukset sisältävät nykyisin myös lähde- ja rakenteellista tietoa (esim. SGML/TEI/XML-taggauksen muodossa)


Tei sgml formatoitua ja annotoitua korpusta keskisuomalainen 1994 csc

TEI/SGML-formatoitua ja annotoitua korpusta (Keskisuomalainen 1994/CSC)

<group id="KS-1994-01-02">

<!--

Nimi: apua!

Aihe:

Teki: KSML

Osasto: viv

Luontipvm: 931229

Ilm.pvm: 940102

-->

<text lang="FI">

<body>

<div type="article">

<head type="half-title">Kansanedustaja ja taiteilija joululomalla Bosniassa </head>

<head type="title">Tähtäimessä punainen risti </head>

<p>

Kun monet espanjalaisparlamentaarikot selailivat joulun alla matkaoppaita lehtereillä, <num>29</num>&ndash;vuotias kansaned

ustaja Tomas Burgos lastaili kiireisenä kahdeksaa pakettiautoa ja kahta rekkaa. Matkakohteeksi oli valittu talvinen Bosnia.

</p>


Lingvistisesti annotoitua korpusta fdg conexor

Lingvistisesti annotoitua korpusta (FDG/Conexor)

0

1 Kun kun pm:>4 &CS CS

2 monet moni attr:>3 &A> PRON PL NOM

3 espanjalaisparlamentaarikot espanjalais#parlamentaarikko subj:>4 &NH N PL NOM

4 selailivat selailla &+MV V ACT IND PAST PL3

5 joulun joulu loc:>4 &NH N SG GEN

6 alla alla pm:>5 &PM PSP

7 matkaoppaita matka#opas &NH N PL PTV

8 lehtereillä lehteri &NH N PL ADE

, ,

10 29 29 &NH NUM CARD

- -

12 vuotias vuotias attr:>13 &A> A SG NOM

13 kansanedustaja kansan#edustaja attr:>15 &NH N SG NOM

14 Tomas Tomas attr:>15 &A> N SG NOM

15 Burgos burgos subj:>16 &NH N SG NOM

16 lastaili lastailla &+MV V ACT IND PAST SG3

17 kiireisenä kiireinen copr:>16 &NH A SG ESS

18 kahdeksaa kahdeksan qn:>19 &QN> NUM CARD SG PTV

19 pakettiautoa paketti#auto &NH N SG PTV

20 ja ja cc:>19 &CC CC

21 kahta kaksi qn:>22 &QN> NUM CARD SG PTV

22 rekkaa rekka cc:>19 &NH N SG PTV

. .

24 Matkakohteeksi matka#kohde &NH N SG TRA

25 oli olla main:>23 &+MV V ACT IND PAST SG3

26 valittu valita attr:>28 &-MV V PASS PCP2 SG NOM

27 talvinen talvinen attr:>28 &A> A SG NOM

28 Bosnia Bosnia &NH N SG NOM

. .

30 <s> <s> >29


Hyv n annotoinnin periaatteet leech

Hyvän annotoinnin periaatteet (Leech)

 • 1. Annotoinnin tulisi olla erotettavissa/irrotettavissa/siivottavissa alkuperäisestä/varsinaisesta korpuksesta

  • Claire_NP1 collects_VVZ shoes_NN2”

    "Claire collects shoes”

 • 2. Annotoinnit tulisi olla sellaisinaan irrotettavissa korpuksesta esim. eri tilastollisia tarkasteluja varten

  • Claire_NP1 collects_VVZ shoes_NN2”

   NP1 VVZ NN2


Annotoinnista

Annotoinnista...

 • 3. Annotoinnin periaatteiden pitäisi olla (helposti) korpuksen käyttäjän saatavilla

  • annotoinnissa käytettävien tagien merkitykset pitäisi olla saatavilla samoin kuin esimerkit niin yleisistä tapauksista kuin rajanpetotilanteista

  • tämä ei valitettavasti aina pidä riittävän pitkälle paikkaansa esim. akateemisesti kehitettyjen analyysityökalujen kohdalla

 • 4. Annotoinnin tekijän, mahdollisen muuttajan ja annotointiajankohdan pitäisi olla selkeästi merkittynä

  • aikaisemmat annotoinnit pitäisi muutos/korjaustapauksissa olla jätetty jäljelle, mikäli halutaan palata korpuksen aikaisempaan versioon


Annotoinnista1

Annotoinnista ...

 • 5. Korpuksen käyttäjälle tulisi tehdä selväksi, että annotointi ole virheetön eikä lopullinen – lisäksi tulisi korostaa, että annotointi on aina jonkun teoreettisen näkökannan mukainen tulkinta eikä ainoa mahdollinen vaihtoehto

 • 6. Annotoinnin periaatteidein tulisi laajalti hyväksyttyjä ja teorianeutraaleja

  • tämä ei ole mitenkään helppo periaate, sillä korpusten moninaiset käyttötarkoituksen voivat olla ristiriidassa tämän kanssa

 • 7. Yksikään annotointiperiaatetta ei saisi esittää a priori standardina – standardit syntyvät käytännön hyväksynnän ja konsensuksen kautta


Miksi alkuper inen annotointi kannattaa s st tekij tiedot er ss sanomalehtikorpuksessa

Miksi alkuperäinen annotointi kannattaa säästää (tekijätiedot eräässä sanomalehtikorpuksessa)

</div>

</body>

</text>

<!--

Huomautus 1:

Huomautus 2:

Nimi: vappuset

Aihe:

Teki: ANITA

Osasto: KLT

Luontipvm: 940321

Ilm.pvm: 940322

-->

<text>

<body>

<div type="article">

<head type="title">J&ndash;kyläläinen Piiat&ndash;yhtye voitti Imatralla </head>

<byline>

Keskisuomalainen

</byline>


Tekij tietojen sekavuus

Tekijätietojen sekavuus ...

+ 8 ANITA = NO_BYLINE#,3994,4173,5637,6520,6827,6897,6912,6954

+ 6 ANITA = Anita Kärki #,4304,4397,4964,5154,5458,7469

+ 5 ANITA = ANITA KÄRKI #,1332,4261,6395,6880,7999

+ 2 ANITA = Anita Kärki = ANITA KÄRKI #,4969,5162

- 2 ANITA = Anita Kärki = Ari Haapa-aho #,5700,7676

- 2 ANITA = Anita Kärki = Jorma Pärssinen #,6010,7146

- 2 ANITA = ANITA KÄRKI = Jorma Pärssinen #,7368,7559

+ 2 ANITA = Keskisuomalainen #,5629,6968

- 1 ANITA = Anita Kärki = Anita Kärki = Risto Aalto #,7228

- 1 ANITA = Anita Kärki = Matti Salmi #,7298

- 1 ANITA = Anita Kärki = Mauri Ratilainen #,8165

- 1 ANITA = Anita Kärki = Risto Aalto #,5791

- 1 ANITA = ANITA KÄRKI = Risto Aalto #,6392

- 1 ANITA = GOA, ANJUNA-BEACH ANITA KÄRKI KUVAT #,6743


Annotoinnin lajit

Annotoinnin lajit

 • sanaluokka-annotointi – Part-of-speech (POS) taggaus

 • lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, disambiguoituna tai ilman (XXXTWOL)

 • syntaktinen parsaus: osittainen (lauseke)analyysi (XXXCG/Lingsoft, XXXLITE/Connexor) – pinta-analyysi – lausekerakenneanalyysi – funktionaalinen dependenssianalyysi (FDG Machinese/Connexor)

 • semanttinen analyysis (WordNet)

 • diskurssi/tekstilingvistiset analyysit

 • foneettinen transkribointi

 • prosodinen transkribointi

 • ongelma-kohtainen annotoiminen


Sanaluokka annotointi part of speech pos taggaus

Sanaluokka-annotointi – Part-of-speech (POS) taggaus

Spoken English Corpus (C7 tagset)

Perdita&NN1-NP0; ,&PUN; covering&VVG;the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN1; .&PUN;


Pos tagit c7

AJ0: general adjective

AT0: article, neutral for number

AV0: general adverb

AVP: prepositional adverb

CJC: co-ordinating conjunction

CJS: subordinating conjunction

CJT: that conjunction

DPS: possessive determiner

DT0: singular determiner

NN0: common noun, neutral for number

NN1: singular common noun

NN2: plural common noun

NP0: proper noun

POS: genitive marker

PNP: pronoun

PRF: of

PRP: prepostition

PUN: punctuation

TO0: infintive to

VBI: be

VM0: modal auxiliary

VVB: base form of lexicalVerb

VVD: past tense form of

lexical verb

VVG: -ing form of lexical verb

VVI: infinitive form of lexical verb

VVN: past participle form of lexical verb

POS-tagit (C7)


Lemmatisointi perusmuotoon palautus ja morfologinen analyysi engtwol

Lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, (ENGTWOL)

"<Perdita>"

"<,>"

"<covering>"

"cover" <N:/> <SVO> <SV> <P/for> <P/with> <PCP1:/ing> <INF:/> PCP1

"<the>"

"the" <Def> DET CENTRAL ART SG/PL @DN>

"<bottom>” (monitulkintainen eli ambiguöösi sana)

"bottom" <Count> N NOM SG

"bottom" <Rare> <PCP1:/ing> <INF:/> V PRES -SG3 VFIN @+FMAINV

"bottom" <Rare> <PCP1:/ing> <INF:/> V INF

"bottom" <Rare> <PCP1:/ing> <INF:/> V IMP VFIN @+FMAINV

"bottom" <Rare> <PCP1:/ing> <INF:/> V SUBJUNCTIVE VFIN @+FMAINV

"<of>"

"of" PREP

"<the>"

"the" <Def> DET CENTRAL ART SG/PL @DN>

"<lorries>"

"lorry" <Count> N NOM PL

"<with>"

"with" PREP

"<straw>"

"straw" <-Indef> N NOM SG

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V PRES -SG3 VFIN @+FMAINV

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V INF

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V IMP VFIN @+FMAINV

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V SUBJUNCTIVE VFIN @+FMAINV


Syntaktinen parsaus osittainen lauseke analyysi enlite pinta analyysi lausekerakenneanalyysi

Syntaktinen parsaus: osittainen (lauseke)analyysi (ENLITE) – pinta-analyysi – lausekerakenneanalyysi

Perdita perdita &NH N SG  

, ,  

covering cover &VA ING  

the the &>N DET  

bottom bottom &NH N SG  [disambiguoitu sana]

of of &N< PREP  

the the &>N DET

lorries lorry&NH N PL  

with with &N< PREP &AH PREP  

straw straw &NH N SG  

to to &AUX INFMARK>  

protect protect &VA V INF  

the the &>N DET  

ponies' pony &>N N PL  

feet foot &NH N PL  

, ,  

suddenly suddenly &>A ADV &AH ADV  

heard heard &>N EN &VA V PAST  

Alejandro alejandro &>N N SG&NH N SG  

shouting shouting &NH ING &VA ING  

that that &CS CS &NH <Rel> PRON  

she she &NH PRON SG3  

better well &AH ADV CMP &>N A CMP

&NH A CMP  

dig dig &NH N SG &VA V INF 

&VA V PRES  

out out &AH ADV  

a a &>N DET SG  

pair pair &NH N  

of of &N< PREP  

clean clean &>N A ABS  

breeches breech &NH N PL


Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe

Semanttis/funktionaalinen analyysi

0

1SanSa &NH N SG GEN &A> N SG GEN

2CristobalinCristobal attr:>3&A> N SG GEN

3kaupungin kaupunki obj:>4 &NH N SG GEN

4vallanneet vallata attr:>5 &-MV V ACT PCP2 PL NOM

5intiaanitintiaani subj:>6_AGE:>6 &NH N PL NOM SEM_HUMAN_INDIVIDUAL PHR_COMMON

6pohtivatpohtia main:>0&+MV V ACT IND PAST PL3 SEM_THINK

7sunnuntai sunnuntai attr:>9 &A> N SG NOM

- -

9iltanailta _TMP:>6 &NH N SG ESS SEM_TIME

10seuraavaa seurata attr:>11 &-MV V ACT PCP1 SG PTV &A> A SG PTV

11siirtoaansiirto _PAT:>6&NH N SG PTV SEM_ACTIVITY

12kaupungintalon kaupungin#talo attr:>13&A> N SG GEN

13käytävilläkäytävä _LOC:>6&NH N PL ADE SEM_LOCATION

. .

15<s> <s> >14


Automaattisten analyysity kalujen k yt st

Automaattisten analyysityökalujen käytöstä

 • analysaattorit perustuvat aina johonkin malliin, joka perustuu johonkin kielitieteelliseen teoriaan

  • teoria vaikuttaa analysaattorin yksittäisiin tuloksiin:

   • Esim. Conexorin FDG perustuu Tésnieren dependenssikielioppiin 1950-luvulta

  • analysaattori saattaa toimia systemaattisesti oikein omien periaatteidensa mukaan, muttei samalla sopia haluttuun tutkimustarkoitukseen:

   • Esim. dependenssikieliopissa yhdessä lauseessa voi olla kunkin funktion edustajia ainoastaan yksi, esim. lauseella ei voi olla kahta tempusfunktiota

   • * Harjoittelen aamulla-TMP ja illalla-? (periaatteessa ko. lause nähdään kahden lauseen yhdistelmänä, jossa funktiot erotettu)  Harjoittelen aamulla-TMP + Harjoittelen illalla-TMP


Yksi vai useampi temporaalifunktio 1 2

Yksi vai useampi temporaalifunktio? (1/2)

0

1 YK YK subj:>2 &NH N

2 arvioi arvioida main:>0 &+MV V ACT IND PRES SG3 &+MV V ACT IND PAST SG3

3 syyskuussa syyskuu tmp:>2 &NH N SG INE

4 Bosnia Bosnia attr:>6 &A> N SG NOM

- -

6 Hertsegovinan Hertsegovina attr:>7 &A> N SG GEN

7 ruuan ruoka &NH N SG GEN

8 tarpeeksi tarpeeksi &ADV ADV

9 32 32 qn:>10 &QN> NUM CARD

10 miljardia miljardi qn:>11 &QN> NUM CARD SG PTV

11 tonnia tonni qua:>2 &NH N SG PTV

12 kuukaudessa kuukausi loc:>2 &NH N SG INE

. .

14 <s> <s> >13


Yksi vai useampi temporaalifunktio 2 2

Yksi vai useampi temporaalifunktio? (2/2)

0

1 Edellä edellä phr:>2 &ADV ADV

2 mainitun mainita attr:>3 &-MV V PASS PCP2 SG GEN

3 rajan raja obj:>4 &NH N SG GEN

4 alittamisesta alittaa &-MV V ACT INF4 ELA

5 annetaan antaa main:>0 &+MV V PASS IND PRES

6 ensin ensin &ADV ADV

7 neuvontaa neuvonta obj:>5 &NH N SG PTV

8 ja ja &CC CC

9 myöhemmin myöhemmin tmp:>10 &ADV ADV

10 opetetaan opettaa &+MV V PASS IND PRES

11 liikennekulttuuria liikenne#kulttuuri obj:>12 &NH N SG PTV

12 sakottamalla sakottaa man:>10 &-MV V ACT INF3 SG ADE

. .

14 <s> <s> >13


Automaattiset analyysity kalut

Automaattiset analyysityökalut...

 • Analysaattorit tekevät aina välttämättä jonkin verran virheitä tai eivät pysty antamaan yhtä ainoaa oikeaa vastausta (täydellistä disambiguaatiota)

  • On tutkittu, etteivät edes ihmiset (maallikot saati asiantuntijat) pysty aina pääsemään yhteisymmärrykseen oikeasta analyysistä (esim. Churchin tutkimukset)  kielessä on siis aina implisiittisesti hiukan monitulkintaisuutta, mitä voidaan pitää automaattisten työkalujen oikeellisuuden teoreettisena ylärajana (97-98%)


Preesens vai imperfekti

Preesens vai imperfekti?

EU-ministeri eu-#ministeri &NH N SG NOM

pohtivat pohtia &+MV V ACT IND PRES PL3 &+MV V ACT IND PAST PL3

Euroopan eurooppa &A> N SG GEN

kilpailukykyä kilpailu#kyky &NH N SG PTV

EU:n eu &A> N SG GEN

teollisuusministerit teollisuus#ministeri &NH N PL NOM

etsivät etsivä &NH N PL NOM

viikonvaihteessa viikon#vaihde &NH N SG INE

Bilbaossa bilbao &NH N SG INE

Espanjassa espanja &NH N SG INE

keinoja keino &NH N PL PTV

lisätä lisätä &-MV V ACT INF1

Euroopan eurooppa &A> N SG GEN

kykyä kyky &NH N SG PTV

kilpailla kilpailla &-MV V ACT INF1

maailmanlaajuisesti maailman#laajuisesti &ADV ADV

. . PUNCT


Preesens vai imperfekti1

Preesens vai imperfekti? ...

...

Kilpailukyky kilpailu#kyky &NH N SG NOM

todettiin todeta &+MV V PASS IND PAST

olennaiseksi olennainen &A> A SG TRA

tekijäksi tekijä &NH N SG TRA

pyrittäessä pyrkiä &-MV V PASS INF2 INE

Eli siis tarvittiin melkoisesti lausekontekstia, että voitiin manuaalisti päätellä imperfekti oikeaksi analyysiksi – muita vinkkejä: ajan ilmaukset – joskus tarvitsisi tietää artikkelin esiintymisajankohdan ajallisen tapahtumaympäristön  miten käsitelty tapahtuma sijoittuu artikkelin julkaisuajankohtaan?


Automaattiset analyysity kalut1

Automaattiset analyysityökalut ...

 • analysaattoreita kehitetään ja testataan (erit. kaupalliset) tyypillisisti suurilla yleiskielisillä aineistoilla, jolloin ne luonnollisesti toimivat parhaiten ko. tekstityyppien analyysissä

 • analysaattorit eivät ole koskaan täysin valmiita, erityisesti leksikko ei ole koskaan täysin kattava

  • Jotkut työkalut käyttävät heuristiikkoja (esim. sanojen päätteitä) tuntemattomien sanojen joidenkin piirteiden arvaukseen, mikä voi olla virheiden lähde

  • kehityksen alkuvaiheessa kuvaukset saattavat olla kielen jonkin osa-alueen kohdalla epätäydellisiä, jolloin työkalu tekee kyseisen lingvistisen ilmiön kohdalla systemaattisesti aina saman virheen


Tuuma vai tuumia

Tuuma vai tuumia?

0

1 Tänä tämä attr:>2 &A> PRON SG ESS

2 vuonna vuosi tmp:>6 &NH N SG ESS

3 valtio valtio cc:>5 &NH N SG NOM

4 ja ja cc:>5 &CC CC

5 kaupunki kaupunki subj:>6 &NH N SG NOM

6 leikkasivat leikata main:>0 &+MV V ACT IND PAST PL3

7 orkesterin orkesteri attr:>8 &A> N SG GEN

8 budjettia budjetti obj:>6 &NH N SG PTV

9 yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE

10 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1

. .


Tuuma vai tuumia1

Tuuma vai tuumia?

0

1 Kaikki kaikki &NH PRON NOM &A> PRON NOM

2 kolme kolme &NH NUM CARD SG NOM

3 ovat olla main:>0 &+MV V ACT IND PRES PL3

4 esitutkinnassa esi#tutkinta loc:>5 &NH N SG INE

5 kiistäneet kiistää comp:>3 &-MV V ACT PCP2 PL

6 toimineensa toimia obj:>5 &-MV V ACT PCP2

7 yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE

8 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1

. .

10 <s> <s> >9


Automaattiset analyysity kalut2

Automaattiset analyysityökalut

 • analyysin teoreettisen oikeellisuuden ja yksiselitteisyyden aste riippuu tavoiteltavan tehtävän monimutkaisuudesta

  • morfologinen analyysi  morfologinen disambiguointi  osittaisanalyysi  syntaktinen analyysi  semanttinen analyysi

 • analysaattorin hyödyntämisessä on valittava joko tulosten manuaalinen läpikäynti tai virheellisyyksien hyväksyminen  analyysin laadun tarkastelu tutkittavan ilmiön kohdalla tilastollisen otoksen perusteella


Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe

1-selitteisiä morfologisia analyysejä: 128882 (91% sanamuodoista)

2-selitteisiä: 9494

3-selitteisiä:1667

4-selitteisiä:711

5-selitteisiä: 333

6-selitteisiä: 91

7-selitteisiä: 13

8-selitteisiä: 4

9-selitteisiä: 1

10-selitteisiä: 1

384089 syntaktisesti analysoitua (74% sanoista)

Tilastoa automaattisen analyysin oikeellisuudesta/ yksitulkintaisuudesta (517624 sanaa/141202 sanamuotoa)


Morfosyntaktisesti monitulkintaisimman sanan sis lt v lause toinen 10 tulkintaa

Helsingissä Helsinki loc:>2 &NH N SG INE

tapahtuva tapahtua attr:>3 &-MV V ACT PCP1 SG NOM

perushenkirikos perus#henki#rikos subj:>4 &NH N SG NOM

on olla main:>0 &+MV V ACT IND PRES SG3

edelleenkin edelleen goa:>4 &ADV ADV -KIN

poliisin poliisi attr:>7 &A> N SG GEN

suussa suu loc:>4 &NH N SG INE

lauantaitappona lauantai#tappo copr:>4 &NH N SG ESS

kulkeva kulkea attr:>10 &-MV V ACT PCP1 SG NOM &A> A SG NOM

surma surma &NH N SG NOM

. . PUNCT

tekijä tekijä cc:>14 &NH N SG NOM

ja ja cc:>14 &CC CC

uhri uhri subj:>15 &NH N SG NOM

Morfosyntaktisesti monitulkintaisimman sanan sisältävä lause (”toinen”  10 tulkintaa)


Toinen

”Toinen” ...

...

tuntevat tuntea main:>11 &+MV V ACT IND PRES PL3

toisensa toinen &NH NUM ORD SG NOM &A> NUM ORD SG NOM &NH NUM ORD SG GEN &NH NUM ORD PL NOM

&A> NUM ORD PL NOM &NH PRON SG NOM &A> PRON SG NOM &NH PRON SG GEN &NH PRON PL NOM &A> PRON PL NOM

tai tai cc:>15 &CC CC

ovat olla cc:>15 &+MV V ACT IND PRES PL3

sukua suku &NH N SG PTV

keskenään keskenänsä &ADV ADV

viina viina subj:>23 &NH N SG NOM

on olla &+MV V ACT IND PRES SG3

mukana mukana phr:>23 &ADV ADV

kuvassa kuva loc:>23 &NH N SG INE

ja ja cc:>23 &CC CC

teko teko subj:>28 &NH N SG NOM

tapahtuu tapahtua cc:>23 &+MV V ACT IND PRES SG3

pikaistuksissa pikaistus loc:>28 &NH N PL INE


Monitulkintaisimmat sanat 2 5

Monitulkintaisimmat sanat: 2-5

a=9 n=1 hallituksensa hallitus &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM &NH A SG TRA &A> A SG TRA &-MV V PASS PCP2 SG TRA

a=8 n=1 asuvasi asua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN&A> A SG GEN &NH A PL NOM &A> A PL NOM

a=8 n=1 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &-MV V PASS PCP2 PL NOM &NH A SG NOM &A> A SG NOM

a=8 n=1 kuuluvansa kuulua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM


Monitulkintaisimmat sanat 6 10

Monitulkintaisimmat sanat: 6-10

a=8 n=1 tekevänsä tehdä &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM

a=7 n=11 tullut tultu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM

a=7 n=6 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM

a=7 n=3 sinänsä sinänsä &ADV ADV &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM

a=7 n=2 parinkymmenen pari#kymmentä &NH NUM CARD SG GEN &A> NUM CARD SG GEN &QN> NUM CARD SG GEN&NH NUM CARD SG NOM &QN> NUM CARD SG NOM &NH N SG GEN &A> N SG GEN


Monitulkintaisimmat perusmuodot 2 tai useampitulkintaisten taivutusmuotojen lukum r

69toinen

65olla

63yksi

48tulla

43seurata

43nuori

39se

38hyvä

36vastata

35toimia

33saada

31tehdä

31suuri

30aika

28tämä

28kaikki

27muu

27alkaa

25elää

23joka

22itse

21vanha

21nähdä

90voida

90elää

89ottaa

Monitulkintaisimmat perusmuodot (2- tai useampitulkintaisten taivutusmuotojen lukumäärä)


Yleisimm t monitulkintaiset morfologiset analyysit

Yleisimmät monitulkintaiset morfologiset analyysit

2220&NH N SG GEN&A> N SG GEN

381&NH A SG NOM &A> A SG NOM

325&NH N PL GEN &A> N PL GEN

307&NH A SG GEN &A> A SG GEN

289&NH NUM CARD &A> NUM CARD &QN> NUM CARD

276&-MV V ACT INF1&+MV V ACT IND PRES SG3

219&NH A PL GEN &A> A PL GEN

217&NH A SG PTV &A> A SG PTV

194&NH A PL PTV &A> A PL PTV

178&-MV V ACT PCP1 SG NOM &A> A SG NOM

172&-MV V ACT PCP1 PL NOM &+MV V ACT IND PRES PL3

158&NH A PL NOM &A> A PL NOM

156&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG

&-MV V ACT PCP2 SG&NH A SG NOM &A> A SG NOM

155 &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG

&-MV V ACT PCP2 SG &NH A SG NOM

151&NH A SG ESS&A> A SG ESS

147&NH N SG NOM&NH N PL NOM

133&-MV V ACT INF1&-MV V PASS IND PRES


Mit t st opimme

Mitä tästä opimme?

 • Valmiisiin annotointeihin ei saa luottaa sokeasti, vaan on pistokokein varmistettava tehdyn annotoinnin perusteellisuus ja systemaattisuus

 • Mitään ei kannata hävittää aineistoa esi- ja jälkikäsiteltäessä, siis poistetun tiedon palauttaminen jälkikäteen voi olla vähintäänkin työlästä

 • Automaattisiin analyysityökaluihin ei saa luottaa sokeasti, vaan on selvitettävä itselleen ne periaatteet minkä mukaan työkalu toimii ja pistokokein tarkistettava analyysin oikeellisuus ja luotettavuus


Kurssin harjoitusty

Kurssin harjoitustyö

 • kansainvälisessä, referoiduissa akateemisissä julkaisuissa julkaistun korpustutkimukseen perustuvan tieteellisen artikkelin kriittinen arvio kurssilla esitettyjen näkökulmien mukaan

 • pienimuotoisen korpuspohjaisen tutkimuksen tekeminen kurssilla esitettyjen periaatteiden mukaan

 • mahdollisten vaihtoehtojen pohdiskelu ja tehtyjen valintojen perustelu tai kriittinen arviointi

 • palautus pe x.4.2003


Ctl310pro korpukset ja kieli antti arppe p t skalvo

Ctl310proKorpukset ja kieliAntti ArppePäätöskalvo

 • Kysymyksiä?

 • Ehdotuksia ensi luentokierrosta varten

 • Palautelomake


 • Login