Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe
Download
1 / 104

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe - PowerPoint PPT Presentation


  • 111 Views
  • Uploaded on

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe. Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa. Aloitusluento 7.3.2002 klo 12-15. Hallinnolliset kuviot kurssin tavoitteet

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe' - ivo


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe

Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan?

Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa


Aloitusluento 7 3 2002 klo 12 15
Aloitusluento 7.3.2002 klo 12-15

  • Hallinnolliset kuviot

    • kurssin tavoitteet

    • kurssin rakenne ja suoritus

    • kurssin ohjelma ja aikataulu

  • Mitä ovat korpukset

  • Mitä on korpuslingvistiika


Kurssin motivaatio ja tavoitteet
Kurssin motivaatio ja tavoitteet

  • Kurssin tavoitteena on kokemusperäisesti tarkastella, miten korpuksia voidaan käyttää kielen tutkimuksessa.

  • Minkälaisia tutkimuskysymyksiä kannattaa esittää korpuksille

  • miten korpuksia kannattaa tutkia, ja

  • mitä tulosten pohjalta voidaan sanoa kielestä.


Kurssin rakenne ja suoritus
Kurssin rakenne ja suoritus

  • Kuusi luentoa

  • Tentti (1 ov)

  • Harjoitustyö (1 ov)


Suoritus i luennot
Suoritus I: luennot

  • pe 7.3., 14.3., 21.3., 28.3., 4.4. ja 11.4.

  • kello 12-15

  • Siltavuorenpenger 20, sh 359/UNIX-luokka

  • “teoria”- ja vierailuluentoja

  • luentomateriaalit löytyvät verkosta kurssin verkkosivuilta

    • http://www.ling.helsinki.fi/kit/2003k/ctl310corp


Suoritus ii tentti
Suoritus II: tentti

  • Laajuus 1 opintoviikko

  • pe 25.4. klo 12-14 luentosalissa sh359 ja tiedekuntatenttipäivänä ke 14.5.

  • Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use


Suoritus iii harjoitusty
Suoritus III: harjoitustyö

  • laajuus 1 opintoviikko

  • pienimuotoinen korpustutkimus kiinnittäen huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihin

    tai

  • olemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllä

  • palautus pe x.4.2003

  • tarkempi ohjeistus kolmannella luentokerralla (pe 21.3.)


Luentojen rakenne ja aikataul u i
Luentojenrakenne ja aikataulu I

Pe 7.3.

  • Johdanto ja kurssin suoritus

  • Mikä on korpus, minkälaisia korpuksia on?

  • Minkälaista on korpuslähtöinen kielentutkimus –käytäntö ja teoria ?

    Pe 14.3. (poikkeuksellisesti 9-11.30)

  • Korpuksen valitseminen ja koostaminen

  • korpuksen suhde hypoteesiin – mikä on edustava korpus?

    Pe 21.3.

  • Korpuksen esiprosessointi

  • annotoinnin filtteröinti

  • lingvistiset analyysityökalut – hyödyt ja haitat


Luennot ii
Luennot II

  • Pe 28.3.(12-14)

    Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan?

  • Pe 4.4.

    Korpusten tilastollinen käsittely

    tilastolliset menetelmät ja kieli

  • Pe 11.4.

    Korpusten tulkinta - "korpukset ja kieli”

    entäs sitten?


Kuinka moni teist on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen

Kuinka moni teistä on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen?

Hypoteesi – aineisto – menetelmä – tulkinta?


Mik on korpus
Mikä on korpus? kielentutkimusta tai tutustunut siihen?

  • yksittäinen tekstifragmentti

  • yksittäinen sanomalehtiartikkeli?

  • kaunokirjallinen kirja?

  • yksi sanomalehti kokonaisuudessaan?

  • Assyrian valtionartiston savitaulut kokonaisuudessaan?

  • yksittäisen tv-ohjelman transkriptio?

  • muita...?


Mik on korpus1
Mikä on korpus? kielentutkimusta tai tutustunut siihen?

  • corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts.(cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)


Korpus
Korpus... kielentutkimusta tai tutustunut siihen?

  • CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database.


Korpus1
Korpus... kielentutkimusta tai tutustunut siihen?

  • Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus.(cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2


Korpuksen m ritelm
Korpuksen määritelmä kielentutkimusta tai tutustunut siihen?

  • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm

    Korpus ei ole mikä tahansa tekstinpätkä, vaan:

  • tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelma

  • kooltaan rajattu ja sisällöltään määritetty

  • elektronisessa muodossa

    • siitä on saatavissa enemmän tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin käsin

    • uusien analyysien kustannukset ovat verrattaen pienet verrattuna käsin laskemiseen

  • yleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)


Korpuksen k sitteen monimuotoisuus
Korpuksen käsitteen monimuotoisuus kielentutkimusta tai tutustunut siihen?

  • määrätietoisesti etukäteen asetettujen periaatteiden ja kriteerien mukaan kesätty kokoelma kieliaineistoja (= yo. määritelmä)

  • kokoelma, johon on kerätty mahdollisimman paljon kaikkea kieliaineistoa mitä on vaan on kätevästi ja saatavilla

  • oma tutkimusaineisto


Miksi korpuksia k ytet n
Miksi korpuksia käytetään? kielentutkimusta tai tutustunut siihen?

  • kun introspektio ei riitä

    • introspektiivisiä havaintoja ei voida ulkoisesti observoida

    • introspektiivinen data on useimmiten keinotekoista

    • ihmisillä on vain epämääräinen mielikuva lingvistisen ilmiön yleisyydestä


Miksi korpuksia
Miksi korpuksia? kielentutkimusta tai tutustunut siihen?

  • korpusaineistojen hyödyt

    • korpukset ovat avoimempia tulosten objektiiviselle verifikaatiolle

    • korpukset edustavat miten ihmiset todellisissa käyttötilanteissa tuottavat kieltä, ei jonkun kielioppikuvauksen sisältämää idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivät)

    • kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on harvinaisempaa paremmin kuin introspektio

    • tietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun


Mink laisia korpuksia on
Minkälaisia korpuksia on? kielentutkimusta tai tutustunut siihen?

  • Kansainväliset klassikot

    http://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htm

    • Brown (kirjoitettua amerikan-englantia 60-luvulta  balansoitu: 500 tekstinfragmenttia à 2000 sanaa)

    • Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta)

    • Lond-Lund (puhuttua englantia)


Korpuksia
Korpuksia... kielentutkimusta tai tutustunut siihen?

  • Uudempia englanninkielisiä

    • Bank of English (320 Mw  450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.html

    • British National Corpus (100 Mw)

    • International Corpus of English (1 Mw kustakin englannin kansallisesta variantista)

      http://www.ucl.ac.uk/english-usage/ice/index.htm

    • Child Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten puhetta eri kielillä, mm. englanti ja saksa)

  • Korpuksia ympäri maailman

    http://www.ruf.rice.edu/~barlow/corpus.html


Korpuksia1
Korpuksia... kielentutkimusta tai tutustunut siihen?

  • Tunnetuimmat kotimaiset

    • Suomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia)

      http://www.csc.fi/kielipankki/

    • KOTUS:en korpukset (historiallista kirjasuomea)

      http://www.kotus.fi/aineistot/

    • Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967)

    • Savonlinnan käännöskorpus


Korpusten luokitteluntapainen
Korpusten luokitteluntapainen kielentutkimusta tai tutustunut siihen?

  • kielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjallisetkorpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English)

  • synkroninen variaatio (kansalliskielen [standardin] sisäinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvälisen englannin korpus


Luokittelu
Luokittelu... kielentutkimusta tai tutustunut siihen?

  • historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit)

  • maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sisältää otoksia puhujista kaikkialta Britanniasta)


Luokittelu1
Luokittelu... kielentutkimusta tai tutustunut siihen?

  • ikä: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot)

  • tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypit

  • aivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)


Luokittelu2
Luokittelu... kielentutkimusta tai tutustunut siihen?

  • saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillä

  • yksikielisyys vs. monikielisyys (kohdistetut käännöskorpukset); alkuperäiset (supisuomi) vs. käännetyt (käännössuomi)


Mink laista korpuspohjainen kielentutkimus on
Minkälaista korpuspohjainen kielentutkimus on? kielentutkimusta tai tutustunut siihen?

  • Korpuspohjaisen lingvistiikan esihistoriaa

    • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm

       Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaa

  • Korpuspohjaisen lingvistiikan varsinainen käynnistyminen

    • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm

       Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna


Korpuspohjainen kielentutkimus t n n

Puheentutkimus kielentutkimusta tai tutustunut siihen?

Leksikografia

Kielioppi/syntaksi

Semantiikka

Pragmatiikka

Sosiolingvistiikka

Stilistiikka

Kielenopetus

Historiallinen kielitiede

Murretutkimus

Psykolingvistiikka

Kulttuurintutkimus

Sosiopsykologia

Korpuspohjainen kielentutkimus tänään?


Korpuslingvistiikka t n n
Korpuslingvistiikka tänään kielentutkimusta tai tutustunut siihen?

  • Corpus Linguistics 2003 –konferenssi (Lancaster 28-31.3.2003)

    http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers


Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe1

Korpukset ja kieli kielentutkimusta tai tutustunut siihen?Ctl310corpKevät 2003Antti Arppe

Luento 14.3.

Metodologinen yleiskatsaus – empiirisen tutkimuksen rakenne

Hypoteesin muodostaminen

Aineiston valitseminen ja koostaminen


Korpuspohjainen kielentutkimuksen tyypit
Korpuspohjainen kielentutkimuksen tyypit? kielentutkimusta tai tutustunut siihen?

  • kvalitatiivinen - laadullinen

    • analyysin rikkaus

    • tarkkuus ja

    • perusteellisuus

  • kvantitatiivinen - määrällinen

    • tilastollisesti luotettavat ja

    • yleistettävät tulokset


Kvalitatiivinen kvantitatiivinen
Kvalitatiivinen – kvantitatiivinen kielentutkimusta tai tutustunut siihen?

  • Kvalitatiivinen

    • tavoitteena täydellinen, yksityiskohtainen kuvaus

    • ilmiöiden frekvenssien merkitys on vähäisempi, yksittäiset tapauksetkin saavat huomiota

    • kielen monitulkintaisuus sallitaantulokset eivät välttämättä ole varmuudella yleistettävissä kieleen kokonaisuudessaan


Kvalitatiivinen kvantitatiivinen1
Kvalitatiivinen – kvantitatiivinen kielentutkimusta tai tutustunut siihen?

  • kvantitatiivinen

    • piirteitä luokitellaan, niiden lukumääriä lasketaan ja vertaillaan

    • piirteiden yhteisesiintymistä voidaan tehdä monimutkaisia tilastollisia malleja

    • eri korpuksia voidaan vertailla keskenään

    • yleisten, tyypillisten ilmiöiden erottaminen (mahdollisesti) satunnaisista esiintymistä

    • luokitukset tyypillisesti kategorisia

    • edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan tehdä – harvinaiset ilmiöt jäävät paitsioon  kategorioita saatetaan tästä johtuen niputtaa yhteen


Kvantitatiivinen kvalitatiivinen
Kvantitatiivinen – kvalitatiivinen kielentutkimusta tai tutustunut siihen?

  • monimetodisuus, eri tutkimusmenetelmiä ja –aineistoja yhdistyvä tutkimus yleistymyssä ihmistieteissä

  • kvalitatiivinen tutkimus voi edeltää kvantitatiivista

     intuitiivinen yleiskuva tutkittavasta ilmiöstä ja aineistosta

     kategoriat on ensiksi identifioitava


Tutkimuksen tyypit
Tutkimuksen tyypit kielentutkimusta tai tutustunut siihen?

  • eksploratiivinen – tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssinä  kuinkas sitä kieltä oikein käytetään

  • deskriptiivinen – kuvaava  systemaattisempi ja kokonaisvaltaisempi

  • konstruktiivinen – teorioita muodostava  tavoitteena enemmän kuin jonkun yksittäisen lingvistisen olion kuvaus

  • testaava – teorioiden validiteetin tarkastelua


Tutkimuksen tyypit henkil kohtaisia esimerkkej
Tutkimuksen tyypit – henkilökohtaisia esimerkkejä kielentutkimusta tai tutustunut siihen?

  • eksploratiivinen: onko synonyymien käyttökonteksteissa eroja?

  • deskriptiivinen: minkälaista on jonkun synonyymiryhmän käyttö; miten käyttökontekstit eroavat toisistaan?

  • konstruktiivinen: mistä synonyymien käyttökontekstien erilaisuudet johtuvat?

  • testaava: päteekö yllä esitetty teoria käyttökontekstien erilaisuudesta myös muiden synonyymiperheiden kohdalla?


Mallitutkimuksen rakenne
Mallitutkimuksen rakenne kielentutkimusta tai tutustunut siihen?

  • [Teoreettinen tausta: aikaisempi tutkimus]

  • hypoteesi

  • aineisto eli korpus

  • menetelmä

  • tulkinta

  • [Kytkentä teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]


Hypoteesi
Hypoteesi kielentutkimusta tai tutustunut siihen?

  • mikä on riittävän hyvä/perusteltu hypoteesi?

    • perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen?

    • perustuu tutkijan tai tutkijayhteisön omaan intuitioon?

  • tutkijan kannalta tärkeää on ankkuroida hypoteesi ajankohtaiseen tutkimukseen

    • teoria X väittää jotain Y kaikista kielistä: pitääkö Y paikkansa kielessä Z

    • teoria X on yksi kielen rakenteen kuvauksen yleisistä malleista: miten teoriaa X voisi soveltaa kielessä Y


Aineisto
Aineisto kielentutkimusta tai tutustunut siihen?

  • hypoteesin perusteella

     minkälainen aineisto on (riittävän) edustava hypoteesin kannalta

     edustavuus/kattavuus voiko mikään aineisto koskaan olla täysin representatiivinen kielen kannalta?

  • kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista  yhdestä aineistosta ei voi välttämättä päätellä kaikesta kielenkäytöstä


Menetelm
Menetelmä kielentutkimusta tai tutustunut siihen?

  • esiprosessointi: ylimääräisen annotoinnin poistaminen

  • lingvistinen (automaattinen) analyysi

    • virheiden huomioiminen ja vaikutus

    • automaattisen analyysin täydentäminen käsin

    • lingvistisen analysaattorin implisiittisesti sisältämä malli kielestä  miten analysaattori vaikuttaa ja ennakoi tuloksia

  • tilastolliset mallit

    • Miten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta


Tulkinta
Tulkinta kielentutkimusta tai tutustunut siihen?

  • miten tulokset vastaavat hypoteeseja

  • miten paljon voidaan sanoa kielestä ylipäänsä

     mistä tulokset itse asiassa kertovat

  • kuinka merkitseviä tulokset ovat?

     keskeistä on aina kuitenkin lingvistin tulkinta: mitä lingvisti nostaa esille tai näkee merkittävänä – kielitieteen kannalta


Tutkimuksen suunnittelun t rkeys
Tutkimuksen suunnittelun tärkeys kielentutkimusta tai tutustunut siihen?

  • ekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden väliset erot, murteet, idiolektit)

  • aineistoon ja annotointiin perehtyminen: kuinka täydellisesti/perusteellisesti/oikein aineisto on esikäsitelty

  • työkalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysityökalut toimivat

  • esitutkimuksen tärkeys  ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlyömistä



Hypoteesin muodostaminen k yt nn ss oman tutkimuksen teoreettista taustaa
Hypoteesin muodostaminen käytännössä – oman tutkimuksen teoreettista taustaa

  • erityisesti englannin osalta on osoitettu, että synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998)

  • myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim. begin vs. start (Biber 1998):

     SUBJ start (intransitiivinen käyttö)

     SUBJ begin OBJ

     SUBJ begin TO-V

  • lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)


Alkuper inen tavoite
Alkuperäinen tavoite tutkimuksen teoreettista taustaa

  • jos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisessä morfologisesti köyhässä kielessä), niin eikö suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osalta

  • Hypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?


Hypoteesin konkretisoiminen mit on synonymia
Hypoteesin konkretisoiminen: mitä on synonymia? tutkimuksen teoreettista taustaa

  • synonymian määritelmä ja käsittely näyttää seuraavan siitä miten merkitys ymmärretään

    • merkitys kompositionaalisten, kategoristen piirteiden joukkona  synonymia tietyntyyppisenä erona ko. piirteissä

    • merkityksen syntyminen käyttöyhteyden kautta (Firth)  synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)


Synomia absoluuttinen synonymia l hisynonymia
Synomia - absoluuttinen synonymia – lähisynonymia tutkimuksen teoreettista taustaa

  • absoluuttinen synonymia edellyttäisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tämä on oletetusti käytännössä erittäin harvinaista

    • käytännössä joutuu tutkimaan lähisynonymiaa (l. plesionymiaa)

    • synonymia on kuitenkin jollakin naivilla tasolla todellista, sillä tavalliset kielenkäyttäjät mieltävät synonyymien olemassaolon ja kokevat että sanoja voidaan usein vaihtaa toisiin ilman että lauseen merkitys ja konnotataatiot oleellisesti muuttuvat


Tutkimuksen rajaaminen tutkittavien synonyymien valinta
Tutkimuksen rajaaminen: tutkimuksen teoreettista taustaatutkittavien synonyymien valinta

  • ei ole mielekästä ryhtyä tutkimaan kaikkia potentiaalisia synonyymejä: yksikin pari voi riittää

  • tavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sekä syntaktisen että semanttisen valenssin suhteen kuin mahdollista

  • kaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nämä yhdistettiin elektronisen synonyymisanakirjan sisältöön

  • kullekin synonyymiryhmälle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmät rankattiin


Tutkimuksen rajaaminen synonyymilistan top 1000
Tutkimuksen rajaaminen: synonyymilistan Top 1000 tutkimuksen teoreettista taustaa

  • 1000 kollektiivisesti yleisintä synonyymiryhmää


Tutkimuksen rajaaminen
Tutkimuksen rajaaminen tutkimuksen teoreettista taustaa

  • rankatut synonyymiryhmät arvioitiin subjektiivisesti

  • mikäli jossakin synonyymiryhmässä ei ensi näkemältä tuntunut olevan ilmiselviä eroja merkityskentän tai syntaktisen käytön suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisäksi Pajunen (1982)

  • mitä enemmän sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sitä parempi

  • polyseemisiä kandidaatteja hyljeksittiin


Lopullinen rajaus ja hypoteesi
Lopullinen rajaus ja hypoteesi tutkimuksen teoreettista taustaa

  • kognitiviiset verbit pohtia and miettiä

  • myös ajatella, tuumia ja harkita voisivat tulla kyseeseen

  • Hypoteesi: verbien pohtia ja miettiä morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan


Aineiston valinta edustavuus
Aineiston valinta – edustavuus tutkimuksen teoreettista taustaa

  • kun ilmiötä ei voida tai haluta tutkia (kvantitatiivisessa tutkimuksessa) kokonaisuudessaan, ihmistieteissä turvaudutaan tyypillisesti satunnaisotantaan

    • Satunnaisotanta edellyttää, että lähtökohtapopulaatio on mahdollisimman selkeästi määritelty ja rajattu

    • miten otannan populaatio määritellään kielitieteessä?


Edustavuus populaatio
Edustavuus – populaatio tutkimuksen teoreettista taustaa

  • miten hyvin populaatio on määriteltävissä?

     Tutkimushypoteesi määrää

    • kattava bibliografinen indeksi: kaikki Suomessa julkaistu kaunokirjallisuus vuosina 1990-2000

    • sanomalehtiteksti Suomessa vuonna 1994/vuosina 1990-2000

    • Keskisuomalainen vuonna 1994

    • Ylioppilasaineet vuonna 2000


Edustavuus populaatio1
Edustavuus - populaatio tutkimuksen teoreettista taustaa

  • mikä voisi olla (suomen) kielen populaatio?

     mitä ”koko” kieleen kuuluu?

  • kirjoitettu kieli:

    • sanomalehdet

    • kaunokirjalliset kirjat: alkuperäiset vs. käännöstekstit

    • juridiset tekstit

    • tekniskaupalliset tekstit

    • kirjeet

    • sähköiset uutisryhmät

    • chattipalstat, IRC


Suomen kielen populaatio
(Suomen) kielen populaatio? tutkimuksen teoreettista taustaa

  • puhuttu kieli:

    • uutislähetykset

    • esitelmät kirjoitetun tekstin pohjalta

    • ihmisten väliset nauhoitetut spontaanit keskustelut

    • jne...


Koko kielen populaation problematiikkaa
”Koko” kielen populaation problematiikkaa? tutkimuksen teoreettista taustaa

  • mikä tulisi olla ”kielen” eri osa-alueiden keskinäiset kokosuhteet ”koko” kieltä edustavassa populaatiossa?

    • onko ylipäänsä väitettävissä, että kielestä (esimerkiksi) 50% on kirjoitettua ja 50% puhuttua

    • onko ylipäänsä mielekästä yrittää muodostaa otosta ”koko” kielestä

    • onko ylipäänsä mielekästä edes yrittää tutkia kieltä ”kokonaisuudessaan”

    • häviävätkö kielen eri osa-alueiden erot kun ne niputetaan yhteen?  olisiko mielekäämpää yrittää tarkastella kielen eri osa-alueiden välisiä samankaltaisuuksia ja eroja? (Biber)


Lingvistisen populaation problematiikkaa
Lingvistisen populaation problematiikkaa tutkimuksen teoreettista taustaa

  • kuinka homogeenisia yksittäiset osa-alueet ovat? esim. sanomalehtiteksti sisältää laajan kirjon eri tekstityyppejä ja yhdistää kirjoitettua ja puhuttaa kieltä (sitaatit)

  • Esimerkkejä sanomalehtitekstistä (HS 13.3.2003)

    • poliittinen artikkeli

    • urheiluartikkeli

    • mielipidekirjoitus

    • tiedeartikkeli

       Yksittäisenkin kielen osa-alueen sisällä tulee pohtia, mitkä tekijät mahdollisesti aiheuttaisivat variaatiota (esim. toimittajien idiolektit)


Satunnaisotannan periaatteita korpustutkimuksessa biber
Satunnaisotannan periaatteita korpustutkimuksessa (Biber) tutkimuksen teoreettista taustaa

  • lähtökohtana määritellä tutkittavan populaation hierarkinen stratifioituminen

     jaottelun eri tekstityyppeihin tulisi perustua hypoteesistä lähtevään tutkimusasetelmaan ja sen teoreettisiin taustaolettamuksiin

     käytännössä tekstityyppijaottelussa joutuu turvautumaan käytettävissä olevien korpusten jaotteluihin ja niiden sisältämään ekstralingvistiseen tietoon (Kielipankin aineistot)

  • stratifioitunut otanta on vähintään yhtä edustava kuin puhdas satunnaisotanta, sillä se varmistaa kunkin tekstityypin mukanaolon


Oman tutkimuksen otanta
Oman tutkimuksen otanta tutkimuksen teoreettista taustaa

  • sanomalehtiteksti on hyvä lähtökohta, sillä se pitää sisällään useita eri tekstityyppejä

  • Keskisuomalaisen aineisto (1994, 2 Mw) sisälsi tarvittavaa ekstralingvististä tietoa sekä tekstityypeistä että artikkelien kirjoittajista

    • tekstityypin tai idiolektin mahdollinen vaikutus tuloksiin  esiintyykö variaatiota?

  • Koko sanomalehtikorpus (16 Mw Keskisuomalaisen lisäksi mm. Hesarin) oli kooltaan 8-kertainen, jolloin harvinaisemmat ilmiöt olivat havaittavissa ( tilastollinen merkitsevyys)


Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteita
Otannan eli tutkimuskorpuksen suuruuden rajaamisen periaatteita

  • otoksen on oltava riittävän suuri, jotta tulokset ovat (tilastollisesti) luotettavia

  • otoksen ei kannata olla liian suuri, jottei tule tehneeksi turhaa työtä, esim. automaattisen analyysin tarkistamisessa ja korjaamisessa tai omien lisäluokittelujen tekemisessä

  • otoksen kokoon vaikuttavat tutkittavan ilmiön kategorioiden (sanaluokat, yksittäiset lekseemit, yksittäiset taivutusmuodot, morfeemit, tms.) määrä ja kunkin kategorian esiintymisfrekvenssit


Rajaamisen periaatteita
Rajaamisen periaatteita periaatteita

  • otos on riittävän suuri, saavutetaan jäätymis/saturaatiopiste uusien tapauksien määrä ei enää oleellisesti lisäänny otosta kasvettaessa

  • otos on riittävän suuri, kun tutkittavien ilmiöiden keskinäiset suhteet eivät enää merkittävästi muutu  otoksen kasvun myötä kasvavilla lukumäärillä ei ole enää (tilastollisesti) merkittävää vaikutusta käytettäviin tilastollisiin tunnuslukuihin

  • yleisten ilmiöiden kohdalla saturaatiopiste saavutetaan pienemmällä korpuksella kuin harvinaisempien ilmiöiden kohdalla  harvinaisempien ilmiöiden tarkastelua varten ei kenties koskaan ole kasattavissa riittävän suurta korpusta


Otoksen kasvun vaikutuksia k yt nn ss
Otoksen kasvun vaikutuksia käytännössä periaatteita

  • pintamuotojen määrän kehitys suomenkielisessä sanomalehtitekstissä

  • perusmuotojen määrän kehitys

  • verbien taivutusmuotojen määrän kehitys

  • ajatella-verbien taivutusmuotojen määrän kehitys

  • pohtia/miettiä-verbien taivutusmuotojen määrän kehitys


Otoksen m r n vaikutus tilastolliseen tulkintaan
Otoksen määrän vaikutus tilastolliseen tulkintaan periaatteita

  • otoksen koon kasvaessa havaittavien lingvististen ilmiöiden määrä ja niiden frekvenssi kasvaa

    • Frekvenssien kasvaessa ilmiöiden tilastollisen merkitsevyyden mahdollisuus kasvaa

    • Mutta tilastollinen merkitsevyys voidaan saavuttaa pienemmillä suhde-eroilla (22/23 vs. 932/1562 ovat tilastollisesti yhtä merkittäviä)

    • Mahdollisesti/todennäköisesti samat pienemmässä korpuksessa tilastollisesti merkitseviksi havaittavat ilmiöt ovat sitä myös suuremmissa korpuksissa  frekvenssit mihin ne perustuvat ovat vain suuremmat

  • pienemmässä otoksessa mahdollisuus tarkempaan analyysiin ja perusteellisempaan virheiden tarkistamiseen

  • Oman tutkimuksen kaksi korpusta: 855 vs. 4545 tapausta = tarkistettavien analyysien edellyttämän työmäärän kasvu



Pienempi korpus
Pienempi korpus... periaatteita




Yhtenev iset ilmi t molemmissa korpuksissa

miettiä periaatteita

I infinitiivi (77/112) vs. (417/670)

yks. 1. persoona (22/23) vs. (88/96)

yks. 1. persoona JA imperfekti vs. (15/15) (53/56)

pohtia

yks. 3. persoona (199/320) vs. (932/1562)

preesens JA yks. 3. persoona

Yhteneväiset ilmiöt molemmissa korpuksissa

Korpuksen määrän kasvattaminen ei näiden ilmiöiden kohdalla vaikuttanut keskinäisiin suhteisiin ja tilastolliseen merkitsevyyteen


Yksityiskohtaisemmat ilmi t pienemm ss korpuksessa

miettiä periaatteita

I infinitiivi (77/112)

yks. 1. persoona (22/23)

toimittajat aaa, bbb ja ccc

urheiluosasto

yks. 1. persoona JA imperfekti

pohtia

yks. 3. persoona (199/320)

ulkomaanosasto

preesens JA yks. 3. persoona

preesens

toimittaja bbb

Yksityiskohtaisemmat ilmiöt pienemmässä korpuksessa

Nämä tiedot olivat saatavissa perusteellisemman analyysin johdosta


Havaitut uudet ilmi t laajemmassa korpuksessa

miettiä periaatteita

I infinitiivi (417/670)

yks. 1. persoona (88/96)

yks. 1. persoona JA imperfekti (53/56)

III infinitiivi

passiivi ja 1. partisiippi

imperatiivi (23/28  )

pohtia

passiivi JA indikatiivi (341/481)

mon. 3. persoona JA indikatiivi (1474/2468)

yks. 3. persoona (932/1562)

passiivi JA imperfekti (111/142)

yks. 3. persoona JA indikatiivi (924/1551)

mon. 3. persoona (178/252)

Havaitut uudet ilmiöt laajemmassa korpuksessa

Nämä ilmiöt nousivat tilastollisesti merkittävinä esille korpuksen kasvattamisen johdosta


Korpukset ja kieli ctl310 corp kev t 200 3 antti arppe2

Korpukset ja kieli periaatteitaCtl310corpKevät 2003Antti Arppe

Luento 21.3.

Annotointi

Aineiston esikäsittely

Automaattiset analyysityökalut


Annotointi
Annotointi periaatteita

  • korpukset voivat olla:

    • raakoja = tekstejä sellaisenaan

    • annotoituja eli tekstin alunperin kuulumattomalla, pääosin lingvistisellä informaatiolla varustettuja

      • annotaatio voi koostua yksittäisistä tageista (esim. Brown collects_VVZ) tai tagirymistä (esim. ENGTWOL collects V IND PRES SG3)

         Vaikuttaa tagien määrään ja käsittelyn

      • sanakohtainen tai virkekohtainen (KOTUS) annotaatio

    • lingvistisen annotaation lisäksi korpukset sisältävät nykyisin myös lähde- ja rakenteellista tietoa (esim. SGML/TEI/XML-taggauksen muodossa)


Tei sgml formatoitua ja annotoitua korpusta keskisuomalainen 1994 csc
TEI/SGML-formatoitua ja annotoitua korpusta (Keskisuomalainen 1994/CSC)

<group id="KS-1994-01-02">

<!--

Nimi: apua!

Aihe:

Teki: KSML

Osasto: viv

Luontipvm: 931229

Ilm.pvm: 940102

-->

<text lang="FI">

<body>

<div type="article">

<head type="half-title">Kansanedustaja ja taiteilija joululomalla Bosniassa </head>

<head type="title">Tähtäimessä punainen risti </head>

<p>

Kun monet espanjalaisparlamentaarikot selailivat joulun alla matkaoppaita lehtereillä, <num>29</num>&ndash;vuotias kansaned

ustaja Tomas Burgos lastaili kiireisenä kahdeksaa pakettiautoa ja kahta rekkaa. Matkakohteeksi oli valittu talvinen Bosnia.

</p>


Lingvistisesti annotoitua korpusta fdg conexor
Lingvistisesti annotoitua korpusta (FDG/Conexor) (Keskisuomalainen 1994/CSC)

0

1 Kun kun pm:>4 &CS CS

2 monet moni attr:>3 &A> PRON PL NOM

3 espanjalaisparlamentaarikot espanjalais#parlamentaarikko subj:>4 &NH N PL NOM

4 selailivat selailla &+MV V ACT IND PAST PL3

5 joulun joulu loc:>4 &NH N SG GEN

6 alla alla pm:>5 &PM PSP

7 matkaoppaita matka#opas &NH N PL PTV

8 lehtereillä lehteri &NH N PL ADE

, ,

10 29 29 &NH NUM CARD

- -

12 vuotias vuotias attr:>13 &A> A SG NOM

13 kansanedustaja kansan#edustaja attr:>15 &NH N SG NOM

14 Tomas Tomas attr:>15 &A> N SG NOM

15 Burgos burgos subj:>16 &NH N SG NOM

16 lastaili lastailla &+MV V ACT IND PAST SG3

17 kiireisenä kiireinen copr:>16 &NH A SG ESS

18 kahdeksaa kahdeksan qn:>19 &QN> NUM CARD SG PTV

19 pakettiautoa paketti#auto &NH N SG PTV

20 ja ja cc:>19 &CC CC

21 kahta kaksi qn:>22 &QN> NUM CARD SG PTV

22 rekkaa rekka cc:>19 &NH N SG PTV

. .

24 Matkakohteeksi matka#kohde &NH N SG TRA

25 oli olla main:>23 &+MV V ACT IND PAST SG3

26 valittu valita attr:>28 &-MV V PASS PCP2 SG NOM

27 talvinen talvinen attr:>28 &A> A SG NOM

28 Bosnia Bosnia &NH N SG NOM

. .

30 <s> <s> >29


Hyv n annotoinnin periaatteet leech
Hyvän annotoinnin periaatteet (Leech) (Keskisuomalainen 1994/CSC)

  • 1. Annotoinnin tulisi olla erotettavissa/irrotettavissa/siivottavissa alkuperäisestä/varsinaisesta korpuksesta

    • Claire_NP1 collects_VVZ shoes_NN2”

       "Claire collects shoes”

  • 2. Annotoinnit tulisi olla sellaisinaan irrotettavissa korpuksesta esim. eri tilastollisia tarkasteluja varten

    • Claire_NP1 collects_VVZ shoes_NN2”

      NP1 VVZ NN2


Annotoinnista
Annotoinnista... (Keskisuomalainen 1994/CSC)

  • 3. Annotoinnin periaatteiden pitäisi olla (helposti) korpuksen käyttäjän saatavilla

    • annotoinnissa käytettävien tagien merkitykset pitäisi olla saatavilla samoin kuin esimerkit niin yleisistä tapauksista kuin rajanpetotilanteista

    • tämä ei valitettavasti aina pidä riittävän pitkälle paikkaansa esim. akateemisesti kehitettyjen analyysityökalujen kohdalla

  • 4. Annotoinnin tekijän, mahdollisen muuttajan ja annotointiajankohdan pitäisi olla selkeästi merkittynä

    • aikaisemmat annotoinnit pitäisi muutos/korjaustapauksissa olla jätetty jäljelle, mikäli halutaan palata korpuksen aikaisempaan versioon


Annotoinnista1
Annotoinnista ... (Keskisuomalainen 1994/CSC)

  • 5. Korpuksen käyttäjälle tulisi tehdä selväksi, että annotointi ole virheetön eikä lopullinen – lisäksi tulisi korostaa, että annotointi on aina jonkun teoreettisen näkökannan mukainen tulkinta eikä ainoa mahdollinen vaihtoehto

  • 6. Annotoinnin periaatteidein tulisi laajalti hyväksyttyjä ja teorianeutraaleja

    • tämä ei ole mitenkään helppo periaate, sillä korpusten moninaiset käyttötarkoituksen voivat olla ristiriidassa tämän kanssa

  • 7. Yksikään annotointiperiaatetta ei saisi esittää a priori standardina – standardit syntyvät käytännön hyväksynnän ja konsensuksen kautta


Miksi alkuper inen annotointi kannattaa s st tekij tiedot er ss sanomalehtikorpuksessa
Miksi alkuperäinen annotointi kannattaa säästää (tekijätiedot eräässä sanomalehtikorpuksessa)

</div>

</body>

</text>

<!--

Huomautus 1:

Huomautus 2:

Nimi: vappuset

Aihe:

Teki: ANITA

Osasto: KLT

Luontipvm: 940321

Ilm.pvm: 940322

-->

<text>

<body>

<div type="article">

<head type="title">J&ndash;kyläläinen Piiat&ndash;yhtye voitti Imatralla </head>

<byline>

Keskisuomalainen

</byline>


Tekij tietojen sekavuus
Tekijätietojen sekavuus ... (tekijätiedot eräässä sanomalehtikorpuksessa)

+ 8 ANITA = NO_BYLINE#,3994,4173,5637,6520,6827,6897,6912,6954

+ 6 ANITA = Anita Kärki #,4304,4397,4964,5154,5458,7469

+ 5 ANITA = ANITA KÄRKI #,1332,4261,6395,6880,7999

+ 2 ANITA = Anita Kärki = ANITA KÄRKI #,4969,5162

- 2 ANITA = Anita Kärki = Ari Haapa-aho #,5700,7676

- 2 ANITA = Anita Kärki = Jorma Pärssinen #,6010,7146

- 2 ANITA = ANITA KÄRKI = Jorma Pärssinen #,7368,7559

+ 2 ANITA = Keskisuomalainen #,5629,6968

- 1 ANITA = Anita Kärki = Anita Kärki = Risto Aalto #,7228

- 1 ANITA = Anita Kärki = Matti Salmi #,7298

- 1 ANITA = Anita Kärki = Mauri Ratilainen #,8165

- 1 ANITA = Anita Kärki = Risto Aalto #,5791

- 1 ANITA = ANITA KÄRKI = Risto Aalto #,6392

- 1 ANITA = GOA, ANJUNA-BEACH ANITA KÄRKI KUVAT #,6743


Annotoinnin lajit
Annotoinnin lajit (tekijätiedot eräässä sanomalehtikorpuksessa)

  • sanaluokka-annotointi – Part-of-speech (POS) taggaus

  • lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, disambiguoituna tai ilman (XXXTWOL)

  • syntaktinen parsaus: osittainen (lauseke)analyysi (XXXCG/Lingsoft, XXXLITE/Connexor) – pinta-analyysi – lausekerakenneanalyysi – funktionaalinen dependenssianalyysi (FDG Machinese/Connexor)

  • semanttinen analyysis (WordNet)

  • diskurssi/tekstilingvistiset analyysit

  • foneettinen transkribointi

  • prosodinen transkribointi

  • ongelma-kohtainen annotoiminen


Sanaluokka annotointi part of speech pos taggaus
Sanaluokka-annotointi – Part-of-speech (POS) taggaus (tekijätiedot eräässä sanomalehtikorpuksessa)

Spoken English Corpus (C7 tagset)

Perdita&NN1-NP0; ,&PUN; covering&VVG;the&AT0; bottom&NN1; of&PRF; the&AT0; lorries&NN2; with&PRP; straw&NN1; to&TO0; protect&VVI; the&AT0; ponies&NN2; '&POS; feet&NN2; ,&PUN; suddenly&AV0; heard&VVD-VVN; Alejandro&NN1-NP0; shouting&VVG; that&CJT; she&PNP; better&AV0; dig&VVB; out&AVP; a&AT0; pair&NN0; of&PRF; clean&AJ0; breeches&NN2; and&CJC; polish&VVB; her&DPS; boots&NN2; ,&PUN; as*CJS; she&PNP; 'd&VM0; be&VBI; playing&VVG; in&PRP; the&AT0; match&NN1; that&DT0; afternoon&NN1; .&PUN;


Pos tagit c7

AJ0: general adjective (tekijätiedot eräässä sanomalehtikorpuksessa)

AT0: article, neutral for number

AV0: general adverb

AVP: prepositional adverb

CJC: co-ordinating conjunction

CJS: subordinating conjunction

CJT: that conjunction

DPS: possessive determiner

DT0: singular determiner

NN0: common noun, neutral for number

NN1: singular common noun

NN2: plural common noun

NP0: proper noun

POS: genitive marker

PNP: pronoun

PRF: of

PRP: prepostition

PUN: punctuation

TO0: infintive to

VBI: be

VM0: modal auxiliary

VVB: base form of lexicalVerb

VVD: past tense form of

lexical verb

VVG: -ing form of lexical verb

VVI: infinitive form of lexical verb

VVN: past participle form of lexical verb

POS-tagit (C7)


Lemmatisointi perusmuotoon palautus ja morfologinen analyysi engtwol
Lemmatisointi – perusmuotoon palautus ja morfologinen analyysi, (ENGTWOL)

"<Perdita>"

"<,>"

"<covering>"

"cover" <N:/> <SVO> <SV> <P/for> <P/with> <PCP1:/ing> <INF:/> PCP1

"<the>"

"the" <Def> DET CENTRAL ART SG/PL @DN>

"<bottom>” (monitulkintainen eli ambiguöösi sana)

"bottom" <Count> N NOM SG

"bottom" <Rare> <PCP1:/ing> <INF:/> V PRES -SG3 VFIN @+FMAINV

"bottom" <Rare> <PCP1:/ing> <INF:/> V INF

"bottom" <Rare> <PCP1:/ing> <INF:/> V IMP VFIN @+FMAINV

"bottom" <Rare> <PCP1:/ing> <INF:/> V SUBJUNCTIVE VFIN @+FMAINV

"<of>"

"of" PREP

"<the>"

"the" <Def> DET CENTRAL ART SG/PL @DN>

"<lorries>"

"lorry" <Count> N NOM PL

"<with>"

"with" PREP

"<straw>"

"straw" <-Indef> N NOM SG

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V PRES -SG3 VFIN @+FMAINV

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V INF

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V IMP VFIN @+FMAINV

"straw" <SVO> <Rare> <PCP1:/ing> <INF:/> V SUBJUNCTIVE VFIN @+FMAINV


Syntaktinen parsaus osittainen lauseke analyysi enlite pinta analyysi lausekerakenneanalyysi
Syntaktinen parsaus: osittainen (lauseke)analyysi (ENLITE) – pinta-analyysi – lausekerakenneanalyysi

Perdita perdita &NH N SG  

, ,  

covering cover &VA ING  

the the &>N DET  

bottom bottom &NH N SG  [disambiguoitu sana]

of of &N< PREP  

the the &>N DET

lorries lorry&NH N PL  

with with &N< PREP &AH PREP  

straw straw &NH N SG  

to to &AUX INFMARK>  

protect protect &VA V INF  

the the &>N DET  

ponies' pony &>N N PL  

feet foot &NH N PL  

, ,  

suddenly suddenly &>A ADV &AH ADV  

heard heard &>N EN &VA V PAST  

Alejandro alejandro &>N N SG&NH N SG  

shouting shouting &NH ING &VA ING  

that that &CS CS &NH <Rel> PRON  

she she &NH PRON SG3  

better well &AH ADV CMP &>N A CMP

&NH A CMP  

dig dig &NH N SG &VA V INF 

&VA V PRES  

out out &AH ADV  

a a &>N DET SG  

pair pair &NH N  

of of &N< PREP  

clean clean &>N A ABS  

breeches breech &NH N PL


Semanttis/funktionaalinen analyysi – pinta-analyysi – lausekerakenneanalyysi

0

1SanSa &NH N SG GEN &A> N SG GEN

2CristobalinCristobal attr:>3&A> N SG GEN

3kaupungin kaupunki obj:>4 &NH N SG GEN

4vallanneet vallata attr:>5 &-MV V ACT PCP2 PL NOM

5intiaanitintiaani subj:>6_AGE:>6 &NH N PL NOM SEM_HUMAN_INDIVIDUAL PHR_COMMON

6pohtivatpohtia main:>0&+MV V ACT IND PAST PL3 SEM_THINK

7sunnuntai sunnuntai attr:>9 &A> N SG NOM

- -

9iltanailta _TMP:>6 &NH N SG ESS SEM_TIME

10seuraavaa seurata attr:>11 &-MV V ACT PCP1 SG PTV &A> A SG PTV

11siirtoaansiirto _PAT:>6&NH N SG PTV SEM_ACTIVITY

12kaupungintalon kaupungin#talo attr:>13&A> N SG GEN

13käytävilläkäytävä _LOC:>6&NH N PL ADE SEM_LOCATION

. .

15<s> <s> >14


Automaattisten analyysity kalujen k yt st
Automaattisten analyysityökalujen käytöstä – pinta-analyysi – lausekerakenneanalyysi

  • analysaattorit perustuvat aina johonkin malliin, joka perustuu johonkin kielitieteelliseen teoriaan

    • teoria vaikuttaa analysaattorin yksittäisiin tuloksiin:

      • Esim. Conexorin FDG perustuu Tésnieren dependenssikielioppiin 1950-luvulta

    • analysaattori saattaa toimia systemaattisesti oikein omien periaatteidensa mukaan, muttei samalla sopia haluttuun tutkimustarkoitukseen:

      • Esim. dependenssikieliopissa yhdessä lauseessa voi olla kunkin funktion edustajia ainoastaan yksi, esim. lauseella ei voi olla kahta tempusfunktiota

      • * Harjoittelen aamulla-TMP ja illalla-? (periaatteessa ko. lause nähdään kahden lauseen yhdistelmänä, jossa funktiot erotettu)  Harjoittelen aamulla-TMP + Harjoittelen illalla-TMP


Yksi vai useampi temporaalifunktio 1 2
Yksi vai useampi temporaalifunktio? (1/2) – pinta-analyysi – lausekerakenneanalyysi

0

1 YK YK subj:>2 &NH N

2 arvioi arvioida main:>0 &+MV V ACT IND PRES SG3 &+MV V ACT IND PAST SG3

3 syyskuussa syyskuu tmp:>2 &NH N SG INE

4 Bosnia Bosnia attr:>6 &A> N SG NOM

- -

6 Hertsegovinan Hertsegovina attr:>7 &A> N SG GEN

7 ruuan ruoka &NH N SG GEN

8 tarpeeksi tarpeeksi &ADV ADV

9 32 32 qn:>10 &QN> NUM CARD

10 miljardia miljardi qn:>11 &QN> NUM CARD SG PTV

11 tonnia tonni qua:>2 &NH N SG PTV

12 kuukaudessa kuukausi loc:>2 &NH N SG INE

. .

14 <s> <s> >13


Yksi vai useampi temporaalifunktio 2 2
Yksi vai useampi temporaalifunktio? (2/2) – pinta-analyysi – lausekerakenneanalyysi

0

1 Edellä edellä phr:>2 &ADV ADV

2 mainitun mainita attr:>3 &-MV V PASS PCP2 SG GEN

3 rajan raja obj:>4 &NH N SG GEN

4 alittamisesta alittaa &-MV V ACT INF4 ELA

5 annetaan antaa main:>0 &+MV V PASS IND PRES

6 ensin ensin &ADV ADV

7 neuvontaa neuvonta obj:>5 &NH N SG PTV

8 ja ja &CC CC

9 myöhemmin myöhemmin tmp:>10 &ADV ADV

10 opetetaan opettaa &+MV V PASS IND PRES

11 liikennekulttuuria liikenne#kulttuuri obj:>12 &NH N SG PTV

12 sakottamalla sakottaa man:>10 &-MV V ACT INF3 SG ADE

. .

14 <s> <s> >13


Automaattiset analyysity kalut
Automaattiset analyysityökalut... – pinta-analyysi – lausekerakenneanalyysi

  • Analysaattorit tekevät aina välttämättä jonkin verran virheitä tai eivät pysty antamaan yhtä ainoaa oikeaa vastausta (täydellistä disambiguaatiota)

    • On tutkittu, etteivät edes ihmiset (maallikot saati asiantuntijat) pysty aina pääsemään yhteisymmärrykseen oikeasta analyysistä (esim. Churchin tutkimukset)  kielessä on siis aina implisiittisesti hiukan monitulkintaisuutta, mitä voidaan pitää automaattisten työkalujen oikeellisuuden teoreettisena ylärajana (97-98%)


Preesens vai imperfekti
Preesens vai imperfekti? – pinta-analyysi – lausekerakenneanalyysi

EU-ministeri eu-#ministeri &NH N SG NOM

pohtivat pohtia &+MV V ACT IND PRES PL3 &+MV V ACT IND PAST PL3

Euroopan eurooppa &A> N SG GEN

kilpailukykyä kilpailu#kyky &NH N SG PTV

EU:n eu &A> N SG GEN

teollisuusministerit teollisuus#ministeri &NH N PL NOM

etsivät etsivä &NH N PL NOM

viikonvaihteessa viikon#vaihde &NH N SG INE

Bilbaossa bilbao &NH N SG INE

Espanjassa espanja &NH N SG INE

keinoja keino &NH N PL PTV

lisätä lisätä &-MV V ACT INF1

Euroopan eurooppa &A> N SG GEN

kykyä kyky &NH N SG PTV

kilpailla kilpailla &-MV V ACT INF1

maailmanlaajuisesti maailman#laajuisesti &ADV ADV

. . PUNCT


Preesens vai imperfekti1
Preesens vai imperfekti? ... – pinta-analyysi – lausekerakenneanalyysi

...

Kilpailukyky kilpailu#kyky &NH N SG NOM

todettiin todeta &+MV V PASS IND PAST

olennaiseksi olennainen &A> A SG TRA

tekijäksi tekijä &NH N SG TRA

pyrittäessä pyrkiä &-MV V PASS INF2 INE

Eli siis tarvittiin melkoisesti lausekontekstia, että voitiin manuaalisti päätellä imperfekti oikeaksi analyysiksi – muita vinkkejä: ajan ilmaukset – joskus tarvitsisi tietää artikkelin esiintymisajankohdan ajallisen tapahtumaympäristön  miten käsitelty tapahtuma sijoittuu artikkelin julkaisuajankohtaan?


Automaattiset analyysity kalut1
Automaattiset analyysityökalut ... – pinta-analyysi – lausekerakenneanalyysi

  • analysaattoreita kehitetään ja testataan (erit. kaupalliset) tyypillisisti suurilla yleiskielisillä aineistoilla, jolloin ne luonnollisesti toimivat parhaiten ko. tekstityyppien analyysissä

  • analysaattorit eivät ole koskaan täysin valmiita, erityisesti leksikko ei ole koskaan täysin kattava

    • Jotkut työkalut käyttävät heuristiikkoja (esim. sanojen päätteitä) tuntemattomien sanojen joidenkin piirteiden arvaukseen, mikä voi olla virheiden lähde

    • kehityksen alkuvaiheessa kuvaukset saattavat olla kielen jonkin osa-alueen kohdalla epätäydellisiä, jolloin työkalu tekee kyseisen lingvistisen ilmiön kohdalla systemaattisesti aina saman virheen


Tuuma vai tuumia
Tuuma vai tuumia? – pinta-analyysi – lausekerakenneanalyysi

0

1 Tänä tämä attr:>2 &A> PRON SG ESS

2 vuonna vuosi tmp:>6 &NH N SG ESS

3 valtio valtio cc:>5 &NH N SG NOM

4 ja ja cc:>5 &CC CC

5 kaupunki kaupunki subj:>6 &NH N SG NOM

6 leikkasivat leikata main:>0 &+MV V ACT IND PAST PL3

7 orkesterin orkesteri attr:>8 &A> N SG GEN

8 budjettia budjetti obj:>6 &NH N SG PTV

9 yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE

10 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1

. .


Tuuma vai tuumia1
Tuuma vai tuumia? – pinta-analyysi – lausekerakenneanalyysi

0

1 Kaikki kaikki &NH PRON NOM &A> PRON NOM

2 kolme kolme &NH NUM CARD SG NOM

3 ovat olla main:>0 &+MV V ACT IND PRES PL3

4 esitutkinnassa esi#tutkinta loc:>5 &NH N SG INE

5 kiistäneet kiistää comp:>3 &-MV V ACT PCP2 PL

6 toimineensa toimia obj:>5 &-MV V ACT PCP2

7 yksissä yksi &NH NUM CARD PL INE &NH PRON PL INE

8 tuumin tuumia &+MV V ACT IND PRES SG1 &+MV V ACT IND PAST SG1

. .

10 <s> <s> >9


Automaattiset analyysity kalut2
Automaattiset analyysityökalut – pinta-analyysi – lausekerakenneanalyysi

  • analyysin teoreettisen oikeellisuuden ja yksiselitteisyyden aste riippuu tavoiteltavan tehtävän monimutkaisuudesta

    • morfologinen analyysi  morfologinen disambiguointi  osittaisanalyysi  syntaktinen analyysi  semanttinen analyysi

  • analysaattorin hyödyntämisessä on valittava joko tulosten manuaalinen läpikäynti tai virheellisyyksien hyväksyminen  analyysin laadun tarkastelu tutkittavan ilmiön kohdalla tilastollisen otoksen perusteella


1 – pinta-analyysi – lausekerakenneanalyysi-selitteisiä morfologisia analyysejä: 128882 (91% sanamuodoista)

2-selitteisiä: 9494

3-selitteisiä:1667

4-selitteisiä:711

5-selitteisiä: 333

6-selitteisiä: 91

7-selitteisiä: 13

8-selitteisiä: 4

9-selitteisiä: 1

10-selitteisiä: 1

384089 syntaktisesti analysoitua (74% sanoista)

Tilastoa automaattisen analyysin oikeellisuudesta/ yksitulkintaisuudesta (517624 sanaa/141202 sanamuotoa)


Morfosyntaktisesti monitulkintaisimman sanan sis lt v lause toinen 10 tulkintaa

Helsingissä Helsinki loc:>2 &NH N SG INE – pinta-analyysi – lausekerakenneanalyysi

tapahtuva tapahtua attr:>3 &-MV V ACT PCP1 SG NOM

perushenkirikos perus#henki#rikos subj:>4 &NH N SG NOM

on olla main:>0 &+MV V ACT IND PRES SG3

edelleenkin edelleen goa:>4 &ADV ADV -KIN

poliisin poliisi attr:>7 &A> N SG GEN

suussa suu loc:>4 &NH N SG INE

lauantaitappona lauantai#tappo copr:>4 &NH N SG ESS

kulkeva kulkea attr:>10 &-MV V ACT PCP1 SG NOM &A> A SG NOM

surma surma &NH N SG NOM

. . PUNCT

tekijä tekijä cc:>14 &NH N SG NOM

ja ja cc:>14 &CC CC

uhri uhri subj:>15 &NH N SG NOM

Morfosyntaktisesti monitulkintaisimman sanan sisältävä lause (”toinen”  10 tulkintaa)


Toinen
”Toinen” ... – pinta-analyysi – lausekerakenneanalyysi

...

tuntevat tuntea main:>11 &+MV V ACT IND PRES PL3

toisensa toinen &NH NUM ORD SG NOM &A> NUM ORD SG NOM &NH NUM ORD SG GEN &NH NUM ORD PL NOM

&A> NUM ORD PL NOM &NH PRON SG NOM &A> PRON SG NOM &NH PRON SG GEN &NH PRON PL NOM &A> PRON PL NOM

tai tai cc:>15 &CC CC

ovat olla cc:>15 &+MV V ACT IND PRES PL3

sukua suku &NH N SG PTV

keskenään keskenänsä &ADV ADV

viina viina subj:>23 &NH N SG NOM

on olla &+MV V ACT IND PRES SG3

mukana mukana phr:>23 &ADV ADV

kuvassa kuva loc:>23 &NH N SG INE

ja ja cc:>23 &CC CC

teko teko subj:>28 &NH N SG NOM

tapahtuu tapahtua cc:>23 &+MV V ACT IND PRES SG3

pikaistuksissa pikaistus loc:>28 &NH N PL INE


Monitulkintaisimmat sanat 2 5
Monitulkintaisimmat sanat: 2-5 – pinta-analyysi – lausekerakenneanalyysi

a=9 n=1 hallituksensa hallitus &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM &NH A SG TRA &A> A SG TRA &-MV V PASS PCP2 SG TRA

a=8 n=1 asuvasi asua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN&A> A SG GEN &NH A PL NOM &A> A PL NOM

a=8 n=1 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &-MV V PASS PCP2 PL NOM &NH A SG NOM &A> A SG NOM

a=8 n=1 kuuluvansa kuulua &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM


Monitulkintaisimmat sanat 6 10
Monitulkintaisimmat sanat: 6-10 – pinta-analyysi – lausekerakenneanalyysi

a=8 n=1 tekevänsä tehdä &-MV V ACT PCP1 &-MV V ACT PCP1 SG NOM &NH A SG NOM &A> A SG NOM &NH A SG GEN &A> A SG GEN &NH A PL NOM &A> A PL NOM

a=7 n=11 tullut tultu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM

a=7 n=6 kuollut kuoltu &NH A PL NOM &A> A PL NOM &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG &-MV V ACT PCP2 SG &NH A SG NOM &A> A SG NOM

a=7 n=3 sinänsä sinänsä &ADV ADV &NH N SG NOM &A> N SG NOM &NH N SG GEN &A> N SG GEN &NH N PL NOM &A> N PL NOM

a=7 n=2 parinkymmenen pari#kymmentä &NH NUM CARD SG GEN &A> NUM CARD SG GEN &QN> NUM CARD SG GEN&NH NUM CARD SG NOM &QN> NUM CARD SG NOM &NH N SG GEN &A> N SG GEN


Monitulkintaisimmat perusmuodot 2 tai useampitulkintaisten taivutusmuotojen lukum r

69 toinen – pinta-analyysi – lausekerakenneanalyysi

65 olla

63 yksi

48 tulla

43 seurata

43 nuori

39 se

38 hyvä

36 vastata

35 toimia

33 saada

31 tehdä

31 suuri

30 aika

28 tämä

28 kaikki

27 muu

27 alkaa

25 elää

23 joka

22 itse

21 vanha

21 nähdä

90 voida

90 elää

89 ottaa

Monitulkintaisimmat perusmuodot (2- tai useampitulkintaisten taivutusmuotojen lukumäärä)


Yleisimm t monitulkintaiset morfologiset analyysit
Yleisimmät monitulkintaiset morfologiset analyysit – pinta-analyysi – lausekerakenneanalyysi

2220&NH N SG GEN&A> N SG GEN

381&NH A SG NOM &A> A SG NOM

325&NH N PL GEN &A> N PL GEN

307&NH A SG GEN &A> A SG GEN

289&NH NUM CARD &A> NUM CARD &QN> NUM CARD

276&-MV V ACT INF1&+MV V ACT IND PRES SG3

219&NH A PL GEN &A> A PL GEN

217&NH A SG PTV &A> A SG PTV

194&NH A PL PTV &A> A PL PTV

178&-MV V ACT PCP1 SG NOM &A> A SG NOM

172&-MV V ACT PCP1 PL NOM &+MV V ACT IND PRES PL3

158&NH A PL NOM &A> A PL NOM

156&-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG

&-MV V ACT PCP2 SG&NH A SG NOM &A> A SG NOM

155 &-MV V ACT PCP2 SG NOM &-MV V ACT IND PAST SG

&-MV V ACT PCP2 SG &NH A SG NOM

151&NH A SG ESS&A> A SG ESS

147&NH N SG NOM&NH N PL NOM

133&-MV V ACT INF1&-MV V PASS IND PRES


Mit t st opimme
Mitä tästä opimme? – pinta-analyysi – lausekerakenneanalyysi

  • Valmiisiin annotointeihin ei saa luottaa sokeasti, vaan on pistokokein varmistettava tehdyn annotoinnin perusteellisuus ja systemaattisuus

  • Mitään ei kannata hävittää aineistoa esi- ja jälkikäsiteltäessä, siis poistetun tiedon palauttaminen jälkikäteen voi olla vähintäänkin työlästä

  • Automaattisiin analyysityökaluihin ei saa luottaa sokeasti, vaan on selvitettävä itselleen ne periaatteet minkä mukaan työkalu toimii ja pistokokein tarkistettava analyysin oikeellisuus ja luotettavuus


Kurssin harjoitusty
Kurssin harjoitustyö – pinta-analyysi – lausekerakenneanalyysi

  • kansainvälisessä, referoiduissa akateemisissä julkaisuissa julkaistun korpustutkimukseen perustuvan tieteellisen artikkelin kriittinen arvio kurssilla esitettyjen näkökulmien mukaan

  • pienimuotoisen korpuspohjaisen tutkimuksen tekeminen kurssilla esitettyjen periaatteiden mukaan

  • mahdollisten vaihtoehtojen pohdiskelu ja tehtyjen valintojen perustelu tai kriittinen arviointi

  • palautus pe x.4.2003


Ctl310pro korpukset ja kieli antti arppe p t skalvo
Ctl310pro – pinta-analyysi – lausekerakenneanalyysiKorpukset ja kieliAntti ArppePäätöskalvo

  • Kysymyksiä?

  • Ehdotuksia ensi luentokierrosta varten

  • Palautelomake


ad