Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa

Aloitusluento 7.3.2002 klo 12-15 • Hallinnolliset kuviot • kurssin tavoitteet • kurssin rakenne ja suoritus • kurssin ohjelma ja aikataulu • Mitä ovat korpukset • Mitä on korpuslingvistiika

Kurssin motivaatio ja tavoitteet • Kurssin tavoitteena on kokemusperäisesti tarkastella, miten korpuksia voidaan käyttää kielen tutkimuksessa. • Minkälaisia tutkimuskysymyksiä kannattaa esittää korpuksille • miten korpuksia kannattaa tutkia, ja • mitä tulosten pohjalta voidaan sanoa kielestä.

Kurssin rakenne ja suoritus • Kuusi luentoa • Tentti (1 ov) • Harjoitustyö (1 ov)

Suoritus I: luennot • pe 7.3., 14.3., 21.3., 28.3., 4.4. ja 11.4. • kello 12-15 • Siltavuorenpenger 20, sh 359/UNIX-luokka • “teoria”- ja vierailuluentoja • luentomateriaalit löytyvät verkosta kurssin verkkosivuilta • http://www.ling.helsinki.fi/kit/2003k/ctl310corp

Suoritus II: tentti • Laajuus 1 opintoviikko • pe 25.4. klo 12-14 luentosalissa sh359 ja tiedekuntatenttipäivänä ke 14.5. • Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use

Suoritus III: harjoitustyö • laajuus 1 opintoviikko • pienimuotoinen korpustutkimus kiinnittäen huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihin tai • olemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllä • palautus pe x.4.2003 • tarkempi ohjeistus kolmannella luentokerralla (pe 21.3.)

Luentojenrakenne ja aikataulu I Pe 7.3. • Johdanto ja kurssin suoritus • Mikä on korpus, minkälaisia korpuksia on? • Minkälaista on korpuslähtöinen kielentutkimus –käytäntö ja teoria ? Pe 14.3. (poikkeuksellisesti 9-11.30) • Korpuksen valitseminen ja koostaminen • korpuksen suhde hypoteesiin – mikä on edustava korpus? Pe 21.3. • Korpuksen esiprosessointi • annotoinnin filtteröinti • lingvistiset analyysityökalut – hyödyt ja haitat

Luennot II • Pe 28.3.(12-14) Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan? • Pe 4.4. Korpusten tilastollinen käsittely tilastolliset menetelmät ja kieli • Pe 11.4. Korpusten tulkinta - "korpukset ja kieli” entäs sitten?

Kuinka moni teistä on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen? Hypoteesi – aineisto – menetelmä – tulkinta?

Mikä on korpus? • yksittäinen tekstifragmentti • yksittäinen sanomalehtiartikkeli? • kaunokirjallinen kirja? • yksi sanomalehti kokonaisuudessaan? • Assyrian valtionartiston savitaulut kokonaisuudessaan? • yksittäisen tv-ohjelman transkriptio? • muita...?

Mikä on korpus? • corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts.(cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)

Korpus... • CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database.

Korpus... • Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus.(cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2

Korpuksen määritelmä • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm Korpus ei ole mikä tahansa tekstinpätkä, vaan: • tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelma • kooltaan rajattu ja sisällöltään määritetty • elektronisessa muodossa • siitä on saatavissa enemmän tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin käsin • uusien analyysien kustannukset ovat verrattaen pienet verrattuna käsin laskemiseen • yleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)

Korpuksen käsitteen monimuotoisuus • määrätietoisesti etukäteen asetettujen periaatteiden ja kriteerien mukaan kesätty kokoelma kieliaineistoja (= yo. määritelmä) • kokoelma, johon on kerätty mahdollisimman paljon kaikkea kieliaineistoa mitä on vaan on kätevästi ja saatavilla • oma tutkimusaineisto

Miksi korpuksia käytetään? • kun introspektio ei riitä • introspektiivisiä havaintoja ei voida ulkoisesti observoida • introspektiivinen data on useimmiten keinotekoista • ihmisillä on vain epämääräinen mielikuva lingvistisen ilmiön yleisyydestä

Miksi korpuksia? • korpusaineistojen hyödyt • korpukset ovat avoimempia tulosten objektiiviselle verifikaatiolle • korpukset edustavat miten ihmiset todellisissa käyttötilanteissa tuottavat kieltä, ei jonkun kielioppikuvauksen sisältämää idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivät) • kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on harvinaisempaa paremmin kuin introspektio • tietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun

Minkälaisia korpuksia on? • Kansainväliset klassikot http://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htm • Brown (kirjoitettua amerikan-englantia 60-luvulta  balansoitu: 500 tekstinfragmenttia à 2000 sanaa) • Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta) • Lond-Lund (puhuttua englantia)

Korpuksia... • Uudempia englanninkielisiä • Bank of English (320 Mw  450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.html • British National Corpus (100 Mw) • International Corpus of English (1 Mw kustakin englannin kansallisesta variantista) http://www.ucl.ac.uk/english-usage/ice/index.htm • Child Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten puhetta eri kielillä, mm. englanti ja saksa) • Korpuksia ympäri maailman http://www.ruf.rice.edu/~barlow/corpus.html

Korpuksia... • Tunnetuimmat kotimaiset • Suomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia) http://www.csc.fi/kielipankki/ • KOTUS:en korpukset (historiallista kirjasuomea) http://www.kotus.fi/aineistot/ • Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967) • Savonlinnan käännöskorpus

Korpusten luokitteluntapainen • kielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjallisetkorpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English) • synkroninen variaatio (kansalliskielen [standardin] sisäinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvälisen englannin korpus

Luokittelu... • historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit) • maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sisältää otoksia puhujista kaikkialta Britanniasta)

Luokittelu... • ikä: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot) • tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypit • aivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)

Luokittelu... • saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillä • yksikielisyys vs. monikielisyys (kohdistetut käännöskorpukset); alkuperäiset (supisuomi) vs. käännetyt (käännössuomi)

Minkälaista korpuspohjainen kielentutkimus on? • Korpuspohjaisen lingvistiikan esihistoriaa • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm  Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaa • Korpuspohjaisen lingvistiikan varsinainen käynnistyminen • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm  Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna

Puheentutkimus Leksikografia Kielioppi/syntaksi Semantiikka Pragmatiikka Sosiolingvistiikka Stilistiikka Kielenopetus Historiallinen kielitiede Murretutkimus Psykolingvistiikka Kulttuurintutkimus Sosiopsykologia Korpuspohjainen kielentutkimus tänään?

Korpuslingvistiikka tänään • Corpus Linguistics 2003 –konferenssi (Lancaster 28-31.3.2003) http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers

Korpukset ja kieliCtl310corpKevät 2003Antti Arppe Luento 14.3. Metodologinen yleiskatsaus – empiirisen tutkimuksen rakenne Hypoteesin muodostaminen Aineiston valitseminen ja koostaminen

Korpuspohjainen kielentutkimuksen tyypit? • kvalitatiivinen - laadullinen • analyysin rikkaus • tarkkuus ja • perusteellisuus • kvantitatiivinen - määrällinen • tilastollisesti luotettavat ja • yleistettävät tulokset

Kvalitatiivinen – kvantitatiivinen • Kvalitatiivinen • tavoitteena täydellinen, yksityiskohtainen kuvaus • ilmiöiden frekvenssien merkitys on vähäisempi, yksittäiset tapauksetkin saavat huomiota • kielen monitulkintaisuus sallitaantulokset eivät välttämättä ole varmuudella yleistettävissä kieleen kokonaisuudessaan

Kvalitatiivinen – kvantitatiivinen • kvantitatiivinen • piirteitä luokitellaan, niiden lukumääriä lasketaan ja vertaillaan • piirteiden yhteisesiintymistä voidaan tehdä monimutkaisia tilastollisia malleja • eri korpuksia voidaan vertailla keskenään • yleisten, tyypillisten ilmiöiden erottaminen (mahdollisesti) satunnaisista esiintymistä • luokitukset tyypillisesti kategorisia • edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan tehdä – harvinaiset ilmiöt jäävät paitsioon  kategorioita saatetaan tästä johtuen niputtaa yhteen

Kvantitatiivinen – kvalitatiivinen • monimetodisuus, eri tutkimusmenetelmiä ja –aineistoja yhdistyvä tutkimus yleistymyssä ihmistieteissä • kvalitatiivinen tutkimus voi edeltää kvantitatiivista  intuitiivinen yleiskuva tutkittavasta ilmiöstä ja aineistosta  kategoriat on ensiksi identifioitava

Tutkimuksen tyypit • eksploratiivinen – tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssinä  kuinkas sitä kieltä oikein käytetään • deskriptiivinen – kuvaava  systemaattisempi ja kokonaisvaltaisempi • konstruktiivinen – teorioita muodostava  tavoitteena enemmän kuin jonkun yksittäisen lingvistisen olion kuvaus • testaava – teorioiden validiteetin tarkastelua

Tutkimuksen tyypit – henkilökohtaisia esimerkkejä • eksploratiivinen: onko synonyymien käyttökonteksteissa eroja? • deskriptiivinen: minkälaista on jonkun synonyymiryhmän käyttö; miten käyttökontekstit eroavat toisistaan? • konstruktiivinen: mistä synonyymien käyttökontekstien erilaisuudet johtuvat? • testaava: päteekö yllä esitetty teoria käyttökontekstien erilaisuudesta myös muiden synonyymiperheiden kohdalla?

Mallitutkimuksen rakenne • [Teoreettinen tausta: aikaisempi tutkimus] • hypoteesi • aineisto eli korpus • menetelmä • tulkinta • [Kytkentä teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]

Hypoteesi • mikä on riittävän hyvä/perusteltu hypoteesi? • perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen? • perustuu tutkijan tai tutkijayhteisön omaan intuitioon? • tutkijan kannalta tärkeää on ankkuroida hypoteesi ajankohtaiseen tutkimukseen • teoria X väittää jotain Y kaikista kielistä: pitääkö Y paikkansa kielessä Z • teoria X on yksi kielen rakenteen kuvauksen yleisistä malleista: miten teoriaa X voisi soveltaa kielessä Y

Aineisto • hypoteesin perusteella  minkälainen aineisto on (riittävän) edustava hypoteesin kannalta  edustavuus/kattavuus voiko mikään aineisto koskaan olla täysin representatiivinen kielen kannalta? • kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista  yhdestä aineistosta ei voi välttämättä päätellä kaikesta kielenkäytöstä

Menetelmä • esiprosessointi: ylimääräisen annotoinnin poistaminen • lingvistinen (automaattinen) analyysi • virheiden huomioiminen ja vaikutus • automaattisen analyysin täydentäminen käsin • lingvistisen analysaattorin implisiittisesti sisältämä malli kielestä  miten analysaattori vaikuttaa ja ennakoi tuloksia • tilastolliset mallit • Miten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta

Tulkinta • miten tulokset vastaavat hypoteeseja • miten paljon voidaan sanoa kielestä ylipäänsä  mistä tulokset itse asiassa kertovat • kuinka merkitseviä tulokset ovat?  keskeistä on aina kuitenkin lingvistin tulkinta: mitä lingvisti nostaa esille tai näkee merkittävänä – kielitieteen kannalta

Tutkimuksen suunnittelun tärkeys • ekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden väliset erot, murteet, idiolektit) • aineistoon ja annotointiin perehtyminen: kuinka täydellisesti/perusteellisesti/oikein aineisto on esikäsitelty • työkalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysityökalut toimivat • esitutkimuksen tärkeys  ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlyömistä

Esimerkkejä hypoteeseista: Int’l Journal of Corpus Linguistics

Hypoteesin muodostaminen käytännössä – oman tutkimuksen teoreettista taustaa • erityisesti englannin osalta on osoitettu, että synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998) • myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim. begin vs. start (Biber 1998):  SUBJ start (intransitiivinen käyttö)  SUBJ begin OBJ  SUBJ begin TO-V • lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)

Alkuperäinen tavoite • jos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisessä morfologisesti köyhässä kielessä), niin eikö suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osalta • Hypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?

Hypoteesin konkretisoiminen: mitä on synonymia? • synonymian määritelmä ja käsittely näyttää seuraavan siitä miten merkitys ymmärretään • merkitys kompositionaalisten, kategoristen piirteiden joukkona  synonymia tietyntyyppisenä erona ko. piirteissä • merkityksen syntyminen käyttöyhteyden kautta (Firth)  synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)

Synomia - absoluuttinen synonymia – lähisynonymia • absoluuttinen synonymia edellyttäisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tämä on oletetusti käytännössä erittäin harvinaista • käytännössä joutuu tutkimaan lähisynonymiaa (l. plesionymiaa) • synonymia on kuitenkin jollakin naivilla tasolla todellista, sillä tavalliset kielenkäyttäjät mieltävät synonyymien olemassaolon ja kokevat että sanoja voidaan usein vaihtaa toisiin ilman että lauseen merkitys ja konnotataatiot oleellisesti muuttuvat

Tutkimuksen rajaaminen:tutkittavien synonyymien valinta • ei ole mielekästä ryhtyä tutkimaan kaikkia potentiaalisia synonyymejä: yksikin pari voi riittää • tavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sekä syntaktisen että semanttisen valenssin suhteen kuin mahdollista • kaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nämä yhdistettiin elektronisen synonyymisanakirjan sisältöön • kullekin synonyymiryhmälle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmät rankattiin

Tutkimuksen rajaaminen: synonyymilistan Top 1000 • 1000 kollektiivisesti yleisintä synonyymiryhmää

Tutkimuksen rajaaminen • rankatut synonyymiryhmät arvioitiin subjektiivisesti • mikäli jossakin synonyymiryhmässä ei ensi näkemältä tuntunut olevan ilmiselviä eroja merkityskentän tai syntaktisen käytön suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisäksi Pajunen (1982) • mitä enemmän sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sitä parempi • polyseemisiä kandidaatteja hyljeksittiin

Lopullinen rajaus ja hypoteesi • kognitiviiset verbit pohtia and miettiä • myös ajatella, tuumia ja harkita voisivat tulla kyseeseen • Hypoteesi: verbien pohtia ja miettiä morfologiset kontekstit eli taivutusmuotoprofiilit eroavat joiltakin osin tilastollisesti toisistaan

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe

Korpukset ja kieli Ctl310 corp Kevät 200 3 Antti Arppe

Presentation Transcript

30 KeV 50 KeV 70 KeV 140 KeV

VHDL-kieli

Sosiologian ammattik yt nn t, kev t 2011

Antti Kasvio Työterveyslaitos, Työ ja yhteiskunta-tiimi Nuorten mahdollisuuksia osaamisen markkinoilla

Ylioppilaskokelaiden aikataulua syksy 2011 - kev t 2012

Ajankohtaista ymp rist tuessa ja LFA:ssa Antti Hietala

EU - tuki-info kev t 2009

Mets t ja ilmasto

Kieli- ja kulttuuriryhmien opetus , oppilasmäärät ja resurssi www.espoo.fi/maahanmuuttajaopetus

Python ja Ruby ohjelmointikielet Mediatekniikan seminaari Antti Siukola 31.3.2006

Antti Laukkanen

T bikatsetus ja tootmisohje

Internet ja infootsing 3 iseseisev t

ITALIAN KIELI JA TAIDE

Osa 2. Tavoiteltava kieli

Miten m enestyn Ven äjällä ? kulttuuri, kieli ja liikeympäristö

Köyhyys ja t Osallistava sosiaaliturva ja perusoikeudet

MILLAISENA KIELI NÄYTTÄYTYY OPPILAIDEN SILMISSÄ JA OPPIMATE- RIAALISSA?

200 3

Kieli ja kulttuurienvälinen viestintä

3 dekl . t- ja υ –vartalot, kertaus

Projektityöskentely Ctl310 pro Syksy 200 4 Antti Arppe