1 / 151

Korpukset ja kieli Ctl310 corp Kevät 200 4 Antti Arppe

Korpukset ja kieli Ctl310 corp Kevät 200 4 Antti Arppe. Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa. Aloitusluento 12.3.2002 klo 12-15. Hallinnolliset kuviot kurssin tavoitteet

caelan
Download Presentation

Korpukset ja kieli Ctl310 corp Kevät 200 4 Antti Arppe

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Korpukset ja kieliCtl310corpKevät 2004Antti Arppe Kun intuitio ja introspektio eivät riitä – riittävätkö korpuksetkaan? Miten korpuksia voi/pitäisi käyttää kielen kuvauksessa ja tutkimuksessa

  2. Aloitusluento 12.3.2002 klo 12-15 • Hallinnolliset kuviot • kurssin tavoitteet • kurssin rakenne ja suoritus • kurssin ohjelma ja aikataulu • Mitä ovat korpukset • Mitä on korpuslingvistiika

  3. Kurssin motivaatio ja tavoitteet • Kurssin tavoitteena on kokemusperäisesti tarkastella, miten korpuksia voidaan käyttää kielen tutkimuksessa. • Minkälaisia tutkimuskysymyksiä kannattaa esittää korpuksille • miten korpuksia kannattaa tutkia, ja • mitä tulosten pohjalta voidaan sanoa kielestä.

  4. Kurssin rakenne ja suoritus • Kuusi luentoa • Tentti (1 ov) • Harjoitustyö (1 ov)

  5. Suoritus I: luennot • pe 12.3., 19.3., 26.3., 2.4.,16.4. ja 23.4. • kello 12-15 (tauko keskellä) • Siltavuorenpenger 20, ls 334D • “teoria”- ja vierailuluentoja • luentomateriaalit löytyvät verkosta kurssin verkkosivuilta • http://www.ling.helsinki.fi/kit/2004k/ctl310corp

  6. Suoritus II: tentti • Laajuus 1 opintoviikko • pe 30.4. klo 12-14 luentosalissa ls 334D ja tiedekuntatenttipäivänä ke 19.5. (ilm. ma 10.5.) • Kurssikirja: Biber, Douglas; Conrad, Susan; Reppen, Randi (1998). Corpus linguistics: Investigating Language Structure and Use • Ylimääräinen kurssikirja: Sinclair, John (1991). Corpus, concordance, collocation

  7. Suoritus III: harjoitustyö • laajuus 1 opintoviikko • pienimuotoinen korpustutkimus kiinnittäen huomiota aineiston ja menetelmien vaihtoehtoihin ja valintojen perusteluihin tai • olemassaolevan (julkaistun) korpuspohjaisen tutkimuksen kriittinen analyysi ja arvio kuten yllä • palautus pe 30.4.2004 • tarkempi ohjeistus kolmannella luentokerralla (pe 26.3.)

  8. Luentojenrakenne ja aikataulu I Pe 12.3. • Johdanto ja kurssin suoritus • Mikä on korpus, minkälaisia korpuksia on? • Minkälaista on korpuslähtöinen kielentutkimus –käytäntö ja teoria ? Pe 19.3. • Korpuksen valitseminen ja koostaminen • korpuksen suhde hypoteesiin – mikä on edustava korpus? Pe 26.3. • Korpuksen esiprosessointi • annotoinnin filtteröinti • lingvistiset analyysityökalut – hyödyt ja haitat

  9. Luennot II • Pe 2.4.(12-14) Korpusten tilastollinen käsittely tilastolliset menetelmät ja kieli • Pe 16.4. Puhekieliset korpukset (FT Martti Vainio) – Mitä uutta puheeseen perustuvat korpukset tuovat korpuslingvistiikkaan? • Pe 23.4. Korpusten tulkinta - "korpukset ja kieli” entäs sitten?

  10. Kuinka moni teistä on tehnyt korpuspohjaista kielentutkimusta tai tutustunut siihen? Hypoteesi – aineisto – menetelmä – tulkinta?

  11. Mikä on korpus? • yksittäinen tekstifragmentti • yksittäinen sanomalehtiartikkeli? • kaunokirjallinen kirja? • yksi sanomalehti kokonaisuudessaan? • Assyrian valtionartiston savitaulut kokonaisuudessaan? • yksittäisen tv-ohjelman transkriptio? • muita...?

  12. Mikä on korpus? • corpus, plural corpora A collection of linguistic data, either compiled as written texts or as a transcription of recorded speech. The main purpose of a corpus is to verify a hypothesis about language - for example, to determine how the usage of a particular sound, word, or syntactic construction varies. Corpus linguistics deals with the principles and practice of using corpora in language study. A computer corpus is a large body of machine-readable texts.(cf. Crystal, David. 1992. An Encyclopedic Dictionary of Language and Languages. Oxford, 85)

  13. Korpus... • CORPUS (13c: from Latin corpus body. The plural is usually corpora) (1) A collection of texts, especially if complete and self-contained: the corpus of Anglo-Saxon verse. (2) Plural also corpuses. In linguistics and lexicography, a body of texts, utterances or other specimens considered more or less representative of a language, and usually stored as an electronic database. ...

  14. Korpus... • Currently, computer corpora may store many millions of running words, whose features can be analysed by means of tagging (the addition of identifying and classifying tags to words and other formations) and the use of concordancing programs. Corpus linguistics studies data in any such corpus.(cf. McArthur, Tom "Corpus" , in: McArthur, Tom (ed.) 1992. The Oxford Companion to the English Language. Oxford, 2

  15. Korpuksen määritelmiä – gurut • A collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic description or as a means of verifying hypotheses about a language  David Crystal, A Dictionary of Linguistics and Phonetics, Blackwell, 3rd Edition, 1991. • A collection of naturally occurring language text, chosen to characterize a state or variety of a language.  John Sinclair, Corpus, Concordance, Collocation, OUP, 1991

  16. Korpuksen määritelmä - kriteerit • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus2/2fra1.htm Korpus ei ole mikä tahansa tekstinpätkä, vaan: • tutkimuksen ja sen hypoteesin kannalta edustava otos/kokoelma • kooltaan rajattu ja sisällöltään määritetty • elektronisessa muodossa • siitä on saatavissa enemmän tietoa frekvensseista, rakennehahmoista ja esiintymisassosiaatioista tietokoneen avulla kuin käsin • uusien analyysien kustannukset ovat verrattaen pienet verrattuna käsin laskemiseen • yleisesti saatavilla ( tutkimustulokset ovat vertailtavissa)

  17. Korpuksen käsitteen monimuotoisuus • määrätietoisesti etukäteen asetettujen periaatteiden ja kriteerien mukaan kesätty kokoelma kieliaineistoja (= yo. määritelmä) • kokoelma, johon on kerätty mahdollisimman paljon kaikkea kieliaineistoa mitä on vaan on kätevästi ja saatavilla • oma tutkimusaineisto

  18. Miksi korpuksia käytetään? • kun introspektio ei riitä • introspektiivisiä havaintoja ei voida ulkoisesti observoida • introspektiivinen data on useimmiten keinotekoista • ihmisillä on vain epämääräinen mielikuva lingvistisen ilmiön yleisyydestä

  19. Miksi korpuksia? • korpusaineistojen hyödyt • korpukset ovat avoimempia tulosten objektiiviselle verifikaatiolle • korpukset edustavat miten ihmiset todellisissa käyttötilanteissa tuottavat kieltä, ei jonkun kielioppikuvauksen sisältämää idealisaatiota (esim. ovatko moninkertaiset upotukset mahdollisia vai eivät) • kvantitatiivinen tieto kertoo mikä on yleistä ja mikä on harvinaisempaa paremmin kuin introspektio • tietokoneet ja elektroniset aineistot mahdollistavat aineistojen tehokkaan tarkastelun

  20. Minkälaisia korpuksia on? • Kansainväliset klassikot http://www.uni-koeln.de/phil-fak/englisch/bald/corpora.htm • Brown (kirjoitettua amerikan-englantia 60-luvulta  balansoitu: 500 tekstinfragmenttia à 2000 sanaa) • Lancaster-Oslo/Bergen (LOB) (Brownia vastaava korpus brittienglantia 70-luvulta) • Lond-Lund (puhuttua englantia)

  21. Korpuksia... • Uudempia englanninkielisiä • Bank of English (320 Mw  450 Mw [monitorikorpus]) http://titania.cobuild.collins.co.uk/boe_info.html • British National Corpus (100 Mw) • International Corpus of English (1 Mw kustakin englannin kansallisesta variantista) http://www.ucl.ac.uk/english-usage/ice/index.htm • Child Language Date Exchange System (CHILDES) http://atila-www.uia.ac.be/childes/ (eri-ikäisten lasten puhetta eri kielillä, mm. englanti ja saksa) • Korpuksia ympäri maailman http://www.ruf.rice.edu/~barlow/corpus.html

  22. Korpuksia... • Tunnetuimmat kotimaiset • Suomen kielipankki (~170 Mw suomea ja ~30 Mw (suomenruotsia) http://www.csc.fi/kielipankki/ • KOTUS:en korpukset (historiallista kirjasuomea) http://www.kotus.fi/aineistot/ • Oulun korpus (500 kw mm. puhuttua suomea; koostettu 1967) • Savonlinnan käännöskorpus

  23. Korpusten luokitteluntapainen • kielen meediumi: puhekorpukset (esim. London-Lund corpus) vs. kirjallisetkorpukset (esim. Lancaster Oslo/Bergen corpus(LOB) vs. yhdistetyt (British National Corpus (BNC) tai Bank of English) • synkroninen variaatio (kansalliskielen [standardin] sisäinen): britti-englannin korpukset (esim. Lancaster Oslo/Bergen corpus) vs. amerikan-englannin korpukset (e.g. Brown corpus) vs. joku kansainvälisen englannin korpus

  24. Luokittelu... • historiallinen variaatio: diakroniset korpukset (Helsinki corpus, cf. ICAME:n kotisivu) vs. synkroniset korpukset (Brown, LOB, BNC) vs. vain yhden segmentin kielen historiaa kattavat korpukset (Old/Middle English, Shakespearen tekstit) • maantieteellinen variaatio/murrevariaatio: murreotoskorpus (e.g. Scots) vs. yhdistetyt (BNC puheosuus sisältää otoksia puhujista kaikkialta Britanniasta)

  25. Luokittelu... • ikä: aikuisten englannin korpus vs lasten englannin korpus (CHILDES:n englanninkieliset osiot) • tekstityyppi/rekisteri: kaunokirjalliset vs. tekniset vs. ei-fiktiiviset (esim. sanomalehtiteksit) vs. sekoitetut korpukset jotka kattavat kaikki tekstityypit • aivoimuus: suljetut, muuntamattomat korpukset (esim. LOB, Brown) vs. monitorikorpukset (Bank of English)

  26. Luokittelu... • saatavuus: kaupalliset vs. ei-kaupalliset tutkimuskorpukset, suoraan saatavilla olevat (online) korpukset vs. korpukset ftp-palvelimilla vs. korpukset levykkeillä • yksikielisyys vs. monikielisyys (kohdistetut käännöskorpukset); alkuperäiset (supisuomi) vs. käännetyt (käännössuomi)

  27. Minkälaista korpuspohjainen kielentutkimus on? • Korpuspohjaisen lingvistiikan esihistoriaa • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm  Ilman tietokoneita aineiston monipuolinen analyysi on vaikeaa • Korpuspohjaisen lingvistiikan varsinainen käynnistyminen • http://www.ling.lancs.ac.uk/monkey/ihe/linguistics/corpus1/1fra1.htm  Korpukset elektronisessa muodossa, tietokoneet tarkastelun apuna

  28. Puheentutkimus Leksikografia Kielioppi/syntaksi Semantiikka Pragmatiikka Sosiolingvistiikka Stilistiikka Kielenopetus Historiallinen kielitiede Murretutkimus Psykolingvistiikka Kulttuurintutkimus Sosiopsykologia Korpuspohjainen kielentutkimus tänään?

  29. Korpuslingvistiikka tänään • Corpus Linguistics 2003 –konferenssi (Lancaster 28-31.3.2003) http://www.comp.lancs.ac.uk/ucrel/cl2003/programme.html#papers

  30. Korpukset ja kieliCtl310corpKevät 2003Antti Arppe Luento 19.3. Metodologinen yleiskatsaus – empiirisen tutkimuksen rakenne Hypoteesin muodostaminen Aineiston valitseminen ja koostaminen

  31. Korpuspohjainen kielentutkimuksen tyypit? • kvalitatiivinen - laadullinen • analyysin rikkaus • tarkkuus ja • perusteellisuus • kvantitatiivinen - määrällinen • tilastollisesti luotettavat ja • yleistettävät tulokset

  32. Kvalitatiivinen – kvantitatiivinen • Kvalitatiivinen • tavoitteena täydellinen, yksityiskohtainen kuvaus • ilmiöiden frekvenssien merkitys on vähäisempi, yksittäiset tapauksetkin saavat huomiota • kielen monitulkintaisuus sallitaantulokset eivät välttämättä ole varmuudella yleistettävissä kieleen kokonaisuudessaan

  33. Kvalitatiivinen – kvantitatiivinen • kvantitatiivinen • piirteitä luokitellaan, niiden lukumääriä lasketaan ja vertaillaan • piirteiden yhteisesiintymistä voidaan tehdä monimutkaisia tilastollisia malleja • eri korpuksia voidaan vertailla keskenään • yleisten, tyypillisten ilmiöiden erottaminen (mahdollisesti) satunnaisista esiintymistä • luokitukset tyypillisesti kategorisia • edellyttää minimiesiintymisiä, jotta yleistyksiä voidaan tehdä – harvinaiset ilmiöt jäävät paitsioon  kategorioita saatetaan tästä johtuen niputtaa yhteen

  34. Kvantitatiivinen – kvalitatiivinen • monimetodisuus, eri tutkimusmenetelmiä ja –aineistoja yhdistyvä tutkimus yleistymyssä ihmistieteissä • kvalitatiivinen tutkimus voi edeltää kvantitatiivista  intuitiivinen yleiskuva tutkittavasta ilmiöstä ja aineistosta  kategoriat on ensiksi identifioitava

  35. Tutkimuksen tyypit • eksploratiivinen – tutkiva, tutkimushypoteeseja hypoteeseja muodostava, korpus referenssinä  kuinkas sitä kieltä oikein käytetään • deskriptiivinen – kuvaava  systemaattisempi ja kokonaisvaltaisempi • konstruktiivinen – teorioita muodostava  tavoitteena enemmän kuin jonkun yksittäisen lingvistisen olion kuvaus • testaava – teorioiden validiteetin tarkastelua

  36. Tutkimuksen tyypit – henkilökohtaisia esimerkkejä • eksploratiivinen: onko synonyymien käyttökonteksteissa eroja? • deskriptiivinen: minkälaista on jonkun synonyymiryhmän käyttö; miten käyttökontekstit eroavat toisistaan? • konstruktiivinen: mistä synonyymien käyttökontekstien erilaisuudet johtuvat? • testaava: päteekö yllä esitetty teoria käyttökontekstien erilaisuudesta myös muiden synonyymiperheiden kohdalla?

  37. Mallitutkimuksen rakenne • [Teoreettinen tausta: aikaisempi tutkimus] • hypoteesi • aineisto eli korpus • menetelmä • tulkinta • [Kytkentä teoreettiseen taustaan: miten tulokset vaikuttavat teoriaan]

  38. Hypoteesi • mikä on riittävän hyvä/perusteltu hypoteesi? • perustuu aikaisempaan tutkimukseen tai teorianmuodostukseen? • perustuu tutkijan tai tutkijayhteisön omaan intuitioon? • tutkijan kannalta tärkeää on ankkuroida hypoteesi ajankohtaiseen tutkimukseen • teoria X väittää jotain Y kaikista kielistä: pitääkö Y paikkansa kielessä Z • teoria X on yksi kielen rakenteen kuvauksen yleisistä malleista: miten teoriaa X voisi soveltaa kielessä Y

  39. Aineisto • hypoteesin perusteella  minkälainen aineisto on (riittävän) edustava hypoteesin kannalta  edustavuus/kattavuus voiko mikään aineisto koskaan olla täysin representatiivinen kielen kannalta? • kielen monimuotoisuuden huomiointi: kieli ei ole homogeenista  yhdestä aineistosta ei voi välttämättä päätellä kaikesta kielenkäytöstä

  40. Menetelmä • esiprosessointi: ylimääräisen annotoinnin poistaminen • lingvistinen (automaattinen) analyysi • virheiden huomioiminen ja vaikutus • automaattisen analyysin täydentäminen käsin • lingvistisen analysaattorin implisiittisesti sisältämä malli kielestä  miten analysaattori vaikuttaa ja ennakoi tuloksia • tilastolliset mallit • Miten hyvin/huonosti niiden (matemaattiset) ennakko-oletukset vastaavat kielen olemusta

  41. Tulkinta • miten tulokset vastaavat hypoteeseja • miten paljon voidaan sanoa kielestä ylipäänsä  mistä tulokset itse asiassa kertovat • kuinka merkitseviä tulokset ovat?  keskeistä on aina kuitenkin lingvistin tulkinta: mitä lingvisti nostaa esille tai näkee merkittävänä – kielitieteen kannalta

  42. Tutkimuksen suunnittelun tärkeys • ekstralingvististen muuttujien huomioiminen korpusta valittaessa ja koostettaessa (tekstityypit ja niiden väliset erot, murteet, idiolektit) • aineistoon ja annotointiin perehtyminen: kuinka täydellisesti/perusteellisesti/oikein aineisto on esikäsitelty • työkalujen vaikutuksen arvioiminen: kuinka hyvin/huonosti automaattiset analyysityökalut toimivat • esitutkimuksen tärkeys  ei soitellen sotaan vaan perusteellisesti kokeillen ennen lopullisen tutkimusasetelman lukkoonlyömistä

  43. Esimerkkejä hypoteeseista: Int’l Journal of Corpus Linguistics

  44. Hypoteesin muodostaminen käytännössä – oman tutkimuksen teoreettista taustaa • erityisesti englannin osalta on osoitettu, että synonyymien valintaan vaikuttavat rekisteri, tavoiteltu tyyli ja käyttötilanne, esim. dollar vs. buck (Zgusta 1971, Biber 1998) • myöhemmin on englannin osalta osoitettu myös että leksikaalinen ja syntaktinen konteksti vaikuttaa myös synonyymin valintaan, esim. begin vs. start (Biber 1998):  SUBJ start (intransitiivinen käyttö)  SUBJ begin OBJ  SUBJ begin TO-V • lisäksi on argumentoitu, että lekseemin kullakin taivutusmuodolla voi periaatteessa olla itsenäiset käyttöyhteydet, esim. kollokaatioiden suhteen (Sinclair 1991)

  45. Alkuperäinen tavoite • jos kerran sanan ulkoinen konteksti, olkoon se leksikaalinen tai syntaktinen rakenne, vaikuttavat synonyymin valintaan (englannin tyyppisessä morfologisesti köyhässä kielessä), niin eikö suomessa (morfologisesti rikkaassa) olisi vastaavaa havaittavissa taivutusmuotojen ja piirteiden osalta • Hypoteesi: onko synonyymeiksi tulkittavien sanojen taivutusprofiileissa empiirisesti havaittavia eroja?

  46. Hypoteesin konkretisoiminen: mitä on synonymia? • synonymian määritelmä ja käsittely näyttää seuraavan siitä miten merkitys ymmärretään • merkitys kompositionaalisten, kategoristen piirteiden joukkona  synonymia tietyntyyppisenä erona ko. piirteissä • merkityksen syntyminen käyttöyhteyden kautta (Firth)  synonymia korvattavuutena tai vaihdettavuutena samanlaisissa konteksteissa (Miller 1990)

  47. Synomia – absoluuttinen synonymia – lähisynonymia • absoluuttinen synonymia edellyttäisi vaihdettavuutta kaikissa mahdollisissa kontekteissa, mutta tämä on oletetusti käytännössä erittäin harvinaista • käytännössä joutuu tutkimaan lähisynonymiaa (l. plesionymiaa) • synonymia on kuitenkin jollakin naivilla tasolla todellista, sillä tavalliset kielenkäyttäjät mieltävät synonyymien olemassaolon ja kokevat että sanoja voidaan usein vaihtaa toisiin ilman että lauseen merkitys ja konnotataatiot oleellisesti muuttuvat

  48. Tutkimuksen rajaaminen:tutkittavien synonyymien valinta • ei ole mielekästä ryhtyä tutkimaan kaikkia potentiaalisia synonyymejä: yksikin pari voi riittää • tavoitteena oli valita verbipari joka olisi a priori niin samankaltainen sekä syntaktisen että semanttisen valenssin suhteen kuin mahdollista • kaikkien verbien suhteelliset frekvenssit laskettiin korpuksesta ja nämä yhdistettiin elektronisen synonyymisanakirjan sisältöön • kullekin synonyymiryhmälle laskettiin suhteellisten frekvenssien geometrinen keskiarvo r1 x ... rn , jonka mukaan synonyymiryhmät rankattiin

  49. Tutkimuksen rajaaminen: synonyymilistan Top 1000 • 1000 kollektiivisesti yleisintä synonyymiryhmää

  50. Tutkimuksen rajaaminen • rankatut synonyymiryhmät arvioitiin subjektiivisesti • mikäli jossakin synonyymiryhmässä ei ensi näkemältä tuntunut olevan ilmiselviä eroja merkityskentän tai syntaktisen käytön suhteen, potentiaalisia kandidaatteja arvioitiin Perussanakirjan sanaselitysten ja esimerkkilauseiden perusteella (Haarala 1997) ja lisäksi Pajunen (1982) • mitä enemmän sanojen sanaselitykset ja esimerkit olivat samansuuntaisia, sitä parempi • polyseemisiä kandidaatteja hyljeksittiin

More Related