260 likes | 404 Views
Jezik in računalniki. Tomaž Erjavec Osnove računalništva za jezikoslovce UNG 2009/2010 19.4.2010. Nekaj besed o meni. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” Ljubljana http://nl.ijs.si/et/ tomaz.erjavec@ijs.si jezikovne tehnologije
E N D
Jezik in računalniki Tomaž Erjavec Osnove računalništva za jezikoslovce UNG 2009/2010 19.4.2010
Nekaj besed o meni • Tomaž ErjavecOdsek za tehnologije znanjaInstitut “Jožef Stefan”Ljubljana • http://nl.ijs.si/et/ • tomaz.erjavec@ijs.si • jezikovne tehnologije • izdelava korpusov in drugih jezikovnih virov, predvsem za slovenski jezik • digitalne knjižnice Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
I. Vsebina predmeta Predavanji: • pregled področja • korpusno jezikoslovje Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Kje se srečujemo z obdelavo besedil na računalnikih? • pisanje, oblikovanje besedil: Word, Besana • iskanje po spletu: Google, Najdi.si • strojno prevajanje: Google translate, Presis • sinteza / analiza govora: AT&T, Govorec • odgovarjanje na vprašanja: NSIR • dialoški sistemi: Klepec • samopovzemanje dokumentov, rudarjenje besedil, … Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Uporaba v jezikoslovju • pomoč pri prevajanju • pomoč pri slovaropisju • pomoč pri raziskovanju jezika Potrebujemo korpuse, t.j. velike zbirke besedil shranjenih na računalniku (predavanje naslednjič) Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Jezikovni viri za slovenski jezik na internetu Inštitut za slovenski jezik Frana Ramovša ZRC SAZU: • http://bos.zrc-sazu.si/ • Slovar slovenskega knjižnega jezika • Slovenski pravopis 2001 • Besede slovenskega jezika in razni korpusi…
Računalniška obdelava naravnega jezika • računalniško jezikoslovje oz. računalniška obdelava naravnega jezika • veja računalništva, ki se navezuje na jezikoslovje • cilj: računalniško modeliranje in procesiranje naravnega jezika • jezikovne tehnologije • cilj: razvoj konkretnih jezikovnih virov in orodij (korpusi, slovarji / črkovalniki, prevajalniki)
Jezik in računalnik Kako računalnik “razume” jezik? • Jezikovne komponente v urejevalniku besedil:črkovalnik, preverjanje slovnice, pravila za segmentacijo besed, stavkov • Kaj je beseda, kaj je stavek? • vsi podatki so za računalnik najprej nizi znakov • besede so med seboj ločene s presledki • besede so med seboj ločene s presledki ali ločili • besede so med seboj ločene s presledkom ali ločilom in presledkom • javno- in zasebnopravni vidiki, itd., $4.000.000
Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov
Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov
Iskanje z Googlom avtomobilsko podjetje 573 avtomobilska podjetja 835 avtomobilska firma 43 avtomobilske firme 107 avtopodjetje 4 zastopnik avtomobilov 807 prodajalec avtomobilov 407 avtoprodaja 507 zastopstvo avtomobilov 405
Oblika proti pomenu • Kako bi bilo mogoče zgraditi “pametni” spletni iskalnik, ki bi iskal po pomenu besede? zdravljenje anoreksije anoreksija anoreksije anoreksičnost motnje hranjenja prehranjevalne motnje odklanjanje hrane ... zdravljenje zdravljenja zdravljenju terapija terapevtski ukrepi terapije ...
Problemi • Jezik ima lastnosti, ki jih človek razpozna zlahka, stroj pa mnogo težje. • Še posebej: • večpomenskost: mnoge besede imajo več pomenov • parafraze: mnoge vsebine je mogoče izraziti na več načinov • nedoločenost: mnoga jezikovna sredstva imajo nedoločen pomen, ki ga razberemo šele iz sobesedila
Razsežnosti problema Razpoznavanje besed Oblikoslovje Skladnja Globina analize Pomenoslovje Pragmatika Obdelava znanja Področje Obseg jezikovnih podatkov Mnoge aplikacije zahtevajo le nizko raven analize.
Strukturalistični in empirični vidiki jezikoslovja • Strukturalistični pristop: • Jezik je omejen in urejen sistem, ki temelji na pravilih. • Avtomatska obdelava jezika je mogoča s pomočjo pravil. • Pravila se oblikuje v skladu s človeško jezikovno intuicijo. • Empirični pristop: • Jezik je vsota vseh svojih udejanjanj (v govorjenih in pisnih besedilih) • Posplošitve o jeziku so mogoče le na podlagi velikih besedilnih zbirk, ki nam služijo za vzorec jezika -> korpusi • Strojno učenje (Machine Learning): • programi se naučijo modela jezika iz podatkov
Jezikovne tehnologije:Raziskovalna področja • Oblikoslovje: besednovrstno oz. oblikoskladenjsko označevanje (part-of-speech tagging), lematizacija, razčlemba sestavljenih besed • Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij (osebek/povedek/...); popolna skladenjska analiza • Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni sistemi • Pomenoslovje: razreševanje večpomenskosti, avtomatska izdelava semantičnih virov (tezavrov, ontologij) • Večjezikovne tehnologije: luščenje prevodnih ustreznic iz korpusov, strojno prevajanje in tolmačenje • Jezik in internet: iskanje podatkov, rudarjenje besedil (Text Mining), napredni spletni iskalniki
Kaj je korpus? • obsežna zbirka besedil • jezik v resnični in sodobni podobi • v elektronski obliki • reprezentativnost za jezik, ki naj bi ga predstavljali →vzorec • služi za opisovanje jezika (deskriptivno/empirično jezikoslovje) Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Zakaj potrebujemo korpuse? • izdelava slovarjev in drugih jezikovnih virov(tudi nadomestek za slovar) • izdelava slovnic in drugih opisov jezikovne strukture • razvoj pripomočkov za prevajanje • izdelava pripomočkovza učenje jezika • raziskovanje vseh oblik jezikovnega vedenja • jezikovne tehnologije Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Kako uporabljamo korpuse? • besedni seznami:Katere besede so v korpusu? V posameznem besedilu? Katere izstopajo po pogostosti uporabe? • konkordance (opazovanje besed skupaj s sobesedilom): kako so besede uporabljene? kaj torej pomenijo? • statistične metode:opazovanje zanimivih sopojavitev besed (kolokacije), narativne študije, ... Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Konkordance besede "kartica" v korpusu FidaPLUS Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Zakaj nam tega ne pove slovar? Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Orodja za analizo korpusov • veliki korpusi so dostikrat na spletu, skupaj s svojimi vmesniki: BNC, FidaPLUS, Nova beseda, … • verjetno najboljši medmrežni vmesnik: SketchEngine • kupljeni vmesniki na lastnem računalnikunpr. WordSmith (in seveda korpus!) • izdelava lastnih programov: npr. Perl, R • izdelava lastnih korpusov: ročno, BootCat Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Gradnja Če ustreznega korpusa ni na voljo, ga moramo narediti sami Postopek: • izbira besedil: reprezentativnost, uravnoteženost, izvedljivost • digitalni zajem: OCR, Word, HTML • normalizacija besedil: enovit format • (označevanje: oblikoslovne oznake, lematizacija) • (distribucija: avtorske pravice, platforma) Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Označevanje Korpus je lahko precej bolj uporaben, če je jezikoslovno označen Ravni označevanja: • leme, tj. osnovne oblike besed (hiše → hiša) • oblikoskladenjske oznake (samostalnik, ženski spol, ednina, rodilnik) • skladenjsko označevanje (povedek, osebek, …) • drugo besedilno označevanje Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Iskanje po lemi “človek” Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010
Zapis znakov Kako so v besedilih kodirani znaki? Zakaj je to zanimivo? • kadar gre kaj narobe in č postane c, ali pa kaj drugega • kadar je potrebno uporabljati nenavadne znake (npr. bohoričico, fonetično abecedo, ...) Obstaja veliko starejših kodnih naborov (ki pa se še uporabljajo), moderna tehnologija pa uporablja univerzalen (pa za razmeroma kompleksen) nabor znakov unikod (Unicode) Kako vstavimo posebne znake v urejevalniku Word? Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010