1 / 26

Jezik in računalniki

Jezik in računalniki. Tomaž Erjavec Osnove računalništva za jezikoslovce UNG 2009/2010 19.4.2010. Nekaj besed o meni. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” Ljubljana http://nl.ijs.si/et/ tomaz.erjavec@ijs.si jezikovne tehnologije

pilar
Download Presentation

Jezik in računalniki

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Jezik in računalniki Tomaž Erjavec Osnove računalništva za jezikoslovce UNG 2009/2010 19.4.2010

  2. Nekaj besed o meni • Tomaž ErjavecOdsek za tehnologije znanjaInstitut “Jožef Stefan”Ljubljana • http://nl.ijs.si/et/ • tomaz.erjavec@ijs.si • jezikovne tehnologije • izdelava korpusov in drugih jezikovnih virov, predvsem za slovenski jezik • digitalne knjižnice Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  3. I. Vsebina predmeta Predavanji: • pregled področja • korpusno jezikoslovje Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  4. Kje se srečujemo z obdelavo besedil na računalnikih? • pisanje, oblikovanje besedil: Word, Besana • iskanje po spletu: Google, Najdi.si • strojno prevajanje: Google translate, Presis • sinteza / analiza govora: AT&T, Govorec • odgovarjanje na vprašanja: NSIR • dialoški sistemi: Klepec • samopovzemanje dokumentov, rudarjenje besedil, … Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  5. Uporaba v jezikoslovju • pomoč pri prevajanju • pomoč pri slovaropisju • pomoč pri raziskovanju jezika Potrebujemo korpuse, t.j. velike zbirke besedil shranjenih na računalniku (predavanje naslednjič) Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  6. Jezikovni viri za slovenski jezik na internetu Inštitut za slovenski jezik Frana Ramovša ZRC SAZU: • http://bos.zrc-sazu.si/ • Slovar slovenskega knjižnega jezika • Slovenski pravopis 2001 • Besede slovenskega jezika in razni korpusi…

  7. Računalniška obdelava naravnega jezika • računalniško jezikoslovje oz. računalniška obdelava naravnega jezika • veja računalništva, ki se navezuje na jezikoslovje • cilj: računalniško modeliranje in procesiranje naravnega jezika • jezikovne tehnologije • cilj: razvoj konkretnih jezikovnih virov in orodij (korpusi, slovarji / črkovalniki, prevajalniki)

  8. Jezik in računalnik Kako računalnik “razume” jezik? • Jezikovne komponente v urejevalniku besedil:črkovalnik, preverjanje slovnice, pravila za segmentacijo besed, stavkov • Kaj je beseda, kaj je stavek? • vsi podatki so za računalnik najprej nizi znakov • besede so med seboj ločene s presledki • besede so med seboj ločene s presledki ali ločili • besede so med seboj ločene s presledkom ali ločilom in presledkom • javno- in zasebnopravni vidiki, itd., $4.000.000

  9. Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov

  10. Iskanje • Zanimajo me avtomobilska podjetja. • Bomo iskaliavtomobilska podjetja, avtomobilsko podjetje? • Če me zanimajo še zadetki v angleščini:automobile companies, automobile company X zadetkov Y zadetkov

  11. Iskanje z Googlom avtomobilsko podjetje 573 avtomobilska podjetja 835 avtomobilska firma 43 avtomobilske firme 107 avtopodjetje 4 zastopnik avtomobilov 807 prodajalec avtomobilov 407 avtoprodaja 507 zastopstvo avtomobilov 405

  12. Oblika proti pomenu • Kako bi bilo mogoče zgraditi “pametni” spletni iskalnik, ki bi iskal po pomenu besede? zdravljenje anoreksije anoreksija anoreksije anoreksičnost motnje hranjenja prehranjevalne motnje odklanjanje hrane ... zdravljenje zdravljenja zdravljenju terapija terapevtski ukrepi terapije ...

  13. Problemi • Jezik ima lastnosti, ki jih človek razpozna zlahka, stroj pa mnogo težje. • Še posebej: • večpomenskost: mnoge besede imajo več pomenov • parafraze: mnoge vsebine je mogoče izraziti na več načinov • nedoločenost: mnoga jezikovna sredstva imajo nedoločen pomen, ki ga razberemo šele iz sobesedila

  14. Razsežnosti problema Razpoznavanje besed Oblikoslovje Skladnja Globina analize Pomenoslovje Pragmatika Obdelava znanja Področje Obseg jezikovnih podatkov Mnoge aplikacije zahtevajo le nizko raven analize.

  15. Strukturalistični in empirični vidiki jezikoslovja • Strukturalistični pristop: • Jezik je omejen in urejen sistem, ki temelji na pravilih. • Avtomatska obdelava jezika je mogoča s pomočjo pravil. • Pravila se oblikuje v skladu s človeško jezikovno intuicijo. • Empirični pristop: • Jezik je vsota vseh svojih udejanjanj (v govorjenih in pisnih besedilih) • Posplošitve o jeziku so mogoče le na podlagi velikih besedilnih zbirk, ki nam služijo za vzorec jezika -> korpusi • Strojno učenje (Machine Learning): • programi se naučijo modela jezika iz podatkov

  16. Jezikovne tehnologije:Raziskovalna področja • Oblikoslovje: besednovrstno oz. oblikoskladenjsko označevanje (part-of-speech tagging), lematizacija, razčlemba sestavljenih besed • Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij (osebek/povedek/...); popolna skladenjska analiza • Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni sistemi • Pomenoslovje: razreševanje večpomenskosti, avtomatska izdelava semantičnih virov (tezavrov, ontologij) • Večjezikovne tehnologije: luščenje prevodnih ustreznic iz korpusov, strojno prevajanje in tolmačenje • Jezik in internet: iskanje podatkov, rudarjenje besedil (Text Mining), napredni spletni iskalniki

  17. Kaj je korpus? • obsežna zbirka besedil • jezik v resnični in sodobni podobi • v elektronski obliki • reprezentativnost za jezik, ki naj bi ga predstavljali →vzorec • služi za opisovanje jezika (deskriptivno/empirično jezikoslovje) Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  18. Zakaj potrebujemo korpuse? • izdelava slovarjev in drugih jezikovnih virov(tudi nadomestek za slovar) • izdelava slovnic in drugih opisov jezikovne strukture • razvoj pripomočkov za prevajanje • izdelava pripomočkovza učenje jezika • raziskovanje vseh oblik jezikovnega vedenja • jezikovne tehnologije Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  19. Kako uporabljamo korpuse? • besedni seznami:Katere besede so v korpusu? V posameznem besedilu? Katere izstopajo po pogostosti uporabe? • konkordance (opazovanje besed skupaj s sobesedilom): kako so besede uporabljene? kaj torej pomenijo?  • statistične metode:opazovanje zanimivih sopojavitev besed (kolokacije), narativne študije, ... Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  20. Konkordance besede "kartica" v korpusu FidaPLUS Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  21. Zakaj nam tega ne pove slovar? Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  22. Orodja za analizo korpusov • veliki korpusi so dostikrat na spletu, skupaj s svojimi vmesniki: BNC, FidaPLUS, Nova beseda, … • verjetno najboljši medmrežni vmesnik: SketchEngine • kupljeni vmesniki na lastnem računalnikunpr. WordSmith (in seveda korpus!) • izdelava lastnih programov: npr. Perl, R • izdelava lastnih korpusov: ročno, BootCat Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  23. Gradnja Če ustreznega korpusa ni na voljo, ga moramo narediti sami Postopek: • izbira besedil: reprezentativnost, uravnoteženost, izvedljivost • digitalni zajem: OCR, Word, HTML • normalizacija besedil: enovit format • (označevanje: oblikoslovne oznake, lematizacija) • (distribucija: avtorske pravice, platforma) Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  24. Označevanje Korpus je lahko precej bolj uporaben, če je jezikoslovno označen Ravni označevanja: • leme, tj. osnovne oblike besed (hiše → hiša) • oblikoskladenjske oznake (samostalnik, ženski spol, ednina, rodilnik) • skladenjsko označevanje (povedek, osebek, …) • drugo besedilno označevanje Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  25. Iskanje po lemi “človek” Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

  26. Zapis znakov Kako so v besedilih kodirani znaki? Zakaj je to zanimivo? • kadar gre kaj narobe in č postane c, ali pa kaj drugega • kadar je potrebno uporabljati nenavadne znake (npr. bohoričico, fonetično abecedo, ...)  Obstaja veliko starejših kodnih naborov (ki pa se še uporabljajo), moderna tehnologija pa uporablja univerzalen (pa za razmeroma kompleksen) nabor znakov unikod (Unicode) Kako vstavimo posebne znake v urejevalniku Word? Korpusno jezikoslovje in jezikovne tehnologije Univerza v Novi Gorici, 2009/2010

More Related