990 likes | 1.18k Views
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN. 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6.2. Anbiguotasunaren tratamendua: kategoria lexikala. 6.3. Hitz anitzeko unitateak eta neurri estatistikoak. 6.4. Dokumentuen sailkapena ML teknikak erabilita.
E N D
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.
Helburuak • LNPrako bi hurbilpen daudela azaltzea • Hurbilpen enpirikoa zertan datzan azaltzea • LNP arloan ohikoak diren hainbat metodo enpirikoen sarrera eta adibideak: • metodo estatistikoak (estokastikoak) • ikasketa automatikoa
Oinarrizko bibliografia • Apunte hauen oinarria: • Empirical Methods on NLP. L. Marquez, L. Padro eta G. Rigau. UPCko LSI saileko doktorego ikastaroa. http://www.lsi.upc.es/~lluism/cursos/emnlp2.html • Metodo Estatistiko eta Induktiboak LNPrako. I. Alegria, O. Arregi, N. Ezeiza, T. Ruiz. UEUren Hiztek masterreko ikastaroko apunteak. • Foundations of Statistical Natural Language Processing (4ª ed.). C.D. Manning & H. Schütze. MIT Press. 2001. http://www-nlp.stanford.edu/fsnlp/ • Statistical Methods in NLP. P. Resnik. http://www.umiacs.umd.edu/users/resnik/nlstat_tutorial_summer1998/ • Datuak miatzen, informazioaren bila. Yosu Yurramendi. Informatika Fakultateko apunteak. • Data-Intensive Linguistics. Chris Brew and Marc Moens. www.ltg.ed.ac.uk/~chrisbr/dilbook/
Decision Tree Rules COLOR (COLOR=red) Ù (SHAPE=circle) Þ positive blue red SHAPE negative circle triangle positive negative Sarrera • adimean artifizialean bezala hurbilpen enpirikoa “modan” dago • eskuz egindako erregelak • datuetatik inferitutako erregelak otherwise Þ negative
ML4NLP NLP “sailkapen” problemak • Anbiguotasuna aLNPrako problema nagusietako bat da, maila guztietan azaltzen dena Anbiguotasunaren ebazpena = Sailkapena • He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus)
ML4NLP NLP “sailkapen” problemak • Anbiguotasun morfosintaktikoa • He was shot in the hand as he chased the robbers in the back street NN VB JJ VB NN VB (The Wall Street Journal Corpus)
ML4NLP NLP “sailkapen” problemak • Anbiguotasun morfosintaktikoa : Part of Speech Tagging (kategoriaren desanbiguazioa) • He was shot in the hand as he chased the robbers in the back street NN VB JJ VB NN VB (The Wall Street Journal Corpus)
ML4NLP NLP “classification” problems • Anbiguotasun semantikoa (lexikala) • He was shot in the hand as he chased the robbers in the back street body-part clock-part (The Wall Street Journal Corpus)
ML4NLP NLP “sailkapen” problemak • Anbiguotasun semantikoa (lexikala) : Hitzen Adiera Desanbiguazioa • He was shot in the hand as he chased the robbers in the back street body-part clock-part (The Wall Street Journal Corpus)
ML4NLP NLP “sailkapen” problemak • Egiturazko anbiguotasuna (sintaktikoa) • He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus)
ML4NLP NLP “sailkapen” problemak • Egiturazko anbiguotasuna (sintaktikoa) • He was shot in the hand as he chasedthe robbersin the back street (The Wall Street Journal Corpus)
ML4NLP NLP “sailkapen” problemak • Egiturazko anbiguotasuna (sintaktikoa):PP-attachment disambiguation (preposizio sintagmen kokapena) • He was shot in the hand as he (chased (the robbers)NP(in the back street)PP) (The Wall Street Journal Corpus)
sailkapen arazoak Intro: E-NLP LNP enpirikoa • Anbiguotasun arazoak • Hitzaren hautapena (MT) • Kategoria • Semantika (polisemia) • Modifikatzaileen lotura • Erreferentziak (anaphora), etab. • LNPko azpiataza guztiak sailkapen arazo izateko bezala planteatu daitezke: • testuingurua ezaugarrien bidez errepresentatu • adib. kategoria: NN-2 VAUX-1 VB0 PREP+1 DET+2 • metodoren bat aplikatu hipotesi bat aukeratzeko
Arrazionalismo / Enpirismoa • erregeletan oinarritutako metodoen mugak: • erregelen kopuru amaitezina • anbiguotasunari ezin aurre egin • sendotasun eza: kasu bat ez bada aurreikusi ez du ezer itzultzen • eskuzko lan izugarria (gainera pertsona taldeen koherentzia mantentzeko arazoa)
Arrazionalismo / Enpirismoa • metodo enpirikoen arrakastaren arrazoiak: • ahotsaren tratamenduan arrakasta handia • testu kopurua asko ugaritu da (datuak) • ingeniaritzaren ezaugarriak • sendotasuna • sistemen garapen azkarra • metodo bera arlo edo domeinu desberdinetan aplikatzeko aukera • aplikazio komertzialen beharra: MT, IR, IE, etab. • eragozpenak • sparseness (datuen gehiegizko hedapena) • memoria asko eta adierazpide berriak (liburu batean hitz desberdinen artean erdia behin baino ez da agertzen) • agertu gabeko kasuak (0 probabilitatea): smoothing
Arrazionalismo / Enpirismoa • Hurbilpen enpiriko / corpusetan oinarritutakoa / data-intensive • Metodoen janaria corpusak dira: • testu multzo handiak (egunkaria, orekatua) • ikasi nahi den informazioa eskuz etiketatua egoten da • corpusetan dauden etiketak zehazten dute zer ikasi daitekeen: hitzen kategoria, adiera, zuhaitz sintaktikoa, errepresentazio semantikoa, ...
Corpusak: informazio morfosintaktikoa • Informazio morfologikoz eskuz etiketatutako corpusa, • EEBS Tamaina: 28.300 token • Egunkaria Tamaina: 14.800 token • Lema eta kategoriaz gain hitzen egitura morfologikoa • Erabilera • analizatzaile morfologiko eta lematizatzailea ebaluatzeko • lematizatzaileak desanbiguatzen ikasi dezan • eskuzko erregelak • erregela estatistikoak
Corpusak : informazio morfosintaktikoa /<Eta>/<HAS_MAI>/ C ("eta" LOT JNT EMEN @PJ) ("eta" LOT MEN KAUS @+JADNAG_MP @+JADLAG_MP) /<,>/<PUNT_KOMA>/ /<azkenik>/ ("azken" DET ORD + DEK PAR MG @OBJ @SUBJ) ("azken" IZE ARR + DEK PAR MG @OBJ @SUBJ) C ("azkenik" ADB ADOARR) /<,>/<PUNT_KOMA>/ /<lurralderik>/ C ("lurralde" IZE ARR + DEK PAR MG @OBJ @SUBJ) /<urrutieneko>/ ("urruti" ADJ IZO + DEK GEN NUMP MUGM @IZLG> @<IZLG + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG...) ("urruti" ADJ IZO + DEK GEN NUMP MUGM @IZLG> @<IZLG + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG) ("urruti" ADJ IZO + GRA SUP + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG + DEK ABS MG @OBJ @SUBJ @PRED) C ("urruti" ADJ IZO + GRA SUP + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG) /<herriak>/ ("herri" IZE ARR + DEK ABS NUMP MUGM @OBJ @SUBJ @PRED) C ("herri" IZE ARR + DEK ERG NUMS MUGM @SUBJ)
"<Gero>" D:395 "gero" ADB ADO HAS_MAI @ADLG "<,>" PUNT_KOMA "<hegoak>" D:223 "hego" IZE ARR DEK ABS NUMP MUGM @OBJ @SUBJ "<moztu>" D:16 "motz" ADI SIN ASP PART ZERO NOTDEK @-JADNAG "<eta>" D:392 "eta" LOT JNT @PJ @SJ AORG "<poxpolu>" "poxpolu" IZE ARR ZERO @KM "<kaxa>" D:30 "kaxa" IZE ARR ZERO AORG @KM "<batean>" D:164 "bat" DET DZH DEK NUMS MUGM DEK INE @ADLG "<gartzelaratuko>" D:187 "gartzelara" ADI SIN ASP PART ASP ETOR NOTDEK AORG @-JADNAG "<zizkizun>" D:208 "*edun" ADL B1 NR_HK NI_ZU NK_HU @+JADLAG "<$.>" PUNT_PUNT Corpusak : informazio morfosintaktikoa
Corpusak : informazio sintaktikoa • Informazio sintaktikoz eskuz etiketatutako corpusa • Jatorria: morfosintaxiaz etiketatutako corpus bera • Bi eredu: • zuhaitz egitura • dependentzien zuhaitza • Erabilera: • analizatzaile sintaktikoen ebaluazioa • analizatzaile sintaktikoak ikasteko (txikia) • azpikategorizazioa aztertzeko (txikia)
Corpusak : informazio sintaktikoa • Edozein lotsagabek egiten du egun telebista-programa bat.
Corpusak: hitzen adierak • Adierak eskuz aukeratu Euskal Hiztegiaren arabera • 40 hitz (izen, adjektibo, aditz) • > 100 agerpen bakoitzeko • Jatorria: egunkaria, EEBS (nahiko agerpen ez) • Erabilera: • adieren zerrenda fintzeko / luzatzeko • Euskarazko hitzen “ontologia”-ren hezurdura: EusWordNet • adieren maiztasunak jakiteko • hitzen adiera topatzen duen sistemak ikas dezan
Corpusak : hitzen adierak <entry> <form><orth>koroa</orth></form> <GramGrp><pos>iz.</pos></GramGrp> <usg type=time>1571</usg> <sense n='A1'> <def>Eraztun formako apaingarria, buruan ezartzen dena, abarrez, lorez... egina edota metalezkoa, <hi rend=italic>berezk.</hi> agintaritzaren ezaugarri dena.</def> <xr type = syn><lbl>Ik.</lbl><ref>burestun; buruntza</ref></xr> <eg><q>Alkatearen zumezko koroa. Urre eta diamantezko koroa. Elorrizko, arantzazko koroa. Erregeren koroa. Koroa irabazi nahi duenak.</q></eg> <sense n='A1.N2'> <def>Erregetza.</def> <eg><q>Espainiako Koroa. Ingeles koroaren mendean.</q></eg> </sense> </sense> <sense n='A2'> <def>Zirkulu formako gauzakia.</def> <eg><q>Zerraldo gaineko lorezko koroa.</q></eg> </sense> </entry>
Corpusak : hitzen adierak <instance id="koroa.IZE.50" docsrc="2000-09-23.kirola3.txt" topic="kirola" sentsrc="4" positsrc="2"> <answer instance="koroa.IZE.50" senseid="koroa.A1"/> <context> Final gutxi baina izar asko izan ziren atzo olinpiar estadioan. Jokoetako errege-erreginen <head>koroak</head> janztera etorri diren atletak - Marion Jones, Maurice Green, Cathy Freeman eta Michael Johnson - atzo estreinatu ziren Sydneyko Jokoetan, ondo estreinatu ere. Guztiek erraz egin zuten aurrera euren kanporaketetan, 100 metroetakoek bi alditan, eta 400ekoak behin. </context> </instance>
Corpusak: hitzen adierak • Koroa: • Adiera nagusia egunkarian %39 A1.N2 (erregetza) • Adiera berriak: moneta • Tentsio: • Bi adiera: • gatazkei lotutakoa • elektrizitateari lotutakoa • Adiera nagusia egunkarian, lehenbizikoa %98 • Adiera nagusia EEBSn, bigarrena %72 • 58 agerpen (gure zatian)
Metodo enpirikoen sailkapena • gainbegiratuak/ez-gainbegiratuak • inferentzia egin ahal izateko giza-lana behar da (eskuzko desanbiguazioa normalean) • sinbolikoak/numerikoak • ikasitako eredua interpretagarria da (erregelak) edo ez (zenbakiak) • metodo konbinatuak • metodo desberdinak konbinatu daitezke • bozketa • bootstrapping • Datu gutxirekin hasita gai izatea emaitza onak ateratzen.
Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa estatistikoa: • Eredu estokastikoak: ikasketa bayesiarra, markoven eredu ezkutuak, etab. • Entropia maximo bidezko ereduak • Ikasketa induktibo sinbolikoa • Erabaki zuhaitzak, erabaki zerrendak • Erregelen indukzioa • Transformation-based Error-driven Learning • Instantzietan oinarritutako ikasketa (k-nn)
Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa konputazionalaren teoriatik etorritakoak • WINNOW eta SNOW arkitekturak • Boosting algoritmoak • Support Vector Machines • Sailkatzaile multzoak • etab. eklektikoa
Arrazionalismo / Enpirismoa (ondorio gisa) • azken urteetan gorakada handia izan dute • hausnarketa: • hurbilpen enpirikotik gertuago • hurbilpen arrazionalista: erregelak? • hurbilpen enpirikoa: estatistikak? • ez da erabat egia: ezagumendua da oinarria • ezagumendua ere probabilistikoa da • hizkuntzalariak erregelak idaztetik corpusak gainbegiratzera pasa dira • erregelak copusetatik erauz daitezke • metodoen konbinazioa
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.
6.2. Anbiguotasunaren tratamendua: kategoria lexikala • Probabilitateen oinarrizko kontzeptuak • Adibidea: Kategoria-etiketatzailea
Probabilitateen oinarrizko kontzeptuak: probabilitatea • Zerbait gertatuko dela esateko ziurtasuna neurtzen dugu 1 -> ziur gertatuko dela 0 -> ziur ez dela gertatuko 0.3 -> kasuetako %30ean gertatuko dela • Zorizko aldagaia • Probabilitatea aldez aurretik ezaguna den multzo baten barruan balioa hartzen duen zorizko aldagai baten gainean definitzen da. • Adb: Txanpona botatzean Leon ala Kastilo ateratzea. Bi gertaera posible: ALDEA=Leon eta ALDEA=Kastilo
Oinarrizko kontzeptuak: probabilitate-funtzioa • Probabilitate-funtzio batek zorizko aldagaiaren balio bakoitzari probabilitate bat esleitzen dio. • Propietateak (E aldagaia eta e1, ..., en balio posibleak izanik) 1 PROB(ei)>=0, i guztietarako 2 PROB(ei)<=1, i guztietarako 3 i=1,nPROB(ei)=1 • Adibidea: Induraninik 1000 lasterketetan ibili eta 200 irabazi PROB(L=Irab) = PROB(L=Gald) = • edo besterik gabe PROB(Irab) = PROB(Gald) =
Oinarrizko kontzeptuak: probabilitateen estimazioa • Datu guztiak edukita -> posibilitateak • Datu asko edukita -> etorkizunerako estimazioa • LNPan -> estimaziorik bai, posibilitate errealik ez. • EGIANTZ HANDIENEKO ESTIMATZAILEA • Lagin batean kalkulatu den probabilitatea erabili. • Behar adina kasu jasoz gero estimazioak nahi bezain zehatzak dira. • Problemak maiztasun gutxiko hitzekin • probabilitateak kalkulatzean agerpen-kopuruari 0,5 gehitu. • Estimazioen ebaluazioa • Korpuseko %10a edo %20a ez da erabiltzen estimazioetarako. • Emaitzak ebaluatzeko uzten da. • Sistema ez ebaluatu gero erabilitako korpus beraren gainean!
Oinarrizko kontzeptuak: Baldintzapeko probabilitateak • Baldintzapeko probabilitateak • Induraniniren 1000 lasterketa horietan: 300 aldiz eguraldi bero -> 150 aldiz irabazle 700 aldiz eguraldi hotz -> 50 aldiz irabazle • Bero egin eta gainera irabazteko probabilitatea: • PROB(Irab & Bero)= • Bero egiten duenean irabazteko duen probabilitatea: • PROB(Irab | Bero)= • PROB(A | B) = PROB(A & B) / PROB(B) • Bayes-en erregela: • PROB(A|B) = PROB(B|A)*PROB(A)/PROB(B)
oinarrizko kontzeptuak: Gertaera independenteak • Bietako bat gertatzeak bestea gertatzeko posibilitatean aldaketarik ez duenean. Horrelakoetan : • PROB(A | B) = PROB(A) • PROB(A & B) = PROB(A) * PROB(B) • Adibidez: Induraninik irabaztea eta Kepak lasterketa TBn ikustea. • 300 aldiz ikusi eta 60tan irabazi • PROB(Irab | KepaTB) = 0.2 => independenteak • Baina irabaztea eta bero izatea?
Kategoria etiketatzailea (1. bertsioa) • Posibleena baina testuingururik gabe • 10 hitzetako esaldia hitz bakoitza 2 kategoria sintaktiko posible dauka. Zenbat konbinazio? • Ebazpidea: hitz bakoitzaren kategoria posibleena bakarrik. • Adibidez: • "flies" hitza izena (N) edo aditza (V) izan daiteke. • 1.273.000 hitzetako corpusean: 1000 aldiz, 400etan izena (N), 6000etan aditza (V) • 2 zorizko aldagai: C (kategoria) eta W (hitza) • Zein da handiena: • PROB(C=N | W=flies) edo PROB(C=V | W=flies) ? • PROB(N | flies) edo PROB(V | flies) ? • "flies" guztiak aditz gisa etiketatuz gero %60an edo asmatuko litzateke
Kategoria-Etiketatzailea (2. bertsioa) • Corpus handi batean gehien azaltzen den kategoria aukeratuz gero %90erainoko arrakasta lortzen da. • (Hitzen erdia ez da anbiguo izaten) • 10 hitzeko esaldi bakoitzea errore bat!! • Hobekuntza: kontutan hartu behar da testuingurua • "The flies ..." flies aditza da hemen ere? • Formalizazioa: • w1...wT hitz-sekuentziarako lortu eurentzako C1....CT kategoria-sekuentzia posibleena • PROB(C1....CT | w1...wT) • Kalkulatu behar da konbinazio guztietan! => sinplifikazioak
Kategoria-Etiketatzailea (2. bertsioa) PROB(C1....CT | w1...wT) Bayes-en erregelaz PROB(C1....CT ) * PROB(w1...wT | C1....CT ) / PROB(w1...wT) Maximoak kalkulatzeko izendatzailea kendu (konstantea da) PROB(C1....CT ) * PROB(w1...wT | C1....CT ) Bigramak erabiliz antzeko gauza bat lortu daiteke: PROB(C1....CT ) @Pi=1,T PROB(Ci | Ci-1 ) Beste sinplifikazio bat: PROB(w1...wT | C1....CT ) @Pi=1,T PROB(wi | Ci ) Beraz, hau kalkulatu behar da konbinazio bakoitzerako: Pi=1,T PROB(Ci | Ci-1 ) * PROB(wi | Ci )
Kategoria-Etiketatzailea (2. bertsioa) Maximizatu Pi=1,T PROB(Ci | Ci-1 ) * PROB(wi | Ci ) • Formula hori korpus etiketatu batean kalkula daiteke • Markov-en kateak eta Markov-en eredu ezkutua erabiliz. • Ikus Allen-en liburuko 7.4, 7.5 eta 7.6 irudiak • Edo baita Viterbi-ren algoritmoa erabiliz azkarrago egiteko. • Ikus Allen-en liburuko 7.8, 7.10, 7.11 eta 7.12 irudiak • Teknika hau erabiliz %95eko arrakasta lortzen da • Hitz-trigrama erabiliz doitasuna handiagoa da.
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.
Zipfen legea • oinarria: • maiztasuna x postua~K • postua: maiztasunaren araberako ordena • eskala logaritmikoan lerro baten hurbilpena, bi muturretako desbiderapen txikiarekin • esfortzu txikienaren printzipioan oinarriturik • esperimentuak: ingelesezeuskaraz
Hitz anitzekoak • Ardo beltza (vino tinto) • Hitz egin (hablar) • Pikutara bidali (mandar a paseo) • Pull one’s leg (hanka sartu) • Itsasora joan (ir al mar) ??? • Los Angeles • United Nations • Laser printer, two-sided laser printer • Etxe gorria ???
Kolokazioak • Sailkapen zaila: hitz bi edo gehiago • collocation (kolokazioak): • unitate sintaktiko edo semantikoa • konposaketa hutsa ez (esanahi berezia) • ordezkapenik ez (ardo zuria/horia) • aldaketarik ez (ezin edozein modutan konbinatu) • adib. terminologia, izen bereziak, aditz konposatuak, lokuzioak • co-ocurrence (agerkidetzak): • unitaterik ez • testuinguru berean • adib. sendagile-erizain, txalupa-kai
Kolokazioaen identifikazioa • Hurbilpen tradizionala • Linguistak eskuz bilatu • Hurbilpen enpiriko • Enpirikoki bilatu nola karakterizatu kolokazioak • Ezaugarri linguistikoak (ize+ize, etab.) • Ezaugarri estatistikoak (elkarrekin azaltzeko joera)
Kolokazioen identifikazioa • arazoak: • jarraituak/ez (co-ocurrence?) hitz gutxi egin • ordenan/ez ez egin hitzik • forma/lema (lematizazioa?) hitzik egin ez • estatistikak: • iragazketa linguistikoa • stop-lista, morfosintaxia, ... • elkarrekin agertzeko joera • Maiztasunak, bestelako test estatistikoak • askotan maiztasun minimoa • esperimentuak: ingelesez
Mutual Information • log(p(x,y)/p(x)p(y)) • balioen artean, ez aldagaien artean • neurri ona, baina • arazoak maiztasun txikiekin • P(x) = kontaketa(x)/N
6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.
Dokumentuen Sailkapena • Lengoaia naturaleko testuak etiketatu edo sailkatu • Aurredefinituriko kategoria multzoa • 80. hamarkada arte sailkatzaile automatikoak eskuz egiten ziren (sistema adituak) erregelak • baldin (formula boolearra) orduan (kategoria) • Eragozpena: testuingurua aldatuz gero, erregelak aldatu behar dira • 90. hamarkadan ikasketa automatikoa • Denbora gutxiago • Zehaztasuna berdintsua
Dokumentuen Sailkapena • Aplikazioak: • Interneteko atariak: web orriak sailkatu • Berri agentziak: artikuluak dagozkien sekziotan • Dokumentuen iragazkia: berri-agentzia egunkaria zaborra (spammerrak) • Desanbiguazioa: banku (informatika / ekonomia)