1 / 99

6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN

6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN. 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa. 6.2. Anbiguotasunaren tratamendua: kategoria lexikala. 6.3. Hitz anitzeko unitateak eta neurri estatistikoak. 6.4. Dokumentuen sailkapena ML teknikak erabilita.

calix
Download Presentation

6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.

  2. Helburuak • LNPrako bi hurbilpen daudela azaltzea • Hurbilpen enpirikoa zertan datzan azaltzea • LNP arloan ohikoak diren hainbat metodo enpirikoen sarrera eta adibideak: • metodo estatistikoak (estokastikoak) • ikasketa automatikoa

  3. Oinarrizko bibliografia • Apunte hauen oinarria: • Empirical Methods on NLP. L. Marquez, L. Padro eta G. Rigau. UPCko LSI saileko doktorego ikastaroa. http://www.lsi.upc.es/~lluism/cursos/emnlp2.html • Metodo Estatistiko eta Induktiboak LNPrako. I. Alegria, O. Arregi, N. Ezeiza, T. Ruiz. UEUren Hiztek masterreko ikastaroko apunteak. • Foundations of Statistical Natural Language Processing (4ª ed.). C.D. Manning & H. Schütze. MIT Press. 2001. http://www-nlp.stanford.edu/fsnlp/ • Statistical Methods in NLP. P. Resnik. http://www.umiacs.umd.edu/users/resnik/nlstat_tutorial_summer1998/ • Datuak miatzen, informazioaren bila. Yosu Yurramendi. Informatika Fakultateko apunteak. • Data-Intensive Linguistics. Chris Brew and Marc Moens. www.ltg.ed.ac.uk/~chrisbr/dilbook/

  4. Decision Tree Rules COLOR (COLOR=red) Ù (SHAPE=circle) Þ positive blue red SHAPE negative circle triangle positive negative Sarrera • adimean artifizialean bezala hurbilpen enpirikoa “modan” dago • eskuz egindako erregelak • datuetatik inferitutako erregelak otherwise Þ negative

  5. ML4NLP NLP “sailkapen” problemak • Anbiguotasuna aLNPrako problema nagusietako bat da, maila guztietan azaltzen dena Anbiguotasunaren ebazpena = Sailkapena • He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus)

  6. ML4NLP NLP “sailkapen” problemak • Anbiguotasun morfosintaktikoa • He was shot in the hand as he chased the robbers in the back street NN VB JJ VB NN VB (The Wall Street Journal Corpus)

  7. ML4NLP NLP “sailkapen” problemak • Anbiguotasun morfosintaktikoa : Part of Speech Tagging (kategoriaren desanbiguazioa) • He was shot in the hand as he chased the robbers in the back street NN VB JJ VB NN VB (The Wall Street Journal Corpus)

  8. ML4NLP NLP “classification” problems • Anbiguotasun semantikoa (lexikala) • He was shot in the hand as he chased the robbers in the back street body-part clock-part (The Wall Street Journal Corpus)

  9. ML4NLP NLP “sailkapen” problemak • Anbiguotasun semantikoa (lexikala) : Hitzen Adiera Desanbiguazioa • He was shot in the hand as he chased the robbers in the back street body-part clock-part (The Wall Street Journal Corpus)

  10. ML4NLP NLP “sailkapen” problemak • Egiturazko anbiguotasuna (sintaktikoa) • He was shot in the hand as he chased the robbers in the back street (The Wall Street Journal Corpus)

  11. ML4NLP NLP “sailkapen” problemak • Egiturazko anbiguotasuna (sintaktikoa) • He was shot in the hand as he chasedthe robbersin the back street (The Wall Street Journal Corpus)

  12. ML4NLP NLP “sailkapen” problemak • Egiturazko anbiguotasuna (sintaktikoa):PP-attachment disambiguation (preposizio sintagmen kokapena) • He was shot in the hand as he (chased (the robbers)NP(in the back street)PP) (The Wall Street Journal Corpus)

  13. sailkapen arazoak Intro: E-NLP LNP enpirikoa • Anbiguotasun arazoak • Hitzaren hautapena (MT) • Kategoria • Semantika (polisemia) • Modifikatzaileen lotura • Erreferentziak (anaphora), etab. • LNPko azpiataza guztiak sailkapen arazo izateko bezala planteatu daitezke: • testuingurua ezaugarrien bidez errepresentatu • adib. kategoria: NN-2 VAUX-1 VB0 PREP+1 DET+2 • metodoren bat aplikatu hipotesi bat aukeratzeko

  14. Arrazionalismo / Enpirismoa • erregeletan oinarritutako metodoen mugak: • erregelen kopuru amaitezina • anbiguotasunari ezin aurre egin • sendotasun eza: kasu bat ez bada aurreikusi ez du ezer itzultzen • eskuzko lan izugarria (gainera pertsona taldeen koherentzia mantentzeko arazoa)

  15. Arrazionalismo / Enpirismoa • metodo enpirikoen arrakastaren arrazoiak: • ahotsaren tratamenduan arrakasta handia • testu kopurua asko ugaritu da (datuak) • ingeniaritzaren ezaugarriak • sendotasuna • sistemen garapen azkarra • metodo bera arlo edo domeinu desberdinetan aplikatzeko aukera • aplikazio komertzialen beharra: MT, IR, IE, etab. • eragozpenak • sparseness (datuen gehiegizko hedapena) • memoria asko eta adierazpide berriak (liburu batean hitz desberdinen artean erdia behin baino ez da agertzen) • agertu gabeko kasuak (0 probabilitatea): smoothing

  16. Arrazionalismo / Enpirismoa • Hurbilpen enpiriko / corpusetan oinarritutakoa / data-intensive • Metodoen janaria corpusak dira: • testu multzo handiak (egunkaria, orekatua) • ikasi nahi den informazioa eskuz etiketatua egoten da • corpusetan dauden etiketak zehazten dute zer ikasi daitekeen: hitzen kategoria, adiera, zuhaitz sintaktikoa, errepresentazio semantikoa, ...

  17. Corpusak: informazio morfosintaktikoa • Informazio morfologikoz eskuz etiketatutako corpusa, • EEBS Tamaina: 28.300 token • Egunkaria Tamaina: 14.800 token • Lema eta kategoriaz gain hitzen egitura morfologikoa • Erabilera • analizatzaile morfologiko eta lematizatzailea ebaluatzeko • lematizatzaileak desanbiguatzen ikasi dezan • eskuzko erregelak • erregela estatistikoak

  18. Corpusak : informazio morfosintaktikoa /<Eta>/<HAS_MAI>/ C ("eta" LOT JNT EMEN @PJ) ("eta" LOT MEN KAUS @+JADNAG_MP @+JADLAG_MP) /<,>/<PUNT_KOMA>/ /<azkenik>/ ("azken" DET ORD + DEK PAR MG @OBJ @SUBJ) ("azken" IZE ARR + DEK PAR MG @OBJ @SUBJ) C ("azkenik" ADB ADOARR) /<,>/<PUNT_KOMA>/ /<lurralderik>/ C ("lurralde" IZE ARR + DEK PAR MG @OBJ @SUBJ) /<urrutieneko>/ ("urruti" ADJ IZO + DEK GEN NUMP MUGM @IZLG> @<IZLG + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG...) ("urruti" ADJ IZO + DEK GEN NUMP MUGM @IZLG> @<IZLG + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG) ("urruti" ADJ IZO + GRA SUP + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG + DEK ABS MG @OBJ @SUBJ @PRED) C ("urruti" ADJ IZO + GRA SUP + DEK NUMS MUGM + DEK GEL @IZLG> @<IZLG) /<herriak>/ ("herri" IZE ARR + DEK ABS NUMP MUGM @OBJ @SUBJ @PRED) C ("herri" IZE ARR + DEK ERG NUMS MUGM @SUBJ)

  19. "<Gero>" D:395 "gero" ADB ADO HAS_MAI @ADLG "<,>" PUNT_KOMA "<hegoak>" D:223 "hego" IZE ARR DEK ABS NUMP MUGM @OBJ @SUBJ "<moztu>" D:16 "motz" ADI SIN ASP PART ZERO NOTDEK @-JADNAG "<eta>" D:392 "eta" LOT JNT @PJ @SJ AORG "<poxpolu>" "poxpolu" IZE ARR ZERO @KM "<kaxa>" D:30 "kaxa" IZE ARR ZERO AORG @KM "<batean>" D:164 "bat" DET DZH DEK NUMS MUGM DEK INE @ADLG "<gartzelaratuko>" D:187 "gartzelara" ADI SIN ASP PART ASP ETOR NOTDEK AORG @-JADNAG "<zizkizun>" D:208 "*edun" ADL B1 NR_HK NI_ZU NK_HU @+JADLAG "<$.>" PUNT_PUNT Corpusak : informazio morfosintaktikoa

  20. Corpusak : informazio sintaktikoa • Informazio sintaktikoz eskuz etiketatutako corpusa • Jatorria: morfosintaxiaz etiketatutako corpus bera • Bi eredu: • zuhaitz egitura • dependentzien zuhaitza • Erabilera: • analizatzaile sintaktikoen ebaluazioa • analizatzaile sintaktikoak ikasteko (txikia) • azpikategorizazioa aztertzeko (txikia)

  21. Corpusak : informazio sintaktikoa • Edozein lotsagabek egiten du egun telebista-programa bat.

  22. Corpusak: hitzen adierak • Adierak eskuz aukeratu Euskal Hiztegiaren arabera • 40 hitz (izen, adjektibo, aditz) • > 100 agerpen bakoitzeko • Jatorria: egunkaria, EEBS (nahiko agerpen ez) • Erabilera: • adieren zerrenda fintzeko / luzatzeko • Euskarazko hitzen “ontologia”-ren hezurdura: EusWordNet • adieren maiztasunak jakiteko • hitzen adiera topatzen duen sistemak ikas dezan

  23. Corpusak : hitzen adierak <entry> <form><orth>koroa</orth></form> <GramGrp><pos>iz.</pos></GramGrp> <usg type=time>1571</usg> <sense n='A1'> <def>Eraztun formako apaingarria, buruan ezartzen dena, abarrez, lorez... egina edota metalezkoa, <hi rend=italic>berezk.</hi> agintaritzaren ezaugarri dena.</def> <xr type = syn><lbl>Ik.</lbl><ref>burestun; buruntza</ref></xr> <eg><q>Alkatearen zumezko koroa. Urre eta diamantezko koroa. Elorrizko, arantzazko koroa. Erregeren koroa. Koroa irabazi nahi duenak.</q></eg> <sense n='A1.N2'> <def>Erregetza.</def> <eg><q>Espainiako Koroa. Ingeles koroaren mendean.</q></eg> </sense> </sense> <sense n='A2'> <def>Zirkulu formako gauzakia.</def> <eg><q>Zerraldo gaineko lorezko koroa.</q></eg> </sense> </entry>

  24. Corpusak : hitzen adierak <instance id="koroa.IZE.50" docsrc="2000-09-23.kirola3.txt" topic="kirola" sentsrc="4" positsrc="2"> <answer instance="koroa.IZE.50" senseid="koroa.A1"/> <context> Final gutxi baina izar asko izan ziren atzo olinpiar estadioan. Jokoetako errege-erreginen <head>koroak</head> janztera etorri diren atletak - Marion Jones, Maurice Green, Cathy Freeman eta Michael Johnson - atzo estreinatu ziren Sydneyko Jokoetan, ondo estreinatu ere. Guztiek erraz egin zuten aurrera euren kanporaketetan, 100 metroetakoek bi alditan, eta 400ekoak behin. </context> </instance>

  25. Corpusak: hitzen adierak • Koroa: • Adiera nagusia egunkarian %39 A1.N2 (erregetza) • Adiera berriak: moneta • Tentsio: • Bi adiera: • gatazkei lotutakoa • elektrizitateari lotutakoa • Adiera nagusia egunkarian, lehenbizikoa %98 • Adiera nagusia EEBSn, bigarrena %72 • 58 agerpen (gure zatian)

  26. Metodo enpirikoen sailkapena • gainbegiratuak/ez-gainbegiratuak • inferentzia egin ahal izateko giza-lana behar da (eskuzko desanbiguazioa normalean) • sinbolikoak/numerikoak • ikasitako eredua interpretagarria da (erregelak) edo ez (zenbakiak) • metodo konbinatuak • metodo desberdinak konbinatu daitezke • bozketa • bootstrapping • Datu gutxirekin hasita gai izatea emaitza onak ateratzen.

  27. Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa estatistikoa: • Eredu estokastikoak: ikasketa bayesiarra, markoven eredu ezkutuak, etab. • Entropia maximo bidezko ereduak • Ikasketa induktibo sinbolikoa • Erabaki zuhaitzak, erabaki zerrendak • Erregelen indukzioa • Transformation-based Error-driven Learning • Instantzietan oinarritutako ikasketa (k-nn)

  28. Metodo gainbegiratu sinbolikoen sailkapena • Ikasketa konputazionalaren teoriatik etorritakoak • WINNOW eta SNOW arkitekturak • Boosting algoritmoak • Support Vector Machines • Sailkatzaile multzoak • etab. eklektikoa

  29. Arrazionalismo / Enpirismoa (ondorio gisa) • azken urteetan gorakada handia izan dute • hausnarketa: • hurbilpen enpirikotik gertuago • hurbilpen arrazionalista: erregelak? • hurbilpen enpirikoa: estatistikak? • ez da erabat egia: ezagumendua da oinarria • ezagumendua ere probabilistikoa da • hizkuntzalariak erregelak idaztetik corpusak gainbegiratzera pasa dira • erregelak copusetatik erauz daitezke • metodoen konbinazioa

  30. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.

  31. 6.2. Anbiguotasunaren tratamendua: kategoria lexikala • Probabilitateen oinarrizko kontzeptuak • Adibidea: Kategoria-etiketatzailea

  32. Probabilitateen oinarrizko kontzeptuak: probabilitatea • Zerbait gertatuko dela esateko ziurtasuna neurtzen dugu 1 -> ziur gertatuko dela 0 -> ziur ez dela gertatuko 0.3 -> kasuetako %30ean gertatuko dela • Zorizko aldagaia • Probabilitatea aldez aurretik ezaguna den multzo baten barruan balioa hartzen duen zorizko aldagai baten gainean definitzen da. • Adb: Txanpona botatzean Leon ala Kastilo ateratzea. Bi gertaera posible: ALDEA=Leon eta ALDEA=Kastilo

  33. Oinarrizko kontzeptuak: probabilitate-funtzioa • Probabilitate-funtzio batek zorizko aldagaiaren balio bakoitzari probabilitate bat esleitzen dio. • Propietateak (E aldagaia eta e1, ..., en balio posibleak izanik) 1 PROB(ei)>=0, i guztietarako 2 PROB(ei)<=1, i guztietarako 3 i=1,nPROB(ei)=1 • Adibidea: Induraninik 1000 lasterketetan ibili eta 200 irabazi PROB(L=Irab) = PROB(L=Gald) = • edo besterik gabe PROB(Irab) = PROB(Gald) =

  34. Oinarrizko kontzeptuak: probabilitateen estimazioa • Datu guztiak edukita -> posibilitateak • Datu asko edukita -> etorkizunerako estimazioa • LNPan -> estimaziorik bai, posibilitate errealik ez. • EGIANTZ HANDIENEKO ESTIMATZAILEA • Lagin batean kalkulatu den probabilitatea erabili. • Behar adina kasu jasoz gero estimazioak nahi bezain zehatzak dira. • Problemak maiztasun gutxiko hitzekin • probabilitateak kalkulatzean agerpen-kopuruari 0,5 gehitu. • Estimazioen ebaluazioa • Korpuseko %10a edo %20a ez da erabiltzen estimazioetarako. • Emaitzak ebaluatzeko uzten da. • Sistema ez ebaluatu gero erabilitako korpus beraren gainean!

  35. Oinarrizko kontzeptuak: Baldintzapeko probabilitateak • Baldintzapeko probabilitateak • Induraniniren 1000 lasterketa horietan: 300 aldiz eguraldi bero -> 150 aldiz irabazle 700 aldiz eguraldi hotz -> 50 aldiz irabazle • Bero egin eta gainera irabazteko probabilitatea: • PROB(Irab & Bero)= • Bero egiten duenean irabazteko duen probabilitatea: • PROB(Irab | Bero)= • PROB(A | B) = PROB(A & B) / PROB(B) • Bayes-en erregela: • PROB(A|B) = PROB(B|A)*PROB(A)/PROB(B)

  36. oinarrizko kontzeptuak: Gertaera independenteak • Bietako bat gertatzeak bestea gertatzeko posibilitatean aldaketarik ez duenean. Horrelakoetan : • PROB(A | B) = PROB(A) • PROB(A & B) = PROB(A) * PROB(B) • Adibidez: Induraninik irabaztea eta Kepak lasterketa TBn ikustea. • 300 aldiz ikusi eta 60tan irabazi • PROB(Irab | KepaTB) = 0.2 => independenteak • Baina irabaztea eta bero izatea?

  37. Kategoria etiketatzailea (1. bertsioa) • Posibleena baina testuingururik gabe • 10 hitzetako esaldia hitz bakoitza 2 kategoria sintaktiko posible dauka. Zenbat konbinazio? • Ebazpidea: hitz bakoitzaren kategoria posibleena bakarrik. • Adibidez: • "flies" hitza izena (N) edo aditza (V) izan daiteke. • 1.273.000 hitzetako corpusean: 1000 aldiz, 400etan izena (N), 6000etan aditza (V) • 2 zorizko aldagai: C (kategoria) eta W (hitza) • Zein da handiena: • PROB(C=N | W=flies) edo PROB(C=V | W=flies) ? • PROB(N | flies) edo PROB(V | flies) ? • "flies" guztiak aditz gisa etiketatuz gero %60an edo asmatuko litzateke

  38. Kategoria-Etiketatzailea (2. bertsioa) • Corpus handi batean gehien azaltzen den kategoria aukeratuz gero %90erainoko arrakasta lortzen da. • (Hitzen erdia ez da anbiguo izaten) • 10 hitzeko esaldi bakoitzea errore bat!! • Hobekuntza: kontutan hartu behar da testuingurua • "The flies ..." flies aditza da hemen ere? • Formalizazioa: • w1...wT hitz-sekuentziarako lortu eurentzako C1....CT kategoria-sekuentzia posibleena • PROB(C1....CT | w1...wT) • Kalkulatu behar da konbinazio guztietan! => sinplifikazioak

  39. Kategoria-Etiketatzailea (2. bertsioa) PROB(C1....CT | w1...wT) Bayes-en erregelaz PROB(C1....CT ) * PROB(w1...wT | C1....CT ) / PROB(w1...wT) Maximoak kalkulatzeko izendatzailea kendu (konstantea da) PROB(C1....CT ) * PROB(w1...wT | C1....CT ) Bigramak erabiliz antzeko gauza bat lortu daiteke: PROB(C1....CT ) @Pi=1,T PROB(Ci | Ci-1 ) Beste sinplifikazio bat: PROB(w1...wT | C1....CT ) @Pi=1,T PROB(wi | Ci ) Beraz, hau kalkulatu behar da konbinazio bakoitzerako: Pi=1,T PROB(Ci | Ci-1 ) * PROB(wi | Ci )

  40. Kategoria-Etiketatzailea (2. bertsioa) Maximizatu Pi=1,T PROB(Ci | Ci-1 ) * PROB(wi | Ci ) • Formula hori korpus etiketatu batean kalkula daiteke • Markov-en kateak eta Markov-en eredu ezkutua erabiliz. • Ikus Allen-en liburuko 7.4, 7.5 eta 7.6 irudiak • Edo baita Viterbi-ren algoritmoa erabiliz azkarrago egiteko. • Ikus Allen-en liburuko 7.8, 7.10, 7.11 eta 7.12 irudiak • Teknika hau erabiliz %95eko arrakasta lortzen da • Hitz-trigrama erabiliz doitasuna handiagoa da.

  41. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.

  42. Zipfen legea • oinarria: • maiztasuna x postua~K • postua: maiztasunaren araberako ordena • eskala logaritmikoan lerro baten hurbilpena, bi muturretako desbiderapen txikiarekin • esfortzu txikienaren printzipioan oinarriturik • esperimentuak: ingelesezeuskaraz

  43. Hitz anitzekoak • Ardo beltza (vino tinto) • Hitz egin (hablar) • Pikutara bidali (mandar a paseo) • Pull one’s leg (hanka sartu) • Itsasora joan (ir al mar) ??? • Los Angeles • United Nations • Laser printer, two-sided laser printer • Etxe gorria ???

  44. Kolokazioak • Sailkapen zaila: hitz bi edo gehiago • collocation (kolokazioak): • unitate sintaktiko edo semantikoa • konposaketa hutsa ez (esanahi berezia) • ordezkapenik ez (ardo zuria/horia) • aldaketarik ez (ezin edozein modutan konbinatu) • adib. terminologia, izen bereziak, aditz konposatuak, lokuzioak • co-ocurrence (agerkidetzak): • unitaterik ez • testuinguru berean • adib. sendagile-erizain, txalupa-kai

  45. Kolokazioaen identifikazioa • Hurbilpen tradizionala • Linguistak eskuz bilatu • Hurbilpen enpiriko • Enpirikoki bilatu nola karakterizatu kolokazioak • Ezaugarri linguistikoak (ize+ize, etab.) • Ezaugarri estatistikoak (elkarrekin azaltzeko joera)

  46. Kolokazioen identifikazioa • arazoak: • jarraituak/ez (co-ocurrence?) hitz gutxi egin • ordenan/ez ez egin hitzik • forma/lema (lematizazioa?) hitzik egin ez • estatistikak: • iragazketa linguistikoa • stop-lista, morfosintaxia, ... • elkarrekin agertzeko joera • Maiztasunak, bestelako test estatistikoak • askotan maiztasun minimoa • esperimentuak: ingelesez

  47. Mutual Information • log(p(x,y)/p(x)p(y)) • balioen artean, ez aldagaien artean • neurri ona, baina • arazoak maiztasun txikiekin • P(x) = kontaketa(x)/N

  48. 6. ARRAZIONALISMO / ENPIRISMOA HIZKUNTZAREN PROZESAMENDUAN 6.1. Sarrera. Hizkuntzaren prozesamendua sailkapen-problema gisa.6.2. Anbiguotasunaren tratamendua: kategoria lexikala.6.3. Hitz anitzeko unitateak eta neurri estatistikoak.6.4. Dokumentuen sailkapena ML teknikak erabilita.

  49. Dokumentuen Sailkapena • Lengoaia naturaleko testuak etiketatu edo sailkatu • Aurredefinituriko kategoria multzoa • 80. hamarkada arte sailkatzaile automatikoak eskuz egiten ziren (sistema adituak)  erregelak • baldin (formula boolearra) orduan (kategoria) • Eragozpena: testuingurua aldatuz gero, erregelak aldatu behar dira • 90. hamarkadan ikasketa automatikoa • Denbora  gutxiago • Zehaztasuna  berdintsua

  50. Dokumentuen Sailkapena • Aplikazioak: • Interneteko atariak: web orriak sailkatu • Berri agentziak: artikuluak dagozkien sekziotan • Dokumentuen iragazkia: berri-agentzia  egunkaria zaborra (spammerrak) • Desanbiguazioa: banku (informatika / ekonomia)

More Related