FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF nuria.bel@upf.edu Classe 8

El programa 2. Les paraules • Identificació d’unitats, els mots. Autòmats i expressions regulars • Categories lèxiques i categories funcionals. Propietats estadístiques, morfològiques i semàntica lèxica • Compostos i col·locacions. Mesures d’associació lèxica • Morfemes i analitzadors morfològics. Transductors d’estats finits i morfologia de doble nivell

Tasques / problemes identificació unitats: el mot processament de diferents característiques quantitatives, morfològiques i semàntiques compostos i col·locacions Tècniques de processament: simbòliques expressions regulars autòmats transductors d’estats finits probabilístiques mesures d’associació lèxica Resum del tema 2

Tot seguint el programa • Hem parlat de les unitats que volíem reconèixer, i de les tècniques usades per identificar-les i assignar una representació. • Ara parlarem de cadenes d’unitats: seqüències de paraules o ítems i del seu processament: • per a què? • com?

El programa 3.Cadenes de paraules i Models de llenguatge • Seqüències i models de n-grames. • Etiquetatge i Models de llenguatge. Categories, etiquetes, desambiguació basada en regles, estocàstica i Cadenes de Markov.

R E C O R D A T O R I • Hem vist característiques quantitatives: • Paraules i la seva freqüència • Paraules que surten juntes amb més freqüència que el que seria esperable (Informació Mútua)

Model per distribució de les paraules • Volem caracteritzar (modelar) la distribució dels elements d’una llengua: podem processar (identificar i afegir informació) llenguatge si sabem com apareixen els elements? • Tindrem capacitat de predicció? exemple de seqüències de lletres • eq • eg • el -a -e -i

Model 1 • Totes les paraules tenen la mateixa probabilitat de sortir, • però apareixeran segons la seva freqüència d’aparició normal • ‘el’ FR: 0,0380 • ‘arterial’ FR: 0,00092 • Però, si ja tenim una paraula.... ens interessa la probabilitat que té de sortir una paraula donada la paraula anterior: • donada la paraula “pressió” qui té més probabilitat de sortir immediatament després: “el” o “arterial”

Probabilitat condicionada • P(A|B) = La probabilitat de què havent-se donat B, A també es doni o sigui veritat P(el|pressió) P(arterial|pressió) • Com saber-ho? • primer mirem casos i computem la probabilitat (entrenament) • usem la informació per preveure casos no vistos (usem la probabilitat per la seva capacitat predictiva)

Ho mirarem al corpus de l’IULA: secció medicina Llengua dels documents: Castellà Àmbits temàtics seleccionats: Medicina Nombre de paraules : 4.402.980 Quantitat de documents: 401 Nombre de ocurrències de “presión”: 1812 • “presión arterial” 280 / 1812 = 0,154 • “presión el” 1 = 0,0005 (vivir bajo presión el stress)

Bigrames (2-grames)Assumpció de Markov • I per seqüències de n paraules? • Usarem la probabilitat condicionada també per a tota una seqüència la probabilitat que té una paraula, donada tota una seqüència de paraules anteriors, serà la probabilitat d’una paraula donada l’anterior, i així successivament. P(wn|wn-1) • En Markov assumeix que amb dos elements ja podem anar calculant la probabilitat d’una cadena de qualsevol llargada (amb un error assumible...)

0,0005 % 0,1% pressió el arterial Autòmats amb pesos i Cadena de Markov • Usarem un autòmat d’estats finits amb pesos: cada arc està associat a una probabilitat de transició a un altre. • Una cadena de Markov és un cas especial d’autòmat d’estats finits amb pesos

Model de llenguatge • Model de llenguatge: Una representació probabilística de la distribució de paraules en un corpus que caracteritza les propietats distribucionals d’una llengua • Modelar-ho com un autòmat ens permet representar/formular seqüències ordenades i afegir informació estadística • Si la informació estadística la convertim en probabilitat (valors entre 0 i 1) podem aplicar-ho a seqüències mai vistes: capacitat predictiva

Consideracions chomskyanes • En els models basats en l’observació de dades què passa si no s’ha vist una seqüència? • És perillós tenir un P(x)=0 perquè fem el producte • Tècnicament, la solució és fer “smoothing” • Res no garanteix que funcioni sempre correctament, però funcionarà bé per als casos més freqüents, és a dir, per la majoria dels casos. • L’error és petit. És assumible? Dependrà de l’aplicació

La tècnica de bigrames s’aplica a • La probabilitat de que a una forma x li segueixi la forma y • De que a un article li segueixi un nom • De que a un article femení singular li segueixi un N femení singular • De que a un SN li segueixi un SV • De que a un subjecte li segueixi un predicat ...

Tasques / problemes reconeixement de la parla reconeixement d’escriptura OCR escriptura predictiva desambiguació automàtica (‘PoS tagging’) pre-processament Tècniques de processament probabilístiques probabilitat condicionada (Bigrames o Trigrames) Models ocults de Markov Model de llenguatge

Una aplicació en detall: Etiquetar textos • Hem vist els analitzadors morfològics: anàlisis per a assignar una possible representació de la informació no explícita que la paraula du: lema e informació morfosintàctica, • però per a formes com “abono” ens donarà 2 resultats

Assignació automàtica d’etiquetesPart of Speech Tagging • assignació automàtica d’etiquetes (PoS tagging): es el procés de assignar una categoria o marcador de classe lèxica a cada paraula d’un corpus: • abono abono|Ncms • abono abonar|Vmip1s • L’input d’un etiquetador és una cadena de paraules i el conjunt de etiquetes que volem assignar.

El problema • Accés al diccionari i formes homògrafes: casos de ambigüitat: TAGS: 216 AMBIGUOUS TAGS: 268

Tècniques per a ‘PoS tagging’ • sistemes basats en tècniques estadístiques (Model Ocult de Markov, seria un exemple) • sistemes basats en regles simbòliques • arquitectures híbrides (regles i estadística) com el de Brill (1992) que està basat en regles que determinen quan una paraula ambigua ha de tenir una etiqueta determinada. Però aquestes regles s’indueixen automàticament a partir d’un corpus d’entrenament.

Etiquetament basat en regles • els primers sistemes d’etiquetat automàtic (Harris 1962, Klein & Simmons, 1963, Greene & Rubin 1973). • Primer es busquen les paraules en un diccionari on se’ls assignen totes les possibles categories, i després s’aplica un component de regles per anar eliminant algunes fins reduir-ho a una

Basat en regles, “Constraint Grammars” • Voutilainen (1995) usa la mateixa arquitectura de l’ENGTWOL però amb el lèxic i les regles més sofisticades • http://www.lingsoft.fi/cgi-bin/engtwol • En un primer estadi cada paraula es passa per un transductor lèxic de dos nivells. • Desprès s’aplica un conjunt de “restriccions” (constraints) que usats de forma negativa eliminen els casos de possible ambigüitat

Regles de restriccions (1100) that – Conjunció / ADV intensificador Given input: that if (+1 A/ADV/QUANT); /* si la próxima palabra es adj, adv o /* cuantificador (+2 SENT-LIM); /* y la siguiente un límite de frase (NOT – 1 SVOC/A); /* y la palabra anterior no es un verbo /* que admita /* complementos adjetivos then elimina las etiquetas que no sean ADV else elimina la etiqueta ADV

RTAG – Expressions regularsPorta, Marimon, Bel (1994) / (i)- Contexts promoting articles: // Following unambiguous prepositions or unambiguous verbs (or any ambiguity between them) or 'entre' or unambiguous infinitives @ PostPrepVfinVinf_Td &{@@PREP || @@V_FIN}& || &{@@V_INF}& < < @@ART_DEF >

Predicció probabilísticaModel ocult de Markov (HMM) • La predicció de la categoria es basa en un model de n-grames i estableix un Model del llenguatge: una representació probabilística de la distribució de categories en el text • http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ • Per a una seqüència de paraules, els etiquetadors HMM seleccionen la seqüència d’etiquetes que té el valor màxim segons la següent fòrmula: P(paraula|etiqueta) * P(etiqueta|n etiquetes anteriors)

Sistemes híbrids: l’etiquetador de Brill • Aprenentatge automàtic (Machine Learning) Brill (1992) http://research.microsoft.com/~brill/ • TBL té regles que especifiquen quines etiquetes haurien d’assignar-se a quines paraules, i una tècnica d’aprenentatge automàtic en el que les regles s’indueixen automàticament a partir de les dades.

Brill: 2 etapes • l’etiquetador assigna l’etiqueta més probable a cada paraula, que ha obtingut a partir d’un corpus ja etiquetat • passa a les regles de transformació. Conforme es van aplicant, l’etiquetador aprèn les regles que corregeixen els errors comesos en el pas anterior comparant les etiquetes (i contextos) que té en el corpus ja etiquetat.

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL Lingüística - UPF