Fonaments de processament del llenguatge natural 13305 ling stica upf
This presentation is the property of its rightful owner.
Sponsored Links
1 / 30

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF PowerPoint PPT Presentation


  • 74 Views
  • Uploaded on
  • Presentation posted in: General

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF. [email protected] Classe 6. El programa. 4. Les oracions · Sintaxi: L’estructura de l’oració x Categories, constituents i funcions. x Gramàtiques, regles lliures de context i arbres.

Download Presentation

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Fonaments de processament del llenguatge natural 13305 ling stica upf

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL13305 – Lingüística - UPF

[email protected]

Classe 6


El programa

El programa

4.Les oracions

·Sintaxi: L’estructura de l’oració

xCategories, constituents i funcions.

xGramàtiques, regles lliures de context i arbres.

xAnalitzadors: algoritmes i tècniques de cerca.

·Processament d’informació sintàctica.

xConcordança. Coordinació. Subcategorització.

xTrets i unificació. Formalismes d’Unificació.

xGramàtiques lliures de context augmentades amb unificació.  


Contin a

continúa ...

·Anàlisi sintàctica probabilística amb gramàtiques lliures de context. Anàlisi probabilística lexicalitzada.

·Semàntica: El significat de les oracions

xPrincipi de composicionalitat i lògica de primer ordre.

xPredicats i arguments. Papers temàtics. Restriccions de selecció

xRepresentació de la informació semàntica.

xInformació semàntica a les gramàtiques d’unificació.


En aquesta sessi

En aquesta sessió

4.Les oracions

·Sintaxi: L’estructura de l’oració

xCategories, constituents i funcions.

xGramàtiques, regles lliures de context i arbres.

xAnalitzadors: algoritmes i tècniques d’exploració.

·Processament d’informació sintàctica.

xConcordança. Coordinació. Subcategorització.

xTrets i unificació. Formalismes d’Unificació.

xGramàtiques lliures de context augmentades amb unificació.  


Sintaxi

Sintaxi

  • Hocket (1954): “És un error pensar que les emissions més extenses que les paraules no són més que combinacions mecàniques d’unitats més petites” doncs hi ha seqüències (morfemàtiques) que no tenen sentit:

    “ese parque están secas”

    “las flores de ese parque están secas”

  • El que és més important per al PLN:

    el césped de *[ese parque está seco]

    [[el césped [de ese parque]] [está seco]]


Sintaxi 2 un par ntesi

Sintaxi (2)Un parèntesi

  • I seqüències que no són frases d’una llengua, però on la raó no és que no tenen significat

    *Què qui vol?

    *el arroz y pescado come gato

  • L’argument chomskyà és que hi ha frases gramaticals que no tenen sentit: “Colourless green ideas sleep furiously”

  • i que ha de ser possible descriure les combinacions de paraules que resulten gramaticals amb mitjans finits


Parsing an lisi en constituents wells 1947 hockett 1954

Parsing: anàlisi en constituentsWells (1947) Hockett (1954)

  • [O [SN la niña] [SVcantó [SNlas canciones]]

  • [O [SN ella] [SVcantó [SNlas canciones]]

  • [O [SN la niña] [Svcantó [SNcanciones]]

  • [O [SN la niña] [SVcantó]

  • [O [SVcantó]]

    Representem amb [Sintagma C [Nucli C]] les

    relacions de dominància i precedència


Categories parts de l oraci

Categories(Parts de l’oració)

  • Hem discriminat per criteris entre “Categories Lèxiques” i “Categories Funcionals” les parts de l’oració.

  • Però també elevarem a “categoria” altra informació que tenen les paraules i que ens ha de ser molt útil per definir els constituents

    • gènere

    • nombre

    • temps/aspecte


Jerarquia domin ncia abast scope

Jerarquia: dominància(abast – ‘scope’)

  • Estructuració del sintagma en termes d’especificador/modificador i nucli

    [algunos y no todos los] niños


Funcions i preced ncia

Funcions i precedència

  • Informació sobre l’ordre de les paraules i dels sintagmes:

    • * niña la cantó

    • un perro cazó un gato

    • un gato cazó un perro

  • L’ordre determina la funció


Representaci en rbres reflexa l an lisi en constituents

Subjecte

Representació en àrbres: reflexa l’anàlisi en constituents


Gram tiques lliures de context context free grammars cfg

gramàtiques lliures de context (Context Free Grammars - CFG)

  • El formalisme matemàtic usat per tal de modelar les estructures de constituents són les gramàtiques lliures de context (CFG), també anomenades Phrase Structure Grammars, i el formalisme de les quals és equivalent a les Backus Naur Form o BNF.

  • A  aB

  • Una CFG consisteix en un conjunt de regles (o produccions) i un lèxic de símbols.

  • Símbols: terminals (lèxic de paraules d’una llengua) i no terminals (N, Art, SN, que expressen les generalitzacions)

  • És declaratiu: diem què, no diem com


Gram tiques lliures de context

llista ordenada de 1 o més terminals o no terminals

1 símbol no terminal

Gramàtiques lliures de context

  • La forma de les regles està restringida:

    A  aB

llegim: solament tindrem A si tenim aB


La nostra primera cfg

La nostra primera “CFG”

O  SN SV

SN  Art N

SV  V SN

Art  la

N  niña

V  cantó


Propietats de les cfg s

Propietats de les CFG’s

  • l’única operació és la concatenació de símbols

  • l’única representació que assigna és la de constituents

  • els símbols no terminals no tenen propietats associades

  • els símbols terminals són atòmics, no tenen estructura interna

  • el coneixement gramatical està codificat a les regles de producció


Objectiu donar a cada interpretaci una estructura

Objectiu: donar a cada interpretació una estructura

(S

(SN

(N pasajero))

(SV

(VT1 exhiba)

(SN

(SN

(N abono))

(CC o)

(SN

(N pase)))))

(S

(SN

(N pasajero))

(SV

(SV

(VT1 exhiba)

(SN

(N abono)))

(CC o)

(SV

(VI pase))))


Parsing an lisi amb cfg s

Parsing – Anàlisi amb CFG’s

  • Per nosaltres fer una anàlisi és una combinació de reconèixer una seqüència d’elements i assignar-li una representació.

  • Una representació útil (conté informació) és assignar cada oració una estructura en constituents.

    Però:

  • Hem separat el coneixement lingüístic del procediment:

    • la gramàtica és declarativa

    • Analitzador: No sap fer res més que anar a la gramàtica i mirar les regles per executar les instruccions


L analitzador algorisme d exploraci search

L’analitzador Algorisme d’exploració (search)

Hi ha dos restriccions que han de guiar l’exploració:

-  Pel que fa a l’input: Sigui quina sigui l’anàlisi final, ha de tenir tants terminals com paraules tingui l’input.

-  Pel que fa a la gramàtica. Sigui com sigui l’arbre resultant, ha de tenir una única arrel: el símbol O, el nostre símbol inicial.


Estrat gies d exploraci de l analitzador

Estratègies d’exploració de l’analitzador

  • bottom-up o data-directed (“de baix a dalt” o “dirigit per les dades”): comencem pels terminals, aplicant totes les regles la banda dreta de les quals correspongui a la seqüència observada re-escribint el símbol de la banda esquerra fins que tinguem ‘O’.

  • top-down o goal-oriented (“de dalt a baix” o “orientat a l’objectiu”): a partir del símbol ‘O’, intentarem construir totes les possibles re-escriptures: buscarà a la banda esquerra per produir deduccions segons la banda dreta de la regla.


Altres instruccions per a l analitzador

Altres instruccions per a l’analitzador

Però necessitem donar-li més:

  • Profunditat primer (“Depth first”): comprova totes les possibles expansions d’un símbol abans de passar al següent símbol de la llista

  • Amplitud primer (Breath first): comprova totes les possibles expansions de tots els elements de la llista abans de passar al següent nivell.

  • D’esquerra a dreta i De dreta a esquerra


Analitzem explorant l arbre de decisions possibles

Analitzem, explorant l’arbre de decisions possibles

O  SN SV

SN  Art N

SN  N

SV  V SN

Art  la

N  niña

N  canciones

V  cantó

“La niña cantó canciones”


Comparaci d algoritmes

Comparació d’algoritmes

Cada una d’aquestes dues estratègies d’exploració té avantatges i desavantatges:

  • top-down no perd temps explorant arbres que no poden acabar essent una ‘O’

  • però perd el temps explorant arbres que no correspondran a la cadena d’entrada, de fet construirà tots els possibles per veure quin pot casar amb la cadena d’entrada.


L algorisme d early

L’algorisme d’Early

  • Tècnica de programació dinàmica (emmagatzema sistemàticament les solucions a sub-problemes) per a un top-down, breath-first, esquerra-dreta

  • emplena una llista (vector) que anomena chart y que conté N+1 entrades.

  • Para cada posició de paraules en l’oració, el chart conté una llista de estats que representen els arbres parcials d’anàlisis que han estat generats fins al moment.


Chart parsing

Chart parsing

1 la2 niña 3 cantó 4

Creem objectes on es representen el progrés i les regles de producció:

<1,2, D  la >

<2,3, N  niña >

Està complet si el  està al final ,

Incomplet en cas contrari


  • Login