fonaments de processament del llenguatge natural 13305 ling stica upf
Download
Skip this Video
Download Presentation
FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF

Loading in 2 Seconds...

play fullscreen
1 / 30

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF - PowerPoint PPT Presentation


  • 119 Views
  • Uploaded on

FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF. [email protected] Classe 6. El programa. 4. Les oracions · Sintaxi: L’estructura de l’oració x Categories, constituents i funcions. x Gramàtiques, regles lliures de context i arbres.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' FONAMENTS DE PROCESSAMENT DEL LLENGUATGE NATURAL 13305 – Lingüística - UPF' - chuong


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
el programa
El programa

4.Les oracions

·Sintaxi: L’estructura de l’oració

xCategories, constituents i funcions.

xGramàtiques, regles lliures de context i arbres.

xAnalitzadors: algoritmes i tècniques de cerca.

·Processament d’informació sintàctica.

xConcordança. Coordinació. Subcategorització.

xTrets i unificació. Formalismes d’Unificació.

xGramàtiques lliures de context augmentades amb unificació.  

contin a
continúa ...

·Anàlisi sintàctica probabilística amb gramàtiques lliures de context. Anàlisi probabilística lexicalitzada.

·Semàntica: El significat de les oracions

xPrincipi de composicionalitat i lògica de primer ordre.

xPredicats i arguments. Papers temàtics. Restriccions de selecció

xRepresentació de la informació semàntica.

xInformació semàntica a les gramàtiques d’unificació.

en aquesta sessi
En aquesta sessió

4.Les oracions

·Sintaxi: L’estructura de l’oració

xCategories, constituents i funcions.

xGramàtiques, regles lliures de context i arbres.

xAnalitzadors: algoritmes i tècniques d’exploració.

·Processament d’informació sintàctica.

xConcordança. Coordinació. Subcategorització.

xTrets i unificació. Formalismes d’Unificació.

xGramàtiques lliures de context augmentades amb unificació.  

sintaxi
Sintaxi
  • Hocket (1954): “És un error pensar que les emissions més extenses que les paraules no són més que combinacions mecàniques d’unitats més petites” doncs hi ha seqüències (morfemàtiques) que no tenen sentit:

“ese parque están secas”

“las flores de ese parque están secas”

  • El que és més important per al PLN:

el césped de *[ese parque está seco]

[[el césped [de ese parque]] [está seco]]

sintaxi 2 un par ntesi
Sintaxi (2)Un parèntesi
  • I seqüències que no són frases d’una llengua, però on la raó no és que no tenen significat

*Què qui vol?

*el arroz y pescado come gato

  • L’argument chomskyà és que hi ha frases gramaticals que no tenen sentit: “Colourless green ideas sleep furiously”
  • i que ha de ser possible descriure les combinacions de paraules que resulten gramaticals amb mitjans finits
parsing an lisi en constituents wells 1947 hockett 1954
Parsing: anàlisi en constituentsWells (1947) Hockett (1954)
  • [O [SN la niña] [SVcantó [SNlas canciones]]
  • [O [SN ella] [SVcantó [SNlas canciones]]
  • [O [SN la niña] [Svcantó [SNcanciones]]
  • [O [SN la niña] [SVcantó]
  • [O [SVcantó]]

Representem amb [Sintagma C [Nucli C]] les

relacions de dominància i precedència

categories parts de l oraci
Categories(Parts de l’oració)
  • Hem discriminat per criteris entre “Categories Lèxiques” i “Categories Funcionals” les parts de l’oració.
  • Però també elevarem a “categoria” altra informació que tenen les paraules i que ens ha de ser molt útil per definir els constituents
    • gènere
    • nombre
    • temps/aspecte
jerarquia domin ncia abast scope
Jerarquia: dominància(abast – ‘scope’)
  • Estructuració del sintagma en termes d’especificador/modificador i nucli

[algunos y no todos los] niños

funcions i preced ncia
Funcions i precedència
  • Informació sobre l’ordre de les paraules i dels sintagmes:
    • * niña la cantó
    • un perro cazó un gato
    • un gato cazó un perro
  • L’ordre determina la funció
gram tiques lliures de context context free grammars cfg
gramàtiques lliures de context (Context Free Grammars - CFG)
  • El formalisme matemàtic usat per tal de modelar les estructures de constituents són les gramàtiques lliures de context (CFG), també anomenades Phrase Structure Grammars, i el formalisme de les quals és equivalent a les Backus Naur Form o BNF.
  • A  aB
  • Una CFG consisteix en un conjunt de regles (o produccions) i un lèxic de símbols.
  • Símbols: terminals (lèxic de paraules d’una llengua) i no terminals (N, Art, SN, que expressen les generalitzacions)
  • És declaratiu: diem què, no diem com
gram tiques lliures de context

llista ordenada de 1 o més terminals o no terminals

1 símbol no terminal

Gramàtiques lliures de context
  • La forma de les regles està restringida:

A  aB

llegim: solament tindrem A si tenim aB

la nostra primera cfg
La nostra primera “CFG”

O  SN SV

SN  Art N

SV  V SN

Art  la

N  niña

V  cantó

propietats de les cfg s
Propietats de les CFG’s
  • l’única operació és la concatenació de símbols
  • l’única representació que assigna és la de constituents
  • els símbols no terminals no tenen propietats associades
  • els símbols terminals són atòmics, no tenen estructura interna
  • el coneixement gramatical està codificat a les regles de producció
objectiu donar a cada interpretaci una estructura
Objectiu: donar a cada interpretació una estructura

(S

(SN

(N pasajero))

(SV

(VT1 exhiba)

(SN

(SN

(N abono))

(CC o)

(SN

(N pase)))))

(S

(SN

(N pasajero))

(SV

(SV

(VT1 exhiba)

(SN

(N abono)))

(CC o)

(SV

(VI pase))))

parsing an lisi amb cfg s
Parsing – Anàlisi amb CFG’s
  • Per nosaltres fer una anàlisi és una combinació de reconèixer una seqüència d’elements i assignar-li una representació.
  • Una representació útil (conté informació) és assignar cada oració una estructura en constituents.

Però:

  • Hem separat el coneixement lingüístic del procediment:
    • la gramàtica és declarativa
    • Analitzador: No sap fer res més que anar a la gramàtica i mirar les regles per executar les instruccions
l analitzador algorisme d exploraci search
L’analitzador Algorisme d’exploració (search)

Hi ha dos restriccions que han de guiar l’exploració:

-  Pel que fa a l’input: Sigui quina sigui l’anàlisi final, ha de tenir tants terminals com paraules tingui l’input.

-  Pel que fa a la gramàtica. Sigui com sigui l’arbre resultant, ha de tenir una única arrel: el símbol O, el nostre símbol inicial.

estrat gies d exploraci de l analitzador
Estratègies d’exploració de l’analitzador
  • bottom-up o data-directed (“de baix a dalt” o “dirigit per les dades”): comencem pels terminals, aplicant totes les regles la banda dreta de les quals correspongui a la seqüència observada re-escribint el símbol de la banda esquerra fins que tinguem ‘O’.
  • top-down o goal-oriented (“de dalt a baix” o “orientat a l’objectiu”): a partir del símbol ‘O’, intentarem construir totes les possibles re-escriptures: buscarà a la banda esquerra per produir deduccions segons la banda dreta de la regla.
altres instruccions per a l analitzador
Altres instruccions per a l’analitzador

Però necessitem donar-li més:

  • Profunditat primer (“Depth first”): comprova totes les possibles expansions d’un símbol abans de passar al següent símbol de la llista
  • Amplitud primer (Breath first): comprova totes les possibles expansions de tots els elements de la llista abans de passar al següent nivell.
  • D’esquerra a dreta i De dreta a esquerra
analitzem explorant l arbre de decisions possibles
Analitzem, explorant l’arbre de decisions possibles

O  SN SV

SN  Art N

SN  N

SV  V SN

Art  la

N  niña

N  canciones

V  cantó

“La niña cantó canciones”

comparaci d algoritmes
Comparació d’algoritmes

Cada una d’aquestes dues estratègies d’exploració té avantatges i desavantatges:

  • top-down no perd temps explorant arbres que no poden acabar essent una ‘O’
  • però perd el temps explorant arbres que no correspondran a la cadena d’entrada, de fet construirà tots els possibles per veure quin pot casar amb la cadena d’entrada.
l algorisme d early
L’algorisme d’Early
  • Tècnica de programació dinàmica (emmagatzema sistemàticament les solucions a sub-problemes) per a un top-down, breath-first, esquerra-dreta
  • emplena una llista (vector) que anomena chart y que conté N+1 entrades.
  • Para cada posició de paraules en l’oració, el chart conté una llista de estats que representen els arbres parcials d’anàlisis que han estat generats fins al moment.
chart parsing
Chart parsing

1 la2 niña 3 cantó 4

Creem objectes on es representen el progrés i les regles de producció:

<1,2, D  la >

<2,3, N  niña >

Està complet si el  està al final ,

Incomplet en cas contrari

ad