History of Natural Language Processing in Computational Linguistics

Lingvistica Corpusului(2009) Prof. Dan Tufis tufis@racai.ro

Prelucrarea limbajului natural (PLN) • Sub-domeniu al Inteligenţei Artificiale (ramură a Ş.C =>realiz. de programe ce manifestă capabilităţi similare inteligenţei umane) care are ca obiect realiz. de programe ce prelucrează limbajul uman. • Lingvistica computaţională (LC) • Ramură a ştiinţelor limbajului care utilizează calculatorul ca instrument de investigaţie: distincţia cheie faţă de lingv. trad.: caracterizarea se realiz. computaţional (confirm./infirm. a unui model) • Ingineria limbajului/lingvistică (IL)=Tehnologia limbajului uman (TLU)= Ingineria Limbajului Uman(ILU) • Disciplină a ingineriei software orientată pe realiz. de sisteme practice ce implică prelucrarea limbajului uman. Construirea şi rez. sunt direct măs. şi pred.; se bazează pe o colecţie în continuă expansiune de tehnici / metode, “folclor”, euristici, practici şi intuiţii-ARTĂ

Dacă diversitatea teoretică din LT, LC şi PLN = • forţa centrifugă pentru consensul cercetărilor şi cercetătorilor • atunci finanţarea orientată pe obiective (CE, DARPA, MITI, etc) = • forţa centripetă a cercetărilor şi cercetătorilor din IL/TL/TLU/ILU (standardizarea, reutilizarea, dezvoltările de tip colaborativ) • Este IL/TL/TLU/ILU un domeniu nou şi distinct? • DA! El are propriile metode, metodologii, specificităţi: • realizarea de sisteme de dimensiuni mari şi de utilitate practică • măsurarea progresului cantitativ al performanţelor prin testarea unor exemple de sisteme mari • deschiderea către orice tehnică, plauzibilă sau nu d.p.v lingvistic care asigură progresul performanţelor • promovează importanţa ingineriei software in general şi în special reutilizabilitatea, robusteţea, eficienţa şi productivitatea • promovează colaborarea interdisciplinară (sinergism)

Istoric al Prelucrarii Limbajului Natural 1946: Warren Weaver - sugereaza aplicarea tehnicilor de decodificare la recunoasterea mecanica a aspectelor fundamentale ale LN 1949: Warren Weaver scrie “Translation” 1952: Prima conferinta de TA 1954: U. Georgetown (Peter Toma) + IBM primul experiment de TA (engleza-rusa) 250 cuvinte, 6 reguli >1955 Europa: Anglia (U. Cambridge), Franta (GETA), URSS (Academia din Moscova), Germania (U. Bonn) Asia: Japonia (MITI-”Yamato”1959) ... 1957: “Syntactic Structures” -Noam Chomsky 1960: Avertismentul lui Bar-Hillel 1962: Erica Domonkos (Timisoara) 1966: Raportul ALPAC, 1966-1975 “Deceniul negru al PLN” Proiectele de anvergura sunt stopate; cercetarea continua in grupuri restranse (individuale)

Lucrari teoretice si aplicative importante totusi: 1968: “The Case for Case“ Ch. Fillmore 1969: “Speech Acts” J.R. Searle 1970: “An Efficient Context-Free Parsing Algorithm” J. Earley 1970: “Transition Network Grammars for Natural Language Analysis” W. Woods 1971: ”Conceptual Dependency: a Theory of Natural Language Understanding” R. Schank 1972: “Understanding Natural Language” T. Winograd 1973: “The MIND System” M. Kay 1973: Peter Toma termina Systran 1974: “Formal Philosophy”R. Montague >1975 Puternica revigorare a domeniului. Apar teoriile si formalismele lingvistice moderne: 1978 Metamorphosis Grammars - A. Colmerauer 1979 Functional Grammars - M. Kay 1980 Government & Binding - N. Chomsky 1980 Definite Clause Grammars - F.Pereira, D. Warren

1981 Discourge Grammars - A. Joshi, B. Webber, I. Sag 1982 Lexical Functional Grammars - J. Bresnan, R. Kaplan 1982-1989 EUROTRA 1983 Functional Unification Grammars - Martin Kay 1984 Tree Adjoined Grammars - A. Joshi 1985 GPSG - G.Gazdar, E. Klein, G.Pullum, I. Sag 1986 PATR - S. Shieber, L. Karttunnen 1987 Head Phrase Structure Grammars - C.Pollard, I.Sag 1988 Categorial Grammars 1992 Revised Theory on HPSG - C.Pollard, I.Sag >1990 Masiva orientare a lingvistilor spre teorii computationale şi reapariţia abordărilor bazate pe analiză statistică. Lingvistica bazata pe corpus (abordare orientata pe date)

1994-2000 Programul Strategic European “Ingineria Limbajului” 2000 > Tranzitia de la web1.0 (html browsing) web2.0 (date statice->surse de continut si functionalitate: platforme de calcul ce ofera servicii web); tehnologiile NLP orientate pe prelucrarea (superficiala a) volumelor mari de date si pe ontologii. web3.0 (semantic web: continutul web devine o sursa de cunostinte si aplicatii compozite; populat de agenti software dotati cu capabilitati cognitive) tehnologiile NLP orientate pe prelucrarea (de adancime a) volumelor mari de date si pe multiple ontologii heterogene.

2002 > Revigorarea a interesului pentru SMT (text si voce), QA in domenii deschise (succese notabile) 2002 > Constientizarea necesitatii unor infrastructuri globale pentru asigurarea prelucrarilor multilingve (GWA, Language Grid, CLARIN, etc) • Resursele lingvistice si tehnologiile limbajului apar pentru prima oara in programul national de cercetare dezvoltare al Romaniei (2007-2013) 2007-2010 Programul Cadru 7 al Uniunii Europene NLP (resurse si tehnologii) va avea un rol major in realizarea sistemelor cognitive si a serviciilor multilinguale in contextul web-ului semantic

Ce vom studia noi? PLN? LC? IL/TL/TLU? • câte puţin din toate (doar pentru limbajul scris) • De ce ? • nici unul dintre punctele de vedere nu rezolvă problema ce şi-a propus-o. • metodele de investigare ştiinţifică sunt complementare (speranţa sinergiei este mare) • fără o privire de ansamblu, este greu de previzibilă proficienţa • viitorului specialist (oricare specializare)

Text intrare Rezultat Resurse lingvistice PROCESOR LINGVISTIC Indiferent de paradigmă, elementul comun este idea realizării unui program de prelucrare a limbajului natural. Structura cea mai generală a unui astfel de sistem evidenţiază 2 componente: Procesor lingvistic: segmentator lexical analizor/generator morfologic dezambiguizator morfo-lexical analizor/generator sintactic interpretor semantic rezolvator de problemă … etc Resurse lingvistice: corpusuri (mono- şi multilingve) lexicoane (mono- şi multilingve) dicţionare (mono- şi multilingve) gramatici (monolingve, de transfer) … etc.

Resurse lingvistice lexicon (formă ocurenţă, lemă, descriere morfo-lexicală) morfologie (paradigmatică, derivativă) dicţionar (informaţii lexicale, sintactice, semantice, pragmatice) gramatică (o teorie, un formalism) ... corpusuri = evidenţă pentru introspecţie, exemple pentru inducţie (învăţare), mediu de validare (sgml, xml, etc.) standardizare de ce ? reutilizare, interoperabilitate, interschimb XML: TEI, XCES, etc ==> corpus ==> lexicon ==>schelet gramatică dicţionar, gramatică

Corpus şi corpus computaţional • noţiune relativ nouă, încă nu există un consens asupra definiţiei şi clasificării: • A corpus is a collection of pieces of language that are • selected and ordered according to explicit linguistic criteria • in order to be used as a sample of the language. • A computer corpus is a corpus which is encoded in a standardised and homogenous way for open-ended • retrieval tasks. Its constituent pieces of language are • documented as to their origins and provenance; • John Sinclair, 1996

pentru mai mult de 20 de ani (din cei cca. 30 ai lingv. corpus) corpusul Brown (1967) a fost considerat standard: • 1.000.000 cuvinte distribuţie aprox. egală între registre si genuri lingv. 500 de eşantioane de câte 2000 de cuvinte eşantioanele extrase din texte publicate • 1985: Birmingham Collection of English Texts 20.000.000 cuv. • 1995: Bank of English 200.000.000 cuvinte • 2005: un corpus comun 2.000.000.000 cuvinte • Un corpus, în general, are o compoziţie heterogenă din punct de vedere lingvistic.

Sub-corpus, component şi sub-limbaj • un corpus poate fi împărţit în sub-corpusuri care au aceleaşi proprietăţi, doar că sunt mai mici • un corpus sau un sub-corpus se compune din componenţi; un component este o colecţie omogenă de texte selectate după anumite criterii lingvistice ce ii asigură omogenitatea • limbajul ilustrat de un component se mai numeşte sub-limbaj • Caracteristici ale corpusurilor • Dimensiune (mare), • Calitate(autentic), • Reprezentativitate (nr. de oameni “expuşi” la limbajul din corpus), • Documentare (structură, convenţii, etc.)

Clasificarea corpusurilor (controversată) Diverse criterii de clasificare: Corpus textual/Corpus de vorbire Corpus reprezentational/Corpus experimental Corpus public/Corpus privat Corpus special Corpus literar clasificat după: autor, gen, perioadă, temă, şcoală etc. Corpus cu limbajul copiilor, cu limbajul străinilor, cu limbaj dialectal etc. Corpus de referinţă Foarte mare, acoperă toate varietăţile relevante de limbă şi vocabularul comun al limbii; este de obicei structurat ierarhic pe sub-corpusuri şi componenţi Ex. standard BoE:(Ziare:50Mcuv, Cărţi:45Mcuv,Reviste:45Mcuv, Radio: 40Mcuv, Ephemera 1.5Mcuv, Vorbire informală:8.5 Mcuv

Corpusurile de referinţă sunt în responsabilitatea unor instituţii specializate ale ţării respective (ex. Institutul pentru Corpusul Limbii Cehe) Corpus monitor: introduce dimensiunea diacronică a limbajuluiun derivat al corpusurilor de referinţă pentru care activitatea de întreţinere se bazează pe noţiunea de “debit de limbă”reprezentând volume constante (să spunem 10 Mcuv/an-lună-săptamână) de eşantioane de limbaj introduse în corpusul de referinţă. Deschide posibilitatea cercetărilor susţinute de date obiective în domeniul evoluţiei limbii, vocabular/sintaxă, atestarea riguroasă a importurilor neologice, etc. Corpus paralel O colecţie de texte fiecare din ele fiind traduse în una sau mai multe limbi. Colecţia textelor în fiecare limbă reprezentată în corpusul paraleltrebuie să îndeplinească criteriile unui corpus

Corpusuri comparabile Două sau mai multe corpusuri pentru limbi diferite ce conţin texte similare. Criteriile de similaritate sunt dificil de cuantificat, elementul esenţial referindu-se la sens (de pildă, texte jurnalistice, texte juridice, texte comerciale etc)

History of Natural Language Processing in Computational Linguistics