in ynieria lingwistyczna n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Inżynieria lingwistyczna PowerPoint Presentation
Download Presentation
Inżynieria lingwistyczna

Loading in 2 Seconds...

play fullscreen
1 / 34

Inżynieria lingwistyczna - PowerPoint PPT Presentation


  • 106 Views
  • Uploaded on

Inżynieria lingwistyczna. Agnieszka Mykowiecka Instytut Podstaw Informatyki, PAN agn@pjwstk.edu.pl materiały z wykładów na stronie: http:\\www.ipipan.waw.pl\~agn\inl.htm. Tematyka wykładów.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Inżynieria lingwistyczna' - lacy


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
in ynieria lingwistyczna
Inżynieria lingwistyczna

Agnieszka Mykowiecka

Instytut Podstaw Informatyki, PAN

agn@pjwstk.edu.pl

materiały z wykładów na stronie:

http:\\www.ipipan.waw.pl\~agn\inl.htm

tematyka wyk ad w
Tematyka wykładów
  • czego dotyczą terminy: inżynieria lingwistyczna, lingwistyka komputerowa przetwarzanie języka naturalnego,
  • dziedziny NLP: fonetyka/ortografia, fonologia, morfologia, składnia, semantyka, pragmatyka,
  • rodzaje danych lingwistycznych i możliwość ich wykorzystania (słowniki, korpusy),
  • tradycyjne (formalne i proceduralne) podejście do analizy i syntezy języka,
  • statystyczne metody przetwarzania języka,
  • zastosowania: wyszukiwanie informacji tekstowych, organizacja danych tekstowych, automatyczne streszczanie tekstów, systemy pytań i odpowiedzi, tłumaczenie, wspomaganie tłumaczenia.
literatura
Literatura

Jurafsky Daniel, Martin James H. Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Upper Saddle River 2000 Prentice Hall.http://www.cs.colorado.edu/~martin/slp.html

Manning Christopher D., Schutze Hinrich. Foundations of Statistical Natural Language Processing. Cambridge 1999 The MIT Press.

Inderjeet Mani, Mark T. Maybury (eds) Advances in Automatic Text Summarization. Cambridge 1999 MIT Press.

Winograd, T., Understanding Natural Language, Academic Press, New York, 1972.

Jelinek Frederick. Statistical Methods for Speech Recognition. Cambridge 1999 MIT Press.

Mykowiecka, A. Inżynieria Lingwistyczna. Wydawnictwo PJWSTK 2007

przetwarzanie j zyka naturalnego r ne perspektywy
Przetwarzanie języka naturalnego -różne perspektywy
  • lingwistyka formalna i komputerowa(Computational Linguistics)
  • przetwarzanie języka naturalnego(Natural Language Processing)
  • INżynieria Lingwistyczna(Linguistic Engineering; LE;

Human Language Technology, HLT)

  • psycholingwistyka komputerowa(Computational

Psycholinguistics)

  • rozpoznawanie sygnału mowy (automaticspeech recognition, ASR)
  • synteza sygnału mowy (speech synthesis)
troch historii 1
Trochę historii (1)

Podstawy (lata 40-te, 50-te)

  • automaty; ( Turing, 1936; model obliczeń),
  • automaty skończone, wyrażenia regularne; Kleene, 1951, 1956
  • zastosowanie modeliMarkova do analizy języka; Shanon, 1948
  • formalny opis języka, gramatyki bezkontekstowe, Chomsky 1956 (niezależnie Backus i Naur, 1959 i 1960)
  • zdefiniowanie entropii jako miary pojemności informacyjnej, wyniki dla języka angielskiego, Shanon,
  • spektrograf dźwiękowy (Koenig, 1946) i pierwszy system analizy mowy (cyfry), Bell Labs, Davis, 1952
troch historii 2
Trochę historii (2)
  • Dwa obozy, 1957-1970
    • przetwarzanie symboliczne (formalne),
      • gramatyka generatywna
        • Chomsky
        • kompletny system parsujący dla angielskiego- TDAP (Z. Haris, University of Pennsylvania)
      • sztuczna inteligencja (AI), McCarthy, Minsky ...
    • metody statystyczne
    • pierwsze prace korpusowe

(Brown corpus of American English,

Brown University, 1mln słów)

troch historii 3
Trochę historii (3)
  • Cztery podejścia, 1970-1983
    • metody statystyczne (HMM) IBM Thomas J. Watson Research Center, Carnegie Mellon University, AT&T Bell Laboratories
    • metody oparte o logiki formalne (Prolog, DCG, LFG)
    • natural-language-understanding field,
      • system SHRUDLU, Winograd, 1972,
      • sieci semantyczne Shank („Yale School”),
      • wykorzystanie logiki predykatów do reprezentacji semantycznej - system LUNAR, Woods 1963-73;
    • modelowanie dyskursu, Grosz, 1977, Perrault & Allen
troch historii 4
Trochę historii (4)
  • Ponowne „odkrycie”: metody empiryczne i automaty stanów skończonych, 1983-1993
    • wykorzystanie automatów do analizy morfologicznej (Kaplan, Kay, 1981)
    • metody analizy statystycznej mowy (IBM Research Centre)
    • ...
  • Połączenie wysiłków od 1994
    • włączenie metod statystycznych do wszystkich dziedzin NLP

All scientific discoveries are in principle multiplies, including those that on the surface appear to be singletons, Robert K. Merton (1961)

co chcemy osi gn
Co chcemy osiągnąć?
  • Test Turinga: maszyna naśladuje człowieka w sposób nieodróżnialny dla słuchacza (czytelnika) ,
    • „przepowiednia” Turinga: pod koniec XX w. maszyna dysponująca pamięcią 10GB będzie miała 30% szans na „oszukanie”, że jest człowiekiem w ciągu 5-minutowej rozmowy
    • NIESTETY? NIE, ale np. zaskakująco sprawna ELIZA,Weizenbaum, 1966(przykład rozmowy z oryginalnej wersji, ale jest też ``odmłodzona'' wersja w sieci (http://www-ai.ijs.si/eliza/eliza.html).

User: Men are all alike.

Eliza: In what way?

U: There're always bugging us about something or other.

E: Can you think of a specific example?

U: Well, my boyfriend made me come here.

E: Your boyfriend made you come here?

U: He says I'm depressed much of the time.

E: I am sorry to hear you are depressed

linguboty
Linguboty
  • Lingubot (bot, chater bot) wirtualny rozmówca na stronach WWW, program tworzony do pełnienia zadań automatycznej i dobrze poinformowanej pomocy klientom dużych firm (banków, firm telekomunikacyjnych, ubezpieczeniowych, finansowych; z technologii Lingubot (Kiwilogic.com AG) korzystają między innymi SAP, DaimlerChrysler, IKEA, Alfa Romeo, Novartis, Schering, Volkswagen, grupa Zurich;
  • Polski przedstawiciel fidointeractive (www.fido.pl),

wdrożenie m.in. w Hestia SA

Cześć! Cieszę się, że się znowu spotykamy, A.

Czy wiesz, że w "Twoim Stylu" pojawiła się wzmianka

o Hubercie – naszym nowym Lingubocie™?

Może chcesz dowiedzieć się czegoś o Lingubotach™

i ofercie fido interactive czy też wolisz sobie ze mną luźno pogawędzić?

Witaj, A.!Jestem doradcą klientów Grupy Ergo Hestia. W czym mogę pomóc?

co musimy zrobi
Co musimy zrobić?

We can only see a short distance ahead, but we can see plenty there that needs to be done. Alan Turing

  • Ogromna przepaść między możliwościami człowieka, a możliwościami systemów komputerowych (w odróżnieniu od operowania na liczbach czy dużych zbiorach informacji strukturalnych gdzie widać dużą przewagę systemów komputerowych)
  • Rozumienie i prawidłowe reagowanie na wypowiedzi (teksty) w języku naturalnym wymaga udziału wiedzy spoza tekstu (z nieograniczonego praktycznie zakresu) i skomplikowanych (nie poznanych do końca, nieklasycznych) metod wnioskowania.
czym zajmuje si in ynieria lingwistyczna
Czym zajmuje się inżynieria lingwistyczna ?

Inżynieria lingwistyczna to opracowywanie metod i konstruowanie narzędzi umożliwiających automatyczne przetwarzanie języka naturalnego.

Etapy przetwarzania: ( wypowiedź )

tekst w języku naturalnym

reprezentacja semantyczna(np. logiczna)

reakcja (wykonanie operacji, sformułowanie odpowiedzi)

( synteza mowy )

cele nlp
Cele NLP
  • poznawcze(jak jest zbudowany język, na czym polega posługiwanie się językiem jego rozumienie nauka ...),
  • gromadzenie danych lingwistycznych(słowniki ogólne i specjalistyczne, korpusy tekstów, gramatyki, ...)
  • wykorzystywanie języka naturalnego w systemach komputerowych:
    • wyszukiwanie informacji,
    • automatyczne streszczanie tekstów,
    • systemy pytań i odpowiedzi,
    • organizacja danych tekstowych,
    • wspomaganie tłumaczenia
zadania in ynierii lingwistycznej
Zadania inżynierii lingwistycznej
  • rozpoznawanie mowy
    • rozpoznawanie sygnału mowy w otoczeniu szumu
    • korekcja błędów wymowy
    • czytanie z ust(?)
  • rozumienie języka
  • generowanie wypowiedzi w języku naturalnym
  • wyszukiwanie informacji (Information Retrieval IR)
  • selekcja informacji(Information Extraction IE)
  • wnioskowanie
wybrane aplikacje
Wybrane aplikacje
  • dużo aplikacji dotyczących syntezy i analizy mowy
    • RealSpeak (Text-To-Speach system, 19 języków, w tym polski)

http:/www.scansoft.com/realspeak

    • Dragon NaturallySpeaking (rozpoznawanie mowy, zamiana na tekst, wspomaganie tworzenia dokumentów biurowych)
    • Nuance USA http:/www.nuance.com (m.in. voice-driven systems, synteza mowy Nuance Vocalizer - UK and US English; inne języki w połączeniu z modułami np. ScanSoft, Voice Authentication (rozpoznanie użytkownika po głosie)
    • Telisma, France: telco-grade speech modules,
    • philsoft: rozpoznawanie mowy (ASR)
    • ScanSoft Inc., US, tradycyjna specjalność cyfryzacja obrazu/tekstu pisanego
wybrane aplikacje 2
Wybrane aplikacje, 2
  • tłumaczenia
    • Lingtech A/S, DaniaPaTrans (efekt projektu EURORTA): tłumaczenie w dziedzinie medycyny i farmacji
    • PROject MT Ltd, Rosja - PROMPT; system tłumaczący
    • Polskie programy: Translatica, English Translator
  • korektory pisowni, analizatory morfologiczne, np. Morphologics, Węgry
  • ekstrakcja informacji ze swobodnego tekstu
    • Temis, France http:/www.temis-group.com/temis/sx.htm (7 języków)
przyk ad t um angielski francuski
Przykład tłum. angielski -> francuski
  • But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.

SYSTRANS

  • Mais tandis que les fracas de Hollywood viennent dans l'été, les affaires de jeux roulent hors de ses grands pistolets pour des achats de fin d'année de vacances quand environ la moitié de tout le jeu le logiciel obtient vendu.

PROMT

  • Mais tandis que les coups violents de Hollywood entrent dans l'été, l'affaire de jeux étire ses grandes armes a feu pour des achats de jour férié(de congé) de fin d'année quand environ moitié de tout le logiciel de jeu est vendue.
przyk ad t um angielski niemiecki
Przykład tłum. angielski -> niemiecki
  • But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.

-> SYSTRANS angielski -> niemiecki

  • Aber, während Hollywood Smashes in den Summertime kommen, rollt das Spielgeschäft aus seinen grossen Gewehren für das year-end Feiertageinkaufen, wenn über Hälfte alles Spiels Software verkauft erhält.

-> SYSTRANS niemiecki -> angielski

  • But, while Hollywood Smashes come into the buzzer time, rolls the play business from its large rifles for year ends to holiday buying, if over half of all play software keeps sold.
przyk ad t um polski angielski
Przykład tłum.polski -> angielski

To jedyne zmiany w podatkach, które zostaną przeprowadzone w najbliższym czasie

-> translatica (translatica.pwn.pl)

These are only changes in taxes which will be taken in the closest time

-> trnaslate (Ectaco, translate.pl)

These sole changes in taxes, which (who) will be carried in the nearest future

-> These are the only changes in taxes which will be introduced in the nearest future.

przyk ad t um angielski polski
Przykład tłum.angielski -> polski
  • But while Hollywood smashes come in the summertime, the games business rolls out its big guns for year-end holiday shopping when about half of all game software gets sold.

-> translatica

  • Ale podczas gdy hollywoodzkie brzęki nadchodzą letnią porą, bułki służbowe z grami na zewnątrz jego ciężkie działa przez koniec roku finansowego zakupy turystyczne kiedy około połowy ze wszystkich gra oprogramowanie dostaje sprzedany.

-> trnaslate

Ale podczas gdy uderzenia Hollywoodu przybył (przybywać; wchodzić; wszedł) w *summertime*, gry interes (handlowy) zwija (toczy się; zwój) poza swoimi wielkimi działami dla roku kończą zakupy Święta kiedy o połowie całego programu komputerowego gry otrzymuje (dostaje; rozumie) sprzedawany.

wiedza o j zyku a realizacja wyznaczonego celu
Wiedza o języku a realizacja wyznaczonego celu
    • Open the pod bay doors, HAL.
    • I'm sorry Dave, I’m afraid I can’t do that.
  • zrozumienie polecenia
    • analiza językowa (identyfikacja słów, form, związków między nimi)
    • odniesienie do rzeczywistości
  • wybór odpowiedzi (odrzucenie polecenia mimo możliwości wykonania go)
  • sformułowanie odpowiedzi
    • wybór słów, ich form, porządku
    • pragmatyka: uprzejma odmowa (I’m sorry...)
    • odniesienie do poprzedniej części dialogu (that)

Stanley Kubrick i Arthur C. Clarke,

2001: A Space Odyssey

wiedza o j zyku naturalnym
Wiedza o języku naturalnym

nazwa dziedziny obszar zainteresowania

fonetyka dźwięki

fonologia dźwięki należące do języka

ortografia zasady pisowni

morfologia struktura/formy wyrazów

składnia zależności strukturalne między słowami (budowa fraz)

semantyka znaczenie pojedynczego zdania

pragmatyka znaczenie w kontekście

zależności międzyzdaniowe(discourse)

fonetyka i fonologia
Fonetyka i fonologia
  • Rozpoznanie sygnału mowy
    • wydzielenie fonemów
    • rozpoznanie słów
  • Synteza mowy:
    • zamiana tekstu na ciąg powiązanych fonemów
    • nadanie odpowiedniej intonacji całości wypowiedzi
  • standaryzacja zapisu fonologii, np. IPA (International Phonetic Alphabet) i ARPAbet (który wykorzystuje tylko oznaki ASCII)

parsley [‘parsli] (IPA) [p aa r s l iy] (ARPAbet)

fonetyka i fonologia problemy
Fonetyka i fonologia, problemy
  • Rozpoznanie sygnału mowy:
    • fonemy odpowiadające tym samym dźwiękom - fragmentom słów, wypowiadane przez różne osoby, w różnym czasie, różnym otoczeniu są inne
    • z powodu różnorodności trudno wyznaczyć ścisłe granice między poszczególnymi fonemami
    • praktycznie zawsze otrzymujemy sieć możliwych interpretacji
    • rozpoznanie słów - potrzebujemy słownika
      • problemy, np. kwiat -> [ k f i a t]
      • niejednoznaczności fonologiczne, np. [m o rz e] -> może, morze
fonetyka i fonologia problemy1
Fonetyka i fonologia, problemy
  • Synteza mowy:
    • łatwo wybrać fonemy, ale trudno je połączyć, tak by do siebie pasowały
    • dla dobrego zaakcentowania potrzebujemy informacji o strukturze składniowej (i nie tylko...)
    • praktyczne rozwiązania: gromadzenie nagrań i sklejanie możliwie długich kawałków
morfologia
Morfologia
  • nauka o budowie słów z morfemów:

a) temat (stem): nośnik znaczenia

b) przed- i przyrostki (affixes): nośniki cech gramatycznych, zmiany znaczenia

  • rozpoznawanie słów po ich formach fleksyjnych
    • psem -> pies (l.poj, narzędnik)
    • ciem -> ćma (l. mnoga. dopełniacz)
  • generowanie form
    • iść, czas przeszły, 3osoba l.poj., rodzaj żeński -> szła
niejednoznaczno ci morfologiczne
Niejednoznaczności morfologiczne

Analiza morfologiczna: rozpoznanie form podstawowych

i wartości cech gramatycznych

Często jest wiele możliwości:

  • szafy -> szafa (l. poj, dopełniaczczy

l. mnoga, mianownik)

  • chłopca -> chłopiec (l. poj. dopełniacz czy

l. poj. biernik)

  • mam -> mieć (1 osoba, l. poj., czas teraźniejszy) czy

mamić (tryb rozkazujący) czy

mama (l.mnoga, dopełniacz)

sk adnia
Składnia

wiedza o sposobie łączenia słów we frazy, a fraz w zdania

Analiza składniowa: rozpoznanie fraz i ich powiązań składniowych (zbudowanie rozbioru syntaktycznego)

maładziewczynka dała bukiet fiołków mamie ->

[mała mod dziewczynka] podmiot

dać

[bukiet fiołkówmod] dopełnienie

[mama] dopełnienie

sk adnia1
Składnia
  • rozpoznanie fraz i ich powiązań składniowych pozwala na ustalenie wartości cech gramatycznych dla generowanego tekstu, a więc rozstrzygnięcie wielu niejednoznaczności morfologicznych np.

dał słonia mamie ->

[dać] 3os,cz. przeszły [słoń]dopełniacz lub biernik [mama]celownik

[dać] 3os,cz. przeszły [słoń]biernik [mama]celownik

sk adnia problemy
Składnia, problemy
  • Dwa typy fraz: wymagania składniowe (mogą być opisane w słownikach) i modyfikatory, które są praktycznie dowolne
    • Jan widzi kota.
    • Mój starszy brat Jan, który od niedawna mieszka w Krakowie, idąc rano do pracy zwykle widzi czarnego kota siedzącego na murku naprzeciwko okna kuchni sąsiada.
  • Niejednoznaczności składniowe, np.

pokazała siostrze Jana kwiaty

    • [pokazać] [siostra Jana]dopełnienie [kwiaty]dopełnienie
    • [pokazać] [siostra]dopełnienie [Jana kwiaty]dopełnienie
semantyka
Semantyka

ustalenie co jest znaczeniem konkretnego wyrażenia w języku naturalnym (rozpoznanie obiektów, relacji między nimi, ...)

czyli „kolejny etap analizy”:

maładziewczyka dała bukiet fiołków mamie

--> [mała mod dziewczynka] podmiot dać [ bukiet fiołkówmod] dopełnienie

[ mama ] dopełnienie

--> [małamody dziewczynka]aktor daćakcja [ bukietfiołkówel.skladowy]obiekt

[ mama ] odbiorca

semantyka problemy
Semantyka, problemy
  • Co to właściwie jestznaczenie wyrażenia w języku naturalnym ?
  • Jak budować znaczenie zdania ze znaczenia fraz
  • Niepełność wszystkich dostępnych sposbów opisu znaczenia (zawsze spotkamy sytuację, dla której nie mamy dobrej reguły)
  • Kłopoty obliczeniowe, jeśli chcemy korzystać z bardziej zaawansowanych sposobów reprezentacji (logiki)
  • I jak zawsze niejednoznaczności
semantyka niejednoznaczno ci
Semantyka, niejednoznaczności
  • Piła!okrzyk radości ma widok zgubionej piły,

niezbyt pochlebna ocena nauczyciela,

wyraz zdegustowania nadużyciem alkoholu

(pierwsze dwie interpretacje semantyczne mają taką samą interpretację morfologiczną i syntaktyczną (‘piła’ jest tu rzeczownikiem w mianowniku), trzecia inną (‘piła’ to czasownik)

  • Uszył jej buty - wyrażenie idiomatyczne lub opis efektu pracy szewca
  • „nawiasowanie” negacji
      • Nie zrobisz tego? Nie(nie zrobię albo właśnie, że zrobię)
  • wiązane zaimków
      • Jan kazał Piotrowi wyczyścić swoje buty.
pragmatyka
Pragmatyka

interpretacja wypowiedzi w konkretnym kontekście, w odniesieniu do wiedzy o świecie

Informacje zewnętrzne pozwalają człowiekowi poprawnie rozstrzygać wiele niejednoznaczności, np.

Pacjent opuścił salę operacyjną w dobrym stanie

1 

pacjent opuścił [salę operacyjną] [w dobrym stanie] mod_pacjenta

2 

pacjent opuścił [salę operacyjną [w dobrym stanie] mod_sali]

(doświadczenie przemawia za interpretacją 1)