napredne metode u pronala enju informacija n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Napredne metode u pronalaženju informacija PowerPoint Presentation
Download Presentation
Napredne metode u pronalaženju informacija

Loading in 2 Seconds...

play fullscreen
1 / 29

Napredne metode u pronalaženju informacija - PowerPoint PPT Presentation


  • 127 Views
  • Uploaded on

Napredne metode u pronalaženju informacija. Cvetana Krstev čas 3. Tageri vrsta reči (Part-of-speech taggers).

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Napredne metode u pronalaženju informacija' - ilyssa


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
tageri vrsta re i part of speech taggers
Tageri vrsta reči (Part-of-speech taggers)
  • Tageri vrsta reči se oslanjaju na rad modula za određivanje granica između rečenica i tokenizatora, jer oni obeležavaju svaku reč odgovarajućom etiketom (tag), koja govori da li je reč glagol, imenica, pridev, zamenica, itd.
  • Primer dva moguća tagiranja rečenice sa slajda 6 (čas 1) bio bi:
  • U prvom slučaju visitingje označno kao pridev koji menja imenicu aunts dok je u drugom slučaju u pitanju gerundiv (glagolska imenica) glagola to visit.
    • Visiting/Adj aunts/N-Pl can/AUX be/V-inf-be a/DET-Indef nuisance/N-Sg
    • Visiting/V-Prog aunts/N-Pl can/AUX be/V-inf-be a/DET-Indef nuisance/N-Sg
tageri vrsta re i 2
Tageri vrsta reči/2
  • Kada bi svi oblici reči dobijali samo jednu etiketu i ne bi bilo reči koje tager ne poznaje, etiketiranje vrstom reči bi bilo jednostavno.
  • Kao što prikazuje prethodni primer, reči mogu dobiti više etiketa, a uloga tagera je da izabere jednu (po mogućnosti ispravnu).
  • U prethodnom primeru tager nema dovoljno informacija da bi odlučio. Bilo bi potrebno da mu je poznat bar uski kontekst, na primer:
    • I ought to invite her, but visiting aunts can be a nuisance.
    • I ought to visit her, but visiting aunts can be a nuisance.
  • čak i tada bi analizator trebalo da izvede dosta složeno zaključivanje da bi izabrao pravo rešenje.
dva glavna pristupa etiketiranju vrstom re i
Dva glavna pristupa etiketiranju vrstom reči
  • Dva glavna pristupa etiketiranju su u skladu sa dva osnovna pristupa problemima obrade prirodnih jezika:
    • pristup zasnovan na pravilima
    • stohastiči pristup
etiketiranje vrstom re i zasnovano na pravilima
Etiketiranje vrstom reči zasnovano na pravilima
  • Ovakvi tageri se zasnivaju na primeni lingvističkog znanja pomoću koga pokušavaju da odbace sekvencije etiketa koje bi bile sintaksički neispravne.
  • Jedno takvo pravilo za engleski bi bilo:
    • Ako nepoznatoj reči prethodi determinator, a iza nje sledi imenica, obeleži je kao pridev.
  • Neki tager se oslanjaju i na morfološko znanje koje treba da pomogne u odlučivanju:
    • Ako se nepoznata ili višeznačna reč završava na –ing, a prethodi joj glagol, obeleži je kao glagol.
  • Neki tageri su zasnovani na pravilima koja su u potpunosti ‘ručno’ napisana, dok se drugi zasnivaju na pravilima koju su izvedena različitim metodama (mašinskog učenja) iz velikih tekstualnih korpusa.
stohisti ki tageri
Stohistički tageri
  • Stohistički tageri se oslanjaju na podatke za obučavanje (test data), primenjujući pristup koji koristi informacije o frekvencijama pojavljivanja u tom skupu podataka da bi izračunali verovatnoće izbora određenih etiketa.
  • Podaci za obučavanje su obično unapred ručno etiketirani, tj. reči i etikete su ‘ručno’ povezane.
    • Zapravo, najčešće su mašinski etiketrani, a ručno je otklonjena višeznačnost
  • Ovo je najjednostavniji pristup izgradnje stohastičkih tagera koji može da dovede do generisanja sintaksički nekorektnih sekvenci, iako je svaka pojedinačna etiketa, gledana sama za sebe validna.
  • Na primer, u slučaju visiting aunts, tager može da označi visting kao glagol samo zato što se u skupu podataka na kome je obučen visting češće javlja u funkciji glagola nego prideva.
slo eniji stohasti ki tageri
Složeniji stohastički tageri
  • Da bi poboljšali performanse, tageri se obično oslanjaju pri odlučivanju na širi kontekst.
  • Obično se koriste n-grami, što znači da se pri odlučivanju posmatraju i okolne reči, pre svega one koje prethode posmatranoj reči o čijoj etiketi se odlučuje.
  • Najjednostavni pristup koristi bigrame, a to znači da se računa frekvencija pojavljivanja svih kombinacija od dve reči u skupu podataka za obučavanje.
  • Ovaj pristup ne bi rešio problem visting aunts ali bi mogao da reši mnoge druge probleme, npr.
    • The/DET annual/ADJ race past the barn was cancelled.
    • We/PRON always/ADV race past the barn on Sundays.
  • Reči koje prethode race i njihove etikete su veoma korisne za određivanje da li je race imenica (prvi slučaj) ili glagol (drugi slučaj).
tagiranje zasnovano na pravilima i re nicima za srpski
Tagiranje zasnovano na pravilima i rečnicima za srpski
  • Videti radove C. Krstev i D. Vitas sa stranice:

poincare.matf.bg.ac.rs/~cvetana/CV_Bibl_nova.html

  • Prijaviti se na kurs na doktorskim studijama

Leksičko prepoznavanje u obradi prirodnih jezika

(Cvetana Krstev)

1984 kao paralelni poravnati korpus
1984kao paralelni – poravnati – korpus
  • Korpus je kompiliran u okviru dva evropska projekta: TELRI i MULTEXT-East (90. godine prošlog veka)
  • Korpus čine verzije romana na 12 jezika: bugarski, češki, engleski, estonski, hrvatski, litvanski, mađarski, Resian, rumunski, ruski,srpskii slovenački
  • Korpus čini 12 bitekstova – svi prevodi su poravnati sa engleskom verzijom
  • Poravnavanje je urađeno poluautomatski do nivoa rečenice
  • Ceo korpus je morfosintakskičkianotiran za većinu jezika (uključujući i srpski)
  • Veoma koristan reusrs koji je korišćen u mnogim aplikacijama, najčešće kao zlatni standard (gold standard), odnosno kao skup podataka za obučavanje
  • Više o ovom resursu na adresi:http://nl.ijs.si/ME/V3/
tagiranje srpskog teksta zasnovano na pravilima re nicima i ru noj doradi
Tagiranje srpskog teksta zasnovano na pravilima, rečnicima i ručnoj doradi

<p id="Oshs.1.2.2" >

<s id="Oshs.1.2.2.1" >

<w lemma="biti" ana="Vmps-sman-n---p">Bio</w>

<w lemma="jesam" ana="Va-p3s-an-y---p">je</w>

<w lemma="vedar" ana="Afpms1n">vedar</w>

<w lemma="i" ana="C-s">i</w>

<w lemma="hladan" ana="Afpms1n">hladan</w>

<w lemma="aprilski" ana="Aopmp1">aprilski</w>

<w lemma="dan" ana="Ncmsn--n">dan</w>

<w lemma="na" ana="Sps-">na</w>

<w lemma="cyasovnik" ana="Ncmsa--n">cyasovnicima</w>

<w lemma="jesam" ana="Va-p3s-an-y---p">je</w>

<w lemma="izbijati" ana="Vmps-snan-n---e">izbijalo</w>

<w lemma="trinaest" ana="Mc---l">trinaest</w>

stohasti ko etiketiranje vrstama re i za srpski
Stohastičko etiketiranje vrstama reči za srpski
  • Za stohastičko etiketiranje za srpski videti rad iz časopisa Infoteka, godina 2010, broj 2 (u štampi):
  • Зоран Поповић

Програми за етикетирање текста на српском језику

prepoznavanje imeni kih fraza i naziva imenovanih entiteta
Prepoznavanje imeničkih fraza i naziva (imenovanih entiteta)
  • Ekstrakcija imeničkih fraza ide dalje od tagera vrstama reči u analizi teksta.
  • Njihov cilj je da identifikuju delove teksta koji se odnose na ljude, ustanove, objekte i slično.
  • Oni se često nazivaju parcijalni ili plitki (shallow) parseri za razliku od kompletnih ili dubokih (deep) parsera.
  • Prepoznavanje imeničkih fraza je veoma važno sa stanovištva pronalaženja informacija i srodnih zadataka jer su informacije koje se traže najčešće u toj formi.
rad plitkih parsera za identifikovanje imeni kih fraza
Rad plitkih parsera za identifikovanje imeničkih fraza
  • Oni se često usredsređuju na identifikovanje osnovnih imeničkih fraza, koje se sastoje od glave fraze, što je najčešće glavna imenica u frazi i levih modifikatora, kao što su determinatori i pridevi ispred imenice.
    • ovo bi važilo za engleski, osnovne imeničke fraze za srpski bi drugačije izgledale
  • Oni se najčešće ne bave identifikovanjem predloških fraza i ne pokušavaju da razreše čemu su predloške fraze pridružene.
pronala enje naziva ili prepoznavanje imenovanih entiteta
Pronalaženje naziva ili prepoznavanje imenovanih entiteta
  • Oni identifikuju u dokumentu vlastita imena i druge nazive i obično ih i klasifikuju kao oznake ljudi, institucija, događaja, mesta i slično.
  • Na primer, u sledećoj engleskoj rečenici:
    • Italy’s business world was rocked by the announcement last Thursday that Mr. Verdi would leave his job as vice-president of Music Masters of Milan, Inc to become operations director of Arthur Andersen.
  • Italy bi bilo prepoznato kao mesto, last Thursday kao datum, Mr. Verdi kao osoba, a Music Masters of Milan, Inc i Arthur Andersen kao kompanije. U ovom slučaju bilo bi pogrešno ako bi Milan i Arthur Anderson bili označeno kao mesto, osnosno osoba.
prepoznavanje naziva i imenovanih entiteta u srpskom
Prepoznavanje naziva i imenovanih entiteta u srpskom
  • Neka je dat tekst na srpskom jeziku:
    • Nedavne poplave nanele su, kako se procenjuje, oko 20 miliona dinara štete na putevima i oranicama u opštini Kuršumlija, saopštila jeopštinska komisija za procenu štete. Kako se navodi, komisija je zatražila odVlade Srbije nadoknadu za oko 200 hektara potpuno uništenih useva vrednih prekopet miliona dinara. Opštinska komisija zatražila je od Ministarstva zakapitalne investicije pomoć od preko 15 milionadinara za saniranje velikih šteta na lokalnim putevima.
prepoznavanje naziva i imenovanih entiteta u srpskom 2
Prepoznavanje naziva i imenovanih entiteta u srpskom/2
  • U ovom trenutku bilo bi prepoznato:
    • Nedavne poplave nanele su, kako se procenjuje, oko <VALUTA>20 miliona dinara</VALUTA> štete na putevima i oranicama u opštini <MESTO TYPE=“grad”>Kuršumlija</MESTO>, saopštila jeopštinska komisija za procenu štete. Kako se navodi, komisija je zatražila odVlade <MESTO TYPE=“grad”>Srbije</MESTO> nadoknadu za oko <MERA>200 hektara</MERA> potpuno uništenih useva vrednih preko<VALUTA>pet miliona dinara</VALUTA>. Opštinska komisija zatražila je od Ministarstva zakapitalne investicije pomoć od preko <VALUTA>15 miliona dinara</VALUTA> za saniranje velikih šteta na lokalnim putevima.
prepoznavanje naziva i imenovanih entiteta u srpskom 3
Prepoznavanje naziva i imenovanih entiteta u srpskom/3
  • Šta u ovom trenutku nije prepoznato ili nije dobro prepozanto:
    • Nedavne poplave nanele su, kako se procenjuje, oko <VALUTA>20 miliona dinara</VALUTA> štete na putevima i oranicama u opštini<MESTO TYPE=“grad”>Kuršumlija</MESTO>, saopštila jeopštinska komisija za procenu štete. Kako se navodi, komisija je zatražila odVlade <MESTO TYPE=“država”>Srbije </MESTO> nadoknadu za oko <MERA>200 hektara</MERA> potpuno uništenih useva vrednih preko<VALUTA>pet miliona dinara</VALUTA>. Opštinska komisija zatražila je od Ministarstva zakapitalne investicije pomoć od preko <VALUTA>15 miliona dinara</VALUTA> za saniranje velikih šteta na lokalnim putevima.
kako funkcioni e prepoznavanje imenovanih entiteta
Kako funkcioniše prepoznavanje imenovanih entiteta
  • Veliki broj sistema za prepoznavanje entiteta u prethodnoj obradi teksta ne ide do nivoa tagiranja vrstom reči, već radi direktno nad tokenima koristeći njihove vidljive osobine (veliko slovo, titule iz liste titula, i sl).
  • Neki od sistema koriste ručno izgrađena pravila, dok drugi uče pravila iz nekog skupa podataka za treniranje (mašinsko učenje) ili grade statističke modele.
  • Prepoznavanje imenovanih entiteta za srpski se zasniva na korišćenju iscrpnih rečnika i razrađenih pravila formulisnaih korišćenjem konačnih automata.
  • Više o tome na času posvećenom imenovanim entitetima i na kursu na doktorskim studijama Leksičko prepoznavanje u obradi prirodnih jezika (Cvetana Krstev)
parseri i gramatike
Parseri i gramatike
  • Za duboko parsiranje je potrebno da postoji gramatika u odnosu na koju se vrši parsiranje.
  • Gramatika je skup pravila koja govore (najjednostavnije govoreći) koje kombinacije vrsta reči (i drugih gramatičkih svojstava) daju dobro formirane fraze i rečeničke strukture. Na primer,
    • Colorless green ideas sleep furiously.
  • bi mogli da ocenimo kao sintaksički dobro formiranu jer je adjective+adjective+noun validna imenička fraza, verb+adverb je validna glagolska fraza, a noun_phrase+verb_phrase je validna rečenica.
gramatike
Gramatike
  • S druge strane rečenica
    • Furiously sleep ideas green colorless
  • bi bila ocenjena kao gramatički nekorektna jer ni jedan od sledećih gramatičkih obrazaca ne predviđa gramatika engleskog jezika.
    • adverb+verb+noun+adjective+adjective
    • adverb+verb+noun+noun+adjective
    • adverb+noun+noun+adjective+adjective
    • adverb+noun+noun+noun+adjective
  • treba uzeti u obzir četiri obrasca jer sleep može da bude glagol i imenica, a green može da bude prediv ili imenica.
semanti ka analiza
Semantička analiza
  • Semantička analiza uključuje identifikovanje različitih tipova reči odnosno fraza, npr. vrste vlastitih imena, ali i identifikovanje uloge koju te reči odnosno fraze imaju u rečenici, kao subjekat ili objekat.
  • Različiti sintaksički tipovi imaju različita svojstva. Na primer, imence ili imeničke fraze mogu da se odnose na nešto živo ili neživo, na organizacije, mesta, datume, događaje, sume novca, i sl.
semanti ke uloge
Semantičke uloge
  • Semantičke uloge se mogu razlikovati od sintaktičkih uloga, na primer:
    • The Federal Court chastised Microsoft.
  • i
    • Microsoft was chastised by the Federal Court.
  • gramatički subjekat se razlikuje u ovim rečenicama koje imaju isto osnovno značenje. I u jednom i u drugom slučaju The Federal Court je “agent” a Microsoft je “recepient” događaja.
identifikacija imeni kih fraza
Identifikacija imeničkih fraza
  • Identifikacija imeničkih fraza je važan zadatak koji uopšte nije trivijalan. Za razliku od jednostavnih primera koje smo do sada viđali, imeničke fraze su u realnom tekstu često veoma složene:
    • A small screw holding the cylinder assembly in the frame of the revolver
  • Pisanje gramatičkih pravila je veoma težak, dugotrajan i odgovoran zadatak (čime se bavi lingvističko inženjerstvo). Iako su za engleski napisne mnoge (formalne) gramatike opšteg tipa, ni jedna od njih ne pokriva 100% sve reči i konstrukcije koje se u proizvoljnom tekstu mogu nači.
  • Stoga, svaki program koji treba da parsira nepoznati tekst mora da računa da će naići na nepoznate reči i konstrukcije i treba da ima neki odgovor na takve situacije.
penn treebank project
Penn Treebank Project
  • Postoje resursi zasnovani na korpusu na koje se mogu oslanjati istraživači i konstruktori parsera.
  • Jedan takav resurs je Penn Treebank koji se razvija na Pensilvanijskom univerzitetu.
  • U okviru ovog projekta se dokumenta kolekcije tekstova anotiraju lingvističkom strukturom.
  • U okviru ovog projekta tokeni se etiketiraju vrstom reči i gramatičkim kategorijama, ali se osim toga označava parsirana struktura rečenice, da bi se na kraju dobila banka lingvističkih drveta.
struktura fraze predstavljena kao drvo i kao ugnje dena lista
Struktura fraze predstavljena kao drvo i kao ugnježdena lista
  • (S:(NP:Green ideas) (VP:sleep furiously))

S: green ideas sleep furiously

NP: green ideas

VP: sleep furiously

slo enija struktura fraze predstavljena kao drvo i kao ugnje dena lista
Složenija struktura fraze predstavljena kao drvo i kao ugnježdena lista
  • (S:(NP:(ADJ:Green) (NOUN:ideas)) (VP: (VERB:sleep) (ADV:furiously)))

S: green ideas sleep furiously

NP: green ideas

VP: sleep furiously

ADJ:green

NOUN:ideas

VERB:sleep

ADV:furiously

koji su problemi dubokog parsiranja
Koji su problemi dubokog parsiranja
  • Veoma je teško (nemoguće) napisati sva pravila jednog jezika, a čak i kad bi to bilo moguće odmah bi se pojavile nove primene koje bi gramatiku učinile nepotpunom i zastarelom.
  • Nove reči i izrazi stvaraju slične probleme. Ne postoji rečnik koji bi makar približno pokrivao reči i izraze koji se pojavljuju, recimo, u poslovnom tekstu – kada se uzmu u obzir vlastita imena, akronimi, sleng, neologizmi i razne brojčane vrednosti.
  • Kompleksnost parsiranja je polinomijalna. Primena parsera zahteva ugnježdene petlje, tako da obrada jedne rečenice zahteva resurse (vremenske za obradu) koji su kubna funkcija dužine rečenice.
  • Svaka rečenica iz realnog teksta (značajne dužine i složenosti) dozvoljava jako mnogo mogućih delimičnih parsiranja od kojih treba odabrati pravo.
  • Zbog svega toga su alternative dubokom parsiranju – npr. plitki parseri – veoma primamljive, posebno za pronalaženje informacija.