1 / 26

Uvod - kolokacije

Uvod - kolokacije. riječi/pojavnice nisu nasumično raspoređene u tekstu moguće je uočiti da neke riječi imaju tendenciju pojavljivanja u “sličnom” društvu karakteristične kombinacije riječi prilično su učestale u tekstu. Uvod - kolokacije.

marged
Download Presentation

Uvod - kolokacije

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Uvod - kolokacije • riječi/pojavnice nisu nasumično raspoređene u tekstu • moguće je uočiti da neke riječi imaju tendenciju pojavljivanja u “sličnom” društvu • karakteristične kombinacije riječi prilično su učestale u tekstu

  2. Uvod - kolokacije • Altenberg: oko 70 % pojavnica iz korpusa tvori rekurentne kombinacije riječi neke vrste (proučavao je korpus engleskoga) • npr. daljinski upravljač, odlučno opovrgnuti, oružje za masovno uništenje, drvo za ogrjev, uzeti mjeru, ispod stola, kick the bucket, weiß wein, ... • takve se kombinacije riječi u lingvistici nazivajukolokacijama

  3. Kolokacije • veći dio definicija oslanja se na statističke pojmove poput čestote ili supojavljivanja • kolokacija je kombinacija riječi koje se supojavljuju značajno češće nego što bi se moglo predvidjeti iz njihovih zasebnih frekvencija u promatranom uzorku (Kilgarriff 1992)

  4. Kolokacije • knjiške definicije određuju “susljedne” riječi kao kolokacije preko tri osobine koje one moraju zadovoljavati: • nedjeljivost (non-compositionality) • nezamjenljivost (non-substitutability) • nepromjenljivost (non-modifiability)

  5. Nedjeljivost • značenje kolokacije ne može biti izvedeno iz značenja pojedinih komponenti (riječi) • Na primjer: • “ispod stola”; “topli brat” • u strojnom bi prevođenju prijevod riječ-za-riječ mogao predstavljati pogrešku (npr. eng. red tape)

  6. Nezamjenljivost • bilo koju riječ iz kolokacije nije moguće zamijeniti sinonimom ili bilo kojom drugom sličnom riječi • Na primjer: • “ispod stola”; “topli brat” • nije moguće:“podno stola”*; “mlaki brat”*

  7. Nepromjenljivost • kolokacije nije moguće mijenjati čak i kad nam gramatika to dopušta • “ispod stola”; “topli brat” • nije moguće:“ispod drvenog stola”*; “topli Ivanov polubrat”*

  8. Identifikacija kolokacija • [msd="A.*"][lemma="glava"] > Sortna Node • dobili smo dobre potencijalne kandidate za kolokacije!

  9. Uzajamna obavijesnost, UO (Mutual Information, MI ) • brojčana vrijednost koja se izračunava uspoređivanjem vjerojatnosti supojavljivanja dviju pojavnica zajedno s vjerojatnošću da se pojave odvojeno:

  10. Uzajamna obavijesnost, UO (Mutual Information, MI ) • govori o tome koliko jedna riječ govori o drugoj: • vjerojatnost unigrama • vjerojatnost bigrama

  11. Uzajamna obavijesnost - primjer • U 1 M (1.000.000 pojavnica) korpusu: • <okrugao>se javlja 29 puta • <stol> se javlja 196 puta • <okrugao><stol> se javlja 15 puta • možemo li tvrditi da je “okrugli stol” kolokacija prema UO?

  12. Uzajamna obavijesnost • Wlofram Alpha http://www.wolframalpha.com • ld(x) > računa logaritam po bazi 2 broja x • ld(8) =3 ili • log_2(x) upisati x bez decimala u W.A.

  13. Uzajamna obavijesnost – primjer 2 • U 1 M korpusu: • <slobodan>se javlja 297 puta • <trgovina>se javlja 134 puta • <slobodan> <trgovina>se javlja 24 puta • možemo li tvrditi da je “slobodna trgovina” kolokacija prema UO?

  14. Uzajamna obavijesnost – primjer 2

  15. Uzajamna obavijesnost • u izloženom primjeru, UO pokazuje koliko jedna pojavnica govori o drugoj, odnosno • broj koji nam kazuje koliko se povećava sigurnost da će slijediti riječ trgovina nakon što smo vidjeli riječ slobodna • ta se sigurnost izražava u bitovima i u prethodnom primjeru iznosi 9,23 bita

  16. Kolokacije AP 1995 korpusa

  17. “Nekolokacije” AP 1995 korpusa

  18. T-test Razlika između promatrane i očekivane aritm. sredine je aritmetička sredina uzorka je pretpostavljena vrijednost aritmetičke sredine osnovnog skupa s2je varijanca uzorka N je veličina uzorka promatrana vrijednost pretpostavljena vrijednost varijanca se uzima aproksimativnokao

  19. T-test: 1. primjer • U 1 M korpusu: • <okrugao>se javlja 29 puta • <stol> se javlja 196 puta • <okrugao><stol> se javlja 15 puta • možemo li tvrditi da je okrugli stol kolokacija?

  20. T-test: 1. primjer • promatrana aritmetička sredina je: •  pretpostavljena vrijednost aritmetičke sredine osnovnog skupaje:

  21. T-test: 1. primjer • vrijednosti uvrštene u formulu izgledaju: • za prihvaćanje H0 sa sigurnošću od 99% (α=0,005) kritična vrijednost t treba iznositi najmanje 2,576 H0 se odbacuje jer je 3,871 > 2,576 možemo tvrditi da okrugliistol tvorekolokaciju

  22. T-test • ukoliko je vrijednost veličine t veća od2,576 hipoteza H0 se odbacuje s 99 % pouzdanosti (∞ stupnjeva slobode) • α=0,0005 (99,9 %); t ≥ 3,291 • α=0,005 (99 %); t ≥ 2,576 • α=0,01 (98 %); t ≥ 2,326 • α=0,05 (90 %); t ≥ 1,645

  23. UO vs. T test

  24. UO vs. T test

  25. Supojavljvanja „riječi” • stručno nazivlje • periferna memorija, višestanični organizam • leksičke kolokacije • daljinski upravljač, mobilni uređaj • vlastita imena • Ruđer Bošković, Leo Messi • frazemi • dolijevati ulje na vatru, čovjek od riječi • ustaljene fraze i klišeji • plan i program, dobar dan

  26. Statistički rezultati • statistička metodologija od iznimne je pomoći kod pronalaženja kolokacija • frekvencije same po sebi ne govore da su dvije riječi u posebnom odnosu • ALI: statističke mjere daju dobru procjenu koliko je vjerojatno da se radi o kombinaciji dvije riječi, a ne slučajnosti

More Related