1 / 17

Hrvatski jezičnotehnološki web -servisi?

Hrvatski jezičnotehnološki web -servisi?. Marko Tadi ć Sveučilište u Zagreb u Filozofski fakultet marko.tadic @ ffzg.hr CESAR Croatian Road Show Zagreb 201 2 -1 1 - 30. Povezivanje. Danas živimo u svijetu koji je sve više i više povezan. Mobilni uređaji. Mobilno računarstvo.

hollye
Download Presentation

Hrvatski jezičnotehnološki web -servisi?

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Hrvatski jezičnotehnološkiweb-servisi? Marko Tadić Sveučilište u ZagrebuFilozofski fakultet marko.tadic@ffzg.hr CESAR Croatian Road Show Zagreb 2012-11-30

  2. Povezivanje Danas živimo u svijetu koji je sve više i više povezan...

  3. Mobilni uređaji

  4. Mobilno računarstvo Pred svega 30 godina... Rezultati obradbe pregledavali su se na kilometrima ispisa

  5. Mobilno računarstvo Ovolika računalnasnaga nije biladostupna općojpopulaciji Međutim, danassvatko može imativiše računalnesnage i rezultatenjezine obradbeu svojim rukamaodmah i stalno

  6. Mobilno računarstvo No, ipak u našimpametnimtelefonima nemožemo nositisve što nam treba, a ne možemo ihni rastegnutikako bi u njihstrpali više...

  7. Računarstvo u oblaku

  8. Računarstvo u oblaku Ono što nam treba je pristupna točka do oblaka...

  9. Mobilno i računarstvo u oblaku

  10. Mobilno i računarstvo u oblaku • ne nosimo više sa sobom sve naše dokumente • još uvijek trebamo velike izvore agregiranih podataka • enciklopedije • (telefonske) imenike • rječnike • registre • ... ili usluge • on-line tražilice • uređivanje dokumenata • provjera pravopisa • strojno prevođenje • ...

  11. Mobilno i računarstvo u oblaku • brzine povezivanja rastu • imamo pristupne točke u oblake s dovoljno lokalne procesne snage • ali još uvijek rabimo jezik • posvuda! • ne samo jedan jezik! • još uvijek trebamojezične resurse i alate • rječnike • provjernike pravopisa • strojeve za diktiranje • strojno prevođenje • ... ne samo u našim džepovima, nego i kao usluge tj. web-servise

  12. On-line usluge • današnja mrežni-naraštaj uzima zdravo za gotovo • gsm, internet i društvene mreže • sve usluge koje su tamo dostupne • uključujući i nove usluge kojih se još nismo niti dosjetili • dostupnost svih informacija koje im trebaju kroz te on-line usluge • ako u svome vlastitome jeziku ne nađu ono što im treba, jednostavno to potraže u nekom drugom jeziku (najčešće engleskome) • to je prvi korak prema digitalnome izumiranju njihova materinskoga jezika • to je početakpotiranja europske i svjetske jezične raznolikosti u 21. stoljeću • jezični resursi i alati kao on-line usluge za “male” jezike osiguravaju • njihovo preživljenje (ne samo u digitalnome svijetu) • njihovu uporabu u budućnosti (osobito u digitalnome svijetu) • razvoj on-line jezičnih usluga košta jednako za “male” i “velike” jezike • industrija obično nalazi komercijalni interes samo kod “velikih” jezika • političari i zajednica moraju naći načina kako pomoći “malim” jezicima

  13. Hrvatski jezični web-servisi • skup web-servisa za računalnu obradbu tekstova na hrvatskome jeziku • razdioba na rečenice (sentence splitting) • opojavničenje (tokenisation) • lematizacija (lemmatisation) • označavanje vrsta riječi i/li gramatičkih kategorija (POS/MSD-tagging) • prepoznavanje imena (Named Entity Recognition and Classification) • sintaktička analiza u skladu s ovisnosnom gramatikom hrvatskoga jezika (Dependency parsing) • ulaz • hrvatski tekst kodiran u skladu s UTF-8 kodnom shemom • #REST protokol • izlaz • obrađen vertikaliziran tekst ili tekst u XML-zapisu (TEI P5) • ovi su web-servisi uz registraciju dostupni na adresi http://lt.ffzg.hr • slobodna uporaba za istraživačke namjene (CC-BY-SA) • uz pretplatu za komercijalne potrebe

  14. Hrvatski jezični web-servisi • demo • kome ovi web-servisi trebaju? • razdioba na rečenice • prevođenje: kad se želi napraviti baza prevedenih rečenica • lematizacija • obradba tekstovnih baza podataka stvaranjem indeksa lema umjesto različnica • indeks je manji, brže se pretražuje • intuitivno pretraživanje: dohvat riječi u svim oblicima • označavanje vrsta riječi i gramatičkih kategorija • leksikografija: npr. pronalaženje kolokacija kod kojih su kolokati sročni • prepoznavanje imena • crpljenje obavijesti: pronalaženje relevantnih obavijesti u tekstovima • prepoznavanje veza među imenima u tekstovima: socijalno obavještajstvo • sintaktička analiza (parsing) • razumijevanje teksta: prepoznavanje semantičkih uloga (agens, pacijens...) • analiza stavova (sentiment analysis): marketing, poslovno obavještajstvo, ...

  15. Zaključci i perspektive • dajemo u javnu uporabu široko uporabive web-servise za hrvatski • razvijeni unutar projekta CESAR • istraživački tim s dvaju odsjeka Filozofskoga fakulteta Sveučilišta u Zagrebu • očekujemo razvoj novih web-servisa za • semantičko označavanje teksta: uporabom Hrvatskoga WordNeta (CroWN) • strojno prevođenje: uporabom platforme za izgradnju vlastitih strojnoprevoditeljskih sustava LetsMT! • očekujemo poticaj daljnjem razvoju jezičnih tehnologija u ostalim istraživačkim središtima u Hrvatskoj • jezične tehnologije za hrvatski jezik u Hrvatskoj moraju postati • jedan od strateških pravaca istraživanja u humanističkim i društvenim znanostima u novoj Strategiji razvoja obrazovanja, znanosti i tehnologije • nezaobilazno područje za koje će se pripremati projekti podupirani iz strukturnih fondova EU • sukladne svim nastojanjima oko jezičnih tehnologija u Obzoru2020 i CEF-u

  16. Zaključci i perspektive • u društvu gdje... • podatci (i znanje pohranjeno u njima) postaju gorivo gospodarstva • povezanost postaje svakodnevna potreba • je višejezičnost pravilo a ne iznimka • teško ćemo živjeti takvo informacijsko društvo bez on-line jezičnih usluga • ne samo za svjetske jezike • već i za mnogo drugih, “malih” jezika

  17. Pitanja... Zahvaljujem na pozornosti. http://www.cesar-project.net office@meta-net.eu http://www.cesar-project.net http://www.facebook.com/META.Alliance

More Related