1 / 26

Språkteknologiske løsninger for norsk og engelsk

Språkteknologiske løsninger for norsk og engelsk. prosjekter ved Institutt for moderne fremmedspråk/engelsk seksjon i samarbeid med Institutt for nordistikk og litteraturvitenskap. Oversikt. Medvirkende/ressurspersoner Hovedmål Litt førhistorie - EDIT-prosjektet

mimi
Download Presentation

Språkteknologiske løsninger for norsk og engelsk

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Språkteknologiske løsninger for norsk og engelsk • prosjekter ved Institutt for moderne fremmedspråk/engelsk seksjon i samarbeid med Institutt for nordistikk og litteraturvitenskap

  2. Oversikt • Medvirkende/ressurspersoner • Hovedmål • Litt førhistorie - EDIT-prosjektet • Problemstillinger omkring kunnskaps-/leksikalske databaser • Tankegangen (ideologien) bak dette prosjektet

  3. Oversikt • Lignende systemer • Potensielle anvendelser/bruk av det kontrastive leksikonet • Framtidige perspektiver

  4. Mila Vulchanova, IMFS, Engelsk seksjon Tor Anders Åfarli, INL Dawn Behne, IMFS, Engelsk seksjon Anja Angelsen, vit.ass. EDIT-prosjektet, IMFS, Engelsk seksjon Ann Jorid Klungervik Greenall, post.dok., IMFS, Engelsk seksjon Helene Hauge, NFR-stipendiat, IMFS, Engelsk seksjon Kristin Mellum Eide, post.dok., Institutt for datateknikk og informasjonsvitenskap Kristian Skarbø, vit.ass. EDIT-prosjektet Medvirkende/ressurspersoner

  5. Hovedmål • etablere en bred tverrfaglig samarbeidskonstellasjon, med deltakere med bakgrunn i lingvistikk (f.eks. syntaks og semantikk og grensesnittet mellom syntaks og semantikk) samt kunnskap om strukturen til konkrete språk (engelsk og norsk), datalingvistikk, Kunstig Intelligens (KI-),kognitiv vitenskap (Cognitive Science), nevrolingvistikk, statistikk

  6. Hovedmål • evaluere og utrede løsninger innen leksikalske databaser og deres anvendelse i maskinoversettelse og språkteknologi • utvikle et kollokasjonsbasert kontrastivt leksikon for norsk og engelsk

  7. Litt førhistorie • EDIT-prosjektet, fundert på praktisk språkarbeid og komparativ språkforskning og terminologiforskning • Prosjektet er selvfinansierende gjennom språkarbeide, oversettelse av vitenskapelige artikler fra norsk til engelsk og språkvask/korrekturlesing

  8. EDIT-prosjektet • Hovedmålsettinger i EDIT: • å bygge en søkbar database over oversatte paralelle tekster med et webgrensesnitt der man ved hjelp av et konkordanseverktøy kan søke etter ord og fraser i begge språkene og finne ekvivalenter mellom de to språkene på avsnittsnivå. Databasen er publisert på nettet (http://mime.hf.ntnu.no:8080/edit/webpages/) og materiale suppleres kontinuerlig.

  9. EDIT-prosjektet • på sikt å bygge ut Edit-basen til entospråklig terminologidatabasefor norsk og engelsk , med hovedvekt på humaniora og samfunnsvitenskapene, bl.a. basert på egne oversettelsesarbeider

  10. på langt sikt å utvikle videre terminologidatabasen til en slags TerminologiNet for enkelte tverrfaglige områder der begrep og termin er representert i en hierarkisk struktur

  11. EDIT-prosjektet • EDIT kan defineres som et prosjekt av typen translation workstation (lignende prosjekter i Norge: Magnar Brekke sitt KUNSTI project Kunnskapsbase for norskøkonomisk-administrativt fagdomene (KB-N))

  12. Problemstillinger omkring kunnskaps/leksikalske databaser • Hvorfor er leksikonet en viktig ressurs? • leksikalsk kunnskap ligger til grunn for all slags naturlig språkprosessering (lexical access, comprehension tasks, production tasks)

  13. Problemstillinger omkring kunnskaps/leksikalske databaser • ingen grammatikk uten leksikon (ord), moderne psykolingvistiske og kognitive studier (Bates & Goodman 1997) peker på en sterk korrelasjon mellom ”vocabulary size and grammar competence” i språktilegnelse

  14. Problemstillinger omkring kunnskaps/leksikalske databaser • Hva slags informasjon skal inngå i et leksikon? • Morfologi (enten med mulighet for generering av potensielle ordformer eller som en liste av ordformer, eller begge to) • Ordkategori, semantiske trekk, kollokasjonspotensiale

  15. Problemstillinger omkring kunnskaps/leksikalske databaser • Problemer og behov • Storskala leksikalske ressurser (Large-scale lexical resources) som kan anvendes og gjenbrukes i forskjellige applikasjons rammeverk • tilgjengelighet • How sophisticated can a system afford to be?

  16. Tankegangen (ideologien) bak dette prosjektet • Språk er et komplekst og sammensatt system. For å kunne utvikle hensiktsmessige og godt fungerende teknologiske verktøy for språklig prosessering og generering i enkeltspråk er det nødvendig å ha størst mulig kunnskap om og forståelse for de komplekse prosessene som ligger til grunn i språklig prosessering og produksjon generelt i naturlig språk(som f.eks. ‘real-time’ prossesser og lignende; langtids- og korttidshukommelsens rolle)

  17. Tankegangen (ideologien) bak dette prosjektet • Legge vekt på og integrere moderne kognisjonsvitenskapelige perspektiver påhvordan kunnskap og ferdigheter er representert og strukturert (f.eks. i kunnskapsdomener og hvordan man får tilgang (access) til eksisterende kunnskap når man trenger det (f.eks. gjennom problembaserte prosesser, analogisk tenkning osv.) Slike tilnærminger er svært viktige i representasjonen av språkkunnskaper og ferdigheter.

  18. Tankegangen (ideologien) bak dette prosjektet • Modelleringen av språkkunnskapsbaser som nettverk som innebærer at ord f.eks. er enheter i et nettverk med lenker mellom de individuelle enhetene og aktiveringen av en enhet (ord) forårsaker aktivering av en del andre som er assosiert med den gjennom lenker (denne tilnærmingen er lik den som brukes i nevrale nettverkssystemer)

  19. Tankegangen (ideologien) bak dette prosjektet • Nettverksperspektivet ligger til grunn for mange moderne teorier om språkkunnskaper der leksikalsk og grammatisk kunnskap er strukturert i inheritance networks (f.eks. Koenig et al.2002, Kay & Fillmore 1997, Fillmore et al. 2001 FrameNet project (http://www.icsi.berkeley.edu/framenet/), Croft 2001)

  20. Tankegangen (ideologien) bak dette prosjektet • Utforske anvendelsen av dynamiske teorierom kategorisering (f.eks. Barsalou 1999) som ser på konsepter som dynamiske fenomen med potensiale for variasjon mellom individer (intersubjektivitet) og hos samme individ (intrasubjektivitet) der kontekst og frekvens spiller en viktig role.

  21. Tankegangen (ideologien) bak dette prosjektet • Dynamiske teorier er svært viktige for beskrivelsen av ekvivalenser mellom språk over ordnivå. Av avgjørende betydning i språk der betydning varierer fra en kontekst til en annen. Den minimale konteksten kan defineres som den umiddelbare kollokosasjonen for enhver ord/frase.

  22. Kontekst: et eksempel a tall man/tree/glass *a tall wall a high wall/block of flats *a high man/tree

  23. Materiale til leksikonprosjektet • datasamlinger fra kontrastive studier som allerede er utført • eksisterende datakorpuser

  24. Lignende systemer • the WordNet project (an electronic lexical database, with nouns, verbs, adjectives and adverbs organized into synonym sets, each representing a lexicalized concept; the synonym sets are linked by different relations); CogPrime;Fra parallellkorpus til ordnett, UiB

  25. Potensielle anvendelser/bruk av det kontrastive leksikonet • tesaurus i translation workstations (arbeidsbenker for oversettelse) • i maskinoversettelse (machine translation systems) • som redskap for å utføre søk i kunnskapsdatabaser

  26. Perspektiver fremover • kontrastiv grammatikk: kontrastiv studie på setningsnivå

More Related