folkets synonymlexikon och folkets engelsk svenska lexikon l.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Folkets synonymlexikon och Folkets engelsk-svenska lexikon PowerPoint Presentation
Download Presentation
Folkets synonymlexikon och Folkets engelsk-svenska lexikon

Loading in 2 Seconds...

play fullscreen
1 / 23

Folkets synonymlexikon och Folkets engelsk-svenska lexikon - PowerPoint PPT Presentation


  • 434 Views
  • Uploaded on

Folkets synonymlexikon och Folkets engelsk-svenska lexikon. Viggo Kann professor i datalogi vid KTH Seminarium på Lexikaliska institutet 8 oktober 2008. Anyone can use it in an application Anyone can study it and modify it Anyone can take a copy of it

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'Folkets synonymlexikon och Folkets engelsk-svenska lexikon' - lynn


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
folkets synonymlexikon och folkets engelsk svenska lexikon

Folkets synonymlexikon och Folkets engelsk-svenska lexikon

Viggo Kann professor i datalogi vid KTH

Seminarium på Lexikaliska institutet 8 oktober 2008

vad r en fri spr kresurs
Anyone can use it in an application

Anyone can study it and modify it

Anyone can take a copy of it

Anyone can improve it, release the improvements to the public, so that the whole community benefits

(baserat på Four freedoms of free software,

Richard Stallman)

Vad är en fri språkresurs?
typiska s tt att konstruera en resurs
…om du är en språkteknolog:

Skaffa finansiering

Använd resurser som är tillgängliga för forskare

Anställ lexikografer som kan göra det stora jobbet

…om du är en fri-programvaruhacker:

Använd andra fria resurser

Samla data från massor av människor, t ex med wiki eller webbformulär

Typiska sätt att konstruera en resurs
folkets synonymordbok
Folkets synonymordbok
  • Skapa ett svenskt synonymlexikon som en lista av synonyma ordpar.
  • Jag är lat och vill inte jobba så mycket.
  • Jag är snål och vill inte anställa någon.
  • Det konstruerade synonymlexikonet ska bli en fri språkresurs.
id er
Idéer
  • Konstruera automatiskt en massa ordpar som kan vara synonymer.
  • Använd tiotusen människor som var och en är villig att bidra en smula utan betalning, genom att kontrollera ordpar.
fler id er
Fler idéer
  • Använd Lexins svensk-engelska lexikons webbsida som hade 9 miljoner (nu 20 M) uppslagningar varje månad.
  • Användare besöker Lexin för att översätta ord och är därför nog motiverade att hjälpa mej.
  • Vid varje uppslagning får användaren möjlighet att avgöra om två ord är synonymer.
min plan
Min plan
  • Konstruera möjliga synonympar.
  • Rensa synonymparslistan automatiskt.
  • Fråga massor av användare om paren är bra synonymer.
  • Analysera användarnas bedömningar och bestäm vilka par som behålls.
steg 1 konstruera m jliga synonympar
Steg 1: Konstruera möjliga synonympar
  • Om vi har ett svensk-engelskt lexikon SE och ett engelsk-svenskt lexikon ES så kan vi översätta varje ord till engelska och tillbaka igen.
  • {(w,v): y: ySE(w)  vES(y)} eller{(w,v): y: ySE(w)  ySE(v)}
  • 616 000 ordpar genererades.
steg 2 rensa synonymparslistan automatiskt
Steg 2: Rensa synonymparslistan automatiskt
  • Använd RI (Random Indexing)[Kanerva, Kristoferson, Holst 2000]för att mäta avståenden mellan ord representerade i ett stort vektorrum.
  • Behåll bara ord med ett tillräckligt litet avstånd i vektorrummet.
  • 435 000 av orden fanns med i korpusen och en tredjedel rensandes bort.
steg 3 fr ga massor av anv ndare om resten av paren r bra synonymer
Steg 3: Fråga massor av användare om resten av paren är bra synonymer

När en användare under 2005 slog upp i Lexin fick han eller hon förutom översättningen en fråga om synonymiteten hos ett slumpat ordpar ur listan.

Användarna fick också föreslå egna synonympar som andra fick bedöma.

steg 4 analysera anv ndarnas bed mningar
Steg 4: Analysera användarnas bedömningar
  • 1,2 miljoner gjordes på mindre än 2 månader.
  • Jag gjorde statistik och följde utvecklingen och ställde in urvalskriterier och skräpdatatrösklar.
  • Många användare lämnade synpunkter.
lite statistik 2008
Lite statistik (2008)
  • 2,8 M bedömningar har gjorts
  • 75 000 ordpar (bedömda ≥ 2) i lexikonet
  • 108 000 användarföreslagna ordpar
  • 62 000 olika användarordpar
  • 20 000 av dom har accepterats
exempel synonymer till klass
5: rangrankslag

4: kategori stånd årskurs

3: fack gradgruppkvalitetnivå

3: sortstandardstil

2: skikt storleksordning typ

1: poäng stadga

0: uppdragutbilda

Exempel: Synonymer till klass
hur undviks missbruk
Hur undviks missbruk?
  • Många bedömningar krävs innan ett ordpar anses vara bra.
  • Ordparen som ska föreslås väljs slumpmässigt från en enorm lista.
  • Ordpar som föreslås av användarna stavningskontrolleras innan dom läggs till den enorma listan.
folkets definition av synonymitet
Folkets definition av synonymitet
  • Exakta betydelsen av 'synonym' definierades inte.
  • Användarna bedömer efter sin intuitiva bild av konceptet synonymitet.
  • Det skapade lexikonet bygger på folkets egen definition av synonymitet, vilket förhoppningsvis är precis vad folket vill!
nytt projekt folkets engelsk svenska lexikon
Nytt projekt:Folkets engelsk-svenska lexikon
  • Stöds av .se-stiftelsen
  • Bygger på Lexin
  • Ska ersätta Lexins svensk-engelska lexikon under hösten
  • Automatiskt framtagna översättnings-förslag från Lars Ahrenberg ska bedömas av användarna
  • Användarna får själva utvidga lexikonet
planerat inneh ll i lexikonet
Planerat innehåll i lexikonet
  • uppslagsord på svenska och engelska
  • ordklass, uttal, böjningsformer
  • synonymer, andra relationer
  • översättningar (länkar)
  • definition, förklaring
  • exempel, idiom, sammansättningar
  • externa länkar (Wikipedia, dataterm etc)
planer
Planer
  • Utvidgas automatiskt med användarnas hjälp. Ny version varje natt.
  • När lexikonet utvidgats tillräckligt ska det bli fritt nedladdningsbart i sin helhet i XML-format och kunna användas i språkteknologiska tillämpningar som fri resurs.
fr gor
Frågor
  • Vilka böjningsformer ska finnas med?
  • Ska böjningsformer ha översättningar?
  • Ska användarna få föreslå uttal, och i så fall i vilken form? Ljudinspelning?
  • Ska egennamn vara med? Vilka?
  • Automatkomplettering vid uppslagning: hur ska kompletteringarna rangordnas?
l nkar
Länkar
  • Denna presentation:http://www.nada.kth.se/~viggo/papers.php
  • Folkets synonymlexikon:http://lexin.nada.kth.se/synlex.html
  • Folkets engelsk-svenska lexikon:http://folkets.nada.kth.se(tas i drift i november 2008)