1 / 29

Några exjobbsförslag

Några exjobbsförslag. Leif Grönqvist (leifg@ling.gu.se) Språkteknologi & Lingvistik Växjö universitet, GU & GSLT. Upplägg. Lite om vad jag gjort och gör Grundutbildning: datalogi i Göteborg Konsult ett litet tag Doktorand inom GSLT (språkteknologi) Mina forskningsintressen Exjobbsförslag

Download Presentation

Några exjobbsförslag

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Några exjobbsförslag Leif Grönqvist (leifg@ling.gu.se) Språkteknologi & Lingvistik Växjö universitet, GU & GSLT Databasteori 2004

  2. Upplägg • Lite om vad jag gjort och gör • Grundutbildning: datalogi i Göteborg • Konsult ett litet tag • Doktorand inom GSLT (språkteknologi) • Mina forskningsintressen • Exjobbsförslag • En datoriserad tesaurus • Automatiskt sökindex för böcker • Något inom information retrieval/extraction? Databasteori 2004

  3. Min bakgrund • 1986-1989: ”4-årig teknisk” (electrical engineering) • 1989-1993: M.Sc. (official translation of “Filosofie Magister”) in Computing Science, Göteborg University • 1989-1993: 62 points in mechanics, electronics, etc. • 1994-2001: Work at the Linguistic department in Göteborg • Various projects related to corpus linguistics • Some teaching on statistical methods (Göteborg and Uppsala), • and corpus linguistics in Göteborg, Sofia, and Beijing • 1995: Consultant at Redwood Research, in Sollentuna, working on information retrieval in medical databases • 1995-1996: Work at the department of Informatics in Göteborg (the Internet Project) • 2001-2006: PhD Student in Computer Science / Language Technology Databasteori 2004

  4. Mina forskningsintressen • Statistiska metoder i språkteknologi • Dolda Markovmodeller • Korpuslingvistik • Maskininlärning • Vektorrymdsmodeller för lagring av semantisk information • Samförekomststatistik • ”Latent Semantic Indexing” (LSI) • Användning av lingvistisk information vid träning Databasteori 2004

  5. Några möjliga applikationer av LSI • Automatisk generering av en domänspecifik tesaurus • Nyckelordsextraktion från dokument i en dokumentsamling • Hitta dokument som liknar varandra • Hitta dokument som är relaterade till ett givet dokument eller uppsättning termer Databasteori 2004

  6. stefan edberg edberg 0.918 cincinnatis 0.887 edbergs 0.883 världsfemman 0.883 stefans 0.883 tennisspelarna 0.863 stefan 0.861 turneringsseger 0.859 queensturneringen 0.858 växjöspelaren 0.852 grästurnering 0.847 Ett exempel baserat på 50000 tidningsartiklar bengt johansson johansson 0.852 johanssons 0.704 bengt 0.678 centerledare 0.674 miljöcentern 0.667 landsbygdscentern 0.667 implikationer 0.645 ickesocialistisk 0.643 centerledaren 0.627 regeringsalternativet0.620 vagare 0.616 Databasteori 2004

  7. Dags för ett par konkreta förslag • 1. En datoriserad tesaurus • Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord) • 2. Några tillägg till MultiTool • 2a. Automatisk alignment: låt datorn hjälpa till att koppla ihop transkription och mediafil • 2b. Fonetikmodul: Beräkna och visualisera frekvensspektrum och F0 som hjälp vid arbete i MultiTool • 2c. Sök- och räknemodul: Lägg till möjligheten att söka efter och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna • 2d. Stöd för kodningsscheman: lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem Databasteori 2004

  8. Konkreta förslag, forts • 3. Transkriptionsstöd • Kan med fördel byggas som en del av MultiTool eftersom en hel del användbar funktionalitet finns där • 4. Något inom information retrieval/extraction? • Har inget konkret förslag… Men om något av det jag pratat om och ni har en egen idé inom IR/IE-området så… Databasteori 2004

  9. 1. Datoriserad tesaurus • Att utforma och bygga en datoriserad tesaurus utifrån en inscannad tesaurus i bokform, samt utveckla algoritmer för att konstruera nya begreppskategorier (huvudord) Databasteori 2004

  10. Två existerande tesaurusar • Brings (svenska) tesaurus finns inscannad • 1000 huvudort • Totalt över 100 000 ordformer • Substantiv, verb och adjektiv i olika grupper • Roget´s thesaurus (engelska) finns, fast i ett annat format • Samma struktur som Bring Databasteori 2004

  11. Exempel Databasteori 2004

  12. Vinster med en datorisering • Sökning i tesaurusarna i bokform är ibland lite jobbig: • Huvudord går fint • Övriga ord finns i indexet men det blir mycket bläddrande • Gränssnittet skulle kunna förenkla sökningen avsevärt genom markering och klickbara ord • Bäst vore om alla ord var huvudord! • Information för att åstadkomma detta finns troligen i datafilerna • De mest relaterade orden står först • Huvudord med flera betydelser har flera undergrupper för varje ordklass Databasteori 2004

  13. Förkunskaper • Att ha gått ca. tre år på programmet räcker som förkunskap men bra att ha är: • Goda kunskaper i programmering, förslagsvis logikprogrammering. • Semantik, lexikologi (från kurserna på programmet) • Programmeringsspråket Oz (och utvecklingsmiljön Mozart) är väl lämpat att använda för den här uppgiften Databasteori 2004

  14. MultiTool • Flera förslag som syftar till att förbättra MultiTool • Handledare: • Jens Allwood, jens@ling.gu.se • Magnus Gunnarsson, mgunnar@ling.gu.se • Leif Grönqvist, leifg@ling.gu.se • Leif eller Magnus är handledare i normal mening, Jens fungerar som kravställare • Även andra användare finns (Anki och Loredana) • Implementation i Java existerar • Utvecklad av Leif från början • Vidareutvecklad av Magnus och nu i sommar av Johan Lund Databasteori 2004

  15. Skärmdump från MultiTool Databasteori 2004

  16. MultiTools vyer visar info på olika sätt • Mediavyn: spelar upp filmen och/eller ljudet. Användaren kan spola fram och tillbaka för att hitta intressanta delar. • Standardvyn: visar transkriptionen på det sätt de flesta är vana vid, dvs ett yttrande på varje rad. Användaren kan scrolla genom transkriptionen. • Partiturvyn: visar transkriptionen som ett partitur, dvs en rad för varje talare och varje bidrag placerade i tidsordning, liknande noterna på ett notblad så att samtidiga yttranden står i samma kolumn. • Tidsskalevyn: en tidsskala, graderad i minuter och sekunder, där ljudets amplitud i varje tidpunkt kan avläsas. • Kodningsvyn: visar alla olika kodningar hierarkiskt med frekvenser på varje nivå. Databasteori 2004

  17. Internt i MultiTool • TP: tidpunkter, CP: kodningspunkter • Kodningar består av: • Start-CP • Slut-CP • Talarinitial • Kodningsvärde • Ett kodningsvärde är hierarkiskt och den översta nivån kallas ibland för schema • Exempel på kodningar: • 1-2, A, text • god morgon • 2-3, A, text • allihop • 1-2, A, talegenskaper • betoning • avvikande • 3-4, C, text • morrn • 3-5, B, text • hej anders • 5-6, A, text • är klockan tio redan Databasteori 2004

  18. Internt i MultiTool, forts • Synkroniseringar: • CP1 = TP2,45 • CP3 = TP4,24 • CP4 = TP4,45 • CP5 = TP4.70 • CP6 = TP6,12 • Kodningspunkter behöver inte kopplas till en tidpunkt • En TP har en direkt motsvarighet i mediafilen • Kodningspunkter är numrerade från 1 och uppåt, alltid i kronologisk ordning Databasteori 2004

  19. 2a. Automatisk alignment i MultiTool • Låt datorn hjälpa till att koppla ihop transkription och mediafil • Ett program utvecklat på KTH kan koppla ihop en ordsträng med en ljudfil på ordnivå • Problem: överlapp förvirrar programmet • Hur vet man vilka synkroniseringar som är rätt och vilka som bör sorteras bort? • Ytterligare ett steg i fonetisk riktning vore att gissa pauser, vokalljud och yttrandegränser eller till och med andra svårare språkljud, för att kunna synkronisera dessa automatiskt mot transkriptionen • Bra att använda existerande program men också bra om MultiTool kan fungera självständigt Databasteori 2004

  20. Automatisk alignment, forts • Förkunskaper • Java • Gärna kunskaper i fonetik • Tillgångar • En existerande implementation av MultiTool. • Fonetik och fonologi-expertis. • Ett alignmentprogram utvecklat på KTH av Kåre Sjölander som ger hyfsad alignment mellan indata i form av tal och text Databasteori 2004

  21. 2b. Fonetikmodul för MultiTool • Beräkna och visualisera frekvensspektrum och F0 som hjälp vid arbete i MultiTool • Tidsskalevyn ger idag en bild av ljudamplitud vid olika tidpunkter • Det vore intressant att lägga till frekvensspektrum, F0, F1, mm då dessa skulle ge god hjälp vid synkronisering • Flera olika algoritmer existerar så en stor del handlar om att utforska om de kan användas på dialog. • Eventuellt finns en del existerande kod i Java för fonetisk analys så att leta upp något användbart vore en bra ända att börja i. Databasteori 2004

  22. Fonetikmodul, forts • Förkunskaper • Java • Gärna kunskaper i fonetik • Förståelse för ganska matematiska algoritmer • Tillgångar • En existerande implementation av MultiTool • Fonetik och fonologi-expertis • Systemet Praat med mängder av dokumentation – klarar att utföra den analys som behövs Databasteori 2004

  23. 2c. Sök- och räknemodul för MultiTool • Lägg till möjligheten att söka efter och räkna ord och kodningar, eventuellt kombinationer, samt möjlighet att spela upp eller exportera de funna sektionerna • Man vill enkelt kunna söka efter, räkna, och spela upp segment som matchar ett sökuttryck • Viktigt att sökuttrycken inte kräver kunskap i reguljära uttryck eller Prolog • Enkla sökningar (ge mig alla ”bil”) viktigast • Kombinationer (ge mig alla överlappade ”mm” i början på yttranden) också användbart • Gränssnittet är viktigt – enkelt men kraftfullt Databasteori 2004

  24. Sök- och räknemodul, forts • Förkunskaper • Java • Tillgångar • En existerande implementation av MultiTool • Räkneverktyget Tal-till-tal (nya TraSA) Databasteori 2004

  25. 2d. Stöd för kodningsscheman i MultiTool • Lägg till möjligheten att ladda/spara kodningsscheman och att i vissa fall låsa användaren till att använda dem • Samtliga kodningsvärden måste kunna visas hierarkiskt • Sedan bör delträd kunna låsas så att • Kodningsvärden väljs bland löven • Inga nya värden kan läggas till utan låsa upp låset • Delträd (scheman) skall kunna sparas och laddas (importeras) Databasteori 2004

  26. 3. Transkriptionsstöd • Kan med fördel byggas som en del av MultiTool eftersom en hel del användbar funktionalitet finns där • En transkription består av: • En header med bakgrundsinformation • En body med själva samtalet • Viktigt att dessa skrivs i korrekt syntax • MultiTool kunde med vissa tillägg fungera som transkriptionsverktyg: • Exportera i formatet GTS (Göteborg Transcription Standard) • Mer förenklande funtionalitet Databasteori 2004

  27. Transkriptionsstöd, forts • Flera typer av användare • Vill transkribera utan att synkronisera • Vill koda exempelvis gester mot en videofil • Vill transkribera och synkronisera yttrande för yttrande • Vill transkribera och synkronisera varje ord • … • Olika features viktiga för olika användare Databasteori 2004

  28. 4. Gör något spännande inom IR/IE • Tänk ut något och fråga mig vad jag tror • Exempel: • Kan man hitta synonymer i icke-annoterad text? Hur? Hur bra? • Träna upp ett system baserat på LSI för att klara TOEFL-tester (ordkunskap) så bra som möjligt • … Databasteori 2004

  29. Och nu då? • De mer eller mindre konkreta förslagen finns på min hemsida • Även den här presentationen finns länkad under ”Current teaching” • Fundera lite och kom till mig eller Magnus och fråga • Maila går också fint om jag inte är här Först till kvarn gäller! Databasteori 2004

More Related