180 likes | 351 Views
Spraaksignaalverwerking. Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam. TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002. o verzicht. spraak is een
E N D
Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002
overzicht • spraak is een • akoestisch signaal (pitch, duur, luidheid, timbre, richting) • met een talige, emotionele, en communicatieve functie • geproduceerd door sprekers t.b.v. luisteraars, (daarnaast mens-machine communicatie) • spectro-temporele analyse (m.b.v. praat) • bron-filtermodel • oscillogram, spectrogram, spectrum, pitch contour • spraakcodering, -synthese, en -herkenning; sprekerherkenning/verificatie; taalherkenning; multimedia; multiling.; dialoog; informatie extractie TNO-FEL Signaalverwerkingscolloquium
spraak heeft vele facetten • betekenisvol geluid, maar vaak slordige uitspraak • talige structuur, maar vaak grammaticaal slordig • prosodie (zinsmelodie) i.p.v. leestekens; spreektempo • man, vrouw, kind • pathologische spraak (slissen, schizis, afasie) • blij, bedroefd, boos, autoritair, overtuigend • ABN, Zeeuw of Tukker, Poldernederlands; allochtoon • over telefoon, in galmende ruimte, andere sprekers • ondersteunende modaliteiten; gebarentaal TNO-FEL Signaalverwerkingscolloquium
elkaar verstaan is een wonder • kleuters leren (iedere!) moedertaal zeer snel • toch verschillen M/K spraaksignalen heel erg • spraaksignaal vaak erg verstoord • door slordige uitspraak (koninklijke -> koleke) • door omgevingslawaai en nagalm • door andere sprekers • kennis taal + verwachting heel belangrijk • spraaktechnologie is daarom zo complex TNO-FEL Signaalverwerkingscolloquium
spraak als akoestisch signaal • duur, toonhoogte, luidheid, timbre, richting • (temporeel) dynamisch, (spectraal) complex • stemhebbend (periodiek)/stemloos (ruisig) • omhullende van (harmonisch) spectrum • energiemaxima in het spectrum = formanten • woordklemtoon (luidheid, duur, klankreductie) • zinsaccent (pitchbeweging) • frasering (verlenging, Fo-beweging, pauze) TNO-FEL Signaalverwerkingscolloquium
spraak als gesproken taal • voldoet min of meer aan talige regels • fonotactische restricties (Ned. geen ‘mb’) • grammaticale restricties (woordvolgorde) • taalspecifieke eigenschappen (Ned. /x/) • communicatieve gewoontes (hmm…) • groepscodes (‘dat is cool’) • prosodie (i.p.v. leestekens en tekstopmaak) • incl. spreekstijl en emotie TNO-FEL Signaalverwerkingscolloquium
spreker en luisteraar • menselijke spraakkanaal • pitch range (sopraan ca. 700 Hz, kind tot 1000 Hz) • beperkte articulatie • spraak meestal alleen bij uitademen • menselijk oor • spectrale en temporele resolutie (drempel, jnd) • gemeenschappelijke kennis • taal; omgeving, context; wereld • slordig spreken vs. behoefte luisteraar TNO-FEL Signaalverwerkingscolloquium
spectro-temporele analyse • bandfilteranalyse (perifere gehoororgaan) • FFT, poles, zeroes, formanten • LPC • MFCC • step size (1-20 ms), window size (ca. 25 ms) • delta, delta-delta • foneem/woordmodellen; concatenative units TNO-FEL Signaalverwerkingscolloquium
bron-filtermodel • bron = stembanden (open, trillend, of dicht) • filter = keel/mond/neuskanaal • bron en filter meestal onafh. verondersteld • daarop zijn de meeste spectro-temporele analyses en syntheses gebaseerd • meeste spraakherkenners negeren intonatie • en interpreteren alle signaalvariatie via veel trainingsdata (veel sprekers, veel stijlen, wel/geen omgevingslawaai, e.d.) TNO-FEL Signaalverwerkingscolloquium
oscillogram TNO-FEL Signaalverwerkingscolloquium
oscillogram woordsegmentatie foneemsegmentatie spectrogram formantcontouren pitch contour
spraaksignaalanalyse • op IFA ontwikkeld vrij software pakket ‘praat’ • downloadable voor 6 verschillende platforms • zie http:/www.fon.hum.uva.nl/praat • uitstekende grafische output; scriptable • enkele voorbeelden • spectrogram; spectrum • pitch contour (re-iterante spraak) • golfvormmanipulaties; b.v. 50 ms tijdsconversie of duur en pitch manipulaties via PSOLA • MFCC analyse; DTW TNO-FEL Signaalverwerkingscolloquium
spraaktechnologie • spraakanalyse • spraakcodering, speech enhancement • tekst-naar-spraak synthese (TTS) • autom. spraakherkenning/verstaan (ASR/SUS) • sprekerherkenning/verificatie; taalherkenning • dialoogsystemen; informatie extractie • keyword spotting • spraak-naar-spraak vertalen TNO-FEL Signaalverwerkingscolloquium
spraaksynthese • Fluent Dutchtekst-naar-spraak (Ned.) • tekst in -> spraak uit • grafeem/foneemconversie via lexicon/regels • woordklemtoon via duurmanipulaties • zinsaccent (op ieder inhoudswoord) via toonhoogtebewegingen • klankgeneratie via difoonconcatenatie • behoefte aan grotere natuurlijkheid TNO-FEL Signaalverwerkingscolloquium
spraaktechnolog. applicaties • hands & eyes busy • command & control • b.v. mobile phone voice and name dialing • dialoogsystemen (meestal over telefoon) • informatie verstrekken (koersen, openb. vervoer) • bestellingen doen (pizza’s e.d.) • meertalige informatiekiosk (toerisme, vervoer) • phonetic typewriter; dicteermachine • rapportage (b.v. radiologen in ziekenhuis) TNO-FEL Signaalverwerkingscolloquium
NWO programma IMIX • Interactieve Multimodale Informatie Extractie • intelligent agent; mixed initiatives • beoogde begroting 4,5 M€ (NWO 2,1 M €) • beoogde call for proposals: oct. 2002 • voortbouwend op Prior. progr. TST (’95-’00) • Automatische spraakherkenning; Natuurlijke Taalverwerking; Taalgeneratie; Spraak-synthese; Dialoog Management; Multi-modaliteit; Structuur in ongestructureerde informatie; Systeemintegratie TNO-FEL Signaalverwerkingscolloquium
CGN en IFA-corpus • Corpus Gespr. Ned. (http://lands.let.kun.nl/cgn/) • Ned.-Vlaams project, start juni 1998, 5 jaar, 10Mƒ • 10M woorden, ~1000u spraak, diverse stijlen • voor 10M: orthografie, lemma’s, POS, word alignm. • voor 1M: fonetische en syntactische annotatie • voor 250k: prosodische annotatie • IFA corpus (http://www.fon.hum.uva.nl/IFAcorpus) • 4 m en 4 vr.,>30 min. spraak per spreker • tevens diverse spreekstijlen per spreker • alle materiaal fonetisch gesegmenteerd & gelabeld • vrije toegang via SQL vraagtaal TNO-FEL Signaalverwerkingscolloquium
foneem/woord/taalmodel ASR TNO-FEL Signaalverwerkingscolloquium