1 / 18

Spraaksignaalverwerking

Spraaksignaalverwerking. Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam. TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002. o verzicht. spraak is een

gilles
Download Presentation

Spraaksignaalverwerking

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Spraaksignaalverwerking Louis C.W. Pols Institute of Phonetic Sciences (IFA) Amsterdam Center for Language and Communication (ACLC) Universiteit van Amsterdam TNO-FEL Signaalverwerkingscolloquium, Den Haag 10 okt. 2002

  2. overzicht • spraak is een • akoestisch signaal (pitch, duur, luidheid, timbre, richting) • met een talige, emotionele, en communicatieve functie • geproduceerd door sprekers t.b.v. luisteraars, (daarnaast mens-machine communicatie) • spectro-temporele analyse (m.b.v. praat) • bron-filtermodel • oscillogram, spectrogram, spectrum, pitch contour • spraakcodering, -synthese, en -herkenning; sprekerherkenning/verificatie; taalherkenning; multimedia; multiling.; dialoog; informatie extractie TNO-FEL Signaalverwerkingscolloquium

  3. spraak heeft vele facetten • betekenisvol geluid, maar vaak slordige uitspraak • talige structuur, maar vaak grammaticaal slordig • prosodie (zinsmelodie) i.p.v. leestekens; spreektempo • man, vrouw, kind • pathologische spraak (slissen, schizis, afasie) • blij, bedroefd, boos, autoritair, overtuigend • ABN, Zeeuw of Tukker, Poldernederlands; allochtoon • over telefoon, in galmende ruimte, andere sprekers • ondersteunende modaliteiten; gebarentaal TNO-FEL Signaalverwerkingscolloquium

  4. elkaar verstaan is een wonder • kleuters leren (iedere!) moedertaal zeer snel • toch verschillen M/K spraaksignalen heel erg • spraaksignaal vaak erg verstoord • door slordige uitspraak (koninklijke -> koleke) • door omgevingslawaai en nagalm • door andere sprekers • kennis taal + verwachting heel belangrijk • spraaktechnologie is daarom zo complex TNO-FEL Signaalverwerkingscolloquium

  5. spraak als akoestisch signaal • duur, toonhoogte, luidheid, timbre, richting • (temporeel) dynamisch, (spectraal) complex • stemhebbend (periodiek)/stemloos (ruisig) • omhullende van (harmonisch) spectrum • energiemaxima in het spectrum = formanten • woordklemtoon (luidheid, duur, klankreductie) • zinsaccent (pitchbeweging) • frasering (verlenging, Fo-beweging, pauze) TNO-FEL Signaalverwerkingscolloquium

  6. spraak als gesproken taal • voldoet min of meer aan talige regels • fonotactische restricties (Ned. geen ‘mb’) • grammaticale restricties (woordvolgorde) • taalspecifieke eigenschappen (Ned. /x/) • communicatieve gewoontes (hmm…) • groepscodes (‘dat is cool’) • prosodie (i.p.v. leestekens en tekstopmaak) • incl. spreekstijl en emotie TNO-FEL Signaalverwerkingscolloquium

  7. spreker en luisteraar • menselijke spraakkanaal • pitch range (sopraan ca. 700 Hz, kind tot 1000 Hz) • beperkte articulatie • spraak meestal alleen bij uitademen • menselijk oor • spectrale en temporele resolutie (drempel, jnd) • gemeenschappelijke kennis • taal; omgeving, context; wereld • slordig spreken vs. behoefte luisteraar TNO-FEL Signaalverwerkingscolloquium

  8. spectro-temporele analyse • bandfilteranalyse (perifere gehoororgaan) • FFT, poles, zeroes, formanten • LPC • MFCC • step size (1-20 ms), window size (ca. 25 ms) • delta, delta-delta • foneem/woordmodellen; concatenative units TNO-FEL Signaalverwerkingscolloquium

  9. bron-filtermodel • bron = stembanden (open, trillend, of dicht) • filter = keel/mond/neuskanaal • bron en filter meestal onafh. verondersteld • daarop zijn de meeste spectro-temporele analyses en syntheses gebaseerd • meeste spraakherkenners negeren intonatie • en interpreteren alle signaalvariatie via veel trainingsdata (veel sprekers, veel stijlen, wel/geen omgevingslawaai, e.d.) TNO-FEL Signaalverwerkingscolloquium

  10. oscillogram TNO-FEL Signaalverwerkingscolloquium

  11. oscillogram woordsegmentatie foneemsegmentatie spectrogram formantcontouren pitch contour

  12. spraaksignaalanalyse • op IFA ontwikkeld vrij software pakket ‘praat’ • downloadable voor 6 verschillende platforms • zie http:/www.fon.hum.uva.nl/praat • uitstekende grafische output; scriptable • enkele voorbeelden • spectrogram; spectrum • pitch contour (re-iterante spraak) • golfvormmanipulaties; b.v. 50 ms tijdsconversie of duur en pitch manipulaties via PSOLA • MFCC analyse; DTW TNO-FEL Signaalverwerkingscolloquium

  13. spraaktechnologie • spraakanalyse • spraakcodering, speech enhancement • tekst-naar-spraak synthese (TTS) • autom. spraakherkenning/verstaan (ASR/SUS) • sprekerherkenning/verificatie; taalherkenning • dialoogsystemen; informatie extractie • keyword spotting • spraak-naar-spraak vertalen TNO-FEL Signaalverwerkingscolloquium

  14. spraaksynthese • Fluent Dutchtekst-naar-spraak (Ned.) • tekst in -> spraak uit • grafeem/foneemconversie via lexicon/regels • woordklemtoon via duurmanipulaties • zinsaccent (op ieder inhoudswoord) via toonhoogtebewegingen • klankgeneratie via difoonconcatenatie • behoefte aan grotere natuurlijkheid TNO-FEL Signaalverwerkingscolloquium

  15. spraaktechnolog. applicaties • hands & eyes busy • command & control • b.v. mobile phone voice and name dialing • dialoogsystemen (meestal over telefoon) • informatie verstrekken (koersen, openb. vervoer) • bestellingen doen (pizza’s e.d.) • meertalige informatiekiosk (toerisme, vervoer) • phonetic typewriter; dicteermachine • rapportage (b.v. radiologen in ziekenhuis) TNO-FEL Signaalverwerkingscolloquium

  16. NWO programma IMIX • Interactieve Multimodale Informatie Extractie • intelligent agent; mixed initiatives • beoogde begroting 4,5 M€ (NWO 2,1 M €) • beoogde call for proposals: oct. 2002 • voortbouwend op Prior. progr. TST (’95-’00) • Automatische spraakherkenning; Natuurlijke Taalverwerking; Taalgeneratie; Spraak-synthese; Dialoog Management; Multi-modaliteit; Structuur in ongestructureerde informatie; Systeemintegratie TNO-FEL Signaalverwerkingscolloquium

  17. CGN en IFA-corpus • Corpus Gespr. Ned. (http://lands.let.kun.nl/cgn/) • Ned.-Vlaams project, start juni 1998, 5 jaar, 10Mƒ • 10M woorden, ~1000u spraak, diverse stijlen • voor 10M: orthografie, lemma’s, POS, word alignm. • voor 1M: fonetische en syntactische annotatie • voor 250k: prosodische annotatie • IFA corpus (http://www.fon.hum.uva.nl/IFAcorpus) • 4 m en 4 vr.,>30 min. spraak per spreker • tevens diverse spreekstijlen per spreker • alle materiaal fonetisch gesegmenteerd & gelabeld • vrije toegang via SQL vraagtaal TNO-FEL Signaalverwerkingscolloquium

  18. foneem/woord/taalmodel ASR TNO-FEL Signaalverwerkingscolloquium

More Related