Praten met mens en machine
Sponsored Links
This presentation is the property of its rightful owner.
1 / 19

PRATEN MET MENS EN MACHINE PowerPoint PPT Presentation


 • 99 Views
 • Uploaded on
 • Presentation posted in: General

PRATEN MET MENS EN MACHINE. Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC) / LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling / OW-instituut Taal- en Letterkunde

Download Presentation

PRATEN MET MENS EN MACHINE

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


PRATEN MET MENS EN MACHINE

Louis C.W. Pols

Leerstoelgroep Fonetische Wetenschappen (IFA)

Herengracht 338, 1016 CG Amsterdam

Amsterdam Center for Language and Communication (ACLC)/LOT

Opleiding Taalwetenschap (Ba/Ma Linguistics)

Afdeling/OW-instituut Taal- en Letterkunde

Faculteit der Geesteswetenschappen (voorheen Letteren)

Universiteit van Amsterdam

Lezing TUD, do. 15 april 2004

Jaffalaan 5

Fac. Techniek, Bestuur en Management


Overzicht

 • praten is communiceren via gesproken taal

 • pratende computers = spraaksynthese

 • luisterende computers = spraakherkenning

 • spraaksignaalanalyse software ‘praat’

 • 10 M woorden Corpus Gesproken Nederlands

 • conclusies

 • informatie over taal- en spraaktechnologie, zie o.a. http://www.taalunieversum.org/tst/ en http://www.fon.hum.uva.nl/

Fac. TBM - TUD


Praten

 • praten is communiceren, meestal met anderen, voornamelijk via gesproken taal

 • klanken, woorden, zinnen, grammatica, taal

 • spreekstijl, stemkwaliteit, tempo, emotie, dialect, taalvaardigheid, beurtgedrag, aarzelingen, versprekingen

 • woordklemtoon, zinsaccent, frasering

 • disambigueren

  • ga naar/Ghana, koninklijke/koleke, kanon, verspringen

  • Daan zei de baas is te laat  wie is er te laat?

Fac. TBM - TUD


luisteraar

spreker

mens

spraaksignaal

commun. kanaal

spraaksynthese

automatische

spraakherkenning

machine

Mens vs. machine

menselijke communicatieketen:

concept, uiting selecteren, articulatie, spraakgeluid, transmissiekanaal, geluidwaarneming, interpretatie

Fac. TBM - TUD


Spraaksynthese

 • pratende machine = spraaksynthese

 • database-info, concept, tekst in  spraak uit

 • evt. taalgeneratie, orthografie

 • tekstanalyse (drs.; §; TUD; € 10,-; herv gem)

 • grafeem/foneem conversie (lexicon en regels)

  extra  /’Ekstra:/wegnemen  /w’Exne:m@/

 • woordklemtoon, zinsaccent, pauzes

 • prosodie (co-articulatie, F0, duur)

 • akoestische realisatie (difonen)

Fac. TBM - TUD


Demonstratie Fluent Dutch

 • Fluent Dutch Text-To-Speech

 • ontwikkeld door A. Dirksen en L. Mehnert

 • eerst Fluency Speech Technology, Utrecht

 • toen van Dale Lexicografie, Utrecht

  o.a. sprekend woordenboek, gesproken e-mail

 • nu Fluency weer eenmansbedrijf

 • andere Nederlandse synthesesystemen:

  IPO, Nijmeegse allofoonsynthese, Polderland,

  Speechworks RealSpeak, Infovox, NEXTENS

Fac. TBM - TUD


Toepassingen spraaksynthese

 • sprekende computer

 • info per telefoon (e-mail, banktegoed, koers)

 • sprekend woordenboek

 • hulpmiddel voor visueel gehandicapten

  toetsenbord, polshorloge, thermostaat, etc.

 • onderdeel van dialoogsysteem (OVIS, IMIX)

 • miniaturisatie (onleesbare schermpjes)

 • volledige taal/spraak kennis  perfekte synth.

Fac. TBM - TUD


Spraakherkenning

 • luisterende computer = autom. spraakherk.

 • woorden herkennen vs. spraakverstaan

 • geluidsinvoer (microfoon, ADC)

 • kenmerkrepresentatie (filterwaarden/10 ms)

 • herk. woordsjablonen (templates, DTW), òf

 • getrapte herkenning (en evt. interpretatie)

  • fonemen: HMM phone like units (PLU’s) of ANN

  • woorden: woordmodellen, norm. uitspraak wrd.

  • zinnen: taalmodellering (n-gram)

Fac. TBM - TUD


5

Time (s)

2

0


5-state HMM phone or word model

aii = selfloop probability; aij = between state transition prob.;

bj(ot ) = observation probabilityfrom Wang (1997)


Ranks of words predicted by a trigram language model (from Jelinek, in Furui & Sondhi (1992))


Aspekten van ASH

 • spreekstijl (woord voor woord, continu)

 • woordenschat (2 - 60.000 woorden, onbeperkt)

 • sprekerpopulatie (een, meerdere, dialect, taal)

 • training (spreker en vocab. (on)afh., spr. adaptief)

 • dialoogstructuur (simpel  pseudo-natuurlijk)

 • robuustheid in gebruik (spreker, micr., omgeving, leeftijd, taalvaardigheid, gespreksonderwerp)

 • out-of-vocabulary words (OOV)

 • foutenscore (substitutie, deletie, insertie; begrip)

Fac. TBM - TUD


Demonstratie Dragon Naturally Speaking

 • ontwikkeld door Dragon Dictate, ook Ned.

 • opgekocht door (nu zelf failliete) L&H, nu Scansoft

 • sprekerspecifiek (urenlange training)

 • vlotte invoer, real-time op snelle PC

 • taalmodel heel belangrijk, evenals training

 • tekstinvoer naast commando’s

 • andere systemen voor het Nederlands:

  • Philips Freespeech

  • IBM ViaVoice

  • Scansoft SpeechWorks VoCon

Fac. TBM - TUD


Toepassingen van spraakherkenning

 • dicteersysteem, tekstverwerker

 • systeemcontrole (industrie, speelgoed, beveiliging, huishouden)

 • iedere telefoon een terminal

 • computer assisted language learning (CALL)

 • hulpmiddelen voor gehandicapten

 • onderdeel van een dialoogsysteem (OVIS, tel. 0900-9292; IMIX)

 • spraak naast andere modaliteiten

 • miniaturisatie (te kleine knopjes)

Fac. TBM - TUD


spraaksignaalanalyse

 • in-huis ontwikkeld software pakket ‘praat’

 • wereldwijd verspreid, open source

 • mogelijkheden voor opname, generatie, weergave, selectie, analyse (spectrum, duur, toonhoogte), manipulatie, segmentatie en labeling, statistiek, etc.

 • werken met scripts

 • uitstekende grafische uitvoermogelijkheden

 • en nog veel meer, zie site praat.org (demo)

Fac. TBM - TUD


Corpus Gesproken Nederlands

 • Vlaams-Nederlands initiatief

 • 10 Mƒ, 10 M woorden (ca. 1000 uur spraak)

 • start juni 1998, 5 jaar, 7 releases (audio + annotaties)

 • allerlei spreekstijlen ook over telefoon, volwassenen, wel varianten ABN geen dialect

 • t.b.v. taalkundigen, T/S technologie, en anderen

 • rechten bij NTU

  (http://www.taalunie.nl/)

 • voor informatie zie http://lands.let.kun.nl/cgn/

Fac. TBM - TUD


Onderdelen CGN

 • corpusontwerp en -opbouw

 • opname en digitalisering

 • orthografische transcriptie

 • lemmatisering en (POS) part-of-speech tagging

 • lexicologische koppeling (CGN lexicon)

 • brede fonetische transcriptie

 • signaalkoppeling

 • syntactische annotatie

 • prosodische annotatie

 • exploitatiesoftware COREX

Fac. TBM - TUD


Conclusies

 • menselijke spraakproduktie en -perceptie minstens zo interessant als machinale

 • spraaktechnologie is niet alleen synth. / herk.

  spraakcodering, taalherkenning, sprekerverificatie, keyword spotting, document retrieval, vertalen, web avatars, etc.

 • zeer interdisciplinair vakgebied

 • veel potentie in toepassingssfeer, maar…

 • bedankt voor jullie aandacht

Fac. TBM - TUD


 • Login