Praten met mens en machine
Sponsored Links
This presentation is the property of its rightful owner.
1 / 19

PRATEN MET MENS EN MACHINE PowerPoint PPT Presentation


  • 99 Views
  • Uploaded on
  • Presentation posted in: General

PRATEN MET MENS EN MACHINE. Louis C.W. Pols Leerstoelgroep Fonetische Wetenschappen (IFA) Herengracht 338, 1016 CG Amsterdam Amsterdam Center for Language and Communication (ACLC) / LOT Opleiding Taalwetenschap (Ba/Ma Linguistics) Afdeling / OW-instituut Taal- en Letterkunde

Download Presentation

PRATEN MET MENS EN MACHINE

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


PRATEN MET MENS EN MACHINE

Louis C.W. Pols

Leerstoelgroep Fonetische Wetenschappen (IFA)

Herengracht 338, 1016 CG Amsterdam

Amsterdam Center for Language and Communication (ACLC)/LOT

Opleiding Taalwetenschap (Ba/Ma Linguistics)

Afdeling/OW-instituut Taal- en Letterkunde

Faculteit der Geesteswetenschappen (voorheen Letteren)

Universiteit van Amsterdam

Lezing TUD, do. 15 april 2004

Jaffalaan 5

Fac. Techniek, Bestuur en Management


Overzicht

  • praten is communiceren via gesproken taal

  • pratende computers = spraaksynthese

  • luisterende computers = spraakherkenning

  • spraaksignaalanalyse software ‘praat’

  • 10 M woorden Corpus Gesproken Nederlands

  • conclusies

  • informatie over taal- en spraaktechnologie, zie o.a. http://www.taalunieversum.org/tst/ en http://www.fon.hum.uva.nl/

Fac. TBM - TUD


Praten

  • praten is communiceren, meestal met anderen, voornamelijk via gesproken taal

  • klanken, woorden, zinnen, grammatica, taal

  • spreekstijl, stemkwaliteit, tempo, emotie, dialect, taalvaardigheid, beurtgedrag, aarzelingen, versprekingen

  • woordklemtoon, zinsaccent, frasering

  • disambigueren

    • ga naar/Ghana, koninklijke/koleke, kanon, verspringen

    • Daan zei de baas is te laat  wie is er te laat?

Fac. TBM - TUD


luisteraar

spreker

mens

spraaksignaal

commun. kanaal

spraaksynthese

automatische

spraakherkenning

machine

Mens vs. machine

menselijke communicatieketen:

concept, uiting selecteren, articulatie, spraakgeluid, transmissiekanaal, geluidwaarneming, interpretatie

Fac. TBM - TUD


Spraaksynthese

  • pratende machine = spraaksynthese

  • database-info, concept, tekst in  spraak uit

  • evt. taalgeneratie, orthografie

  • tekstanalyse (drs.; §; TUD; € 10,-; herv gem)

  • grafeem/foneem conversie (lexicon en regels)

    extra  /’Ekstra:/wegnemen  /w’Exne:m@/

  • woordklemtoon, zinsaccent, pauzes

  • prosodie (co-articulatie, F0, duur)

  • akoestische realisatie (difonen)

Fac. TBM - TUD


Demonstratie Fluent Dutch

  • Fluent Dutch Text-To-Speech

  • ontwikkeld door A. Dirksen en L. Mehnert

  • eerst Fluency Speech Technology, Utrecht

  • toen van Dale Lexicografie, Utrecht

    o.a. sprekend woordenboek, gesproken e-mail

  • nu Fluency weer eenmansbedrijf

  • andere Nederlandse synthesesystemen:

    IPO, Nijmeegse allofoonsynthese, Polderland,

    Speechworks RealSpeak, Infovox, NEXTENS

Fac. TBM - TUD


Toepassingen spraaksynthese

  • sprekende computer

  • info per telefoon (e-mail, banktegoed, koers)

  • sprekend woordenboek

  • hulpmiddel voor visueel gehandicapten

    toetsenbord, polshorloge, thermostaat, etc.

  • onderdeel van dialoogsysteem (OVIS, IMIX)

  • miniaturisatie (onleesbare schermpjes)

  • volledige taal/spraak kennis  perfekte synth.

Fac. TBM - TUD


Spraakherkenning

  • luisterende computer = autom. spraakherk.

  • woorden herkennen vs. spraakverstaan

  • geluidsinvoer (microfoon, ADC)

  • kenmerkrepresentatie (filterwaarden/10 ms)

  • herk. woordsjablonen (templates, DTW), òf

  • getrapte herkenning (en evt. interpretatie)

    • fonemen: HMM phone like units (PLU’s) of ANN

    • woorden: woordmodellen, norm. uitspraak wrd.

    • zinnen: taalmodellering (n-gram)

Fac. TBM - TUD


5

Time (s)

2

0


5-state HMM phone or word model

aii = selfloop probability; aij = between state transition prob.;

bj(ot ) = observation probabilityfrom Wang (1997)


Ranks of words predicted by a trigram language model (from Jelinek, in Furui & Sondhi (1992))


Aspekten van ASH

  • spreekstijl (woord voor woord, continu)

  • woordenschat (2 - 60.000 woorden, onbeperkt)

  • sprekerpopulatie (een, meerdere, dialect, taal)

  • training (spreker en vocab. (on)afh., spr. adaptief)

  • dialoogstructuur (simpel  pseudo-natuurlijk)

  • robuustheid in gebruik (spreker, micr., omgeving, leeftijd, taalvaardigheid, gespreksonderwerp)

  • out-of-vocabulary words (OOV)

  • foutenscore (substitutie, deletie, insertie; begrip)

Fac. TBM - TUD


Demonstratie Dragon Naturally Speaking

  • ontwikkeld door Dragon Dictate, ook Ned.

  • opgekocht door (nu zelf failliete) L&H, nu Scansoft

  • sprekerspecifiek (urenlange training)

  • vlotte invoer, real-time op snelle PC

  • taalmodel heel belangrijk, evenals training

  • tekstinvoer naast commando’s

  • andere systemen voor het Nederlands:

    • Philips Freespeech

    • IBM ViaVoice

    • Scansoft SpeechWorks VoCon

Fac. TBM - TUD


Toepassingen van spraakherkenning

  • dicteersysteem, tekstverwerker

  • systeemcontrole (industrie, speelgoed, beveiliging, huishouden)

  • iedere telefoon een terminal

  • computer assisted language learning (CALL)

  • hulpmiddelen voor gehandicapten

  • onderdeel van een dialoogsysteem (OVIS, tel. 0900-9292; IMIX)

  • spraak naast andere modaliteiten

  • miniaturisatie (te kleine knopjes)

Fac. TBM - TUD


spraaksignaalanalyse

  • in-huis ontwikkeld software pakket ‘praat’

  • wereldwijd verspreid, open source

  • mogelijkheden voor opname, generatie, weergave, selectie, analyse (spectrum, duur, toonhoogte), manipulatie, segmentatie en labeling, statistiek, etc.

  • werken met scripts

  • uitstekende grafische uitvoermogelijkheden

  • en nog veel meer, zie site praat.org (demo)

Fac. TBM - TUD


Corpus Gesproken Nederlands

  • Vlaams-Nederlands initiatief

  • 10 Mƒ, 10 M woorden (ca. 1000 uur spraak)

  • start juni 1998, 5 jaar, 7 releases (audio + annotaties)

  • allerlei spreekstijlen ook over telefoon, volwassenen, wel varianten ABN geen dialect

  • t.b.v. taalkundigen, T/S technologie, en anderen

  • rechten bij NTU

    (http://www.taalunie.nl/)

  • voor informatie zie http://lands.let.kun.nl/cgn/

Fac. TBM - TUD


Onderdelen CGN

  • corpusontwerp en -opbouw

  • opname en digitalisering

  • orthografische transcriptie

  • lemmatisering en (POS) part-of-speech tagging

  • lexicologische koppeling (CGN lexicon)

  • brede fonetische transcriptie

  • signaalkoppeling

  • syntactische annotatie

  • prosodische annotatie

  • exploitatiesoftware COREX

Fac. TBM - TUD


Conclusies

  • menselijke spraakproduktie en -perceptie minstens zo interessant als machinale

  • spraaktechnologie is niet alleen synth. / herk.

    spraakcodering, taalherkenning, sprekerverificatie, keyword spotting, document retrieval, vertalen, web avatars, etc.

  • zeer interdisciplinair vakgebied

  • veel potentie in toepassingssfeer, maar…

  • bedankt voor jullie aandacht

Fac. TBM - TUD


  • Login