1 / 23

Trends und aktuelle Entwicklungen von Sprachdialogsystemen

Trends und aktuelle Entwicklungen von Sprachdialogsystemen. Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in Frankfurt/M. Inhalte des Vortrags:. Stand der Technik, aktuelle Entwicklungen:

Download Presentation

Trends und aktuelle Entwicklungen von Sprachdialogsystemen

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Trends und aktuelle Entwicklungen von Sprachdialogsystemen Einführungsvortrag von Prof. Dr. G.-U. Tolkiehn IIR-Konferenz „Voice 2004“ am 4. 10. 2004 in Frankfurt/M.

  2. Inhalte des Vortrags: • Stand der Technik, aktuelle Entwicklungen: • Voice-Portale - mehr als nur Automatisierung zur Senkung der Kontaktkosten im Call Center: Ergänzung und/oder Alternative zu Web-Portalen • Spracherkennung und –synthese: Perfektionierung, z. B. durch phonetische Transskriptionsverzeichnisse, Grammatiken, KI • Konzentration bei den großen Basistechnologie-Anbietern: Wenig Hoffnung auf Preissenkungen • Trends und Perspektiven: • Wachstum: V-Commerce soll wesentlichen Anteil an e-Commerce erobern • Neue Anwendungsgebiete: Gewinnspiele, e-mail-reading und Überweisungen - Sprachtechnologie kann viel mehr • Immer wichtiger für innovative Lösungen: Software- und Systemhäuser • Wie steht es mit plug-and-play-Lösungen für KMU’s?

  3. Stand der Technik: IVR, Voice-Portale Quelle: GartnerGroup „The Implications of the 2001 CRM Hype Cycle“ vom 3. 4. 2001

  4. Kleine Systematik: Elemente von Sprachsystemen • Sprachaufnehmende Systeme • Sprache  Sprachdaten (Mikrofon, ADC, Codec) • Sprachübermittelnde Systeme (PBX, PSTN, ISDN, LAN, Internet) • Sprachdaten  Übertragung Sprachdaten • Sprachspeicherung • Sprachdaten Speichersystem/-medium Sprachdaten • Sprachanalysierende Systeme • Sprache  Sprachdaten  Text  Daten  Bedeutung (Spracherkennung (Worte), Sprachverständnis, Sprechererkennung, Sprecherverifikation) • Geräusche  Daten (DTMF-, Pausen-Erkenner, grunt-detection, AB-, Besetzt-Erkenner, noise-reduction) • Sprache erzeugende Systeme • Daten  Text  Sprachdaten  Sprache (sprechende Systeme, TTS, Reading) • Sprachausgabesysteme • Sprachdaten  Sprache (Codec, DAC, Lautsprecher)

  5. Sprachaufnehmende und -ausgebende Systeme • „der“ Standard: • „Telefonqualität“ (digital: ITU G.711, 300 Hz –3,4 kHz) oder neuerdings: GSM-Qualität • Endgerät „knochenförmig“, schnurgebunden oder schnurlos • Zifferntastatur 0-9, *, #, plus mehr oder weniger verständliche Funktionstasten, • meist kleines alphanumerisches Display, • andere Bauformen sind möglich (Headset, Speakerphone, Soundkarte), jedoch bisher nur in Nischen verbreitet • Umwandlung von Sprache in Sprachdaten und umgekehrt • besondere Qualitäten: Höhere Bandbreiten, zusätzliches Video, Außenmikrophone ...

  6. Bereiche der Sprachqualität Voice over Internet GSM ISDN Quelle: „Leitfaden VoIP“, Swyx Communications AG, 2000

  7. Netz ADC DEE DÜE DÜE DEE DAC Sprachspeicher Sprachspeicher, Verwendung in Systemen E/A-Elemente und UI E/A-Elemente und UI • Sprachspeicher speichern Sprachdaten. Es gibt sie analog, digital, mit VoIP, als Komponenten von: • Voice-Logging-Systemen teilnehmerseitig (simplex/duplex, an Endgerät, PBX, LAN) • Voice-Logging-Systemen im (öffentlichen) Netz • Voice-Message-Systemen im (öffentlichen) Netz • Voice-Message-Systemen auf der Teilnehmerseite • Anrufbeantwortern (analog und digital, beim B-Teilnehmer) • Benachrichtigungssystemen (outbound) • Ansagesystemen, IVR-Systemen, auto-attendants, voice portals

  8. Sprachanalysierende Systeme (ASR) • Spracherkennung • Diktiersysteme (Sprache  Text, großer Wortschatz, i.d.R. sprecherabhängig, großer Ressourcenverbrauch, hohe Fehlerraten) • Sprach-Bedienung von Dialog-Systemen heute i.w. wortweise: • Sprache  Text  Daten oder • Sprache  Text  einfache Grammatik  Daten, • meist sprecherunabhängig, mittlerer Wortschatz, ladbar, einstellbare Fehlerrate, wordspotting und barge-in, Ziel „natural language understanding“ • Sprach-Authentifizierung • Sprecherverifikation (sicher in Größenordnung 1 aus einige 1000) • Sprechererkennung (ebenfalls 1 aus einige 1000) • Geräuschanalyse • DTMF-Erkennung für Dialogsysteme mit Sprachausgabe • Pausen-Erkenner zur Datenkompression • grunt-detection, AB-Erkennung, Besetzt-Erkenner • noise- und distortion-Analyse und -Reduktion

  9. Spracherzeugende Systeme • Umwandlung von Textdaten oder anderen nicht-Sprachdaten in Sprachdaten • Anwendung: • Reading (TTS, Vorlesen von gespeichertem Fließtext) • Ansagen von generiertem Text (Zeit, Börsenkurse, Auskunft) • Funktionen: • ggf. Textgenerierung (Komponente von NL-Dialogsystemen, erfordert semantische und grammatische Synthese) • Umwandlung von Text in Phonem-Fluss, heute mit Betonung und Tonhöhenverlauf (erfordert eine „relativ einfache“ Grammatikevaluation) • Umwandlung des Phonemflusses in Sprachdaten

  10. Top-View: • Was will der Betreiber? • Kosten sparen durch Verlagerung von so viel Dialog wie möglich vom live agent in die Maschine. • Die Schallmauer 1€/Call durchbrechen • V-Commerce: Mit Sprache neue Geschäftsmöglichkeiten schaffen – aber zu geringen Kosten. Webserver können viel, sind aber nicht immer das Optimum. • Was will der User? • In erster Linie, dass er • das bekommt, was er haben will, • dann, wenn er es haben will, • ohne Risiken und • zu bekannten und akzeptablen Kosten. • Einfach, verfügbar, klar, verlässlich, preiswert, sicher.

  11. Vergleich mit Webserver und Call Center • Also: Call Center-Funktionalität zu Transaktionskosten von Webservern. • In USA wurden vor Jahren Webserver (Shops und Helpdesks) mit der Dialogstruktur der bereits erprobten IVR-Systeme ausgestattet. Ein Fehlschlag. • Wer heute versucht, Voice-Portale mit der Dialogstruktur von Web-Shops aufzubauen begibt sich ebenfalls in Gefahr. • Die Dialogstruktur von IVR-Systemen tut es natürlich auch nicht mehr • Ist das alles? Gute Dialoge aus den Call Center Erfahrungen ableiten und gute Technik einsetzen? Sollte doch gehen. Oder?

  12. Gefahrenpotentiale • Lehrsatz: Automatisierung senkt Kosten zu Risiken und Nebenwirkungen fragen Sie Ihren Vertriebsleiter oder Unternehmensberater • Negativ-Beispiel: Geldautomaten der Banken • Kommunikation mit Menschen ist eine komplexe Angelegenheit. Sachebene - Beziehungsebene • Was kommuniziert Ihr Voice-Portal eigentlich auf der Beziehungsebene? • a b • Selbst für eine „relativ einfache“ Kommunikation auf der Sachebene benötigen wir aber bereits

  13. Grammatik- Analyse Komplexe integrierte Systeme Quelle: Philips (www.speech.philips.com)

  14. Komplexe integrierte Systeme • „Alte Technik“: IVR-Systeme (Interactive Voice Response oder VRU), auto attendant, UM: Meist nur DTMF-Erkennung und Konservenausgabe, Sprachspeicher, spezielle einfache Transaktionen • „Neue Technik“: Voice-portals, integrativer Ansatz • ASR: Word-spotting, barge-in, Grammatik, Sprachmodelle? Welcher Erkenner? Gutes Wörterbuch mit effizienter Erweiterungsfunktion? Welche Sprachen? Wieviel simultane Kanäle? • Sprachausgabe aus Konserven? TTS? DTS? Welche Lösung? • Guter Dialoggenerator? Auswertungen und Änderungen der Dialoge während der Laufzeit einfach durch Anwender möglich? • Interoperabilität mit TK-Anlage? ISDN? VoIP? CTI (z.B. Vermittlung, Bedienung VM-System, e-Mail-Abruf)? • Datenschnittstelle für Transaktionssysteme und Webserver • Brauchbare Voice-Message-Funktionen, auch ACD-fähig? • Contact Center und CRM-Integration?

  15. IVR-Technik in deutschen Contact Centern 2002 Summe: 47% Quelle: Marktstudie PartnerConsulting & TFH Wildau Juni, 2003

  16. Investitionsabsichten in Contact Centern 2002 • 17,6% der befragten Unternehmen planten in 2002 bis 2004 in IVR-Technologie investieren • 5,9% der befragten Unternehmen planten in 2002 bis 2004 in Voice-Logging-Systemen zu investieren • Keiner der Teilnehmer wollte in Voice-Mail Systeme investieren • Die Studie wird ab Oktober erneut durchgeführt. Wir werden dann auch explizit nach Voice-Portalen fragen

  17. Voice-Portal-taugliche Bereiche identifizieren! Quelle: White Paper von Concerto Software

  18. Was können wir demnächst erwarten? • Trotz aller Schwierigkeiten: V-Commerce erhält durch Automatisation „zweite Luft“ als wesentliche Komponente von e-commerce. Einige Einzelbelege: • steigende Anzahl von Webseiten zu v-commerce (26. 9. in Google allein auf deutsch 410 Treffer!) • Nuance hat seinen Webauftritt in www.v-commerce.com umbenannt, nicht zu verwechseln mit www.vcommerce.com • Gegenwärtiges Voice Event Revival ca. 5 Jahre nach dem Absterben vieler „alter“ Voice Events • Aber es dauert! • Wer hat schon mal in einem vollautomatisierten v-shop eingekauft? • Wo bleiben v-government und v-administration?

  19. Was können wir demnächst erwarten? • Weitere Perfektionierung der Basis-Technologie, auch neue kleine Anbieter beachten! • Weiterentwicklung der SW-Komponenten (Grammatik, KI, Dialoggeneratoren etc.) • Neue Hardware (Hochleistungsfähige, preiswerte CAPI und VoIP-Komponenten) • SW- und Systemhäuser spezialisieren sich auf Voice-Portal-Lösungen und Anwendungsintegration • Weitere Verbesserung der Flexibilität und Handhabbarkeit der Lösungen durch den Anwender • Kleine Ready-to-Run-Lösungen out-of-the-box • Preissenkungen für SW leider eher nicht

  20. Grid Computing Visibility Biometrics Natural Language Search Web Services Identity Services Wireless LANs/802.11 VPN PDA Phones Nanocomputing Text-to-Speech E-Tags Speech Recognition in Call Center P2P PersonalFuel Cells VoIP WAP/ WirelessWeb Bluetooth PKI Location Sensing E-Payments Speech Recognition on Desktop Peak of InflatedExpectations TechnologyTrigger Trough ofDisillusionment Slope ofEnlightenment Plateau ofProductivity Maturity Gartner Hype Cycle 2003 Key: Time to “Plateau” Less than two years Two to five years Five to 10 years Beyond 10 years

  21. Fazit: Es wird sich noch einiges tun • in den nächsten fünf Jahren sind für Voice-Portale also noch • erhebliche technische Weiterentwicklungen • die Erprobung neuer Einsatzgebiete und • erhebliche Zunahme der Marktdurchdringung zu erwarten • Wir bleiben dran. Tun Sie es auch!

  22. Vielen Dank für Ihre Aufmerksamkeit!Fragen und Anmerkungen bitte!Datenversion anfordern von:info@tolkiehn-partner.de

  23. Einfaches Beispiel für eine Grammatik Quelle: Philips (www.speech.philips.com

More Related