Research Activity
This presentation is the property of its rightful owner.
Sponsored Links
1 / 20

Research Activity in multimodal and BN systems PowerPoint PPT Presentation


  • 56 Views
  • Uploaded on
  • Presentation posted in: General

Research Activity in multimodal and BN systems. Ing. Matus PLEVA prof. Dr.h.c. Ing. Anton Cizmar, CSc. Email: [email protected] or [email protected] Technic al U niver s it y of Kosice ( Slovak republic ). Past r esearch projects.

Download Presentation

Research Activity in multimodal and BN systems

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Research activity in multimodal and bn systems

Research Activity in multimodal and BN systems

Ing. Matus PLEVA

prof. Dr.h.c. Ing. Anton Cizmar, CSc.

Email: [email protected] or [email protected]

TechnicalUniversityofKosice(Slovak republic)


Past r esearch projects

Past research projects

  • Copernicus ISMAN :Integrated Services MAN, 1994-1997

  • Copernicus MOCOMTEL :Mobile Computing Telematic Services, 1998-2000.

  • COST 249 :Continuous Speech Recognition over the Telephone, 1994-2000.

  • COST 278 :Spoken Language Interaction in Telecomunications, 2001-2005.

  • COST 275 :Biometric Based People Recognition over the Internet, 2001-2005.

  • COST 273 :Towards Mobile Broadband Multimedia Networks, 2001-2005.

  • IRKR :Smart Speech Interfaces, 2003-2006.

  • Slovak Telecom :Progressive Data Technologies and Services, 1998-99, 2000-02.

  • Skoda Auto Mlada Boleslav :Voice Driven Services in Skoda Auto MB, 2004-2005.

  • VSE :PLC Systems and Services, 2002.

    etc.


New r esearch projects

New research projects

  • MOBILTEL :Mobile Multimodal Systems and Services, 2005-2007

  • COST 2100 :Pervasive Mobile & Ambient Wireless Communications, 2007-2011.

  • COST 2102 :Cross-Modal Analysis of Verbaland Non-verbal Communication, 2007-2011

  • VSE :PLC Systems and Services II, 2007

  • ATVOS :Advanced Speech Technologies for Voice Operated Telecommunication Systems and Services in Slovak, APVV, ???

  • VOTS :Voice Operated Telecommunication Systems and Services, AV MŠ, ???


Research activity in multimodal and bn systems

Smart Speech Communication Interface

National Program R&D Buildig Information SocietyNo.2003 SP 20 028 01 03

doc. Ing. Jozef Juhár, CSc a kol.

Email: [email protected]

TechnicalUniversityof Košice,

Slovak Academy of Science,

Slovak Technical University of Bratislava, Technical University of Žilina


Irkr slovak smart speech interface

IRKR – Slovak Smart Speech Interface

  • Research and development of a spoken language dialogue system for information retrieval using voice interaction between human and computer

  • Attributes of the solution:

    • human-computer interaction (dialogue) in Slovak

    • an access to distributed information in the Internet

    • multi-user interaction through telephone (PSTN, GSM, VoIP)

    • modular architecture open for future extensions

    • two demonstration applications (Weather forecast for Slovakia, Timetable of Slovak Railways)

  • see http://irkr.tuke.sk/


Irkr slovak smart speech interface1

IRKR – Slovak Smart Speech Interface

http://irkr.tuke.sk/

Voice Portal

IRKR – SlovakSmart

Speech Interface

Information

resources

+421 55 6022297 – fixed line

or +421 918 717491 – Orange cellular

or +421 911 660038 – T-Mobile cellular

or nickname: irkr_pub - Skype network

333 (with H323 Gateway -> 147.232.47.92)

Interaction monitoring website:

http://147.232.47.73:2297/index.php


Irkr slovak smart speech interface2

IRKR – Slovak Smart Speech Interface

ASR (automatic speech recognition) server

TTS server (text-to-speech)

HUB – GalaxyHub open architecture

http://irkr.tuke.sk/


Research activity in multimodal and bn systems

MOBILTEL

Mobile Multimodal Telecommunications Systems andServices

National Program R&D APVT-20-029004

prof. Dr.h.c. Ing. Anton Cizmar, CSc.

Email: [email protected]

TechnicalUniversityof Kosice


Mobiltel

MobilTel

  • Research and development in the area of mobile multimodal telecommunication systems

  • Attributes of the solution:

    • human-computer interaction (dialogue) in Slovak with support of another mainly graphical modalities

    • except voice also keyboard or stylus pen feedback

    • interaction through PDA speaker, MIC, and GUI

    • modular architecture open for future extensions

    • two demonstration applications (Weather forecast for Slovakia, Timetable of Slovak Railways)

  • see http://mobiltel.tuke.sk/


Mobiltel1

MobilTel

In fact: multimodal extension to previous project – building GUI for PDA users

ASR (automatic speech recognition) server

TTS(text-to-speech) server

TTM (Text To Multimodality) server

WWW (World Wide Web) server

speech

from

PDA

SIP

client

speech

over

SIP

network

SIP

client

synthetized

speech

html

GUI

files

PHP

JavaScript


Examples

examples


Practical example of mobiltel communicator usage

Practical example of MobilTel communicator usage

  • We can try: offline version without voice (only GUI)

  • But connected with HUB and actual information server

  • Because voice module was written in VC++ 3.0 embedded and it could be run only on Pocket PC 2002!!

  • Then we was trying to write a new module in C++ .NET framerok 2005.

  • Know we are trying to compile small VoIP SIP stack, compatible with all windows mobile devices!


Broadcast news processing

Broadcast News Processing


Datab zy

Databázy

  • TA3 – 3h

  • STV – 62h

  • Pod lampou – 10h

  • IRKR logy – 16h


Research activity in multimodal and bn systems

Cieľ

  • Automatická segmentácia a anotácia rečových dát

  • Tvorba audio-vizuálnych archívov s metadátami pre ľahšie a rýchlejšie prehľadávanie

  • Štandardy pre komplexne spracovanie metadát: MPEG7, MPEG21


Conclusion

Conclusion

  • Thank you for your attention!

  • Questions?

  • http://kemt.fei.tuke.sk/

http://mobiltel.tuke.sk/

http://irkr.tuke.sk/


Focus podmienky

Focus podmienky

  • F0: Základná vysielaná reč(baseline broadcast speech) - táto podmienka popisuje reč, ktorá je smerovaná priamo do vysielacieho reťazca, a je zaznamenaná v tichom štúdiu, s odstupom signálu od šumu viac ako 20dB. Predpokladáme tiež, že táto reč vznikla čítaním pripraveného textu.

  • F1: Spontánna vysielaná reč(spontaneous broadcast speech) - táto podmienka popisuje reč, ktorá je smerovaná jednému alebo viacerým konverzačným partnerom, teda odohráva sa spontánna konverzácia. Tento záznam je uskutočnený v tichom štúdiu, s odstupom signálu od šumu viac ako 20dB.


Focus podmienky1

Focus podmienky

  • F2: Reč cez telefónnu linku(speech over telephone channels) - táto podmienka popisuje reč, získanú zo zdroja s úzkym prenosovým pásmom, napríklad telefón, mobilný telefón, diktafón, záznamník alebo podobné médium so šírkou pásma maximálne 4kHz.

  • F3: Reč s hudbou v pozadí(speech in the presence of background music) - táto podmienka určuje reč, ktorá zodpovedá podmienkam F0 alebo F1, len s tým rozdielom že je vysielaná s hudbou v pozadí. Pomer výkonu signálu a hudby je taký, aby reč bola zrozumiteľná bežnému poslucháčovi, teda predpokladáme rozpätie medzi 10 až 20 dB.


Focus podmienky2

Focus podmienky

  • F4: Reč v degradovaných akustických podmienkach (speech under degraded acoustical conditions) - Táto podmienka popisuje reč, ktorá je degradovaná iným spôsobom ako hudbou v pozadí alebo použitím telefónnej linky. Zdroje degradácie môžu byť šum, šum prostredia, alebo nelineárne skreslenie. Odstup signálu od šumu (SNR) sa predpokladá v medziach 10 až 20 dB.

  • F5: Reč rečníka, hovoriaceho iným ako materinským jazykom (speech from non-native speakers) - táto podmienka určuje reč, ktorá zodpovedá podmienkam F0, ale je hovorená rečníkom, pre ktorého nie je táto reč prirodzenou materinskou rečou.


Focus podmienky3

Focus podmienky

  • F5 (pokračovanie): Táto reč je dostatočne zrozumiteľnou pre bežného poslucháča. Je hovorená plynulo rečníkom, ktorý má cudzozemský akcent. Napríklad britský rečník je cudzokrajným rečníkom pre americkú angličtinu. Ak rečník používa iný jazyk označuje sa to v texte spolu s jazykom aký používa. Nepoužíva sa však klasifikácia F5 ak to je jeho materinský jazyk.

  • FX: rôzne(miscellaneous) - Predstavuje reč, ktorá nespĺňa ani jednu predchádzajúcu podmienku, alebo reč, ktorá spĺňa viac ako jednu z podmienok F1 až F5. Napríklad cudzokrajný rečník s hudbou v pozadí.


  • Login