1 / 71

Beszédfelismerés és beszédszintézis Beszédkodekek

Beszédfelismerés és beszédszintézis Beszédkodekek. Takács György 9. beszédelőadás 2014. 03. 20. Definíció Ismétlés Általános kodek jellemzők G.729 kodek GSM kodek SPEEX kodek SILK kodek Kodek csipek. CODECS.

kosey
Download Presentation

Beszédfelismerés és beszédszintézis Beszédkodekek

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Beszédfelismerés és beszédszintézisBeszédkodekek Takács György 9. beszédelőadás 2014. 03. 20. T.Gy. Beszed ea. 2014. 03. 20 .

  2. Definíció • Ismétlés • Általános kodek jellemzők • G.729 kodek • GSM kodek • SPEEX kodek • SILK kodek • Kodek csipek T.Gy. Beszed ea. 2014. 03. 20 .

  3. CODECS • Codecs are used to convert an analog voice signal to digitally encoded version. Codecs vary in the sound quality, the bandwidth required, the computational requirements, etc. • Each VoIP service, program, phone, gateway, etc typically supports several different codecs, and when talking to each other, negotiate which codec they will use. T.Gy. Beszed ea. 2014. 03. 20 .

  4. Minek tömöríteni a beszédjelet – válaszaim: • Nagyon korlátozott a sávszélesség a rádiótelefonra rendelkezésre álló sávokban (a mai forgalomsűrűségnél). • Nagy az árverseny a transzkontinentális összeköttetéseken • Korlátos, de főként nem garantált az interneten rendelkezésre álló sávszélesség….. • Korlátos a beszédjel tárolásához rendelkezésre álló kapacitás (pl. diktafon funkció mobiltelefonnál…) • Olimpiai közvetítések kommentátor hangjait TV hangminőségben telefonvonalon kell továbbítani….(ma jellemző az 1kép+100hang arány) • A beszédjelet a jellegzetes átviteli hibákkal szemben ellenállóvá kell tenni (Fading –rádiós átvitelnél, csomagvesztés -- IP telefonnál) T.Gy. Beszed ea. 2014. 03. 20 .

  5. Mit várunk a beszédtömörítőktől? • Értse amit mondunk – nem! • Tudja milyen nyelven beszélünk – nem! • A beszédképzési vagy beszédfelfogási megközelítés jelenti az elvi határt a tömörítésben? Nyilvánvalóan a képzési megfontolások jelenthetik az elvi határt, azaz a kb. 250 bit/s elvi határértéket! T.Gy. Beszed ea. 2014. 03. 20 .

  6. "A lathe is a big tool. Grab every dish of sugar." Eredeti 2400 bit/s T.Gy. Beszed ea. 2014. 03. 20 .

  7. T.Gy. Beszed ea. 2014. 03. 20 .

  8. (a) The vocal tract, modeled as a single one-dimensional acoustic tube of varying cross-sectional area and (b) an eight tube model suitable for discretization T.Gy. Beszed ea. 2014. 03. 20 .

  9. Egy keresztmetszetváltás és a csatlakozó csőszakaszok viszonyai T.Gy. Beszed ea. 2014. 03. 20 .

  10. Egy állandó keresztmetszetű szakaszon a haladó hullámok csak késleltetést szenvednek, ezért A keresztmetszetváltásnál felírható a folytonossági egyenlet Bevezetve a reflexiós tényezőt: T.Gy. Beszed ea. 2014. 03. 20 .

  11. A toldalékcső modellje egyenletesen felosztott, állandó keresztmetszetű csőszakaszokkal T.Gy. Beszed ea. 2014. 03. 20 .

  12. Hogyan határozhatók meg a csőmodell paraméterei a beszédjel mintáiból? T.Gy. Beszed ea. 2014. 03. 20 .

  13. Lineáris predikció alapok A beszédjel n-edik mintája becsülhető a megelőző p beszédminta lineáris kombinációjával ahol az αilineáris predikciós együtthatók hordozzák a jelenségre vonatkozó előismereteket, tapasztalatokat. p -- a prediktor fokszáma T.Gy. Beszed ea. 2014. 03. 20 .

  14. A PARCOR eljárás T.Gy. Beszed ea. 2014. 03. 20 .

  15. T.Gy. Beszed ea. 2014. 03. 20 .

  16. A beszédtömörítés alapvető modelljei 2012-ben • A beszédjel mintákból a lineáris predikció PARCOR együtthatói rekurzív képlettel kiszámolhatók. • Az együtthatók kis hibával leírják a beszédjel egy szakaszát. • A hibajel és az együtthatók pontos értékei a számítási hibán belül pontosan leírják az eredeti beszédjelet. • A modell stabilitási kritériumai garantálhatók számítási és átviteli hibák esetén is. • A predikciós együtthatók és a hibajelek jól kvantálhatók staisztikai jellemzőik és percepciós kísérletek eredményei alapján. • A predikciós paraméterek és hibajel paraméterek a beszédképzési modell jellemzőivel közvetlen fizikai kapcsolatban állnak. T.Gy. Beszed ea. 2014. 03. 20 .

  17. T.Gy. Beszed ea. 2014. 03. 20 .

  18. T.Gy. Beszed ea. 2014. 03. 20 .

  19. VoIP CODEC Family • GIPS Family - 13.3 Kbps and up • GSM - 13 Kbps (full rate), 20ms frame size • iLBC - 15Kbps,20ms frame size: 13.3 Kbps, 30ms frame size • ITU G.711 - 64 Kbps, sample-based Also known as alaw/ulaw • ITU G.722 - 48/56/64 Kbps ADPCM 7Khz audio bandwidth • ITU G.722.1 - 24/32 Kbps 7Khz audio bandwidth (based on Polycom's SIREN codec) • ITU G.722.1C - 32 Kbps, a Polycom extension, 14Khz audio bandwidth • ITU G.722.2 - 6.6Kbps to 23.85Kbps. Also known as AMR-WB. CELP 7Khz audio bandwidth • ITU G.723.1 - 5.3/6.3 Kbps, 30ms frame size • ITU G.726 - 16/24/32/40 Kbps • ITU G.728 - 16 Kbps • ITU G.729 - 8 Kbps, 10ms frame size • Speex - 2.15 to 44.2 Kbps • LPC10 - 2.5 Kbps • DoD CELP - 4.8 Kbps • SVOPC – 20kbps • SILK 6-40 kbps T.Gy. Beszed ea. 2014. 03. 20 .

  20. To use G.729 or G.723.1 you may need to pay a royalty fee!!!!!!!!!! • this code is available for you to download for education purposes only!!!!!!!!!!!! T.Gy. Beszed ea. 2014. 03. 20 .

  21. In VoIP networks, codecs are used to compress regular audio (16 bit signed linear audio, usually sampled at 8000Hz). Codecs are usually `lossy'. This means that the output data does not have to be perfectly identical to the source data , it just has to sound the same when converted to sound. • If your VoIP network is on an office LAN and the signal doesn't ever traverse a WAN connection (internet, VPN, DSL, etc), then compression isn't critical. If your VoIP signals may need to traverse a WAN, then you need to compress the signal as much as possible. This allows you to fit more simultaneous phone calls into a single WAN connection. Compression also creates smaller packets. Smaller packets means less audible delay and lower risk of packet loss. T.Gy. Beszed ea. 2014. 03. 20 .

  22. Many devices offer only 1 or 2 low bit rate codecs, usually G.729 and one other or just G.729. If you have bought phones that only support G.729, then you have little choice. • Some gateway providers will only allow you to talk to their gateway with G.729. • A good G.729 implementation uses less bandwidth and less CPU power than other low bit rate codecs such as iLBC. G.729 uses 8kbps, iLBC uses 13kbps. • Some people have observed their CPU performing up to 50% better when doing G.729 compression compared to iLBC. T.Gy. Beszed ea. 2014. 03. 20 .

  23. Few phones implement iLBC (one such phone is Budgetone 101 and 102). Many others - Cisco 7940, Snom, Swissvoice - only offer G.729 • Most phones offer G.711 (ulaw/alaw) as well - that is actually 64kbps, eight times the bandwidth required by G.729. It is only for use on LANs. • G.723.1 is used for similar reasons to those just listed, but gives the benefit of using even less bandwidth but with a more noticable degradation of sound quality. T.Gy. Beszed ea. 2014. 03. 20 .

  24. Features of G.729, G.729A & G.729AB Vocoder • Compresses 8 kHz CODEC or linear audio data to 8 kbps. • Operates on 10ms frames with short algorithm delays. • Short-term synthesis filter is based on a 10th order Linear Prediction (LP) filter. • Long-term, or pitch synthesis, filter is implemented using the adaptive-code book approach. T.Gy. Beszed ea. 2014. 03. 20 .

  25. T.Gy. Beszed ea. 2014. 03. 20 .

  26. T.Gy. Beszed ea. 2014. 03. 20 .

  27. T.Gy. Beszed ea. 2014. 03. 20 .

  28. T.Gy. Beszed ea. 2014. 03. 20 .

  29. T.Gy. Beszed ea. 2014. 03. 20 .

  30. T.Gy. Beszed ea. 2014. 03. 20 .

  31. T.Gy. Beszed ea. 2014. 03. 20 .

  32. T.Gy. Beszed ea. 2014. 03. 20 .

  33. GSM KODEK követelmények • Nagy tömörítés (64 kbit/s-ről kb. 13 kbit/s-re) • Tisztán digitális rendszer • Jó minőség • Hibatűrés (a rádiós átvitel sajátosságai miatt) • Stabilitás • Kis késleltetés (max. 50 ms) • Kis fogyasztás • Implementálhatóság • Full Rate, Half Rate, Enhanced Full Rate, Adaptive Rate változatok T.Gy. Beszed ea. 2014. 03. 20 .

  34. T.Gy. Beszed ea. 2014. 03. 20 .

  35. T.Gy. Beszed ea. 2014. 03. 20 .

  36. T.Gy. Beszed ea. 2014. 03. 20 .

  37. Kodek alapjellemzők • Mintavételi frekvencia 8kHz • Analízis keret 20ms (160 minta) • Reflexiós együtthatók száma 8 (prediktor fokszáma) kifejezése LAR (Log Area Reflexion) paraméterekkel • Reziduális hiba tovább bontva 4 db 40 mintás alszegmensre RPE (Regular Pulse Exitation) kódolás és LTP (Long Term Predictor) kódolással • 260 bit/20 ms (13000 bit/s) nettó bitsebesség T.Gy. Beszed ea. 2014. 03. 20 .

  38. T.Gy. Beszed ea. 2014. 03. 20 .

  39. T.Gy. Beszed ea. 2014. 03. 20 .

  40. T.Gy. Beszed ea. 2014. 03. 20 .

  41. T.Gy. Beszed ea. 2014. 03. 20 .

  42. Speex is based on CELP and is designed to compress voice at bitrates ranging from 2 to 44 kbps. Some of Speex's features include: • Narrowband (8 kHz), wideband (16 kHz), and ultra-wideband (32 kHz) compression in the same bitstream • Intensity stereo encoding • Packet loss concealment • Variable bitrate operation (VBR) • Voice Activity Detection (VAD) • Discontinuous Transmission (DTX) • Fixed-point port • Acoustic echo canceller • Noise suppression • http://www.speex.org/samples/ T.Gy. Beszed ea. 2014. 03. 20 .

  43. A SPEEX kodek koncepciója • A fejlesztők egy nyílt forráskódú beszédkodeket terveztek, amelynél nem kell kodekenként díjat fizetni a szabadalom tulajdonosainak. Valami olyat terveztek, mint a Vorbis az audio (zenei) kodekek területén. • Nem a mobiltelefonok igényét tartották szemelőtt (persze abból már működik több, mint 2 milliárd darab), hanem kifejezetten az IP alapú hálózatok igényeit és a VoIP alkalmazásokat. Jól alkalmazható a SPEEX beszédjelek tömör tárolására is fájlokban. T.Gy. Beszed ea. 2014. 03. 20 .

  44. A SPEEX kodek koncepciója • Legyen rugalmas és széles beszédminőség-tartományban használható azaz különböző bitsebességeknél. Felöleli a szélessávú (16kHz mintavételes) jóminőségű beszédkódolástól a szokásos telefonminőségen át a 4,8 kbps tömörítésig. • A SPEEX jól tűri a csomagveszést, de nem működik jól bithibák esetén. Azt feltételezi, hogy a csomagok vagy megérkeznek rendben vagy elvesznek. • Mivel sokféle eszközben tervezték a felhasználását, ezért törekedtek a fejlesztésénél ara, hogy megvalósításánál a processzorteljesítmény és tárterület igény minimális legyen. T.Gy. Beszed ea. 2014. 03. 20 .

  45. A SPEEX kodek koncepciója • A követelmények alapján a legjobban illeszkedő kódolási technika a CELP (Code Excitation Linear Prediction). Ez a technika egyrészt bevált, megbízható, továbbá alkalmas széles minőségi tartományban hasonló algoritmusú működésre. • A SPEEX kódolás veszteséges, azaz a tömörítést beszédminőség rovására hajtja végre. A tömörítési arány beállítható és lehetséges az állandó (CBR) vagy változó (VBR) bitsebességű működés is. (2,15 kbps – 44kbps) • A kódolás komplexitása is változtatható. T.Gy. Beszed ea. 2014. 03. 20 .

  46. A SPEEX kodek koncepciója • Beszéddetektálás (VAD) a kodek eldönti, hogy jön-e beszédjel, vagy beszédszünet van (esetleg háttérzaj). Ha nincs aktív beszédjel, akkor nem kódol, hanem csak egy pár mintával reprezentált „komfort” zajt ad ki. • A SPEEX kodek elvi (CPU idő nélküli) késleltetése 8kHz mintavételezésnél 30 ms, 16 kHz-nél 34 ms. T.Gy. Beszed ea. 2014. 03. 20 .

  47. SPEEX keskenysávú módban T.Gy. Beszed ea. 2014. 03. 20 .

  48. SPEEX szélessávú módban T.Gy. Beszed ea. 2014. 03. 20 .

  49. SPEEX kodek elemek - segédelemek • Zajcsökkentés • Automatikus szintszabályozás (AGC) • Beszéddetektálás (VAD) • Adaptív buffer • Visszhangzár T.Gy. Beszed ea. 2014. 03. 20 .

  50. Visszhangzár elve (hangszórós működéskor fontos, hogy a partner ne hallja késleltetve vissza a saját hangját) T.Gy. Beszed ea. 2014. 03. 20 .

More Related