1 / 21

Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom Yard. Doç. Dr. A. Kadir YALDIR

Linear Predictive Coding ve D ynamic Time Warping Teknikleri Kullanılarak Ses Tanıma Sistemi Geliştirilmesi. Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom.net Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi akyaldir@pau.edu.tr. Akademik Bilişim 2006 9-11.02.2006 DENİZLİ. Ses.

Download Presentation

Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom Yard. Doç. Dr. A. Kadir YALDIR

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Linear Predictive Codingve Dynamic Time Warping Teknikleri Kullanılarak Ses Tanıma Sistemi Geliştirilmesi Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom.net Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi akyaldir@pau.edu.tr Akademik Bilişim 20069-11.02.2006DENİZLİ

  2. Ses • Rabiner ve Juang: Akciğerlerden havanın dışarı atılması sonucunda oluşan hava akımının, ses sisteminde bir yerlerde sıkıştırılarak karıştırılmasından yayılan akustik dalgalardır[1].

  3. Ses Tanıma • Cole vd: Mikrofon ya da telefon tarafından alınmış akustik bir sinyalin, kelime kümesine olan çevrim işlemi olarak tanımlanmaktadır [2].

  4. İnsanlar arası sesli iletişim Şekil 1: Huang vd tarafından verilen, İnsanlar arası sesli iletişim modeli [3].

  5. Ses Tanıma Sistemleri Nasıl Çalışır? Şekil 2: Ses Tanıma sistemleri, insanlar arası sesli iletişimsürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye çalışır.

  6. Ses Tanıma Süreci • Sesin kaydedilmesi ve ifadenin saptanması • Sesin işlenmesi • Karşılaştırma ve eşleştirme • İşlevin gerçekleştirilmesi

  7. Sesin kaydedilmesi ve ifadenin saptanması • Mikrofon veya telefon ile kayıt işleminin gerçekleştirilmesi • Konuşma başlangıç ve bitişinin belirlenmesi Bir çerçevedeki RMS değeri ve Sıfırı geçiş sayısı (1)

  8. Sesin işlenmesi • Pencereleme • Filtreleme • Sesin kodlanması (Özellik çıkarımı)

  9. Sesin işlenmesi – Pencereleme Şekil 3: Geliştirilen uygulama ile 8000 Hz ile örneklenerek kaydedilmiş ‘sıfır’ kelimesi için başlangıç ve bitişi saptanarak belirlenmiş ses sinyali. (2) Şekil 4: Hamming penceresinden geçirilmiş ‘sıfır’ kelimesi için ses sinyali.

  10. Sesin işlenmesi – Sesin kodlanması • PCM (Linear Pulse Code Modulation) • APCM (Adaptive Pulse Code Modulation) • DPCM (Differential Pulse Code Modulation) • ADPCM (Adapted Differential Pulse Code Modulation) • DM (Delta Modulation)

  11. Sesin işlenmesi – Sesin kodlanması • Bank-of-Filters • LPC (Linear Predictive Coding) • CELP (Code-Excited Linear Prediction) • PLP (Perceptual Linear Prediction) • RASTA-PLP (RelAtive SpecTrAl Technique - Perceptual Linear Prediction)

  12. Karşılaştırma ve eşleştirme • HMM (Hidden Markov Model) • DTW (Dynamic Time Warping) • Yapay Sinir Ağları

  13. İşlevin gerçekleştirilmesi • Ses tanıma sisteminin, giriş olarak aldığı ses sinyalinden çıkarımını yaptığı, eşleştirilen kelimeye karşılık gelen işlevin gerçekleştirilmesi.

  14. LPC – Linear Predictive Coding (3) (4) (5) (6) LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde edilebileceği prensibiyle çalışır (Eş. 5).p : LPC kodlayıcı seviyesia1, a2, ... , ap : LPC Parametreleri

  15. DTW – Dynamic Time Warping Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının uygulanması [8].

  16. LPC Parametreleri üzerine DTW uygulanması Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.

  17. Geliştirilen Ses Tanıma Sistemi Modeli Şekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramı

  18. Geliştirilen Ses Tanıma Sistemi –İş parçacıkları • Ana İş Parçacığı • Kuyruk Analizcisi • İfade Kuyruğu Analizcisi • LPC Kuyruğu Analizcisi

  19. Kaynaklar • [1] Rabiner, L., Juang, B., 'Fundamentals of Speech Recognition', ISBN: 0-13-015157-2, 1993. • [2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V., ‘Survey of the State of the Art in Human Language Technology’ http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995 • [3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language Processing: A Guide to Theory, Algorithm and System Development’(1st Ed.) Prentice Hall PTR, ISBN 0-13-022616-5, 2001. • [4] Coleman, J., ‘Introducing Speech and Language Producing’, Cambridge University Press, ISBN 0-52-153069-5, 2005.

  20. Kaynaklar • [5] Smith, S.W., ‘The Scientist’s and Engineer’s Guide to Digital Signal Processing’(2nd Ed.) California Technical Publishing, ISBN 0-96-601764-1, 1999 • [6] Robinson, T., ‘Speech Anaylsis Tutorial’, http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, 1998. • [7] Fingerhut, A., ‘U.S. Department of Defense LPC-10 2400 bps Voice Coder’, http://www.arl.wustl.edu/~jaf/lpc/lpc10-1.5.tar.gz, 1997. • [8] Kale K. R., ‘Dynamic Time Warping’, http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.

  21. Teşekkürler... Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom.net Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi akyaldir@pau.edu.tr

More Related