210 likes | 409 Views
Linear Predictive Coding ve D ynamic Time Warping Teknikleri Kullanılarak Ses Tanıma Sistemi Geliştirilmesi. Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom.net Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi akyaldir@pau.edu.tr. Akademik Bilişim 2006 9-11.02.2006 DENİZLİ. Ses.
E N D
Linear Predictive Codingve Dynamic Time Warping Teknikleri Kullanılarak Ses Tanıma Sistemi Geliştirilmesi Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom.net Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi akyaldir@pau.edu.tr Akademik Bilişim 20069-11.02.2006DENİZLİ
Ses • Rabiner ve Juang: Akciğerlerden havanın dışarı atılması sonucunda oluşan hava akımının, ses sisteminde bir yerlerde sıkıştırılarak karıştırılmasından yayılan akustik dalgalardır[1].
Ses Tanıma • Cole vd: Mikrofon ya da telefon tarafından alınmış akustik bir sinyalin, kelime kümesine olan çevrim işlemi olarak tanımlanmaktadır [2].
İnsanlar arası sesli iletişim Şekil 1: Huang vd tarafından verilen, İnsanlar arası sesli iletişim modeli [3].
Ses Tanıma Sistemleri Nasıl Çalışır? Şekil 2: Ses Tanıma sistemleri, insanlar arası sesli iletişimsürecinde dinleyicinin yaptığı işlevleri yapay olarak gerçekleştirmeye çalışır.
Ses Tanıma Süreci • Sesin kaydedilmesi ve ifadenin saptanması • Sesin işlenmesi • Karşılaştırma ve eşleştirme • İşlevin gerçekleştirilmesi
Sesin kaydedilmesi ve ifadenin saptanması • Mikrofon veya telefon ile kayıt işleminin gerçekleştirilmesi • Konuşma başlangıç ve bitişinin belirlenmesi Bir çerçevedeki RMS değeri ve Sıfırı geçiş sayısı (1)
Sesin işlenmesi • Pencereleme • Filtreleme • Sesin kodlanması (Özellik çıkarımı)
Sesin işlenmesi – Pencereleme Şekil 3: Geliştirilen uygulama ile 8000 Hz ile örneklenerek kaydedilmiş ‘sıfır’ kelimesi için başlangıç ve bitişi saptanarak belirlenmiş ses sinyali. (2) Şekil 4: Hamming penceresinden geçirilmiş ‘sıfır’ kelimesi için ses sinyali.
Sesin işlenmesi – Sesin kodlanması • PCM (Linear Pulse Code Modulation) • APCM (Adaptive Pulse Code Modulation) • DPCM (Differential Pulse Code Modulation) • ADPCM (Adapted Differential Pulse Code Modulation) • DM (Delta Modulation)
Sesin işlenmesi – Sesin kodlanması • Bank-of-Filters • LPC (Linear Predictive Coding) • CELP (Code-Excited Linear Prediction) • PLP (Perceptual Linear Prediction) • RASTA-PLP (RelAtive SpecTrAl Technique - Perceptual Linear Prediction)
Karşılaştırma ve eşleştirme • HMM (Hidden Markov Model) • DTW (Dynamic Time Warping) • Yapay Sinir Ağları
İşlevin gerçekleştirilmesi • Ses tanıma sisteminin, giriş olarak aldığı ses sinyalinden çıkarımını yaptığı, eşleştirilen kelimeye karşılık gelen işlevin gerçekleştirilmesi.
LPC – Linear Predictive Coding (3) (4) (5) (6) LPC, sıradaki örneğin, önceki bir seri örnekten yaklaşık olarak elde edilebileceği prensibiyle çalışır (Eş. 5).p : LPC kodlayıcı seviyesia1, a2, ... , ap : LPC Parametreleri
DTW – Dynamic Time Warping Şekil 5: Konuşma sinyaline doğrudan DTW algoritmasının uygulanması [8].
LPC Parametreleri üzerine DTW uygulanması Şekil 6: LPC Parametreleri üzerine DTW algoritmasının uygulanması.
Geliştirilen Ses Tanıma Sistemi Modeli Şekil 7: Geliştirilen Ses Tanıma Sistemi Modeli 1. Seviye diyagramı
Geliştirilen Ses Tanıma Sistemi –İş parçacıkları • Ana İş Parçacığı • Kuyruk Analizcisi • İfade Kuyruğu Analizcisi • LPC Kuyruğu Analizcisi
Kaynaklar • [1] Rabiner, L., Juang, B., 'Fundamentals of Speech Recognition', ISBN: 0-13-015157-2, 1993. • [2] Cole, R.A., Mariani, J., Uszkoreit, H., Zaenen, A. and Zue, V., ‘Survey of the State of the Art in Human Language Technology’ http://cslu.cse.ogi.edu/HLTsurvey/HLTsurvey.html, 1995 • [3] Huang, X., Acero, A. and Hon, H.W., ‘Spoken Language Processing: A Guide to Theory, Algorithm and System Development’(1st Ed.) Prentice Hall PTR, ISBN 0-13-022616-5, 2001. • [4] Coleman, J., ‘Introducing Speech and Language Producing’, Cambridge University Press, ISBN 0-52-153069-5, 2005.
Kaynaklar • [5] Smith, S.W., ‘The Scientist’s and Engineer’s Guide to Digital Signal Processing’(2nd Ed.) California Technical Publishing, ISBN 0-96-601764-1, 1999 • [6] Robinson, T., ‘Speech Anaylsis Tutorial’, http://svr-www.eng.cam.ac.uk/~ajr/ SpeechAnalysis/, 1998. • [7] Fingerhut, A., ‘U.S. Department of Defense LPC-10 2400 bps Voice Coder’, http://www.arl.wustl.edu/~jaf/lpc/lpc10-1.5.tar.gz, 1997. • [8] Kale K. R., ‘Dynamic Time Warping’, http://www.cnel.ufl.edu/~kkale/dtw.html, 2006.
Teşekkürler... Murat Kemal BAYGÜN Egecom Ltd. mbaygun@egecom.net Yard. Doç. Dr. A. Kadir YALDIR Pamukkale Üniversitesi akyaldir@pau.edu.tr