1 / 45

LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA

LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA. Oleh : Agus Buono . PERTEMUAN 1 PEMROSESAN BAHASA ALAMI. 1. PENDAHULUAN. 1.1. Latar Belakang :. 1. Aplikasi, [JM00] :.

john
Download Presentation

LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. LINGKUP KAJIAN PEMROSESAN SUARA DAN BAHASA Oleh :Agus Buono PERTEMUAN 1 PEMROSESAN BAHASA ALAMI

  2. 1. PENDAHULUAN 1.1. Latar Belakang : 1. Aplikasi, [JM00] : Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, indexing and retrieval in textual databases, machine translation, automatic text production, automatic text checking, automatic content analysis, automatic tutoring, automatic dialog and information systems, serta interaksi menusia dg komputer lainnya melalui suara. Murah : investasi bersifat software Sounds of spoken language, the letters of handwritten or printed language, and the gesture of signed language

  3. 1. PENDAHULUAN 1.1. Latar Belakang : 1. Aplikasi, [JM00] : Luas Pemakaiannya: mesin pendikte, pengenalan pembicara, mesin penjawab otomatis, serta interaksi menusia dengan komputer lainnya melalui suara. Murah : investasi bersifat software 2. Ciri Biometrik [Rey02] : alami, mudah diukur, tidak terlalu berubah dari waktu ke waktu atau kondisi phisik, tidak terlalu terganggu dengan adanya gangguan lingkungan, serta tidak mudah ditiru. Suara hampir memenuhi semua persyaratan biometrik tersebut 3. Permasalahan, [Cam97] : suara adalah multidimensi (linguistik, semantik, artikularis dan akustik, [Cam97]). Pemrosesan suara lebih berfokus pada analisis sinyal dengan dua subsistem yaitu ekstraksi ciri dan pengenalan pola

  4. 1.1. Latar Belakang 4. Permasalahan : sinyal suara dipengaruhi banyak hal, seperti dimensi artikularis pembicara, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemodelan sinyal suara merupakan hal yang menantang untuk diteliti lebih lanjut

  5. 1.1. Latar Belakang 1. Luasnya Bidang Terapan 2. Hampir semua syarat ciri Biometrik dipenuhi oleh Suara 3. Permasalahan : suara adalah besaran Multidimensi Linguistic dan semantik Artikulatoris Akustik dipengaruhi : artikularis, emosi, kesehatan, umur, jenis kelamin, dialek, lingkungan dan media transmisi Pemrosesan suara adalah hal yang menantang untuk diteliti lebih lanjut

  6. 1.1. Latar Belakang

  7. 1.1. Latar Belakang

  8. 1.1. Latar Belakang

  9. 1.2. Motivasi A. Dari Aspek Data Suara 1. sifat sinyal suara : lebih dinamis dibanding cirri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang robust terhadap noise dan Interspeakervariability

  10. 1.2. Motivasi A. Dari Aspek Data Suara 1. sifat sinyal suara : lebih dinamis dibanding ciri lain (karena umur, kesehatan, emosi, cara pengucapan) Intraspeakervariability 2. pengaruh lingkungan : Background lingkungan dan distorsi media komunikasi Noise atau error Pada real life situation : akurasi sistem akan drop [Car95]. Perlu dikembangkan suatu system yang relatif lebih robust terhadap noise dan Intraspeakervariability

  11. 1.2. Motivasi Perbandingan bentuk sinyal asli dan yang diberi noise : Y=speech Y+noise 20dB Noise signal 20 dB Y+noise 10dB Noise signal 10 dB

  12. 1.2. Variasi Pengucapan

  13. Input Output SPB

  14. 2. RANAH KAJIAN PEMROSESAN SUARA

  15. Speech Signal *) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory. RECOGNITION Goal : Automatically extract information transmitted in speech signal*)

  16. Speech Recognition Ideal systems must be : Speaker Independence, Continuous speech, Domain independence, realistic vocabulary, robustnes Todays : continuous speech systems can achieve speaker indpendence only at the domain dependence

  17. Text to Speech Recognition

  18. Language identification

  19. Language Translation

  20. Language Translation

  21. Speech Understanding

  22. Multiple-class problems Two-class problems Speaker Identification Speaker Clustering Speaker Verification Speaker Tracking Speaker Segmentation/Diarization Tipe-tipe Sistem Pengenalan Suara [Fur97] : Pengenalan Pembicara (Speaker Recognition) merupakan suatu proses yang secara otomatis mengenali siapa pembicara (who is speaking) menggunakan informasi spesific yang ada dalam sinyal suara [Gan05] : Berdasar output sistem, menurut Gancev sistem pengenalan pembicara dikategorikan menjadi dua, yaitu Multiple-class problem dan Two-class problem Speaker Recognition

  23. Clustering Tracking Cluster 1 Cluster K Segmentation/diaryzation SPEAKER RECOGNITION TASK, [Rey02] ? Which cluster the speaker from ?

  24. Verifikasi Pembicara

  25. Tracking Pembicara

  26. Identifikasi Pembicara

  27. Klasifikasi Pembicara

  28. Segmentasi/Diaryzation

  29. Sip : menentukan secara otomatis siapa pemilik dari suara yang diberikan ke dalam sistem. Pengolahan koefisien cepstral berbasis power spektrum

  30. Perkembangan Riset yang Sudah Ada Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel-Frequency Cepstrum Coefficients (MFCC) yang berbasis nilai power spektrum sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier [Rey02] : Secara umum ada 4 kelompok metode classifier : a.template matching :sistem mempunyai cetakan untuk setiap kata/pembicara, sehingga lebih sesuai untuk frase yang fixed dan kurang sesuai untuk engembangan lanjut model pengenalan suara. b.nearest neighboor : pengenalan didasarkan pada tetangga erdekat. Dalam hal ini sistem harus mempunyai memori yang besar untuk menyimpan data training. c. neural network : model yang dihasilkan seringkali tidak bersifat general, dan juga tidak dapat merepresentasikan sinyal suara secara alamiah. d. hidden markov model : sinyal suara dimodelkan secara statistik, dengan model stokastik, sehingga dapat merepresentasikan secara alamiah bagaimana suara dihasilkan. Oleh karena itu, model ini yang pertama kali dipergunakan pada sistem pengenalan pembicara yang modern,

  31. Metode Pengenal Pola Studi Literatur Ekstraksi Ciri : hampir semua penelitian yang ada menggunakan Mel-Frequency Cepstrum Coefficients (MFCC) sebagai ekstraksi ciri Mayoritas riset yang ada : mencurahkan pada model classifier Metode classifier yang ada dikelompokkan seperti diagram berikut, [Gan05] :

  32. t 3. Sinyal AnalogDigitalVektor Feature Speech : peubah acak yang terkait dengan waktu yang merupakan barisan energi yang dihasilkan dari dari aliran udara dari paru-paru melalui beberapa transisi satu konfigurasi artikularis ke konfigurasi artikularis lainnya. Frequency Frame Amplitudo Waktu

  33. Transformasi Informasi pada Pemrosesan Suara :

  34. Proses Ekstraksi Ciri dengan MFCC *)Slaney, 1998

  35. *) Douglas Reynolds. Automated Speaker Recognition Acoustics and Beyond. MIT Lincoln Laboratory. Perkembangan Bidang Recognition*)

  36. Teknik-Teknik Classifier

  37. SO : model pertama pada sistem komersial Hidden Markov Model (HMM) a. HMM : proses markov stasioner orde 1 dengan nilai state tidak teramati, namun dapat diprediksi berdasar observable state yang muncul pada setiap periode waktu. Oleh karena itu mampu memodelkan perilaku temporal dari barisan outcome. b. HMM ini dapat dipakai sebagai representasi statistik bagaimana seorang pembicara menghasilkan suara Hidden state : merepresentasikan setiap konfigurasi vocal tract Transition matrix : merepresentasikan transisi dari satu konfigurasi vocal tract ke konfigurasi lainnya Nasal Cavity Velum Tongue Epiglottis Spinal cord Trachea O= O1 O2 O3 OT Lung sequence Observable/ observationstate

  38. 4.3. Hidden Markov Model (HMM) • Beberapa permasalahan dengan HMM adalah : • asumsi kebebasan antar observasi • asumsi kebebasan antar kemunculan state pada periode t dengan observasi sebelum periode t • asumsi BAHWA OBSERVASI BERDISTRIBUSI NORMAL • dari aspek teori : jika observasi berdimensi sangat besar dibanding dengan banyaknya pengamatan, maka penghitungan peluang observasi dengan menggunakan asumsi kenormalan akan terbentur pada masalah singularitas matriks covariance, sehingga kebalikan matriks tersebut tidak dapat diperoleh.

  39. S3 S1 S2 S1 0.4 0.5 0.1 1.00 A= 1.00 0.2 S2 0.4 0.4 S3 0.1 1.00 0.3 0.6 S2 S1 8 ; 4 S2 10 ; 2 B= S3 S1 S3 12; 3 S1 0.3 S2 Π= 0.4 S3 0.3 Gaussian HMM µ=10, σ=2 a22=0.4 µ=8, σ=4 a21=0.4 a12=0.4 a23=0.2 a32=0.1 a31=0.6 µ=12, σ=3 a11=0.1 a13=0.5 a33=0.3

  40. 4. Studi kasus 1: MFCC power spektrum + HMM Block diagram Identifikasi Pembicara Menggunakan HMM :

  41. TERIMA KASIH

More Related