1 / 24

PRACA DYPLOMOWA

Politechnika Krakowska im. Tadeusza Kościuszki Wydział Inżynierii Elektrycznej i Komputerowej. PRACA DYPLOMOWA. MAGISTERSKA. Kraków 2006. Rozpoznawanie mówcy z wykorzystaniem GSDM. Piotr Mizera. Promotor: dr inż. Tomasz Gąciarz. Wyjaśnienie tematu.

nhi
Download Presentation

PRACA DYPLOMOWA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Politechnika Krakowska im. Tadeusza Kościuszki Wydział Inżynierii Elektrycznej i Komputerowej PRACA DYPLOMOWA MAGISTERSKA Kraków 2006

  2. Rozpoznawanie mówcyz wykorzystaniem GSDM Piotr Mizera Promotor: dr inż. Tomasz Gąciarz

  3. Wyjaśnienie tematu • Proces rozpoznawania mówcy zawiera w sobie procedury identyfikacji oraz weryfikacji, które są dokonywane na podstawie pobranych próbek głosu. • Genetyczna rozrzedzona pamięćrozproszona GSDM (ang. Genetic Sparse Distributed Memory) pełni rolę klasyfikatora.

  4. Identyfikacja • Identyfikacja głosów ma na celu ustalenie tożsamości mówcy poprzez przypisanie jego wypowiedzi do mówcy z danego zbioru mówców M - krotna procedura porównania Zapamiętane wzorce mówcy m = 1 Zapamiętane wzorce mówcy m = 2 Wypowiedź nieznanego mówcy ... Zapamiętane wzorce mówcy m = M

  5. Weryfikacja • Weryfikacja głosów to procedura potwierdzająca lub odrzucająca zgłoszoną tożsamość mówcy na podstawie jego wypowiedzi. Zapamiętane wzorce mówcy m = 1 Zapamiętane wzorce mówcy m = 2 Wypowiedź nieznanego mówcy z żądaniem sprawdzenia, że należy do głosu m* Jednokrotna procedura porównania ze wskazanym m-tym głosem Zapamiętane wzorce mówcy m = m* ... Zapamiętane wzorce mówcy m = M

  6. Cel i zakres Celem pracy jest zaproponowanie metody rozpoznawania mówcy oraz jej praktyczna realizacja w postaci oprogramowania przeznaczonego do rozpoznawania mówcy napodstawie nagranych wypowiedzi. Program ma obejmować poszczególne etapy procesurozpoznawania mówcy z użyciem pamięci GSDM jako klasyfikatora.

  7. Etapy procesu rozpoznawania mówcy • wstępne przetwarzanie – zapisanie sygnału mowy w postaci cyfrowej oraz przygotowanie próbek głosu (m.in. usunięcie ciszy z początku i końca nagrania), • ekstrakcja parametrów osobniczych – wydobycie cech charakteryzujących głos mówcy (budowa wektora cech), • klasyfikacja – porównanie wartości ekstrahowanych parametrów z wartościami wzorcowymi znajdującymi się w pamięci.

  8. Zawartość pracy • Sygnał mowy • Przygotowanie próbek głosu • Ekstrakcja parametrów • Rozrzedzona pamięć rozproszona • Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”

  9. Sygnał mowy1z2 Mowa ludzka jest jednym z najbardziej efektywnych sposobów przekazywania myśli i odczuć człowieka. Metody wytwarzania mowy Wytwarzanie mowy Artykulacja Odtwarzanie Generacja mowa naturalna mowa rekonstruowana mowa syntezowana

  10. Sygnał mowy2z2 Schemat blokowy systemu przetwarzającego sygnał mowy Zmienia ciągły sygnał elektryczny na ciąg zakodowanych wartości cyfrowych Układ przetwarzania wstępnego Przetwarza zmiany ciśnienia akustycznego na sygnał elektryczny Układ wzmacniający Filtry Przetwornik A/C System komputerowy Układ wzmacniający Filtry Przetwornik C/A Przechowuje dźwięk w postaci cyfrowej w plikach muzycznych (np. pliki WAVE) Przetwarza sygnał elektryczny w falę akustyczną Przetwarza dźwięk z postaci cyfrowej na analogową

  11. Przygotowanie próbek głosu 1z2 • Usunięcie ciszy z początku i końca nagrania: algorytm energii sygnału, algorytm częstości zmian sygnału. • Preemfaza – zamiana sygnału rzeczywistego na sygnał różnicowy (filtr o skończonej odpowiedzi impulsowej). Funkcja przejścia filtru: y(n) = s(n) - as(n-1) Gdzie: a parametr preemfazy (wartości z zakresu: 0.95 - 1)

  12. Przygotowanie próbek głosu 2z2 • Ramki sygnału i funkcja okna-próbki sygnału mowy dzielone są na ramki o stałym rozmiarze, ponieważ zakłada się, że sygnał mowy jest stacjonarny w krótkim okresie czasu ok. 10 ms. Funkcja okna tłumi skrajnie położone próbki w wydzielonych ramkach. Funkcja okna Hamminga w(n) = 0.54 – 0.46cos(2n/N) Gdzie: k=1...N-1, N – rozmiar okna Hamminga

  13. Ekstrakcja parametrów1z4 • Ekstrakcja parametrów ma na celu wydobycie z sygnału mowy informacji jednoznacznie charakteryzujących mówcę. Rodzaj wydobywanych parametrów i ich liczba mają decydujące znaczenie w procesie rozpoznawania. • Parametry biorące udział w procesie rozpoznawania mówcy: - parametry liniowego kodowania predykcyjnego (metoda LPC) - parametry cepstralne (metody: LPCC, MFCC)

  14. Ekstrakcja parametrów2z4 • LPC (Linear Predictive Coefficients) Metoda autokorelacji: minimalizacja błędu średnio kwadratowego

  15. Ekstrakcja parametrów3z4 • LPCC (Linear Predictive Cepstral Coefficients) Obliczenie współczynników cepstralnych na podstawie parametrów LPC:

  16. Ekstrakcja parametrów4z4 • MFCC (Mel frequency Cepstral Coefficients) moc spektrum Podział sygnału na ramki mowa ramki Skala mel FFT log mel spektrum mel spektrum mel cepstrum IFFT Log

  17. Rozrzedzona pamięć rozproszona1z2 • Operacja zapisu:

  18. Rozrzedzona pamięć rozproszona2z2 • Operacja odczytu:

  19. Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”1z5 Program “Speaker Recogniotion – GeneticSparse Distributed Memory” (SR-GSDM)jestaplikacją umożliwiającą identyfikację mówcy lub jego weryfikację na podstawie pobranych próbek głosu.

  20. Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”2z5 1. Przygotowanie plików WAVE (m.in. usunięcie ciszy) 2. Ekstrakcja parametrów – budowa wektora cech 3. Tworzenie zbiorów uczących 4. Uczenie pamięci GSDM

  21. Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”3z5 identyfikacja mówcy weryfikacja mówcy

  22. Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”4z5 LPC • identyfikacja MFCC LPCC

  23. Aplikacja “Speaker Recogniotion – Genetic Sparse Distributed Memory”5z5 • weryfikacja

  24. KONIEC Dziękuję za uwagę

More Related