1 / 75

Fala e Movimentação Facial em Avatares

Fala e Movimentação Facial em Avatares. Alexandre Magno Maciel magnomaciel@hotmail.com Ricardo de Oliveira Schmidt schmidt@gprt.ufpe.br. Módulo Text-To-Speech. Síntese de voz. Definição: “Geração automática pelo computador de formas de onda de voz” [TAH05]

damien
Download Presentation

Fala e Movimentação Facial em Avatares

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Fala e Movimentação Facialem Avatares Alexandre Magno Maciel magnomaciel@hotmail.com Ricardo de Oliveira Schmidt schmidt@gprt.ufpe.br

  2. Módulo Text-To-Speech

  3. Síntese de voz • Definição: “Geração automática pelo computador de formas de onda de voz” [TAH05] • Outras denominações: Sistema de resposta vocal ou Text-To-Speech (TTS) • Dilema: Produção X Reprodução

  4. Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese Síntese de voz • Processo de síntese de voz: Baixo nível Alto nível

  5. Síntese de voz • Processo de síntese de voz: • Normalização: encontrar equivalentes “por extenso” ex: símbolos ($ %), datas, pontuação (, .) Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese

  6. Síntese de voz • Processo de síntese de voz: • Conversão ortográfico-fonética: encontrar seqüência correta de fonemas ex: letra “x” -> xumbo, exame, tórax “o piloto morreu”; “eu piloto bem” Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese

  7. Síntese de voz • Processo de síntese de voz: • Cálculo de intensidade e duração ex: pausas entre palavras, entonação (sentenças declarativas, imperativas e interrogativas) Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese

  8. Síntese de voz • Processo de síntese de voz: • Geração do áudio • Estratégias: concatenativa formantes articulatória Sinalde voz Conversãoortográfico-fonética Processamentoprosódico Texto Pré-processamento Síntese

  9. Síntese de voz • Geração do áudio: • Síntese concatenativa : segmentos de áudio pré-gravadas a partir de um inventário de unidades previamente construído. • Tamanho das unidades: • Palavras • Silabas (Demissílabas) • Fones (Difones)

  10. Síntese de voz • Geração do áudio: • Síntese de formantes: modelo acústico que forma o áudio de acordo com uma série de parâmetros • Síntese articulatória: gera o sinal de voz através da modelação das características físicas, anatômicas e fisiológicas do aparelho humano produtor de voz

  11. Síntese de voz • Trabalhos realizados: • Simões, 1999 (dissertação - UNICAMP) • Dicionário de 2450 unidades • Síntese concatenativa • Voz masculina

  12. Síntese de voz • Trabalhos realizados: • Carvalho, 2005 (INESC) • DIXI • Síntese concatenativa • Dicionário de 4000 unidades • Vozes masculina e feminina

  13. Síntese de voz • Trabalhos realizados: • DOSVOX (UFRJ) ... 2008 • Auxílio deficientes físicos • Software livre

  14. Síntese de voz • Trabalhos realizados: • MATRACA (UFCG) ... 2008 • Auxílio deficientes físicos • Software livre

  15. Síntese de voz • Aplicações Comerciais • IBM ViaVoice 8.0 • NUANCE Dragon Systems • Jaws for Windows

  16. Módulo Extração de Fonemas

  17. Extração de Fonemas • [FEC02] • Processo de reconhecimento de padrões

  18. Extração de Fonemas • [FEC02] • Extração de Parâmetros: • Dar representatividade • Compactar (redução dimensionalidade) • Simplicidade computacional • Principais Parâmetros: • Energia por segmento; • Taxa cruzamento por zero; • Número total e diferença entre picos; • Coeficiente de Correlação Normalizado.

  19. Extração de Fonemas • [FEC02] • Extração de Parâmetros • Pré-Processamento: • Pré-ênfase (filter) • Segmentação (frames) • Janelamento (stationary) Segmento Janelamento Palavra “zero” após pré-ênfase

  20. Extração de Fonemas • Extração de Parâmetros: • Principais técnicas: [DIM06] • Mel Frequency Cepstral Coding (MFCC) • Linear Predictive Coding (LPC) • Perceptual Linear Predictive (PLP) • Experimentos: • Comparador: HMM • Base de dados: • 11 locutores(7 MS,4 WS); • Treino: 3300 locuções; • Teste: 880 locuções; • Frases: 300

  21. Extração de Fonemas • Comparação dos Padrões: • Determinísticas: • Dynamic Time Warping; • Quantização Vetorial; • Redes Neurais. • Estatísticas • Função Densidade Probabilidade; • Modelos de Markov Escondidos.

  22. Extração de Fonemas • Trabalhos Realizados • Fechine, 2002 (UFCG) • Reconhecimento de Locutor • Independente do Texto • Base própria, 20 locutores • 20 sentenças por locutor • Parâmetros LPC (12) • Híbrido (QV + HMM)

  23. Extração de Fonemas • Trabalhos Realizados • Rustein, 1998 (UNICAMP) • Reconhecimento de fala • Independente de Locutor • Base própria, 30 locutores • 10 sentenças por locutor • Parâmetros diversos • Redes Neurais Backpropagation Kohonen Quantização Vetorial

  24. Interpretação de Visemas

  25. Interpretação de Visemas • Associação entre fonemas/vogais e seus respectivos visemas • Parâmetros emocionais • Energia • Parâmetros de animação

  26. Etapa de Animação

  27. Etapa de Animação • Construção da animação • Síntese de video ou técnicas de keyframing • Parâmetros ao modelo da face associados ao áudio

  28. Aminação Facial • Parametrização ideal para os sistemas de animação facial • Satisfazer todos os requisitos para um sistema de animação facial não é fácil

  29. Aminação Facial • Facilidade de uso • Número de parâmetros, complexidade e intuitividade • Maior a flexibilidade, maior a complexidade • Sutileza • Movimentos suaves

  30. Aminação Facial • Abstração de alto-nível • Controlar a face com alto-nível de abstração • Textos com marcações • Previsibilidade • O resultado da combinação de parâmetros deve ser previsível

  31. Aminação Facial • Portabilidade • Troca fácil de modelos faciais • Reuso de conjuntos de parâmetros • Medição dos parâmetros • Descritos em unidades físicas que possam ser visualmente medidas na face • Eficiência • Comunicação através da rede

  32. Trabalhos • Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis • InterFace: Um Sistema de Animação Interativa de Rostos Humanos • Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil • Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

  33. Trabalhos • Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis • InterFace: Um Sistema de Animação Interativa de Rostos Humanos • Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil • Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

  34. Animação • Parâmetros pré-calculados • Qualquer modelo possa ser animado • Usados pelo algoritmo de deformação • Definidos offline (antes da execução em tempo real) • Captura de pontos através de ferramentas • Feature Points • Vértices vizinhos (pesos)

  35. Animação

  36. Animação

  37. Animação • Busca pelas respectivas FAPs • Facial Animation Parameters • Por exemplo: • Instrução para abrir a boca

  38. Animação • Algoritmo de deformação • Integração dos elementos do processo

  39. Animação

  40. Offline Animação

  41. Módulos da Análise fonética Animação

  42. Animação

  43. Animação Padrão MPEG-4

  44. Trabalhos • Um sistema para Síntese de Voz e Animação de Faces Virtuais Voltado para Dispositivos Móveis • InterFace: Um Sistema de Animação Interativa de Rostos Humanos • Animação Facial Sincronizada com a Fala: Visemas Dependentes do Contexto Fonético para o Português do Brasil • Um Sistema de Geração de Expressões Faciais Dinâmicas em Animações Faciais 3D com Processamento de Fala

  45. InterFace • Java e Virtual Reality Modeling Language • Sistema interativo para criação de diferentes expressões faciais • Animação entre as expressões • Técnicas de composição digital de imagens

  46. InterFace • Dividido em 2 módulos: • Criação de Expressões • Suporte para a criação das ações • Animação Facial • Simulação do ator virtual através das 3 camadas

  47. InterFace

  48. InterFace • Cada expressão criada individualmente • Objetos que compõe o rosto • Expressão neutra • Biblioteca básica de expressões

  49. InterFace • Biblioteca básica de expressões • Conjunto de expressões simples • Nem muitas, nem poucas • Combinadas para criar expressões complexas • Vetor de diferenças • Valores de intensidade

  50. Dúvida Ahh Ohh esquerda direita InterFace Rotação X Y Z

More Related