130 likes | 237 Views
Seminários@CELGA FLUC, 17 Fevereiro 2011. HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga. Sumário. Introdução Objeto de estudo Objetivos Plano e métodos Corpus Análise Perspetivas.
E N D
Seminários@CELGA FLUC, 17 Fevereiro 2011 HE[eee]SIT[u]AÇÃOModelos de Hesitação para o Português Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga
Sumário • Introdução • Objeto de estudo • Objetivos • Plano e métodos • Corpus • Análise • Perspetivas
Objeto de Estudo • Eventos de hesitação (disfluências) • Pausas preenchidas • Segmentos fonéticos do sistema português não ocorrentes no âmbito do vocábulo: uum, mm, amm, aa • Extensões • Prolongamentos fonéticos no âmbito de vocábulos • Vocábulos cortados • Repetições • de de, para a para a • Preenchimentos com vocábulos • pá, ok, …
Objetivos • Modelar eventos de hesitação presentes no português falado em contínuo • Identificar características linguísticas pertinentes e regulares • Descrever os fenómenos de hesitação existentes no português falado • Propriedades acústico-fonéticas • Propriedades morfológicas e sintácticas • Caracterizar modelos linguísticos e acústicos das hesitações • para identificação e anotação automática dos eventos na fala contínua Anotar uma base de dados de fala contínua em termos de eventos de hesitação
Plano de Trabalho • Criação e anotação de base de dados • Identificação automática de hesitações • Estudo linguístico e caracterização de hesitações • corpora: • Tecnovoz • Noticiários • Centenas de locutores • 40 horas de fala lida • Anotado ortograficamente • Centenas de horas • Não anotado • Ferramentas para anotação automática de: • jingles e música • mudança de locutor, • reportagens no exterior
Eventos de Hesitação • Primeiros passos… • Eventos encontrados manualmente • Uso do Transcriber • Sub-corpora: • Inferem-se as primeiras características (surfacestructure) que permitam a deteção automática dos eventos
DeteçãoAutomática de Hesitações • Problemas: • Ficheiros muito longos; qualidade do áudio variável; muitos locutores: necessidade de tratamento automático. • Inexistência de modelos acústicos para hesitação. • Caracterização acústica/fonética dos eventos: • Tom constante e mais baixo que o usual? • Formantes diferentes? Vibrante múltipla? • Quais as características a usar? • Deteção de repetições: • Uso de técnicas de reconhecimento de fala/fones.
DeteçãoAutomática de Hesitações • Solução preliminar: • Apenas deteção de pausas preenchidas e extensões. • Uso de modelos acústicos de fones. • Modelos estatísticos de fones com “misturas de Gaussianas”, GMM. • Regra: existe uma hesitação se for detetada uma vogal longa (>350ms) ou repetições de um mesmo fone por mais que 350ms. • Permitir mais falsas aceitações que falsas rejeições. • Verificação manual dos eventos detectados. • Exemplos
Processo de Anotação • Sistemas propostos: • Levelt (1983; 1989) • Nakatani & Hirschberg (1994) • Shriberg (1994) • material a corrigir • momentos de interrupção acompanhados (ou não) de pausas • material reposto Mostra voos de Lisboa na umm de Londres na terça. InterruptionPoint Reparandum Repair Interregnum • SimpleMDE_v6.2: SimpleMetadataAnnotationSpecification • Linguistic Data Consortium
Exemplos de Anotação Venho de Lisboa aaaa de Co- Coimbra. [ ] Reparandum [ ] Reparandum FP Repair IP * IP * IP * É necessário gastar para renovar para renovar renová-lo. [ ] Reparandum [ ] Reparandum Repair Repair Repair
Caracterização de Hesitações Informaçãoestatística • Estruturassubjacentes: • reparandum, interruption point, (explicit) editing phase, repair, • fronteiras (frases, vocábulos, sílabas) • Característicasfonéticas: • contornos da ondasonora • valores de F0 para onset e offset dos eventos • valores de formantes das vogais • duração dos segmentos • … • Característicassintáticas e morfológicas • (dos eventos e dos elementosadjacentes)
Perspetivas • Identificação de regularidades no âmbito • da sintaxe e da morfologia • da prosódia • ???
Obrigados Fim saracandeias@co.it.pt fp@co.it.pt aveiga@co.it.pt calopes@co.it.pt