1 / 13

HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português

Seminários@CELGA FLUC, 17 Fevereiro 2011. HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português. Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga. Sumário. Introdução Objeto de estudo Objetivos Plano e métodos Corpus Análise Perspetivas.

dean
Download Presentation

HE[ eee ]SIT[u]AÇÃO Modelos de Hesitação para o Português

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Seminários@CELGA FLUC, 17 Fevereiro 2011 HE[eee]SIT[u]AÇÃOModelos de Hesitação para o Português Sara Candeias Fernando Perdigão Carla Alexandra Lopes Arlindo Oliveira da Veiga

  2. Sumário • Introdução • Objeto de estudo • Objetivos • Plano e métodos • Corpus • Análise • Perspetivas

  3. Objeto de Estudo • Eventos de hesitação (disfluências) • Pausas preenchidas • Segmentos fonéticos do sistema português não ocorrentes no âmbito do vocábulo: uum, mm, amm, aa • Extensões • Prolongamentos fonéticos no âmbito de vocábulos • Vocábulos cortados • Repetições • de de, para a para a • Preenchimentos com vocábulos • pá, ok, …

  4. Objetivos • Modelar eventos de hesitação presentes no português falado em contínuo • Identificar características linguísticas pertinentes e regulares • Descrever os fenómenos de hesitação existentes no português falado • Propriedades acústico-fonéticas • Propriedades morfológicas e sintácticas • Caracterizar modelos linguísticos e acústicos das hesitações • para identificação e anotação automática dos eventos na fala contínua Anotar uma base de dados de fala contínua em termos de eventos de hesitação

  5. Plano de Trabalho • Criação e anotação de base de dados • Identificação automática de hesitações • Estudo linguístico e caracterização de hesitações • corpora: • Tecnovoz • Noticiários • Centenas de locutores • 40 horas de fala lida • Anotado ortograficamente • Centenas de horas • Não anotado • Ferramentas para anotação automática de: • jingles e música • mudança de locutor, • reportagens no exterior

  6. Eventos de Hesitação • Primeiros passos… • Eventos encontrados manualmente • Uso do Transcriber • Sub-corpora: • Inferem-se as primeiras características (surfacestructure) que permitam a deteção automática dos eventos

  7. DeteçãoAutomática de Hesitações • Problemas: • Ficheiros muito longos; qualidade do áudio variável; muitos locutores: necessidade de tratamento automático. • Inexistência de modelos acústicos para hesitação. • Caracterização acústica/fonética dos eventos: • Tom constante e mais baixo que o usual? • Formantes diferentes? Vibrante múltipla? • Quais as características a usar? • Deteção de repetições: • Uso de técnicas de reconhecimento de fala/fones.

  8. DeteçãoAutomática de Hesitações • Solução preliminar: • Apenas deteção de pausas preenchidas e extensões. • Uso de modelos acústicos de fones. • Modelos estatísticos de fones com “misturas de Gaussianas”, GMM. • Regra: existe uma hesitação se for detetada uma vogal longa (>350ms) ou repetições de um mesmo fone por mais que 350ms. • Permitir mais falsas aceitações que falsas rejeições. • Verificação manual dos eventos detectados. • Exemplos

  9. Processo de Anotação • Sistemas propostos: • Levelt (1983; 1989) • Nakatani & Hirschberg (1994) • Shriberg (1994) • material a corrigir • momentos de interrupção acompanhados (ou não) de pausas • material reposto Mostra voos de Lisboa na umm de Londres na terça. InterruptionPoint Reparandum Repair Interregnum • SimpleMDE_v6.2: SimpleMetadataAnnotationSpecification • Linguistic Data Consortium

  10. Exemplos de Anotação Venho de Lisboa aaaa de Co- Coimbra. [ ] Reparandum [ ] Reparandum FP Repair IP * IP * IP * É necessário gastar para renovar para renovar renová-lo. [ ] Reparandum [ ] Reparandum Repair Repair Repair

  11. Caracterização de Hesitações Informaçãoestatística • Estruturassubjacentes: • reparandum, interruption point, (explicit) editing phase, repair, • fronteiras (frases, vocábulos, sílabas) • Característicasfonéticas: • contornos da ondasonora • valores de F0 para onset e offset dos eventos • valores de formantes das vogais • duração dos segmentos • … • Característicassintáticas e morfológicas • (dos eventos e dos elementosadjacentes)

  12. Perspetivas • Identificação de regularidades no âmbito • da sintaxe e da morfologia • da prosódia • ???

  13. Obrigados Fim saracandeias@co.it.pt fp@co.it.pt aveiga@co.it.pt calopes@co.it.pt

More Related