banco de dados multim dia 5 v deo n.
Download
Skip this Video
Loading SlideShow in 5 Seconds..
Banco de Dados Multimídia 5. Vídeo PowerPoint Presentation
Download Presentation
Banco de Dados Multimídia 5. Vídeo

play fullscreen
1 / 90

Banco de Dados Multimídia 5. Vídeo

72 Views Download Presentation
Download Presentation

Banco de Dados Multimídia 5. Vídeo

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Banco de Dados Multimídia5. Vídeo Prof. Cláudio Baptista

  2. Video- Introdução • Porquê necessitamos de vídeo? Para representar movimento (motion) • O que podemos fazer com dados de video? • capturar, armazenar, apresentar, editar -- (sem considerar o conteúdo) • query, busca, indexação -- dependente de contexto • Video sequence = Video stream (physical, raw data) + Video information (meaning)

  3. Video - Motivação • A grande quantidade de vídeos produzidos que necessitam de recuperação por • Ex.: Um ano de video da NBA mostrando os melhores eventos:Número total de jogos num ano: 29 * 82 / 2 + 91 = 1280 (jogos)Precisamos de 1280 * 3 = 3840 (horas) para navegar sequencialmente se usando um video player • Uma facilidade de acesso randômico pode reduzir este tempo pode ser reduzido a poucos dias.

  4. Video - Motivação

  5. Porquê agora?

  6. Porquê agora?

  7. Imagem & Video • An image is captured when a camera scans a scene • Colour => Red (R), Green (G) and Blue (B) array of digital samples • Density of samples (pixels) gives resolution • A video is captured when a camera scans a scene at multiple time instants • Each sample is called a frame giving rise to a frame rate (frames/sec) measured in Hz • TV (full motion video) is 25Hz • Mobile video telephony is 8-15 Hz

  8. Video Data

  9. Compressão

  10. Compressão

  11. Representação de Vídeo • Analógico: convertido para digital usando uma placa de captura de vídeo (digitalização) • Digital: AVI, MPEG-1,-2,-4

  12. Representação de Vídeo

  13. Representação de Vídeo

  14. Representação de Vídeo

  15. Características de vídeo • Comparação com dados alfanuméricos

  16. BD Vídeo Tipos de consulta: 1. Usuário pode ter visto uma cena de um video e deseja recuperá-la 2. Usuário pode estar procurando por um vídeo que ele nunca viu antes 3. Usuário pode ter apenas uma vaga idéia do que ele está procurando.

  17. BD Vídeo Meta: determinar a sintaxe e semântica de um video. Passo 1: identificar a sintaxe: Um filme é composto por segmentos, cenas e tomadas. - Quadro (Frame): uma imagem do vídeo - Tomadas (shots): sequência contínua de frames de uma câmera com início e fim bem definidos. - Cena (Episode): coleção de shots adjacentes focando os mesmos objetos e descrevendo uma cadeia completa de ações. - Segmento: é um grupo de cenas, não necessariamente adjacentes, ligados por uma linha comum de ações.

  18. Categoria: News Data: 10/12/96 Duração: 15 min Fonte: Globo Num. Estórias: M Keywords: C. Grande, Micarande, Turismo, festa ... clip Segmento index: 1 Título: Folia nos blocos Num. Shots: K Frame inicial: 00000 Frame final: 02000 Evento: narração, entrevistas, diálogos, ... ... Segmento 1 Segmento M ... Shot index: 1 Frame inicial: 00000 Frame final: 00300 Camera: still Nível de audio: médio Num. Pessoas: 10 Keywords: dança, festa animação, ... Shot 1 Shot K ... Frame 00000 Frame 00300

  19. BD Vídeo • Passo 2: semântica • Uso de metadata para especificar a semântica do video. • Através de anotações, capturas de texto, e algoritmos de • segmentação de imagem (similar a proc. de imagens). • BD Video pode ser indexado por: • - dados bibliográficos: título, abstract, assunto, gênero • - dados estruturados: segmento, cena e tomada • - dados de conteúdo: uso de keyframes e keywords.

  20. Análise de Movimento • O processo de análise de movimento é dividido em 3 estágios: • detecção de objetos em movimento • trajetória de objetos • análise final de movimento

  21. Modelo de Informação de Video • CBR em video usa: • anotação manual para descrever informação semântica (lento) • representação icônica usando métodos automáticos para detecção de mudança de cena (cortes) (perde a propriedade de movimento) • propriedades estáticas derivadas usando técnicas de análise de imagens (perde aspecto temporal do video)

  22. Caracterização de Informação de Video • Tipos de informações físicas associados com video: • Objeto -- video stream • atributos (length, size, frame numbering) • informação (format resolution headers, frame rate) • O que pode ser derivado de um video? • O -- conjunto de objetos presentes num video • M -- conjunto de representações de movimento • Features, spatial relationships, derivados de O • Spatiotemporal info derivada de O e M juntos • Spatiotempotal info fornecida pelo designer • Temporal relationships inferidos de M • Image information

  23. Operadores de Video • Além dos clássicos: FF, play, record, Rewind, stop e pause • Inserir um video em outro • Extrair um video clip • Extração de cortes • Extrair uma imagem de um video

  24. Operadores de atributos de video • v_length:Video -> Integer • frame_rate: Video -> Integer • size: Video -> Integer • resolution: Video -> String • compression: Video -> String

  25. Video Segmentation

  26. Segmentação de Vídeo: O que é importante?

  27. Segmentação de Vídeo: O que é importante?

  28. Problema Semântico

  29. Video Segmentation

  30. Video Segmentation

  31. Video Segmentation

  32. Semantic Indexing Overview

  33. Projetos: Informedia

  34. Projetos: IBM Marvel

  35. Áudio Prof. Cláudio Baptista

  36. Áudio • Processamento de Fala • Reconhecimento de Fala • Síntese de Fala • Reconhecimento de Música

  37. Reconhecimento de Fala • Motivação: • •How can machines make sense of – and participate in – human communication? recognizing, interpreting, understanding, generating • Underpins • richer, human-centred approaches to computing • perceptual computers that can interpret their environment • technological enhancements to human-human communication

  38. Características Ácústicas • Process the speech waveform to obtain a representation that emphasizes those aspects of the speech signal most relevant to ASR

  39. Dificuldades no Reconhecimento da fala • Speech recognition is difficult due to several sourcesv of variation • Size - number of words in the vocabulary, perpelexity • Style - continuous speech or isolated; planned or spontaneous; • Speaker characteristics and accent - tuned for a single speaker, or speaker-independent? • Acoustic environment - noise, competing speakers, channel conditions (microphone, phone line, ...)

  40. Conhecimento linguístico • One could construct a speech recognizer using linguistic knowledge • Acoustic phonetic rules to relate spectrogram representations of sounds to phonemes • Base pronunciations of words stored in a dictionary • Morphological rules to construct inflected forms • Grammatical rules to model syntax • Semantic and pragmatic constraints • Very difficult to take account of the variability of spoken language with such approaches

  41. Machine Learning • Intense effort needed to derive and encode linguistic rules that cover all the language • Speech has a high degree of variability (speaker, pronunciation, spontaneity, ...) • Difficult to write a grammar for spoken language - many people rarely speak grammatically • Data-driven approach • Construct simple models of speech which can be earned from large amounts of data (thousands of hours of speech recordings)

  42. Solução: Métodos Estatísticos • Redes Bayesianas • Cadeias de Markov

  43. Música • O que é MIR? • Born ca. 1960’s in IR research • Major recent growth precipitated by advent of networked digital music collections • Informed by multiple disciplines andliteratures

  44. DEfinindo MIR • Music Information Retrieval (MIR) is the process of searching for, and finding, music objects, or parts of music objects, via a query framed musically and/or in musical terms • Music Objects: Scores, Parts, Recordings (WAV, MP3, etc.), etc. • Musically framed query: Singing, Humming, Keyboard, Notation-based, MIDI file, Sound file, etc. • Musical terms: Genre, Style, Tempo, etc.

  45. Porquê MIR é complexo?

  46. Multifaceted