Comprehensive Guide to Multimedia Video Databases

Banco de Dados Multimídia5. Vídeo Prof. Cláudio Baptista

Video- Introdução • Porquê necessitamos de vídeo? Para representar movimento (motion) • O que podemos fazer com dados de video? • capturar, armazenar, apresentar, editar -- (sem considerar o conteúdo) • query, busca, indexação -- dependente de contexto • Video sequence = Video stream (physical, raw data) + Video information (meaning)

Video - Motivação • A grande quantidade de vídeos produzidos que necessitam de recuperação por • Ex.: Um ano de video da NBA mostrando os melhores eventos:Número total de jogos num ano: 29 * 82 / 2 + 91 = 1280 (jogos)Precisamos de 1280 * 3 = 3840 (horas) para navegar sequencialmente se usando um video player • Uma facilidade de acesso randômico pode reduzir este tempo pode ser reduzido a poucos dias.

Video - Motivação

Porquê agora?

Imagem & Video • An image is captured when a camera scans a scene • Colour => Red (R), Green (G) and Blue (B) array of digital samples • Density of samples (pixels) gives resolution • A video is captured when a camera scans a scene at multiple time instants • Each sample is called a frame giving rise to a frame rate (frames/sec) measured in Hz • TV (full motion video) is 25Hz • Mobile video telephony is 8-15 Hz

Video Data

Compressão

Representação de Vídeo • Analógico: convertido para digital usando uma placa de captura de vídeo (digitalização) • Digital: AVI, MPEG-1,-2,-4

Representação de Vídeo

Características de vídeo • Comparação com dados alfanuméricos

BD Vídeo Tipos de consulta: 1. Usuário pode ter visto uma cena de um video e deseja recuperá-la 2. Usuário pode estar procurando por um vídeo que ele nunca viu antes 3. Usuário pode ter apenas uma vaga idéia do que ele está procurando.

BD Vídeo Meta: determinar a sintaxe e semântica de um video. Passo 1: identificar a sintaxe: Um filme é composto por segmentos, cenas e tomadas. - Quadro (Frame): uma imagem do vídeo - Tomadas (shots): sequência contínua de frames de uma câmera com início e fim bem definidos. - Cena (Episode): coleção de shots adjacentes focando os mesmos objetos e descrevendo uma cadeia completa de ações. - Segmento: é um grupo de cenas, não necessariamente adjacentes, ligados por uma linha comum de ações.

Categoria: News Data: 10/12/96 Duração: 15 min Fonte: Globo Num. Estórias: M Keywords: C. Grande, Micarande, Turismo, festa ... clip Segmento index: 1 Título: Folia nos blocos Num. Shots: K Frame inicial: 00000 Frame final: 02000 Evento: narração, entrevistas, diálogos, ... ... Segmento 1 Segmento M ... Shot index: 1 Frame inicial: 00000 Frame final: 00300 Camera: still Nível de audio: médio Num. Pessoas: 10 Keywords: dança, festa animação, ... Shot 1 Shot K ... Frame 00000 Frame 00300

BD Vídeo • Passo 2: semântica • Uso de metadata para especificar a semântica do video. • Através de anotações, capturas de texto, e algoritmos de • segmentação de imagem (similar a proc. de imagens). • BD Video pode ser indexado por: • - dados bibliográficos: título, abstract, assunto, gênero • - dados estruturados: segmento, cena e tomada • - dados de conteúdo: uso de keyframes e keywords.

Análise de Movimento • O processo de análise de movimento é dividido em 3 estágios: • detecção de objetos em movimento • trajetória de objetos • análise final de movimento

Modelo de Informação de Video • CBR em video usa: • anotação manual para descrever informação semântica (lento) • representação icônica usando métodos automáticos para detecção de mudança de cena (cortes) (perde a propriedade de movimento) • propriedades estáticas derivadas usando técnicas de análise de imagens (perde aspecto temporal do video)

Caracterização de Informação de Video • Tipos de informações físicas associados com video: • Objeto -- video stream • atributos (length, size, frame numbering) • informação (format resolution headers, frame rate) • O que pode ser derivado de um video? • O -- conjunto de objetos presentes num video • M -- conjunto de representações de movimento • Features, spatial relationships, derivados de O • Spatiotemporal info derivada de O e M juntos • Spatiotempotal info fornecida pelo designer • Temporal relationships inferidos de M • Image information

Operadores de Video • Além dos clássicos: FF, play, record, Rewind, stop e pause • Inserir um video em outro • Extrair um video clip • Extração de cortes • Extrair uma imagem de um video

Operadores de atributos de video • v_length:Video -> Integer • frame_rate: Video -> Integer • size: Video -> Integer • resolution: Video -> String • compression: Video -> String

Video Segmentation

Segmentação de Vídeo: O que é importante?

Problema Semântico

Video Segmentation

Semantic Indexing Overview

Projetos: Informedia

Projetos: IBM Marvel

Áudio Prof. Cláudio Baptista

Áudio • Processamento de Fala • Reconhecimento de Fala • Síntese de Fala • Reconhecimento de Música

Reconhecimento de Fala • Motivação: • •How can machines make sense of – and participate in – human communication? recognizing, interpreting, understanding, generating • Underpins • richer, human-centred approaches to computing • perceptual computers that can interpret their environment • technological enhancements to human-human communication

Características Ácústicas • Process the speech waveform to obtain a representation that emphasizes those aspects of the speech signal most relevant to ASR

Dificuldades no Reconhecimento da fala • Speech recognition is difficult due to several sourcesv of variation • Size - number of words in the vocabulary, perpelexity • Style - continuous speech or isolated; planned or spontaneous; • Speaker characteristics and accent - tuned for a single speaker, or speaker-independent? • Acoustic environment - noise, competing speakers, channel conditions (microphone, phone line, ...)

Conhecimento linguístico • One could construct a speech recognizer using linguistic knowledge • Acoustic phonetic rules to relate spectrogram representations of sounds to phonemes • Base pronunciations of words stored in a dictionary • Morphological rules to construct inflected forms • Grammatical rules to model syntax • Semantic and pragmatic constraints • Very difficult to take account of the variability of spoken language with such approaches

Machine Learning • Intense effort needed to derive and encode linguistic rules that cover all the language • Speech has a high degree of variability (speaker, pronunciation, spontaneity, ...) • Difficult to write a grammar for spoken language - many people rarely speak grammatically • Data-driven approach • Construct simple models of speech which can be earned from large amounts of data (thousands of hours of speech recordings)

Solução: Métodos Estatísticos • Redes Bayesianas • Cadeias de Markov

Música • O que é MIR? • Born ca. 1960’s in IR research • Major recent growth precipitated by advent of networked digital music collections • Informed by multiple disciplines andliteratures

DEfinindo MIR • Music Information Retrieval (MIR) is the process of searching for, and finding, music objects, or parts of music objects, via a query framed musically and/or in musical terms • Music Objects: Scores, Parts, Recordings (WAV, MP3, etc.), etc. • Musically framed query: Singing, Humming, Keyboard, Notation-based, MIDI file, Sound file, etc. • Musical terms: Genre, Style, Tempo, etc.

Porquê MIR é complexo?

Multifaceted

Comprehensive Guide to Multimedia Video Databases

Comprehensive Guide to Multimedia Video Databases

Presentation Transcript

Sumário SQL - Strucured Query Language Definição de dados Interrogação Manipulação de dados

Petrópolis em dados

Bases de dados referenciais bibliográficos e catalográficos

Banco de Dados I Capítulo 6: Uso de SQL em Aplicações

Análise teórica de transmissão de dados

BANCO INTERAMERICANO DE DESARROLLO Instituto Interamericano para el Desarrollo Social

Publicando Dados XML de Banco de Dados Objeto- Relacional

Tipos, Fontes e Formas de Coleta de Dados

TransformaÃ§Ã£o E-R para Relacional

ACESSO A BASE DE DADOS Tutorial

BANCO MUNDIAL

¿Crisis de la salud? Nuestra situación sanitaria

Medicina Baseada em Evidências Base de Dados Cochrane

Estruturas de Dados Espaciais

Tópicos Especiais em Comunicação de Dados IV: Roteamento na Internet

Banco de Dados I Resumo – 1• Bimestre

Linguagem SQL

Banco de Dados I Capítulo 4: Linguagem SQL

Região Centro Oeste

Banco de Dados

MAPServer

Versão 1.1