900 likes | 1k Views
Explore the world of video data, from capture to compression, and understand the importance of video segmentation and analysis. Learn about video representation, metadata usage, and motion analysis. Discover video operators and attributes for efficient video processing.
E N D
Banco de Dados Multimídia5. Vídeo Prof. Cláudio Baptista
Video- Introdução • Porquê necessitamos de vídeo? Para representar movimento (motion) • O que podemos fazer com dados de video? • capturar, armazenar, apresentar, editar -- (sem considerar o conteúdo) • query, busca, indexação -- dependente de contexto • Video sequence = Video stream (physical, raw data) + Video information (meaning)
Video - Motivação • A grande quantidade de vídeos produzidos que necessitam de recuperação por • Ex.: Um ano de video da NBA mostrando os melhores eventos:Número total de jogos num ano: 29 * 82 / 2 + 91 = 1280 (jogos)Precisamos de 1280 * 3 = 3840 (horas) para navegar sequencialmente se usando um video player • Uma facilidade de acesso randômico pode reduzir este tempo pode ser reduzido a poucos dias.
Imagem & Video • An image is captured when a camera scans a scene • Colour => Red (R), Green (G) and Blue (B) array of digital samples • Density of samples (pixels) gives resolution • A video is captured when a camera scans a scene at multiple time instants • Each sample is called a frame giving rise to a frame rate (frames/sec) measured in Hz • TV (full motion video) is 25Hz • Mobile video telephony is 8-15 Hz
Representação de Vídeo • Analógico: convertido para digital usando uma placa de captura de vídeo (digitalização) • Digital: AVI, MPEG-1,-2,-4
Características de vídeo • Comparação com dados alfanuméricos
BD Vídeo Tipos de consulta: 1. Usuário pode ter visto uma cena de um video e deseja recuperá-la 2. Usuário pode estar procurando por um vídeo que ele nunca viu antes 3. Usuário pode ter apenas uma vaga idéia do que ele está procurando.
BD Vídeo Meta: determinar a sintaxe e semântica de um video. Passo 1: identificar a sintaxe: Um filme é composto por segmentos, cenas e tomadas. - Quadro (Frame): uma imagem do vídeo - Tomadas (shots): sequência contínua de frames de uma câmera com início e fim bem definidos. - Cena (Episode): coleção de shots adjacentes focando os mesmos objetos e descrevendo uma cadeia completa de ações. - Segmento: é um grupo de cenas, não necessariamente adjacentes, ligados por uma linha comum de ações.
Categoria: News Data: 10/12/96 Duração: 15 min Fonte: Globo Num. Estórias: M Keywords: C. Grande, Micarande, Turismo, festa ... clip Segmento index: 1 Título: Folia nos blocos Num. Shots: K Frame inicial: 00000 Frame final: 02000 Evento: narração, entrevistas, diálogos, ... ... Segmento 1 Segmento M ... Shot index: 1 Frame inicial: 00000 Frame final: 00300 Camera: still Nível de audio: médio Num. Pessoas: 10 Keywords: dança, festa animação, ... Shot 1 Shot K ... Frame 00000 Frame 00300
BD Vídeo • Passo 2: semântica • Uso de metadata para especificar a semântica do video. • Através de anotações, capturas de texto, e algoritmos de • segmentação de imagem (similar a proc. de imagens). • BD Video pode ser indexado por: • - dados bibliográficos: título, abstract, assunto, gênero • - dados estruturados: segmento, cena e tomada • - dados de conteúdo: uso de keyframes e keywords.
Análise de Movimento • O processo de análise de movimento é dividido em 3 estágios: • detecção de objetos em movimento • trajetória de objetos • análise final de movimento
Modelo de Informação de Video • CBR em video usa: • anotação manual para descrever informação semântica (lento) • representação icônica usando métodos automáticos para detecção de mudança de cena (cortes) (perde a propriedade de movimento) • propriedades estáticas derivadas usando técnicas de análise de imagens (perde aspecto temporal do video)
Caracterização de Informação de Video • Tipos de informações físicas associados com video: • Objeto -- video stream • atributos (length, size, frame numbering) • informação (format resolution headers, frame rate) • O que pode ser derivado de um video? • O -- conjunto de objetos presentes num video • M -- conjunto de representações de movimento • Features, spatial relationships, derivados de O • Spatiotemporal info derivada de O e M juntos • Spatiotempotal info fornecida pelo designer • Temporal relationships inferidos de M • Image information
Operadores de Video • Além dos clássicos: FF, play, record, Rewind, stop e pause • Inserir um video em outro • Extrair um video clip • Extração de cortes • Extrair uma imagem de um video
Operadores de atributos de video • v_length:Video -> Integer • frame_rate: Video -> Integer • size: Video -> Integer • resolution: Video -> String • compression: Video -> String
Áudio Prof. Cláudio Baptista
Áudio • Processamento de Fala • Reconhecimento de Fala • Síntese de Fala • Reconhecimento de Música
Reconhecimento de Fala • Motivação: • •How can machines make sense of – and participate in – human communication? recognizing, interpreting, understanding, generating • Underpins • richer, human-centred approaches to computing • perceptual computers that can interpret their environment • technological enhancements to human-human communication
Características Ácústicas • Process the speech waveform to obtain a representation that emphasizes those aspects of the speech signal most relevant to ASR
Dificuldades no Reconhecimento da fala • Speech recognition is difficult due to several sourcesv of variation • Size - number of words in the vocabulary, perpelexity • Style - continuous speech or isolated; planned or spontaneous; • Speaker characteristics and accent - tuned for a single speaker, or speaker-independent? • Acoustic environment - noise, competing speakers, channel conditions (microphone, phone line, ...)
Conhecimento linguístico • One could construct a speech recognizer using linguistic knowledge • Acoustic phonetic rules to relate spectrogram representations of sounds to phonemes • Base pronunciations of words stored in a dictionary • Morphological rules to construct inflected forms • Grammatical rules to model syntax • Semantic and pragmatic constraints • Very difficult to take account of the variability of spoken language with such approaches
Machine Learning • Intense effort needed to derive and encode linguistic rules that cover all the language • Speech has a high degree of variability (speaker, pronunciation, spontaneity, ...) • Difficult to write a grammar for spoken language - many people rarely speak grammatically • Data-driven approach • Construct simple models of speech which can be earned from large amounts of data (thousands of hours of speech recordings)
Solução: Métodos Estatísticos • Redes Bayesianas • Cadeias de Markov
Música • O que é MIR? • Born ca. 1960’s in IR research • Major recent growth precipitated by advent of networked digital music collections • Informed by multiple disciplines andliteratures
DEfinindo MIR • Music Information Retrieval (MIR) is the process of searching for, and finding, music objects, or parts of music objects, via a query framed musically and/or in musical terms • Music Objects: Scores, Parts, Recordings (WAV, MP3, etc.), etc. • Musically framed query: Singing, Humming, Keyboard, Notation-based, MIDI file, Sound file, etc. • Musical terms: Genre, Style, Tempo, etc.