320 likes | 420 Views
Sumarização Automática de Vídeos. Edward Cayllahua Ecayllahua1@gmail.com. Introdução. Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo.
E N D
Sumarização Automática de Vídeos Edward Cayllahua Ecayllahua1@gmail.com
Introdução • Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo. • O objetivo é fornecer rapidamente a informação do conteúdo do vídeo, preservando a mensagem do vídeo original • Eles permitem ao usuário uma navegação rápida de vídeo e recuperação de conteúdo.
Introdução • Sumarizaçao de vídeoimplica extrair umaamostra de frames. • Essas amostras são então juntadas respeitandosua seqüência de tempo. • Consiste em se-selecionar as porções pequenas mais relevantes de áudioe vídeo, a fim de gerar o resumo de vídeo.
Problema • A fim de gerar um resumo perfeito o modelo teria que realizar uma boa compreenção da semântica do vídeo. • A compreenção da semântica é uma tarefa muito complexa e ainda está muito além da inteligência dos atuais sistemas de computação
Definições • Vídeo: É uma sequencia do frames, geralmente consiste de cenas. • Cena: cada cena inclui um ou mais shots • Shot: é um segmento ininterrupto de seqüência de quadros(frames) de vídeo • Frame é uma imagem do vídeo
Modelos • Keyframe based summarization: Keyframe • Skimming based summarization: eles fazem uso de informações do shot.
TrabalhosRelacionados • Modelosbaseadoseminformação visual, recursos como histograma de cores, movimento, etc. [3] [6] [8] . • Informação Visual e de Áudio como discriminante. [5] [2] [7]. • Informação Visual, audio e Textual(filmes e series) [1] [4].
Summarizing Video Sequences ThroughHistogram Evolution • O conceito de evolução de histograma é usado para summarização de vídeo [8].
Extração de histograma • Histograma são amplamente utilizados em visão computacional. • Elas descrevem as características de cor quando aplicada a um frame de vídeo. • O modelo usa histogramas RGB , mas também pode trabalhar em cinza.
Extração de histograma • Empiricamente, descobrimos que os melhores resultados foram obtidos com 16 bins por cada canal de cor. • O histograma é extraído e salvo em um vetor.
Redução de dimensão • O vetor obtido (Histrograma) é de alta dimensionalidade. • Método PCA é executado ao longo desse vetor, a fim de reduzir a dimensão . • Cada frame seria representado como um único ponto a ser plotado em um espaço 2D.
Detecção de shots • Identificamos os shots que podem ocorrer no vídeo • Usamos o Método de Fuzzy C means ao nosso espaço 2D de valores computados naúltima etapa.
Fuzzy C-Means • O Fuzzy C-means é um algoritmo popular paraclassificação, e é usado em reconhecimento de padrões e problemas de processamento de imagens. • O modelo considera a detecção de shot como um problema de classificação. • Frames análogos serão agrupados em um cluster
Vídeo final • depois de detectar os clusters, extraímos o frame mais próximo para cada classe, este frame será marcado como um keyframe • Uma vez que tenhamos detectado todos os keyframes, extraímos uma vizinhança de até 30 frames que rodeiam cada keyframe.
Problemas do Modelo • O Fuzzy C-Means precisa conhecer a priori o número de clusters. • Um usuario deve forneçer o número possivel de shots. • O processo não é completamente automático. • ¿Por qué o PCA só reduz a dimensão a 2D?
Modelo Proposto • Propomos o uso do Fuzzy-ART para encontrar automaticamente o número de shots. • Verificamos a variância dos componentes principais e só escolhemos aqueles com uma variância superior a 50%.
Teste e Resultados • Vídeos geralmente contêm mais de 400 frames éimpossível mostrar toda a seqüência de um vídeo. • Extraídos de «Open Video Project» (http://www.open-video.org) • O «Open Video Project» fornece um storyboard, assim é possivel fazer comparações
OPEN VIDEO STORYBOARD OUR STORYBOARD
OPEN VIDEO STORYBOARD OUR STORYBOARD
OPEN VIDEO STORYBOARD OUR STORYBOARD
OPEN VIDEO STORYBOARD OUR STORYBOARD
OPEN VIDEO STORYBOARD OUR STORYBOARD
Problemas • Dado que o modelo so usa o histograma de cor, ele herda suas desvantagens. • O descriptor não usa informaçao espacial. • Ele é sensível mudanças de intensidade de iluminação.
Conclusões • A partir dos resultados obtidos dos testes o modelo é eficaz quando encontrar os keyframes e não é computacionalmente caro. • Nenhum modelo formal foi criado para avaliarresumos de vídeo. • Informação de cor, não é suficiente para nos fornecer informações discriminativas
Trabalho futuro • Usar informação espacial ou de textura que podem ser extraídos usando algoritmos não computacionalmente caros. • Avaliar outros métodos de clustering: X means.
Referências • [1] B.-W. Chen, J.-C. Wang, and J.-F. Wang. A novel video sum-marization based on mining the story-structure and semantic relations among concept entities. IEEE Transactions on Multimedia, 11:295–312, February 2009. • [2] F. Chen, M. Cooper, and J. Adcock. Video summarization preserving dynamic content. In International Workshop on TRECVID video summarization, TVS ’07, pages 40–44, New York, NY, USA, 2007. ACM. • [3] R. Laganière, P. Lambert, and B. E. Ionescu. Video sum-marization from spatio-temporal features. ACM Workshop on Video Summarization, ACM, 2008. • [4] L. Li, K. Zhou, G.-R. Xue, H. Zha, and Y. Yu. Video summa-rization via transferrable structured learning. In International conference on World wide web, WWW ’11, pages 287–296, New York, NY, USA, 2011. ACM. • [5] J. Nam and A. H. Tewfik. Dynamic video summarization and visualization. In Proceedings of the seventh ACM inter-national conference on Multimedia (Part 2), MULTIMEDIA ’99, pages 53–56, New York, NY, USA, 1999. ACM. • [6] W. Ren and Y. Zhu. A video summarization approach based on machine learning. In Intelligent Information Hiding and Multimedia Signal Processing, 2008. IIHMSP ’08 International Conference on, pages 450 –453, 2008. • [7] C. wah Ngo, Y. fei Ma, and H. jiang Zhang. Automatic video summarization by graph modeling. In IEEE International Conference on Computer Vision, pages 104–109, 2003. • [8] T. Wan and Z. Qin. A new technique for summarizing video sequences through histogram evolution. In Signal Processing and Communications (SPCOM), 2010 International Conference on, pages 1 –5, july 2010.