1 / 32

Sumarização Automática de  Vídeos

Sumarização Automática de  Vídeos. Edward Cayllahua Ecayllahua1@gmail.com. Introdução. Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo.

pomona
Download Presentation

Sumarização Automática de  Vídeos

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Sumarização Automática de Vídeos Edward Cayllahua Ecayllahua1@gmail.com

  2. Introdução • Sumarização de vídeo é o processo de extração de um resumo do conteúdo original do vídeo. • O objetivo é fornecer rapidamente a informação do conteúdo do vídeo, preservando a mensagem do vídeo original • Eles permitem ao usuário uma navegação rápida de vídeo  e recuperação de conteúdo.

  3. Introdução • Sumarizaçao  de vídeoimplica extrair umaamostra de frames. • Essas amostras são então juntadas respeitandosua seqüência de tempo.  • Consiste em se-selecionar as  porções pequenas mais relevantes  de áudioe vídeo, a fim de gerar o resumo de vídeo.

  4. Problema • A fim de gerar um resumo perfeito o modelo teria que realizar uma boa compreenção da semântica do vídeo. • A compreenção da semântica é uma tarefa muito complexa e ainda está muito além da inteligência dos atuais sistemas de computação

  5. Definições • Vídeo: É uma sequencia do frames, geralmente consiste de cenas. • Cena: cada cena inclui um ou mais shots • Shot: é um segmento ininterrupto de seqüência de quadros(frames) de vídeo • Frame é uma imagem do vídeo

  6. Anatomia de um Vídeo

  7. Modelos • Keyframe based summarization: Keyframe • Skimming based summarization: eles fazem uso de informações do shot.

  8. TrabalhosRelacionados • Modelosbaseadoseminformação visual, recursos como histograma de cores, movimento, etc. [3] [6] [8] . • Informação Visual e de Áudio como discriminante. [5] [2] [7]. • Informação Visual, audio e Textual(filmes e series) [1] [4].

  9. Summarizing Video Sequences ThroughHistogram Evolution • O conceito de evolução de histograma é usado para summarização de vídeo [8].

  10. Modelo

  11. Extração de histograma • Histograma são amplamente utilizados em visão computacional. • Elas descrevem as características de cor quando aplicada a um frame de vídeo. • O modelo usa  histogramas RGB , mas também pode trabalhar em cinza.

  12. Extração de histograma • Empiricamente, descobrimos que os melhores resultados foram obtidos com 16 bins por cada canal de cor. • O histograma é extraído e salvo em um vetor.

  13. Redução de dimensão • O vetor obtido (Histrograma) é de alta dimensionalidade. • Método PCA é executado ao longo desse vetor, a fim de reduzir a dimensão . • Cada frame seria representado como um único ponto a ser plotado em um espaço 2D.

  14. Redução de dimensão

  15. Detecção de shots • Identificamos os shots que podem ocorrer no vídeo • Usamos o Método de Fuzzy C means  ao nosso espaço 2D de valores computados naúltima etapa.

  16. Fuzzy C-Means • O Fuzzy C-means é um algoritmo popular paraclassificação, e é usado em reconhecimento de padrões e problemas de processamento de imagens. • O modelo considera a detecção de shot como um problema de classificação. • Frames análogos serão agrupados em um cluster

  17. Fuzzy C Means

  18. Vídeo final • depois de detectar os clusters, extraímos o frame mais próximo para cada classe, este frame será marcado como um keyframe • Uma vez que tenhamos detectado todos os keyframes, extraímos uma vizinhança de até 30 frames que rodeiam cada keyframe.

  19. Problemas do Modelo • O Fuzzy C-Means precisa conhecer a priori o número de clusters. • Um usuario deve forneçer o número possivel de shots. • O processo não é completamente automático. • ¿Por qué o PCA só reduz a dimensão a 2D?

  20. Modelo Proposto • Propomos o uso do Fuzzy-ART para encontrar automaticamente o número de shots. • Verificamos a variância dos componentes principais e só escolhemos aqueles com uma variância  superior a 50%.

  21. Modelo Proposto

  22. Teste e Resultados • Vídeos geralmente contêm mais de 400 frames éimpossível mostrar toda a seqüência de um vídeo. • Extraídos de «Open Video Project» (http://www.open-video.org) • O «Open Video Project» fornece um storyboard, assim é possivel fazer comparações

  23. OPEN VIDEO STORYBOARD OUR STORYBOARD

  24. OPEN VIDEO STORYBOARD OUR STORYBOARD

  25. OPEN VIDEO STORYBOARD OUR STORYBOARD

  26. OPEN VIDEO STORYBOARD OUR STORYBOARD

  27. OPEN VIDEO STORYBOARD OUR STORYBOARD

  28. Tabela de testes

  29. Problemas • Dado que o modelo so usa o histograma de cor, ele herda suas desvantagens. • O descriptor não usa informaçao espacial. • Ele é sensível mudanças de intensidade de iluminação.

  30. Conclusões • A partir dos resultados obtidos  dos testes  o modelo é eficaz quando encontrar os keyframes e não é computacionalmente caro. • Nenhum modelo formal foi criado para avaliarresumos de vídeo. • Informação de cor, não é suficiente para nos fornecer informações discriminativas

  31. Trabalho futuro • Usar informação espacial ou de textura que podem ser extraídos usando algoritmos não computacionalmente caros. • Avaliar outros métodos de clustering: X means.

  32. Referências • [1] B.-W. Chen, J.-C. Wang, and J.-F. Wang. A novel video sum-marization based on mining the story-structure and semantic relations among concept entities. IEEE Transactions on Multimedia, 11:295–312, February 2009. • [2] F. Chen, M. Cooper, and J. Adcock. Video summarization preserving dynamic content. In International Workshop on TRECVID video summarization, TVS ’07, pages 40–44, New York, NY, USA, 2007. ACM. • [3] R. Laganière, P. Lambert, and B. E. Ionescu. Video sum-marization from spatio-temporal features. ACM Workshop on Video Summarization, ACM, 2008. • [4] L. Li, K. Zhou, G.-R. Xue, H. Zha, and Y. Yu. Video summa-rization via transferrable structured learning. In International conference on World wide web, WWW ’11, pages 287–296, New York, NY, USA, 2011. ACM. • [5] J. Nam and A. H. Tewfik. Dynamic video summarization and visualization. In Proceedings of the seventh ACM inter-national conference on Multimedia (Part 2), MULTIMEDIA ’99, pages 53–56, New York, NY, USA, 1999. ACM. • [6] W. Ren and Y. Zhu. A video summarization approach based on machine learning. In Intelligent Information Hiding and Multimedia Signal Processing, 2008. IIHMSP ’08 International Conference on, pages 450 –453, 2008. • [7] C. wah Ngo, Y. fei Ma, and H. jiang Zhang. Automatic video summarization by graph modeling. In IEEE International Conference on Computer Vision, pages 104–109, 2003. • [8] T. Wan and Z. Qin. A new technique for summarizing video sequences through histogram evolution. In Signal Processing and Communications (SPCOM), 2010 International Conference on, pages 1 –5, july 2010.

More Related