WebMídia Thiago Teixeira Santos 1,2 Carlos Hitoshi Morimoto 2

Documentos relacionados
1 Introdução 1.1. Indexação, Recuperação e Segmentação de Vídeo

Detecção de Cortes de Cena

Segmentação, Indexação e Recuperação de Vídeo Utilizando OpenCV

Delimitação de Shots em Vídeo Digital. Thiago Teixeira Santos

Métodos de Segmentação de Imagem para Análise da Marcha

5 Conclusão O Problema do Limiar

Técnicas para Segmentação Temporal de Vídeo Digital

MouseCam: aplicação de controle do mouse via câmera

Descritores de Imagens

Recuperação de Informação com Base no Conteúdo Visual

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Sistema de Reconhecimento de Logotipos

Detecção Robusta de Movimento de Câmera em Vídeos por Análise de Fluxo Ótico Ponderado

Thiago Teixeira Santos

Renderização de pessoas em movimento a partir de vídeos. Ricardo Juliano Mesquita Silva Oda Supervisor: Carlos Hitoshi Morimoto

Detecção e Correção Automáticas de Olhos Vermelhos

6 Conclusão Contribuições da Dissertação

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

SEL-0339 Introdução à Visão Computacional. Aula 5 Segmentação de Imagens

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

Introdução Geral a Computação Gráfica. Universidade Católica de Pelotas Curso de Engenharia da Computação Disciplina de Computação Gráfica

Rastreamento de objeto e estimativa de movimento

Padrões para Definição de Metadados

Simulação Gráfica. Segmentação de Imagens Digitais. Julio C. S. Jacques Junior

Descritores de Imagem

Face Recognition using RGB-D Images

2 Reconhecimento Facial

PMR2560 Visão Computacional Conversão e Limiarização. Prof. Eduardo L. L. Cabral

PMR2560 Visão Computacional Detecção de cores e blobs. Prof. Eduardo L. L. Cabral

Image Descriptors: color

APLICAÇÃO DA VISÃO COMPUTACIONAL PARA SEGMENTAÇÃO DE OBJETOS EM IMAGENS CAPTURADAS POR EQUIPAMENTOS MÓVEIS.

UNIVERSIDADE ESTADUAL PAULISTA Campus de Sorocaba. Segmentação

SLAM Visual. Fernando Zuher Mohamad Said Cavalcante Orientadora: Profª. Drª. Roseli Romero Mestrado em Computação, ICMC-USP

Denise Gomes Silva Morais Cavalcante. Programa de Pós-graduação em Ciências da Informação/ECA- USP. Orientador: Nair Yumiko Kobashi

Person Re-Identification. Autor: Guilherme Zasyeki Machado

Extração de objetos de interesse em imagens digitais utilizando a biblioteca de Visão Computacional OpenCV

2 Segmentação de vídeo

SISTEMA DE ANÁLISE DE VÍDEO EM TEMPO REAL NA DETECÇÃO DE PADRÕES DE MOVIMENTO

UNIVERSIDADE FEDERAL FLUMINENSE Pedro Martins Menezes. Um estudo dos estágios dos pipelines gráficos

Computação Gráfica. Prof. MSc. André Yoshimi Kusumoto

Computação Gráfica. Representação e Modelagem

Redução do Gap Semântico em CBIR utilizando Ontologia de Objeto

Um sistema para extração automática de keyframes a partir de fluxos de vídeo direcionado à reconstrução tridimensional de cenários virtuais

OBJETIVOS: Esta apostila apresenta de forma simples, objetiva e eficiente alguns recursos de uma ferramenta para Apresentações Multimídia.

Descritores de Imagens

SACCA Sistema Automático de Catalogação de Conteúdo Audiovisual. Liane Tarouco Renato Dutra Mary Konrath UFRGS/CINTED/PGIE

Computaçã. Visão Geral. Sistema Gráfico. Computação Gráfica. Pixels. Sistema Gráfico e o Frame Buffer. Introdução à Computação Gráfica

Face Detection. Image Processing scc moacir ICMC/USP São Carlos, SP, Brazil

Teclado Virtual. MAC0420/MAC5744 Introdução Computação Gráfica. IME Instituto de Matemática e Estatística USP Universidade de São Paulo

Detecção de Outliers Multivariados em Redes de Sensores Sem Fio

EXTRAÇÃO DE QUADROS CHAVES PARA SUMARIZAÇÃO DE VÍDEOS

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Vídeos indexados: que benefícios trazem para o professor e para os alunos. Slide 1 de 26

Filtragem Morfológica para Redução do Ruído na Detecção de Movimento em Sistema Automático de Vigilância

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

Trabalho Final de Processamento de Imagens: Panografia

EXTRACÇÃO DE INFORMAÇÃO VÍDEO DO DOMÍNIO COMPRIMIDO MPEG-4 2

Avaliação de Descritores de Imagem

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA

Sketch to Photo Matching: A Feature-based Approach (Klare and Jain [2010])

10º Congresso Interinstitucional de Iniciação Científica CIIC a 04 de agosto de 2016 Campinas, São Paulo ISBN

TÉCNICO (A) DE MULTIMÉDIA. QUADRO RESUMO FORMAÇÃO UFCD Duração (H) Desenho vetorial - criação e manipulação de imagens H

Detecção e seguimento de objectos em vídeo sob condições adversas

SEMINÁRIO DOS ARTIGOS:

CENAS - INTRODUÇÃO, VALORES DMX MANUAIS, JANELA DMX [UL107]

Um estudo sobre consumo energético na indexação de conteúdo visual com síntese em alto nível usando hardware reconfigurável

METODOLOGIA PARA A QUANTIZAÇÃO DE CORES PELO MÉTODO SMCb: INTRODUÇÃO E EXEMPLOS DE RESULTADOS

IDENTIFICAÇÃO DE MARCADORES DE PAVIMENTAÇÃO NA ORIENTAÇÃO DE CEGOS. André Zuconelli 1 ; Manassés Ribeiro 2

Reconstrução a partir de Seções Planares

VISÃO COMPUTACIONAL. Marcelo Henrique dos Santos

Segmentação de vídeo no domínio comprimido baseada na história da compactação

Proposta de um Protótipo de um Sistema de Recuperação de Imagens com Base na Cor

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Visão Computacional. Alessandro L. Koerich. Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR)

Brilliant Solutions for a Safe World

Reconhecimento de texturas utilizando padrão binário local e classificador knn.

Filipe António Gonçalves Tomaz

Introdução à Computação Gráfica. Claudio Esperança Paulo Roma Cavalcanti

Tutorial de Instalação Plataforma de Mídia Digital Interativa

Textura. Textura 04/09/2014. Prof. Yandre Costa

LOCALIZAÇÃO DOS OLHOS EM IMAGENS FRONTAIS DE FACES HUMANAS ATRAVÉS DE ANÁLISE DE VARIÂNCIA DA INTENSIDADE DO BRILHO

Mecanismos de Detecção de Objetos Selective Search

Estudo comparativo de métodos de segmentação das bordas de lesões em imagens dermatoscópicas

3 Simpósio Internacional de Agricultura de Precisão

Local SLAM. Defesa de Dissertação. Mestrado em Informática Lucas Teixeira. Departamento de Informática, PUC-Rio

Desenvolvimento de um método para segmentação de imagens histológicas da rede vascular óssea

Raciocínio Baseado em Casos. Baseado no material do prof. Luis Otavio Alvares

UNIVERSIDADE ESTADUAL DE MARINGÁ PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO. Prof. Yandr re Costa - 1. Prof. Yandre Costa.

Computação Gráfica. Prof. MSc André Y. Kusumoto

Auto-Fusão na Recuperação de Imagens Baseadas em Conteúdo.

Vídeos educacionais indexados por Sintagmas Nominais permitindo a navegação no interior da mídia. Slide 1 de 23

Reconhecimento de Faces Utilizando Análise de Componentes Principais e a Transformada Census

Um Estudo das Técnicas de Obtenção de Forma a partir de Estéreo e Luz Estruturada para Engenharia

Reconhecimento de linguagem de sinais: aplicação em LIBRAS

Detecção Auxiliada por Computador

Aplicação para demarcação de bordas em lesões dermatoscópicas

Transcrição:

WebMídia 2003 Estruturação e indexação de vídeo digital Thiago Teixeira Santos 1,2 Carlos Hitoshi Morimoto 2 thsant@ime.usp.br hitoshi@ime.usp.br 1 Instituto de Matemática e Estatística, IME-USP 2 Faculdades Senac de Ciências Exatas e Tecnologia, FSCET http://www.ime.usp.br/ thsant/vweb.html

Introdução Vídeo digital possui um enorme potencial, ainda não explorado, em novas formas de transmissão, navegação e busca. Novas tecnologias possibilitarão novas formas de consumo desta mídia: Revitalização de acervos de vídeo: BBC, Globo, The OpenVideo Projet... Vídeo por demanda. Noticiários estruturados. Descrição de conteúdo multimídia: MPEG-7 [2]. Necessidade de estruturar e indexar esse material: Descrições de conteúdo devem ser estruturadas no nível das tomadas para maximizar o potencial de navegação e montagem de seqüências auxiliadas por computador. Davenport et al. [1] {thsant,hitoshi}@ime.usp.br, 2003 2

Outline Decomposição de vídeo em unidades menores: tomadas (shots). Estruturação: Transições entre tomadas Como são feitas? Como detectá-las? Shot Boundary Detection (SBD) Um algoritmo clássico em SBD: TWINCOMPARISON Limitações do algoritmo clássico e proposta de uma variante sua: TWINCOMPARISONADAPTATIVO. Indexação: como apresentar vídeo estruturado? Resultados: um protótipo para apresentação de vídeo estruturado e indexado na Web. Trabalho futuro. {thsant,hitoshi}@ime.usp.br, 2003 3

O que são tomadas? Uma tomada (shot) é uma seqüência de quadros contínua em tempo e espaço, capturada em uma única operação de gravação da câmera: Tomada S 1 Tomada S 2 Trecho de Challenge at Glen Canyon. Um corte é uma simples concatenação de tomadas. Transições graduais são efeitos de de edição baseados na sobreposição de tomadas: Dissolução Fade-out e fade-in Outros (wipes,...) {thsant,hitoshi}@ime.usp.br, 2003 4

6980 6982 6984 6986 6988 6990 6992 6994 6996 6998 7000 7002 7004 7006 7008 7010 Dissolução em Airline Safety and Economy. {thsant,hitoshi}@ime.usp.br, 2003 5

Estruturação por tomadas Uma solução comum é definir uma medida de similaridade entre dois quadros do vídeo e aplicá-la a quadros sucessivos. Sejam q i e q j dois quadros de um vídeo V e DIFERENÇA(q i, q j ) uma função para avaliar similaridade. Podemos reduzir V ao sinal d[i] = DIFERENÇA(q i, q i+1 ). 300000 250000 200000 150000 100000 50000 0 4400 4500 4600 4700 4800 4900 5000 5100 {thsant,hitoshi}@ime.usp.br, 2003 6

Estruturação por tomadas TWINCOMPARISON [4]: utiliza um limiar k c para detectar cortes e um limiar k g para detectar transições graduais (baseado em diferenças acumuladas, ver artigo). d(qi, qi+1) kc kg corte i D(qi, qi+1) kc gradual aceita gradual rejeitada i {thsant,hitoshi}@ime.usp.br, 2003 7

Estruturação por tomadas E quanto a DIFERENÇA(q i, q j )? Diferença entre os histogramas de cores é mais robusta em relação a movimentações e rotações: d(f i, f j ) = Hi c Hj c. c {R,G,B} l [0..255] Problema: variações no grau de movimentação (atividade) de objetos e da câmera em V. Limiares globais aplicados ao vídeo inteiro. {thsant,hitoshi}@ime.usp.br, 2003 8

1584 1586 1588 1590 1592 1594 1596 1598 Trecho de The Corvair in Action! 200000 180000 160000 140000 120000 100000 80000 60000 40000 20000 0 1500 1550 1600 1650 1700 1750 1800 {thsant,hitoshi}@ime.usp.br, 2003 9

Estruturação por tomadas: método proposto TWINCOMPARISONADAPTATIVO leva em consideração a atividade local. O sinal das diferenças é filtrado: d f [i] = d[i] d[i]. d[i] é a média de d[i m],..., d[i 1], d[i + 1],..., d[i + m]. Em outras palavras, analisamos uma janela de tamanho 2m + 1 centrada em i para levar em consideração a atividade no segmento. {thsant,hitoshi}@ime.usp.br, 2003 10

Indexação Gostaríamos de representar uma tomada S = q s,..., q t por um quadro-chave q i que represente bem o conteúdo da tomada. Uma ação pode não ser bem representada por um único quadro. Um conjunto de quadros pode ser mais adequado. Tomamos um novo quadro-chave toda vez que a diferença entre o quadro corrente e o último quadro-chave escolhido for maior que o limiar k c : Quadros-Chave (S = q s,..., q t ) 1 K {q s } 2 q c q s 3 para i s + 1 à t 4 faça se Diferença (q c, q i ) k c 5 então K K {q i } 6 q c q i 7 devolva K {thsant,hitoshi}@ime.usp.br, 2003 11

Resultados: estruturação (SBD) Resultados em SBD são medidos pelas bem conhecidas medidas de cobertura (recall) e precisão (precision). As transições detectadas são comparadas contra o anotado por um observador humano. Vários limiares são utilizados até obtermos os melhores resultados. TWINCOMPARISONADAPTATIVO encontra bons resultados em poucas tentativas. TWINCOMPARISON TWINCOMPARISONADAPTATIVO Cobertura Precisão Cobertura Precisão 0.22 0.80 0.60 0.88 {thsant,hitoshi}@ime.usp.br, 2003 12

Resultados: indexação e navegação 9 4.77 seconds 10 1.30 seconds 25 11 1.23 seconds 17 12 2.87 seconds 14 13 0.53 seconds 15 14 2.00 seconds 18 15 1.50 seconds 26 16 7.00 seconds 17 1.97 seconds 65 18 3.40 seconds 21 19 9.00 seconds 22 20 10.57 seconds {thsant,hitoshi}@ime.usp.br, 2003 13

Sumário Estruturação e indexação de vídeo digital para habilitar novas formas de consumo do material. Tomadas são unidades de granularidade mais grossa que o quadro e com unidade de ação e espaço. Shot Boundary Detection consiste em delimitar tomadas em um vídeo V. Quadros-chave servem como representação sucinta da tomada. indexação. Ideal para TWINCOMPARISON é trata o vídeo globalmente. local. Heterogeneidade requer análise Podemos representar vídeo para navegação através de tomadas e seus quadros chaves. {thsant,hitoshi}@ime.usp.br, 2003 14

Trabalho futuro Estruturação Maior cobertura, maior precisão. Detecção e caracterização de transições graduais devem ser melhoradas. Detecção de eventos Iluminação (ex.: flashes, luzes acendendo/apagando) Surgimento e aparecimento de objetos Exploração de outros níveis além das tomadas: cenas [3]? Relações inter-tomadas. Indexação Caracterização das tomadas (via quadros-chaves): Cor, texturas. Objetos e as relações entre os objetos. Movimento. Relações intra-tomadas. {thsant,hitoshi}@ime.usp.br, 2003 15

Referências [1] Glorianna Davenport, Thomas A. Smith, and Natalio Pincever. Cinematic primitives for multimedia. IEEE Computer Graphics and Applications, 11:67 74, July 1991. 2 [2] José M. Martínez. MPEG-7 Overview, version 9. Pataya, Março 2003. http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm. 2 [3] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 109, July 1998. 15 [4] H. J. Zhang, A. Kankanhalli, and S. W. Smoliar. Automatic partitioning of full-motion video. Multimedia Systems, 1:10 28, July 1993. 7 {thsant,hitoshi}@ime.usp.br, 2003 16