WebMídia 2003 Estruturação e indexação de vídeo digital Thiago Teixeira Santos 1,2 Carlos Hitoshi Morimoto 2 thsant@ime.usp.br hitoshi@ime.usp.br 1 Instituto de Matemática e Estatística, IME-USP 2 Faculdades Senac de Ciências Exatas e Tecnologia, FSCET http://www.ime.usp.br/ thsant/vweb.html
Introdução Vídeo digital possui um enorme potencial, ainda não explorado, em novas formas de transmissão, navegação e busca. Novas tecnologias possibilitarão novas formas de consumo desta mídia: Revitalização de acervos de vídeo: BBC, Globo, The OpenVideo Projet... Vídeo por demanda. Noticiários estruturados. Descrição de conteúdo multimídia: MPEG-7 [2]. Necessidade de estruturar e indexar esse material: Descrições de conteúdo devem ser estruturadas no nível das tomadas para maximizar o potencial de navegação e montagem de seqüências auxiliadas por computador. Davenport et al. [1] {thsant,hitoshi}@ime.usp.br, 2003 2
Outline Decomposição de vídeo em unidades menores: tomadas (shots). Estruturação: Transições entre tomadas Como são feitas? Como detectá-las? Shot Boundary Detection (SBD) Um algoritmo clássico em SBD: TWINCOMPARISON Limitações do algoritmo clássico e proposta de uma variante sua: TWINCOMPARISONADAPTATIVO. Indexação: como apresentar vídeo estruturado? Resultados: um protótipo para apresentação de vídeo estruturado e indexado na Web. Trabalho futuro. {thsant,hitoshi}@ime.usp.br, 2003 3
O que são tomadas? Uma tomada (shot) é uma seqüência de quadros contínua em tempo e espaço, capturada em uma única operação de gravação da câmera: Tomada S 1 Tomada S 2 Trecho de Challenge at Glen Canyon. Um corte é uma simples concatenação de tomadas. Transições graduais são efeitos de de edição baseados na sobreposição de tomadas: Dissolução Fade-out e fade-in Outros (wipes,...) {thsant,hitoshi}@ime.usp.br, 2003 4
6980 6982 6984 6986 6988 6990 6992 6994 6996 6998 7000 7002 7004 7006 7008 7010 Dissolução em Airline Safety and Economy. {thsant,hitoshi}@ime.usp.br, 2003 5
Estruturação por tomadas Uma solução comum é definir uma medida de similaridade entre dois quadros do vídeo e aplicá-la a quadros sucessivos. Sejam q i e q j dois quadros de um vídeo V e DIFERENÇA(q i, q j ) uma função para avaliar similaridade. Podemos reduzir V ao sinal d[i] = DIFERENÇA(q i, q i+1 ). 300000 250000 200000 150000 100000 50000 0 4400 4500 4600 4700 4800 4900 5000 5100 {thsant,hitoshi}@ime.usp.br, 2003 6
Estruturação por tomadas TWINCOMPARISON [4]: utiliza um limiar k c para detectar cortes e um limiar k g para detectar transições graduais (baseado em diferenças acumuladas, ver artigo). d(qi, qi+1) kc kg corte i D(qi, qi+1) kc gradual aceita gradual rejeitada i {thsant,hitoshi}@ime.usp.br, 2003 7
Estruturação por tomadas E quanto a DIFERENÇA(q i, q j )? Diferença entre os histogramas de cores é mais robusta em relação a movimentações e rotações: d(f i, f j ) = Hi c Hj c. c {R,G,B} l [0..255] Problema: variações no grau de movimentação (atividade) de objetos e da câmera em V. Limiares globais aplicados ao vídeo inteiro. {thsant,hitoshi}@ime.usp.br, 2003 8
1584 1586 1588 1590 1592 1594 1596 1598 Trecho de The Corvair in Action! 200000 180000 160000 140000 120000 100000 80000 60000 40000 20000 0 1500 1550 1600 1650 1700 1750 1800 {thsant,hitoshi}@ime.usp.br, 2003 9
Estruturação por tomadas: método proposto TWINCOMPARISONADAPTATIVO leva em consideração a atividade local. O sinal das diferenças é filtrado: d f [i] = d[i] d[i]. d[i] é a média de d[i m],..., d[i 1], d[i + 1],..., d[i + m]. Em outras palavras, analisamos uma janela de tamanho 2m + 1 centrada em i para levar em consideração a atividade no segmento. {thsant,hitoshi}@ime.usp.br, 2003 10
Indexação Gostaríamos de representar uma tomada S = q s,..., q t por um quadro-chave q i que represente bem o conteúdo da tomada. Uma ação pode não ser bem representada por um único quadro. Um conjunto de quadros pode ser mais adequado. Tomamos um novo quadro-chave toda vez que a diferença entre o quadro corrente e o último quadro-chave escolhido for maior que o limiar k c : Quadros-Chave (S = q s,..., q t ) 1 K {q s } 2 q c q s 3 para i s + 1 à t 4 faça se Diferença (q c, q i ) k c 5 então K K {q i } 6 q c q i 7 devolva K {thsant,hitoshi}@ime.usp.br, 2003 11
Resultados: estruturação (SBD) Resultados em SBD são medidos pelas bem conhecidas medidas de cobertura (recall) e precisão (precision). As transições detectadas são comparadas contra o anotado por um observador humano. Vários limiares são utilizados até obtermos os melhores resultados. TWINCOMPARISONADAPTATIVO encontra bons resultados em poucas tentativas. TWINCOMPARISON TWINCOMPARISONADAPTATIVO Cobertura Precisão Cobertura Precisão 0.22 0.80 0.60 0.88 {thsant,hitoshi}@ime.usp.br, 2003 12
Resultados: indexação e navegação 9 4.77 seconds 10 1.30 seconds 25 11 1.23 seconds 17 12 2.87 seconds 14 13 0.53 seconds 15 14 2.00 seconds 18 15 1.50 seconds 26 16 7.00 seconds 17 1.97 seconds 65 18 3.40 seconds 21 19 9.00 seconds 22 20 10.57 seconds {thsant,hitoshi}@ime.usp.br, 2003 13
Sumário Estruturação e indexação de vídeo digital para habilitar novas formas de consumo do material. Tomadas são unidades de granularidade mais grossa que o quadro e com unidade de ação e espaço. Shot Boundary Detection consiste em delimitar tomadas em um vídeo V. Quadros-chave servem como representação sucinta da tomada. indexação. Ideal para TWINCOMPARISON é trata o vídeo globalmente. local. Heterogeneidade requer análise Podemos representar vídeo para navegação através de tomadas e seus quadros chaves. {thsant,hitoshi}@ime.usp.br, 2003 14
Trabalho futuro Estruturação Maior cobertura, maior precisão. Detecção e caracterização de transições graduais devem ser melhoradas. Detecção de eventos Iluminação (ex.: flashes, luzes acendendo/apagando) Surgimento e aparecimento de objetos Exploração de outros níveis além das tomadas: cenas [3]? Relações inter-tomadas. Indexação Caracterização das tomadas (via quadros-chaves): Cor, texturas. Objetos e as relações entre os objetos. Movimento. Relações intra-tomadas. {thsant,hitoshi}@ime.usp.br, 2003 15
Referências [1] Glorianna Davenport, Thomas A. Smith, and Natalio Pincever. Cinematic primitives for multimedia. IEEE Computer Graphics and Applications, 11:67 74, July 1991. 2 [2] José M. Martínez. MPEG-7 Overview, version 9. Pataya, Março 2003. http://www.chiariglione.org/mpeg/standards/mpeg-7/mpeg-7.htm. 2 [3] Minerva Yeung, Boon-Lock Yeo, and Bede Liu. Segmentation of video by clustering and graph analysis. Computer Vision and Image Understanding, 71(1):94 109, July 1998. 15 [4] H. J. Zhang, A. Kankanhalli, and S. W. Smoliar. Automatic partitioning of full-motion video. Multimedia Systems, 1:10 28, July 1993. 7 {thsant,hitoshi}@ime.usp.br, 2003 16