PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS Programa de Pós-Graduação em Informática Uma Abordagem para Extração de Texto em Vídeos Digitais Baseada em Análise Temporal Ângelo Magno de Jesus Belo Horizonte 2011
Ângelo Magno de Jesus Uma Abordagem para Extração de Texto em Vídeos Digitais Baseada em Análise Temporal Dissertação apresentada ao Programa de Pós- Graduação em Informática como requisito parcial para obtenção do título de Mestre em Informática pela Pontifícia Universidade Católica de Minas Gerais. Orientador: Silvio Jamil Ferzoli Guimarães Belo Horizonte 2011
FICHA CATALOGRÁFICA Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais J58u Jesus, Ângelo Magno de Uma abordagem para extração de texto em vídeos digitais baseada em análise temporal / Ângelo Magno de Jesus. Belo Horizonte, 2011. 87f.: il. Orientador: Silvio Jamil Ferzoli Guimarães Dissertação (Mestrado) Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Informática. 1. Processamento de textos (Computação). 2. Sistemas de recuperação da informação. 3. Vídeo digital. I. Guimarães, Silvio Jamil Ferzoli. II. Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Informática. III. Título. CDU: 681.3.06
Ângelo Magno de Jesus Uma Abordagem para Extração de Texto em Vídeos Digitais Baseada em Análise Temporal Dissertação apresentada ao Programa de Pós-Graduação em Informática como requisito parcial para qualicação ao Grau de Mestre em Informática pela Pontifícia Universidade Católica de Minas Gerais. Professor Dr. Silvio Jamil Ferzole Guimarães. (Orientador) PUC Minas Professor Dr. Zenilton Kleber Gonçalves do Patrocínio Jr. PUC Minas Professor Dr. Guillermo Câmara Chávez UFOP Belo Horizonte, 25 de Março de 2011.
Ao meu pai com muito amor.
AGRADECIMENTOS A Deus por me sustentar durante todo o tempo. Ao meu pai amado Rogério Fátima de Jesus, o qual tenho muitas saudades, que tornou esta realização possível, sempre me apoiou nos estudos e fez de tudo por minha felicidade. A minha mãe Maria Angela e irmão Alessandro pelo apoio. A minha noiva Simone pela paciência e amor. Ao meu orientador Silvio Jamil Ferzoli Guimarães pela orientação e pela oportunidade. Ao professor Zenilton Kleber G. Patrocínio Junior pelas críticas e sugestões que contribuíram para o trabalho. A todos os professores do mestrado em Informática da PUC Minas pelas excelentes aulas. Aos meus amigos do mestrado Henrique e Kleber, que batalharam muito junto comigo. As novas amizades que consegui morando em Belo Horizonte durante este tempo. Aos meus companheiros do Centro de Inovação Microsoft. A Lucilene e Giovana por serem sempre receptivas e atenciosas. A minha tia Sônia e meu tio Jadir por estarem sempre dispostos a me acolher e me ajudar. Ao meu excompanheiro de apartamento Lele (Alessandro), por muitos momentos engraçados e muitos apertos vividos no cafofo. Ao programa de Mestrado da PUC Minas pela ótima oportunidade.
Estou pessoalmente convencido de que a ciência da computação tem muito em comum com a física. Ambas se referem a como o mundo trabalha em um nível bastante fundamental. A diferença, é claro, é que enquanto na física espera-se que você imagine como o mundo é feito, na ciência da computação o mundo é criado. Linus Torvalds - Cientista da Computação
RESUMO A evolução e popularização de tecnologias como softwares de edição de imagens e vídeos, aparelhos de gravação e reprodução de vídeos digitais e a Internet, possibilitou que um grande volume de conteúdo visual fosse produzido e disponibilizado em diversas bases de dados. No entanto, há poucas possibilidades de recuperação de toda esta informação, normalmente, o conteúdo de vídeos e imagens é indexado por meio de palavras chaves informadas pelos próprios usuários. Neste contexto, é de extrema importância que usuários possam encontrar com maior facilidade os dados que procuram. Técnicas de extração de texto em imagens e vídeos podem possibilitar uma maior qualidade na busca de informações, pois o texto presente em imagens e vídeos representa conteúdo relevante para ser indexado. Neste trabalho é apresentada uma nova abordagem para extração de texto em vídeos e imagens digitais. Esta abordagem é baseada na regularização de cores para extração de bordas de texto e geração de componentes conexos, e em um algoritmo que ltra falsos alarmes pelas características temporais do vídeo. Os experimentos realizados demonstraram que a abordagem proposta é promissora, uma vez que, obteve melhores resultados do que outra abordagem desenvolvida recentemente na literatura. A abordagem proposta também demonstrou ser robusta a transições de texto no vídeo. Palavras-chave: Extração de texto, Localização de texto, Análise de conteúdo de vídeo.
ABSTRACT The evolution and popularization of technologies such as software for editing pictures and videos, reproduction and recording digital videos devices and the Internet enabled that a large amount of visual content was produced and made available in many databases. However, there are few possibilities for recovering all of this information, usually, the content of videos and images are indexed by keywords informed by users. In this context, it is extremely important that users can nd the data that they want more eectively. Techniques for extraction of text in images and videos enable a higher quality in information retrieval, since the present text in images and videos is a relevant content to be indexed. In this paper, we present a new approach for text extraction in digital videos and images. This approach is based on the color regularization for edge detection and generation of connected components, and in an algorithm that lters out false alarms by the temporal characteristics of the video. The experiments demonstrate that the approach is very promising, because, it gets better results than other approach recently developed in the literature. The proposed approach also demonstrates to be robust to text transition in videos. Key-words: Text-extraction, Text-localization, Video content analysis.
LISTA DE FIGURAS FIGURA 1 Resultado da aplicação de um mecanismo de OCR na imagem original (a) e na imagem processada (b) com o método proposto, respectivamente. (a)fonte: (CEZARWORLD, 200-), (b) Fonte: Elaborada pelo autor...... 19 FIGURA 2 Exemplos de texto em vídeos: (a) texto de cena; (b) texto articial. (a) Fonte: (POSTASDEPOIA, 200-), (b) Fonte: (IEEESPECTRUM, 200-). 21 FIGURA 3 (a) vizinhança-4 de um pixel; (b) vizinhança-8 de um pixel. Fonte: Elaborada pelo autor................................................. 24 FIGURA 4 Exemplos de caminhos. (a) caminho-4 de tamanho 12; (b) caminho-8 de tamanho 9. Fonte: Elaborada pelo autor........................... 25 FIGURA 5 Componentes conexos em uma imagem bidimensional. Fonte: Elaborada pelo autor....................................................... 25 FIGURA 6 Borda e interior de um componente. (a) imagem binária original; (b) pixels da borda e interior. Fonte: Elaborada pelo autor............... 26 FIGURA 7 (a) Subárea de uma imagem mostrando valores de pixels; (b) uma máscara 3 3 com coecients genéricos. Fonte: Adaptada de (GONZALEZ; WOODS, 1992)........................................................ 27 FIGURA 8 (a) conjunto A, (b) conjunto A transladado de um ponto x, (c) conjunto B, (d) reexão do conjunto B. Fonte: Elaborada pelo autor........... 28 FIGURA 9 Exemplo de dilatação: (a) Conjunto A, (b) elemento estruturante representado pelo conjunto B e (c) resultado da operação de dilatação de A pelo elemento estruturante B. Fonte: Elaborada pelo autor........... 29
FIGURA 10 Exemplo de erosão: (a) Conjunto A, (b) elemento estruturante representado pelo conjunto B e (c) resultado da operação de erosão de A pelo elemento estruturante B. Fonte: Elaborada pelo autor................ 30 FIGURA 11 Exemplo de aplicação da operação de abertura no conjunto A, a partir do elemento estruturante B. Fonte: Adaptada de (MARQUES FILHO; VIEIRA NETO, 1999).................................................. 31 FIGURA 12 (a) imagem original, (b) histograma da imagem (a). (a) Fonte: (AMA- ZON, 200-), (b) Fonte: Elaborada pelo autor.......................... 31 FIGURA 13 (a) Imagem original à esquerda e (b) imagem clusterizada pelo algoritmo mean shift à direita. (a) Fonte: (CARLTON, 2010), (b) Fonte: Elaborada pelo autor............................................................ 34 FIGURA 14 Diferentes formas de textos em imagens. Fonte: (JUNG K.; KIM; ANIL, 2003)................................................................. 37 FIGURA 15 Exemplo de texto com baixo contraste com o plano de fundo e caractere parcialmente oculto. Fonte: (DDESFILE COMPLETO, 2009)............ 38 FIGURA 16 Visão geral dos métodos presentes no estado da arte em extração de conteúdo textual. Fonte: Adaptada de (JUNG K.; KIM; ANIL, 2003).... 40 FIGURA 17 Aplicação de algoritmos de AGME: (a) letra L, (b) clusterização pela distância RGB e (c) clusterização pela distância espacial/rgb. Fonte: (LOPRESTI; ZHOU, 2000).............................................. 43 FIGURA 18 Triangulação de delaunay em centróides de componentes conexos. Fonte: (XIAO; YAN, 2003).................................................... 45 FIGURA 19 Da esquerda para direita: imagem original, clusterização por distância euclidiana, clusterização por similaridade através do coseno. Fonte: (MANCAS-THILLOU; GOSSELIN, 2005).................................. 46
FIGURA 20 Operador de Compasso. Fonte: (LIU; SAMARABANDU, 2006)........ 49 FIGURA 21 Visão geral do método proposto por Jung; Han (2004). Fonte: (JUNG; HAN, 2004)........................................................... 51 FIGURA 22 Visão geral do método proposto para extração e reconhecimento de texto. Fonte: Elaborada pelo autor.................................... 56 FIGURA 23 Método proposto para detecção e localização de texto. Fonte: Elaborada pelo autor....................................................... 57 FIGURA 24 (a) Exemplo de uma imagem dada como entrada para o passo de localização, (b) Imagem (a) após a aplicação da regularização de cores. Fonte: Elaborada pelo autor.(a)fonte: (SWEETHOSHI, 200-), (b)fonte: Elaborada pelo autor....................................................... 58 FIGURA 25 (a) Exemplo de obtenção das bordas aplicada na Figura 24 (b), (b) Imagem (a) após a segmentação de componentes conexos. Fonte: Elaborada pelo autor............................................................ 59 FIGURA 26 (a) Exemplo de ltragem morfológica aplicada na Figura 26 (b), (b) Imagem (a) após a ltragem heurística. Fonte: Elaborada pelo autor.. 60 FIGURA 27 (a) região localizada contendo texto (b) segmentação pelo limiar de Otsu (c) segmentação pelo limiar proposto. Fonte: Elaborada pelo autor... 61 FIGURA 28 Obtenção do limiar para segmentação do texto através da avaliação do histograma: 72 valor obtido pelo limiar de Otsu, 238 maior número de pixels a partir do centro e 155 valor do limiar obtido pela média dos valores anteriores. Fonte: Elaborada pelo autor....................... 62 FIGURA 29 Exemplo de tratamento temporal: frame x, frame x+t e o resultado da interseção entre os frames. Fonte: Elaborada pelo autor............... 63
FIGURA 30 (a) sequência de frames a ser processada com parâmetros s1 = 20 e s2 = 10, (b) delimitação por s1 da sequência de frames a ser processada, (c) interseção dos frames 1 e 10 delimitados por s2, (d) interseção dos frames 1 e 20 delimitados por s2 e (e) seleção de R1 como resultado. Fonte: Elaborada pelo autor.......................................... 65 FIGURA 31 (a) delimitação por s1 da sequência de frames a ser processada após processamento ilustrado pela Figura 30, (b) interseção dos frames 21 e 30 delimitados por s2, (c) interseção dos frames 21 e 40 delimitados por s2, (d) seleção do resultado das interseções R4, (e) detecção de transição de texto e (f) assimilação de R1 como resultado para o frame 21 em um passo de pós-processamento. Fonte: Elaborada pelo autor................... 68 FIGURA 32 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (AJ NETWORK, 2009), (b) e (c) Fonte: Elaborada pelo autor... 77 FIGURA 33 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (VILLAIN, 2009), (b) e (c) Fonte: Elaborada pelo autor......... 78 FIGURA 34 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (MICROSOFT, 2009), (b) e (c) Fonte: Elaborada pelo autor..... 78 FIGURA 35 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (NINTENDO, 2010), (b) e (c) Fonte: Elaborada pelo autor...... 78 FIGURA 36 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (IMAGEM FILMES, 2009), (b) e (c) Fonte: Elaborada pelo autor. 78 FIGURA 37 (a) Frame original, (b) frame (a) processado pela abordagem de Yen;
Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (IMAGEM FILMES, 2009), (b) e (c) Fonte: Elaborada pelo autor. 79 FIGURA 38 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (DDESFILE COMPLETO, 2009), (b) e (c) Fonte: Elaborada pelo autor................................................................. 79 FIGURA 39 (a) Frame original, (b) frame subsequente ao frame (a), resultado da integração entre os frames (a) e (b) processados pela abordagem de Yen; Chang (2010) e (c) resultado da integração entre os frames (a) e (b) processados pela abordagem proposta. (a) e (b) Fonte: (AJ NETWORK, 2009), (b) e (c) Fonte: Elaborada pelo autor................................. 79 FIGURA 40 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (BLANK, 2007), (b) e (c) Fonte: Elaborada pelo autor.......... 80
LISTA DE QUADROS QUADRO 1 Informações a respeito da base de dados de vídeos para o Experimento 1. Fonte: Elaborada pelo autor....................................... 73 QUADRO 2 Informações a respeito da base de dados de vídeos. Fonte: Elaborada pelo autor............................................................ 75
LISTA DE TABELAS TABELA 1 TABELA 2 TABELA 3 Comparação da segmentação de texto para s1 = 30. Fonte: Elaborada pelo autor............................................................ 73 Comparação da segmentação de texto para s1 = 15. Fonte: Elaborada pelo autor............................................................ 73 Comparação da segmentação de texto para s1 = 10. Fonte: Elaborada pelo autor............................................................ 74 TABELA 4 Comparação da segmentação de texto. Fonte: Elaborada pelo autor. 76 TABELA 5 Comparação do reconhecimento de texto. Fonte: Elaborada pelo autor................................................................... 76
SUMÁRIO 1.1 Motivação................................................. 20 1.2 Objetivos.................................................. 20 1.2.1 Objetivo Geral......................................... 21 1.2.2 Objetivos Especícos.................................... 21 1.3 Restrições.............................................. 22 1.4 Tema.................................................. 22 1.4.1 Delimitação do Tema................................... 22 1.5 Justicativa............................................ 22 1.6 Contribuições........................................... 22 1.7 Organização deste Trabalho............................... 23 2.1 Vizinhança............................................. 24 2.2 Caminho............................................... 24 2.3 Componentes Conexos.................................... 25 2.4 Borda................................................. 25 2.5 Operações de Convolução com Máscara...................... 26 2.5.1 Operador Sharpen...................................... 26 2.5.2 Operador Sobel........................................ 27 2.6 Operadores Morfológicos.................................. 27 2.6.1 Dilatação............................................. 29 2.6.2 Erosão............................................... 29 2.6.3 Abertura............................................. 30 2.7 Textura................................................ 30 2.8 Histograma............................................. 30 2.9 Limiarização de Otsu..................................... 32 2.10 Algoritmo Mean Shift.................................... 33 2.11 Vídeo Digital........................................... 34 3.1 Texto em Imagens e Vídeos................................ 36 3.1.1 Características Gerais de Texto em Imagens e Vídeos........ 36 3.1.2 Características de Texto Articial......................... 38 3.2 Visão Geral do Estado da Arte............................. 39 3.3 Detecção de Texto....................................... 39 3.4 Localização de Texto..................................... 41 3.4.1 Métodos Baseados em Textura............................ 41 3.4.2 Métodos Baseados em Região............................ 42 3.4.2.1 Métodos Baseados em Componentes Conexos............... 42 3.4.2.2 Métodos Baseados em Bordas............................ 47 3.4.3 Outras Abordagens..................................... 50 3.5 Rastreamento e Análise Temporal.......................... 51 4.1 Detecção e Localização de Texto............................ 56 4.1.1 Regularização de Cores da Imagem........................ 57 4.1.2 Detecção das Bordas do Texto............................ 57 4.1.3 Identicação de Componentes Conexos.................... 58 4.1.4 Filtragem............................................. 58
4.1.4.1 Filtragem Morfológica................................... 59 4.1.4.2 Filtragem por Heurísticas................................ 59 4.2 Segmentação............................................... 61 4.2.1 Segmentação nas Regiões de Texto........................ 61 4.2.2 Tratamento Temporal................................... 62 4.2.3 Análise de Alinhamento Horizontal....................... 66 5.1 Métricas Adotadas....................................... 69 5.1.1 Métricas para Avaliação da Extração de Texto.............. 70 5.2 Métricas para Avaliação do Reconhecimento de Texto.......... 70 5.3 Experimento 1.......................................... 71 5.3.1 Parâmetros Utilizados.................................. 71 5.3.1.1 Regularização de Cores da Imagem........................ 71 5.3.1.2 Detecção das Bordas do Texto............................ 71 5.3.1.3 Identicação de Componentes Conexos..................... 72 5.3.1.4 Filtragem.............................................. 72 5.3.1.5 Tratamento Temporal................................... 72 5.3.2 Resultados Obtidos..................................... 73 5.4 Experimento 2.......................................... 74 5.4.1 Parâmetros Utilizados.................................. 74 5.4.1.1 Reconhecimento de Texto................................ 75 5.4.2 Resultados Obtidos..................................... 75 5.5 Resultados Qualitativos................................... 76 REFERÊNCIAS........................................................ 83
1 INTRODUÇÃO O avanço tecnológico atual, como a evolução das câmeras digitais, aparelhos de reprodução e gravação de DVDs, ferramentas de edição de imagens e vídeos, e especialmente a evolução da Internet, possibilitou um grande aumento do volume de conteúdo visual gerado por usuários e instituições. Com estas tecnologias, torna-se cada vez mais comum a criação, digitalização e cópia de vídeos. Usuários não só digitalizam seus documentos como se sentem motivados, a todo momento, a postar estes documentos em sites da Internet, como por exemplo o YouTube, para compartilhá-los com outros usuários. Com o aumento expressivo deste tipo de conteúdo, torna-se um grande desao realizar a organização e recuperação de toda esta informação. Para Lienhart; Stuber (1996) a maioria dos dados a respeito de vídeos estão desestruturados, os vídeos são gravados e disponibilizados apenas como pixels. A maior parte das bases de dados presentes na Internet apenas apresentam o título e uma breve descrição dos vídeos armazenados. Não há informações adicionais sobre conteúdo como ano de produção, autores, locais das tomadas etc. A usabilidade do vídeo é limitada impossibilitando uma recuperação efetiva e ecaz destes dados. Com isso, torna-se muito difícil encontrar determinados tipos de lmes ou cenas nas bases de dados. Informações adicionais sobre conteúdo de vídeos são de grande importância. É comum que usuários em muitas aplicações tenham que informar os metadados, para que a imagem ou o vídeo possa ser indexado a partir destes dados, no entanto, este trabalho muitas vezes é dispendioso, tomando muito tempo do usuário, sendo que em vídeos muito grandes ou em bases de imagens muito extensas se torna inviável. Dado o cenário descrito anteriormente, é de grande interesse que haja a possibilidade de indexação e recuperação automática de dados nesta grande massa de conteúdo, para facilitar o acesso a informações em vídeos e banco de dados de imagens. Métodos de extração de texto podem ser muito úteis para organização de toda essa informação, pois o texto presente em imagens pode ser utilizado na construção de índices de imagens e vídeos. Particularmente, em vídeos digitais, a indexação textual, permite que usuários naveguem entre o conteúdo de vídeos legendados, e executem consultas para realizar pesquisas complexas para encontrar determinadas cenas. Usuários podem, por exemplo, buscar em um lme, o nome de um dos atores, as cenas em que um dos personagens diz determinada palavra ou frase, podem também buscar por notícias em vídeos de telejornais 18
Figura 1: Resultado da aplicação de um mecanismo de OCR na imagem original (a) e na imagem processada (b) com o método proposto, respectivamente. (a)fonte: (CEZARWORLD, 200-), (b) Fonte: Elaborada pelo autor. etc. Segundo Lienhart; Eelsberg (2000), a detecção de texto em vídeos também pode ser utilizada para gravar o tempo e o dia da transmissão de comerciais, ajudando agentes a checarem se um comercial de um determinado cliente tem sido transmitido no tempo correto no canal de televisão contratado. Para Jung; Kim; Anil (2003), textos contidos em imagens e vídeos são de particular interesse pois: são muito úteis para descrever o conteúdo de uma imagem, são mais fáceis de extrair do que outros conteúdos semânticos e permitem a indexação de dados a partir de palavras chaves para aplicação de máquinas de busca. Mecanismos de OCR (Optical Character Recognition) são capazes de reconhecer texto de imagens digitais, no entanto, só funcionam corretamente se o texto na imagem estiver bastante nítido, e o plano de fundo for muito simples. Caso o plano de fundo seja complexo ou haja pouco contraste entre texto e o plano de fundo da imagem, o mecanismo de OCR pode não dar resultados satisfatórios ou tão pouco dar resultados. Portanto, fazse necessário a aplicação de uma abordagem para localização e separação do texto do plano de fundo da imagem para que, dessa forma, a aplicação de um mecanismo de OCR na imagem tratada produza resultados satisfatórios. A Figura 1, por exemplo, ilustra o desempenho de um mecanismo de OCR, antes e depois da aplicação da abordagem proposta neste trabalho para extração de texto. Portanto, pode-se subdividir o problema de extração de conteúdo textual nos subproblemas de detecção de texto, de localização de região de texto na imagem, de rastreamento, da extração e realce de texto, e da aplicação de um mecanismo de OCR (JUNG K.; KIM; ANIL, 2003). A detecção de texto consiste 19
em identicar se uma imagem contém ou não texto, a localização de regiões permite identicar áreas dentro da imagem que são candidatas a conter texto, a extração de texto consiste na separação do texto presente dentro destas áreas. Após a extração de texto, pode-se aplicar o mecanismo de OCR para que o texto seja obtido não mais em formato de imagem, mas em formato de um conjunto de caracteres normalmente apresentados em um arquivo ou em um editor de texto. Este trabalho propõe uma nova abordagem de extração de texto em imagens e, especialmente, vídeos embasada em uma regularização de cores para extração de bordas e geração de componentes conexos. Deni-se também uma simples limiarização para separação do texto do plano de fundo. Segundo Lienhart; Wernicke (2002), o problema de localização de texto em vídeos se difere do de imagens pela redundância temporal, isso signica que técnicas de extração de texto em vídeos são basicamente similares a técnicas de extração de texto de imagens, no entanto, técnicas de extração de texto em vídeos geralmente consideram as características temporais do mesmo. Na abordagem proposta neste trabalho será aplicado um passo adicional de tratamento temporal. Este passo serve para manter a integridade de um texto localizado durante seu tempo de ocorrência no vídeo. Este passo permite que haja economia no processamento, pois evita que o texto, já encontrado anteriormente no vídeo, seja novamente extraído. 1.1 Motivação Tomou-se como motivação para realização deste trabalho, o crescimento expressivo de vídeos e imagens digitais, principalmente destes conteúdos disponibilizados na Internet. É interessante, para usuários, que haja a possibilidade de buscar informações de maneira eciente e ecaz em bases de dados de conteúdo visual. A extração de texto em vídeos e imagens possibilita que usuários realizem buscas no conteúdo semântico de cenas de vídeos e de imagens. 1.2 Objetivos Em (LIENHART; EFFELSBERG, 2000), o texto que aparece em vídeos é dividido em duas categorias: texto de cena e texto articial. Textos de cena aparecem como parte da cena, como em placas com nomes de ruas, banners de lojas etc. Textos de cenas, na maioria dos casos, aparecem acidentalmente e raramente são intencionais, sendo, portanto, de pouca importância e sem informações relevantes para indexação e recuperação. Textos articiais são produzidos separadamente do vídeo e são inseridos em cenas do vídeo em um estágio de pós-processamento. Este tipo de texto apresenta informações relevantes e 20
Figura 2: Exemplos de texto em vídeos: (a) texto de cena; (b) texto articial. (POSTASDEPOIA, 200-), (b) Fonte: (IEEESPECTRUM, 200-) (a) Fonte: é extremamente importante para indexação e recuperação. Assim como em (LIENHART; EFFELSBERG, 2000), o foco da abordagem desenvolvida foi na extração de textos articias. A Figura 2 ilustra exemplos de texto de cena e de texto articial. Portanto, este trabalho propõe um novo método para extração, especialmente, de textos de legendas de vídeos. A extração deste tipo de texto se apresenta como um grande desao pois, geralmente, está inserido sobre um plano de fundo complexo, que pode se misturar ao o próprio texto, e além disso, pode estar em variados estilos de fonte e cor. Este tipo de texto, como padrão, é monocromático, possui caracteres com limitações de tamanhos, e está alinhado horizontalmente. Mais características deste tipo de texto podem ser vistas na Seção 3.1.2. 1.2.1 Objetivo Geral Desenvolver uma nova abordagem para extração de texto em imagens e especialmente de vídeos que permita, de forma ecaz, a obtenção de informações a respeito do conteúdo nos mesmos. 1.2.2 Objetivos Especícos Para se atingir o objetivo geral do trabalho, foi necessário alcançar os seguintes objetivos especícos: a) Desenvolver um algoritmo para localizar regiões em imagens que contenham texto; b) Identicar características de texto em imagens que auxiliem na eliminação de regiões que não contêm texto; c) Denir um método para extrair (segmentar) o texto das regiões encontradas na imagem; 21
d) Desenvolver um algoritmo de tratamento de múltiplos frames, presentes em um vídeo, adequado ao algoritmo de detecção de texto aplicado. 1.3 Restrições A abordagem proposta se restringe a extração de textos alinhados horizontalmente nas imagens, pois esta é uma característica de alinhamento mais comum (JUNG K.; KIM; ANIL, 2003) entre textos de imagens e vídeos, Lienhart; Wernicke (2002) armam, embasados em seus experimentos, que texto horizontal ocorre em mais de 99% de todos os textos articiais. Portanto, a abordagem proposta pode não dar resultados equivalentes em textos dispostos verticalmente, como alguns textos orientais. No entanto a abordagem poder ser ajustada para funcionar de tal maneira. 1.4 Tema Extração de texto em vídeos e imagens digitais. 1.4.1 Delimitação do Tema Estudo sobre extração de texto articial em vídeos digitais, especialmente sobre métodos de detecção, e extração de texto para indexação de conteúdo de vídeos. 1.5 Justicativa Normalmente, em bases de dados de vídeos, como as que podem ser encontradas na Internet, não há informação adicional sobre o conteúdo dos vídeos disponíveis, o usuário não tem recursos para recuperação de informações que poderiam descrever o conteúdo do vídeo, em especial em cada cena deste. O desenvolvimento de sistemas de extração de texto de vídeos para indexação é de grande relevância, pois possibilita, por exemplo, que usuários naveguem através de vídeos (principalmente legendados) e que recuperem informações a respeito do conteúdo de algum vídeo. 1.6 Contribuições A principal contribuição deste trabalho está no desenvolvimento de uma nova abordagem de extração de texto de imagens e vídeos. Para localização de texto, propõe-se um método híbrido combinando extração de bordas e geração de componentes conexos. Para segmentação de texto, propõe-se um método baseado em limiarização e tratamento temporal capaz de ltrar falsos positivos e detectar alterações de texto no tempo. Os resul- 22