Uma Abordagem para Extração de Texto em Vídeos Digitais Baseada em Análise Temporal



Documentos relacionados
UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Transformada de Hough. Cleber Pivetta Gustavo Mantovani Felipe Zottis

SEGMENTAÇÃO DE IMAGENS EM PLACAS AUTOMOTIVAS

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Universidade Federal do Rio de Janeiro - IM/DCC & NCE

4 Segmentação Algoritmo proposto

Filtragem. pixel. perfil de linha. Coluna de pixels. Imagem. Linha. Primeiro pixel na linha

RECONHECIMENTO DE PLACAS DE AUTOMÓVEIS ATRAVÉS DE CÂMERAS IP

Universidade Federal de Goiás Instituto de Informática Processamento Digital de Imagens

3 Classificação Resumo do algoritmo proposto

Filtragem Espacial. (Processamento Digital de Imagens) 1 / 41

FILTRAGEM ESPACIAL. Filtros Digitais no domínio do espaço

APOSTILA DE EXCEL 2007

Trabalho 2 Fundamentos de computação Gráfica

Processamento de Imagem Morfológica (Morfologia Matemática) Tsang Ing Ren UFPE - Universidade Federal de Pernambuco CIn - Centro de Informática

MICROSOFT OFFICE EXCEL 2007

Processamento e Análise de Imagens (MC940) Análise de Imagens (MO445)

Fluxo de trabalho do Capture Pro Software: Indexação de OCR e separação de documentos de código de correção

ATENÇÃO: * Arquivos com tamanho superior a 500 KB NÃO SERÃO ACEITOS * SOMENTE serão aceitos documentos do formato: PDF

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

29/08/2011. Radiologia Digital. Princípios Físicos da Imagem Digital 1. Mapeamento não-linear. Unidade de Aprendizagem Radiológica

O Software Face Match

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

Chow&Kaneko buscam as modas da imagem para separar os objetos. Admite que os tons na vizinhança de cada moda são do mesmo objeto.

Aula 3 - Registro de Imagem

Fluxo de trabalho do Capture Pro Software: Indexação de código de barras e separação de documentos

SEGEMENTAÇÃO DE IMAGENS. Nielsen Castelo Damasceno

7.Conclusão e Trabalhos Futuros

Sphinx Scanner Informações gerais V

Informática Aplicada a Radiologia

)LJXUD8PGRVSDUHV'SDUDFRQYROXomRTXHWHPRPHVPRHIHLWRGR NHUQHOGD)LJXUD

2.1.2 Definição Matemática de Imagem

UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS

PROCESSAMENTO DIGITAL DE IMAGENS

Operações Algébricas e Lógicas. Guillermo Cámara-Chávez

Image Enable: conceito

PROF. DR. JACQUES FACON

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Grafos. Redes Sociais e Econômicas. Prof. André Vignatti

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Simulação Gráfica. Morfologia Matemática. Julio C. S. Jacques Junior

Aula 2 Aquisição de Imagens

Manual Sistema MLBC. Manual do Sistema do Módulo Administrativo

Segmentação de Imagens

Multiplexador. Permitem que vários equipamentos compartilhem um único canal de comunicação

Sistema Banco de Preços Manual do Usuário OBSERVATÓRIO

GED CRIAÇÃO DE NOVO DOCUMENTO E OBJETO AUTOMÁTICO

Arquitetura de Rede de Computadores

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Dadas a base e a altura de um triangulo, determinar sua área.

Tema UFPel 2.0 WP Institucional Guia de Opções de Personalização

5 Extraindo listas de produtos em sites de comércio eletrônico

WordPress Institucional UFPel Guia Rápido

Comparação entre a Máscara de Nitidez Cúbica e o Laplaciano para Realce de Imagens Digitais

GRS Gerador de Redes Sistêmicas. (outubro/2004)

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

Desenvolvimento do Módulo de Pré-processamento e Geração de Imagens de. Imagens de Teste do Sistema DTCOURO

Aula 3 - Registro de Imagem

VCA Treinamento em Algoritmo

COLÉGIO ESTADUAL PAULO LEMINSKI APOSTILA SOBRE O BROFFICE IMPRESS

MANUAL DO USUÁRIO. Software de Imagem via Celular (isic) baseado no sistema operacional Symbian

CorelDRAW UM PROGRAMA DE DESIGN

Lidar com números e estatísticas não é fácil. Reunir esses números numa apresentação pode ser ainda mais complicado.

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2.

Manual do Painel Administrativo

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Scale-Invariant Feature Transform

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

atube Catcher versão 3.8 Manual de instalação do software atube Catcher

Pesquisa e organização de informação

Codificação/Compressão de Vídeo. Tópico: Vídeo (Codificação + Compressão)

PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO DEPARTAMENTO DE INFORMÁTICA PÓS GRADUAÇÃO EM INFORMÁTICA

Aula 5 Microsoft PowerPoint 2003: Criando uma Apresentação

SUMÁRIO. Introdução... 3

FEN Processamento Digital de Imagens. Projeto 2 Utilização de máscaras laplacianas

PROGRAMAÇÃO PARA DISPOSITIVOS MÓVEIS -ARQUITETURAS DE APLICAÇÃO MÓVEL. Prof. Angelo Augusto Frozza, M.Sc.

Informática. Prof. Macêdo Firmino. Macêdo Firmino (IFRN) Informática Setembro de / 16

15 Computador, projeto e manufatura

Word 1 - Introdução Principais recursos do word A janela de documento Tela principal

02 - Usando o SiteMaster - Informações importantes

Portal do Projeto Tempo de Ser

3 Estratégia para o enriquecimento de informações

Manual do Publicador. Wordpress FATEA Sistema de Gerenciamento de Conteúdo Web

Treinamento em BrOffice.org Calc

Aula 5 - Classificação

Noções Básicas de Excel página 1 de 19

Introdução. Capítulo. 1.1 Considerações Iniciais

Universidade Federal de Santa Maria UFSM Centro de Tecnologia CT. Power Point. Básico

Treinamento de Drupal para Administradores do Site Bibliotecas UFU

Capítulo 5 Filtragem de Imagens

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

6 Construção de Cenários

Aula 6 - Segmentação de Imagens Parte 2. Prof. Adilson Gonzaga

APLICATIVOS GRÁFICOS (AULA 10)

ISO/IEC 12207: Gerência de Configuração

PRINCÍPIOS DE INFORMÁTICA PRÁTICA OBJETIVO 2. BASE TEÓRICA. 2.1 Criando Mapas no Excel. 2.2 Utilizando o Mapa

Thales Trigo. Formatos de arquivos digitais

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

ALBUM DE FOTOGRAFIAS NO POWER POINT

Transcrição:

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE MINAS GERAIS Programa de Pós-Graduação em Informática Uma Abordagem para Extração de Texto em Vídeos Digitais Baseada em Análise Temporal Ângelo Magno de Jesus Belo Horizonte 2011

Ângelo Magno de Jesus Uma Abordagem para Extração de Texto em Vídeos Digitais Baseada em Análise Temporal Dissertação apresentada ao Programa de Pós- Graduação em Informática como requisito parcial para obtenção do título de Mestre em Informática pela Pontifícia Universidade Católica de Minas Gerais. Orientador: Silvio Jamil Ferzoli Guimarães Belo Horizonte 2011

FICHA CATALOGRÁFICA Elaborada pela Biblioteca da Pontifícia Universidade Católica de Minas Gerais J58u Jesus, Ângelo Magno de Uma abordagem para extração de texto em vídeos digitais baseada em análise temporal / Ângelo Magno de Jesus. Belo Horizonte, 2011. 87f.: il. Orientador: Silvio Jamil Ferzoli Guimarães Dissertação (Mestrado) Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Informática. 1. Processamento de textos (Computação). 2. Sistemas de recuperação da informação. 3. Vídeo digital. I. Guimarães, Silvio Jamil Ferzoli. II. Pontifícia Universidade Católica de Minas Gerais. Programa de Pós-Graduação em Informática. III. Título. CDU: 681.3.06

Ângelo Magno de Jesus Uma Abordagem para Extração de Texto em Vídeos Digitais Baseada em Análise Temporal Dissertação apresentada ao Programa de Pós-Graduação em Informática como requisito parcial para qualicação ao Grau de Mestre em Informática pela Pontifícia Universidade Católica de Minas Gerais. Professor Dr. Silvio Jamil Ferzole Guimarães. (Orientador) PUC Minas Professor Dr. Zenilton Kleber Gonçalves do Patrocínio Jr. PUC Minas Professor Dr. Guillermo Câmara Chávez UFOP Belo Horizonte, 25 de Março de 2011.

Ao meu pai com muito amor.

AGRADECIMENTOS A Deus por me sustentar durante todo o tempo. Ao meu pai amado Rogério Fátima de Jesus, o qual tenho muitas saudades, que tornou esta realização possível, sempre me apoiou nos estudos e fez de tudo por minha felicidade. A minha mãe Maria Angela e irmão Alessandro pelo apoio. A minha noiva Simone pela paciência e amor. Ao meu orientador Silvio Jamil Ferzoli Guimarães pela orientação e pela oportunidade. Ao professor Zenilton Kleber G. Patrocínio Junior pelas críticas e sugestões que contribuíram para o trabalho. A todos os professores do mestrado em Informática da PUC Minas pelas excelentes aulas. Aos meus amigos do mestrado Henrique e Kleber, que batalharam muito junto comigo. As novas amizades que consegui morando em Belo Horizonte durante este tempo. Aos meus companheiros do Centro de Inovação Microsoft. A Lucilene e Giovana por serem sempre receptivas e atenciosas. A minha tia Sônia e meu tio Jadir por estarem sempre dispostos a me acolher e me ajudar. Ao meu excompanheiro de apartamento Lele (Alessandro), por muitos momentos engraçados e muitos apertos vividos no cafofo. Ao programa de Mestrado da PUC Minas pela ótima oportunidade.

Estou pessoalmente convencido de que a ciência da computação tem muito em comum com a física. Ambas se referem a como o mundo trabalha em um nível bastante fundamental. A diferença, é claro, é que enquanto na física espera-se que você imagine como o mundo é feito, na ciência da computação o mundo é criado. Linus Torvalds - Cientista da Computação

RESUMO A evolução e popularização de tecnologias como softwares de edição de imagens e vídeos, aparelhos de gravação e reprodução de vídeos digitais e a Internet, possibilitou que um grande volume de conteúdo visual fosse produzido e disponibilizado em diversas bases de dados. No entanto, há poucas possibilidades de recuperação de toda esta informação, normalmente, o conteúdo de vídeos e imagens é indexado por meio de palavras chaves informadas pelos próprios usuários. Neste contexto, é de extrema importância que usuários possam encontrar com maior facilidade os dados que procuram. Técnicas de extração de texto em imagens e vídeos podem possibilitar uma maior qualidade na busca de informações, pois o texto presente em imagens e vídeos representa conteúdo relevante para ser indexado. Neste trabalho é apresentada uma nova abordagem para extração de texto em vídeos e imagens digitais. Esta abordagem é baseada na regularização de cores para extração de bordas de texto e geração de componentes conexos, e em um algoritmo que ltra falsos alarmes pelas características temporais do vídeo. Os experimentos realizados demonstraram que a abordagem proposta é promissora, uma vez que, obteve melhores resultados do que outra abordagem desenvolvida recentemente na literatura. A abordagem proposta também demonstrou ser robusta a transições de texto no vídeo. Palavras-chave: Extração de texto, Localização de texto, Análise de conteúdo de vídeo.

ABSTRACT The evolution and popularization of technologies such as software for editing pictures and videos, reproduction and recording digital videos devices and the Internet enabled that a large amount of visual content was produced and made available in many databases. However, there are few possibilities for recovering all of this information, usually, the content of videos and images are indexed by keywords informed by users. In this context, it is extremely important that users can nd the data that they want more eectively. Techniques for extraction of text in images and videos enable a higher quality in information retrieval, since the present text in images and videos is a relevant content to be indexed. In this paper, we present a new approach for text extraction in digital videos and images. This approach is based on the color regularization for edge detection and generation of connected components, and in an algorithm that lters out false alarms by the temporal characteristics of the video. The experiments demonstrate that the approach is very promising, because, it gets better results than other approach recently developed in the literature. The proposed approach also demonstrates to be robust to text transition in videos. Key-words: Text-extraction, Text-localization, Video content analysis.

LISTA DE FIGURAS FIGURA 1 Resultado da aplicação de um mecanismo de OCR na imagem original (a) e na imagem processada (b) com o método proposto, respectivamente. (a)fonte: (CEZARWORLD, 200-), (b) Fonte: Elaborada pelo autor...... 19 FIGURA 2 Exemplos de texto em vídeos: (a) texto de cena; (b) texto articial. (a) Fonte: (POSTASDEPOIA, 200-), (b) Fonte: (IEEESPECTRUM, 200-). 21 FIGURA 3 (a) vizinhança-4 de um pixel; (b) vizinhança-8 de um pixel. Fonte: Elaborada pelo autor................................................. 24 FIGURA 4 Exemplos de caminhos. (a) caminho-4 de tamanho 12; (b) caminho-8 de tamanho 9. Fonte: Elaborada pelo autor........................... 25 FIGURA 5 Componentes conexos em uma imagem bidimensional. Fonte: Elaborada pelo autor....................................................... 25 FIGURA 6 Borda e interior de um componente. (a) imagem binária original; (b) pixels da borda e interior. Fonte: Elaborada pelo autor............... 26 FIGURA 7 (a) Subárea de uma imagem mostrando valores de pixels; (b) uma máscara 3 3 com coecients genéricos. Fonte: Adaptada de (GONZALEZ; WOODS, 1992)........................................................ 27 FIGURA 8 (a) conjunto A, (b) conjunto A transladado de um ponto x, (c) conjunto B, (d) reexão do conjunto B. Fonte: Elaborada pelo autor........... 28 FIGURA 9 Exemplo de dilatação: (a) Conjunto A, (b) elemento estruturante representado pelo conjunto B e (c) resultado da operação de dilatação de A pelo elemento estruturante B. Fonte: Elaborada pelo autor........... 29

FIGURA 10 Exemplo de erosão: (a) Conjunto A, (b) elemento estruturante representado pelo conjunto B e (c) resultado da operação de erosão de A pelo elemento estruturante B. Fonte: Elaborada pelo autor................ 30 FIGURA 11 Exemplo de aplicação da operação de abertura no conjunto A, a partir do elemento estruturante B. Fonte: Adaptada de (MARQUES FILHO; VIEIRA NETO, 1999).................................................. 31 FIGURA 12 (a) imagem original, (b) histograma da imagem (a). (a) Fonte: (AMA- ZON, 200-), (b) Fonte: Elaborada pelo autor.......................... 31 FIGURA 13 (a) Imagem original à esquerda e (b) imagem clusterizada pelo algoritmo mean shift à direita. (a) Fonte: (CARLTON, 2010), (b) Fonte: Elaborada pelo autor............................................................ 34 FIGURA 14 Diferentes formas de textos em imagens. Fonte: (JUNG K.; KIM; ANIL, 2003)................................................................. 37 FIGURA 15 Exemplo de texto com baixo contraste com o plano de fundo e caractere parcialmente oculto. Fonte: (DDESFILE COMPLETO, 2009)............ 38 FIGURA 16 Visão geral dos métodos presentes no estado da arte em extração de conteúdo textual. Fonte: Adaptada de (JUNG K.; KIM; ANIL, 2003).... 40 FIGURA 17 Aplicação de algoritmos de AGME: (a) letra L, (b) clusterização pela distância RGB e (c) clusterização pela distância espacial/rgb. Fonte: (LOPRESTI; ZHOU, 2000).............................................. 43 FIGURA 18 Triangulação de delaunay em centróides de componentes conexos. Fonte: (XIAO; YAN, 2003).................................................... 45 FIGURA 19 Da esquerda para direita: imagem original, clusterização por distância euclidiana, clusterização por similaridade através do coseno. Fonte: (MANCAS-THILLOU; GOSSELIN, 2005).................................. 46

FIGURA 20 Operador de Compasso. Fonte: (LIU; SAMARABANDU, 2006)........ 49 FIGURA 21 Visão geral do método proposto por Jung; Han (2004). Fonte: (JUNG; HAN, 2004)........................................................... 51 FIGURA 22 Visão geral do método proposto para extração e reconhecimento de texto. Fonte: Elaborada pelo autor.................................... 56 FIGURA 23 Método proposto para detecção e localização de texto. Fonte: Elaborada pelo autor....................................................... 57 FIGURA 24 (a) Exemplo de uma imagem dada como entrada para o passo de localização, (b) Imagem (a) após a aplicação da regularização de cores. Fonte: Elaborada pelo autor.(a)fonte: (SWEETHOSHI, 200-), (b)fonte: Elaborada pelo autor....................................................... 58 FIGURA 25 (a) Exemplo de obtenção das bordas aplicada na Figura 24 (b), (b) Imagem (a) após a segmentação de componentes conexos. Fonte: Elaborada pelo autor............................................................ 59 FIGURA 26 (a) Exemplo de ltragem morfológica aplicada na Figura 26 (b), (b) Imagem (a) após a ltragem heurística. Fonte: Elaborada pelo autor.. 60 FIGURA 27 (a) região localizada contendo texto (b) segmentação pelo limiar de Otsu (c) segmentação pelo limiar proposto. Fonte: Elaborada pelo autor... 61 FIGURA 28 Obtenção do limiar para segmentação do texto através da avaliação do histograma: 72 valor obtido pelo limiar de Otsu, 238 maior número de pixels a partir do centro e 155 valor do limiar obtido pela média dos valores anteriores. Fonte: Elaborada pelo autor....................... 62 FIGURA 29 Exemplo de tratamento temporal: frame x, frame x+t e o resultado da interseção entre os frames. Fonte: Elaborada pelo autor............... 63

FIGURA 30 (a) sequência de frames a ser processada com parâmetros s1 = 20 e s2 = 10, (b) delimitação por s1 da sequência de frames a ser processada, (c) interseção dos frames 1 e 10 delimitados por s2, (d) interseção dos frames 1 e 20 delimitados por s2 e (e) seleção de R1 como resultado. Fonte: Elaborada pelo autor.......................................... 65 FIGURA 31 (a) delimitação por s1 da sequência de frames a ser processada após processamento ilustrado pela Figura 30, (b) interseção dos frames 21 e 30 delimitados por s2, (c) interseção dos frames 21 e 40 delimitados por s2, (d) seleção do resultado das interseções R4, (e) detecção de transição de texto e (f) assimilação de R1 como resultado para o frame 21 em um passo de pós-processamento. Fonte: Elaborada pelo autor................... 68 FIGURA 32 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (AJ NETWORK, 2009), (b) e (c) Fonte: Elaborada pelo autor... 77 FIGURA 33 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (VILLAIN, 2009), (b) e (c) Fonte: Elaborada pelo autor......... 78 FIGURA 34 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (MICROSOFT, 2009), (b) e (c) Fonte: Elaborada pelo autor..... 78 FIGURA 35 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (NINTENDO, 2010), (b) e (c) Fonte: Elaborada pelo autor...... 78 FIGURA 36 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (IMAGEM FILMES, 2009), (b) e (c) Fonte: Elaborada pelo autor. 78 FIGURA 37 (a) Frame original, (b) frame (a) processado pela abordagem de Yen;

Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (IMAGEM FILMES, 2009), (b) e (c) Fonte: Elaborada pelo autor. 79 FIGURA 38 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (DDESFILE COMPLETO, 2009), (b) e (c) Fonte: Elaborada pelo autor................................................................. 79 FIGURA 39 (a) Frame original, (b) frame subsequente ao frame (a), resultado da integração entre os frames (a) e (b) processados pela abordagem de Yen; Chang (2010) e (c) resultado da integração entre os frames (a) e (b) processados pela abordagem proposta. (a) e (b) Fonte: (AJ NETWORK, 2009), (b) e (c) Fonte: Elaborada pelo autor................................. 79 FIGURA 40 (a) Frame original, (b) frame (a) processado pela abordagem de Yen; Chang (2010) e (c) frame (a) processado pela abordagem proposta. (a) Fonte: (BLANK, 2007), (b) e (c) Fonte: Elaborada pelo autor.......... 80

LISTA DE QUADROS QUADRO 1 Informações a respeito da base de dados de vídeos para o Experimento 1. Fonte: Elaborada pelo autor....................................... 73 QUADRO 2 Informações a respeito da base de dados de vídeos. Fonte: Elaborada pelo autor............................................................ 75

LISTA DE TABELAS TABELA 1 TABELA 2 TABELA 3 Comparação da segmentação de texto para s1 = 30. Fonte: Elaborada pelo autor............................................................ 73 Comparação da segmentação de texto para s1 = 15. Fonte: Elaborada pelo autor............................................................ 73 Comparação da segmentação de texto para s1 = 10. Fonte: Elaborada pelo autor............................................................ 74 TABELA 4 Comparação da segmentação de texto. Fonte: Elaborada pelo autor. 76 TABELA 5 Comparação do reconhecimento de texto. Fonte: Elaborada pelo autor................................................................... 76

SUMÁRIO 1.1 Motivação................................................. 20 1.2 Objetivos.................................................. 20 1.2.1 Objetivo Geral......................................... 21 1.2.2 Objetivos Especícos.................................... 21 1.3 Restrições.............................................. 22 1.4 Tema.................................................. 22 1.4.1 Delimitação do Tema................................... 22 1.5 Justicativa............................................ 22 1.6 Contribuições........................................... 22 1.7 Organização deste Trabalho............................... 23 2.1 Vizinhança............................................. 24 2.2 Caminho............................................... 24 2.3 Componentes Conexos.................................... 25 2.4 Borda................................................. 25 2.5 Operações de Convolução com Máscara...................... 26 2.5.1 Operador Sharpen...................................... 26 2.5.2 Operador Sobel........................................ 27 2.6 Operadores Morfológicos.................................. 27 2.6.1 Dilatação............................................. 29 2.6.2 Erosão............................................... 29 2.6.3 Abertura............................................. 30 2.7 Textura................................................ 30 2.8 Histograma............................................. 30 2.9 Limiarização de Otsu..................................... 32 2.10 Algoritmo Mean Shift.................................... 33 2.11 Vídeo Digital........................................... 34 3.1 Texto em Imagens e Vídeos................................ 36 3.1.1 Características Gerais de Texto em Imagens e Vídeos........ 36 3.1.2 Características de Texto Articial......................... 38 3.2 Visão Geral do Estado da Arte............................. 39 3.3 Detecção de Texto....................................... 39 3.4 Localização de Texto..................................... 41 3.4.1 Métodos Baseados em Textura............................ 41 3.4.2 Métodos Baseados em Região............................ 42 3.4.2.1 Métodos Baseados em Componentes Conexos............... 42 3.4.2.2 Métodos Baseados em Bordas............................ 47 3.4.3 Outras Abordagens..................................... 50 3.5 Rastreamento e Análise Temporal.......................... 51 4.1 Detecção e Localização de Texto............................ 56 4.1.1 Regularização de Cores da Imagem........................ 57 4.1.2 Detecção das Bordas do Texto............................ 57 4.1.3 Identicação de Componentes Conexos.................... 58 4.1.4 Filtragem............................................. 58

4.1.4.1 Filtragem Morfológica................................... 59 4.1.4.2 Filtragem por Heurísticas................................ 59 4.2 Segmentação............................................... 61 4.2.1 Segmentação nas Regiões de Texto........................ 61 4.2.2 Tratamento Temporal................................... 62 4.2.3 Análise de Alinhamento Horizontal....................... 66 5.1 Métricas Adotadas....................................... 69 5.1.1 Métricas para Avaliação da Extração de Texto.............. 70 5.2 Métricas para Avaliação do Reconhecimento de Texto.......... 70 5.3 Experimento 1.......................................... 71 5.3.1 Parâmetros Utilizados.................................. 71 5.3.1.1 Regularização de Cores da Imagem........................ 71 5.3.1.2 Detecção das Bordas do Texto............................ 71 5.3.1.3 Identicação de Componentes Conexos..................... 72 5.3.1.4 Filtragem.............................................. 72 5.3.1.5 Tratamento Temporal................................... 72 5.3.2 Resultados Obtidos..................................... 73 5.4 Experimento 2.......................................... 74 5.4.1 Parâmetros Utilizados.................................. 74 5.4.1.1 Reconhecimento de Texto................................ 75 5.4.2 Resultados Obtidos..................................... 75 5.5 Resultados Qualitativos................................... 76 REFERÊNCIAS........................................................ 83

1 INTRODUÇÃO O avanço tecnológico atual, como a evolução das câmeras digitais, aparelhos de reprodução e gravação de DVDs, ferramentas de edição de imagens e vídeos, e especialmente a evolução da Internet, possibilitou um grande aumento do volume de conteúdo visual gerado por usuários e instituições. Com estas tecnologias, torna-se cada vez mais comum a criação, digitalização e cópia de vídeos. Usuários não só digitalizam seus documentos como se sentem motivados, a todo momento, a postar estes documentos em sites da Internet, como por exemplo o YouTube, para compartilhá-los com outros usuários. Com o aumento expressivo deste tipo de conteúdo, torna-se um grande desao realizar a organização e recuperação de toda esta informação. Para Lienhart; Stuber (1996) a maioria dos dados a respeito de vídeos estão desestruturados, os vídeos são gravados e disponibilizados apenas como pixels. A maior parte das bases de dados presentes na Internet apenas apresentam o título e uma breve descrição dos vídeos armazenados. Não há informações adicionais sobre conteúdo como ano de produção, autores, locais das tomadas etc. A usabilidade do vídeo é limitada impossibilitando uma recuperação efetiva e ecaz destes dados. Com isso, torna-se muito difícil encontrar determinados tipos de lmes ou cenas nas bases de dados. Informações adicionais sobre conteúdo de vídeos são de grande importância. É comum que usuários em muitas aplicações tenham que informar os metadados, para que a imagem ou o vídeo possa ser indexado a partir destes dados, no entanto, este trabalho muitas vezes é dispendioso, tomando muito tempo do usuário, sendo que em vídeos muito grandes ou em bases de imagens muito extensas se torna inviável. Dado o cenário descrito anteriormente, é de grande interesse que haja a possibilidade de indexação e recuperação automática de dados nesta grande massa de conteúdo, para facilitar o acesso a informações em vídeos e banco de dados de imagens. Métodos de extração de texto podem ser muito úteis para organização de toda essa informação, pois o texto presente em imagens pode ser utilizado na construção de índices de imagens e vídeos. Particularmente, em vídeos digitais, a indexação textual, permite que usuários naveguem entre o conteúdo de vídeos legendados, e executem consultas para realizar pesquisas complexas para encontrar determinadas cenas. Usuários podem, por exemplo, buscar em um lme, o nome de um dos atores, as cenas em que um dos personagens diz determinada palavra ou frase, podem também buscar por notícias em vídeos de telejornais 18

Figura 1: Resultado da aplicação de um mecanismo de OCR na imagem original (a) e na imagem processada (b) com o método proposto, respectivamente. (a)fonte: (CEZARWORLD, 200-), (b) Fonte: Elaborada pelo autor. etc. Segundo Lienhart; Eelsberg (2000), a detecção de texto em vídeos também pode ser utilizada para gravar o tempo e o dia da transmissão de comerciais, ajudando agentes a checarem se um comercial de um determinado cliente tem sido transmitido no tempo correto no canal de televisão contratado. Para Jung; Kim; Anil (2003), textos contidos em imagens e vídeos são de particular interesse pois: são muito úteis para descrever o conteúdo de uma imagem, são mais fáceis de extrair do que outros conteúdos semânticos e permitem a indexação de dados a partir de palavras chaves para aplicação de máquinas de busca. Mecanismos de OCR (Optical Character Recognition) são capazes de reconhecer texto de imagens digitais, no entanto, só funcionam corretamente se o texto na imagem estiver bastante nítido, e o plano de fundo for muito simples. Caso o plano de fundo seja complexo ou haja pouco contraste entre texto e o plano de fundo da imagem, o mecanismo de OCR pode não dar resultados satisfatórios ou tão pouco dar resultados. Portanto, fazse necessário a aplicação de uma abordagem para localização e separação do texto do plano de fundo da imagem para que, dessa forma, a aplicação de um mecanismo de OCR na imagem tratada produza resultados satisfatórios. A Figura 1, por exemplo, ilustra o desempenho de um mecanismo de OCR, antes e depois da aplicação da abordagem proposta neste trabalho para extração de texto. Portanto, pode-se subdividir o problema de extração de conteúdo textual nos subproblemas de detecção de texto, de localização de região de texto na imagem, de rastreamento, da extração e realce de texto, e da aplicação de um mecanismo de OCR (JUNG K.; KIM; ANIL, 2003). A detecção de texto consiste 19

em identicar se uma imagem contém ou não texto, a localização de regiões permite identicar áreas dentro da imagem que são candidatas a conter texto, a extração de texto consiste na separação do texto presente dentro destas áreas. Após a extração de texto, pode-se aplicar o mecanismo de OCR para que o texto seja obtido não mais em formato de imagem, mas em formato de um conjunto de caracteres normalmente apresentados em um arquivo ou em um editor de texto. Este trabalho propõe uma nova abordagem de extração de texto em imagens e, especialmente, vídeos embasada em uma regularização de cores para extração de bordas e geração de componentes conexos. Deni-se também uma simples limiarização para separação do texto do plano de fundo. Segundo Lienhart; Wernicke (2002), o problema de localização de texto em vídeos se difere do de imagens pela redundância temporal, isso signica que técnicas de extração de texto em vídeos são basicamente similares a técnicas de extração de texto de imagens, no entanto, técnicas de extração de texto em vídeos geralmente consideram as características temporais do mesmo. Na abordagem proposta neste trabalho será aplicado um passo adicional de tratamento temporal. Este passo serve para manter a integridade de um texto localizado durante seu tempo de ocorrência no vídeo. Este passo permite que haja economia no processamento, pois evita que o texto, já encontrado anteriormente no vídeo, seja novamente extraído. 1.1 Motivação Tomou-se como motivação para realização deste trabalho, o crescimento expressivo de vídeos e imagens digitais, principalmente destes conteúdos disponibilizados na Internet. É interessante, para usuários, que haja a possibilidade de buscar informações de maneira eciente e ecaz em bases de dados de conteúdo visual. A extração de texto em vídeos e imagens possibilita que usuários realizem buscas no conteúdo semântico de cenas de vídeos e de imagens. 1.2 Objetivos Em (LIENHART; EFFELSBERG, 2000), o texto que aparece em vídeos é dividido em duas categorias: texto de cena e texto articial. Textos de cena aparecem como parte da cena, como em placas com nomes de ruas, banners de lojas etc. Textos de cenas, na maioria dos casos, aparecem acidentalmente e raramente são intencionais, sendo, portanto, de pouca importância e sem informações relevantes para indexação e recuperação. Textos articiais são produzidos separadamente do vídeo e são inseridos em cenas do vídeo em um estágio de pós-processamento. Este tipo de texto apresenta informações relevantes e 20

Figura 2: Exemplos de texto em vídeos: (a) texto de cena; (b) texto articial. (POSTASDEPOIA, 200-), (b) Fonte: (IEEESPECTRUM, 200-) (a) Fonte: é extremamente importante para indexação e recuperação. Assim como em (LIENHART; EFFELSBERG, 2000), o foco da abordagem desenvolvida foi na extração de textos articias. A Figura 2 ilustra exemplos de texto de cena e de texto articial. Portanto, este trabalho propõe um novo método para extração, especialmente, de textos de legendas de vídeos. A extração deste tipo de texto se apresenta como um grande desao pois, geralmente, está inserido sobre um plano de fundo complexo, que pode se misturar ao o próprio texto, e além disso, pode estar em variados estilos de fonte e cor. Este tipo de texto, como padrão, é monocromático, possui caracteres com limitações de tamanhos, e está alinhado horizontalmente. Mais características deste tipo de texto podem ser vistas na Seção 3.1.2. 1.2.1 Objetivo Geral Desenvolver uma nova abordagem para extração de texto em imagens e especialmente de vídeos que permita, de forma ecaz, a obtenção de informações a respeito do conteúdo nos mesmos. 1.2.2 Objetivos Especícos Para se atingir o objetivo geral do trabalho, foi necessário alcançar os seguintes objetivos especícos: a) Desenvolver um algoritmo para localizar regiões em imagens que contenham texto; b) Identicar características de texto em imagens que auxiliem na eliminação de regiões que não contêm texto; c) Denir um método para extrair (segmentar) o texto das regiões encontradas na imagem; 21

d) Desenvolver um algoritmo de tratamento de múltiplos frames, presentes em um vídeo, adequado ao algoritmo de detecção de texto aplicado. 1.3 Restrições A abordagem proposta se restringe a extração de textos alinhados horizontalmente nas imagens, pois esta é uma característica de alinhamento mais comum (JUNG K.; KIM; ANIL, 2003) entre textos de imagens e vídeos, Lienhart; Wernicke (2002) armam, embasados em seus experimentos, que texto horizontal ocorre em mais de 99% de todos os textos articiais. Portanto, a abordagem proposta pode não dar resultados equivalentes em textos dispostos verticalmente, como alguns textos orientais. No entanto a abordagem poder ser ajustada para funcionar de tal maneira. 1.4 Tema Extração de texto em vídeos e imagens digitais. 1.4.1 Delimitação do Tema Estudo sobre extração de texto articial em vídeos digitais, especialmente sobre métodos de detecção, e extração de texto para indexação de conteúdo de vídeos. 1.5 Justicativa Normalmente, em bases de dados de vídeos, como as que podem ser encontradas na Internet, não há informação adicional sobre o conteúdo dos vídeos disponíveis, o usuário não tem recursos para recuperação de informações que poderiam descrever o conteúdo do vídeo, em especial em cada cena deste. O desenvolvimento de sistemas de extração de texto de vídeos para indexação é de grande relevância, pois possibilita, por exemplo, que usuários naveguem através de vídeos (principalmente legendados) e que recuperem informações a respeito do conteúdo de algum vídeo. 1.6 Contribuições A principal contribuição deste trabalho está no desenvolvimento de uma nova abordagem de extração de texto de imagens e vídeos. Para localização de texto, propõe-se um método híbrido combinando extração de bordas e geração de componentes conexos. Para segmentação de texto, propõe-se um método baseado em limiarização e tratamento temporal capaz de ltrar falsos positivos e detectar alterações de texto no tempo. Os resul- 22