SEMINÁRIO DOS ARTIGOS:

Documentos relacionados
READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING

RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

Descritores de Imagens

2. Redes Neurais Artificiais

Rede RBF (Radial Basis Function)

Aprendizado de Máquina (Machine Learning)

Descritores de Imagem

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

Region Based CNNs. Francisco Calaça Xavier. Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado. Instituto de Informática UFG

Aprendizagem de Máquina

Inteligência Artificial

Face Detection. Image Processing scc moacir ICMC/USP São Carlos, SP, Brazil

Face Recognition using RGB-D Images

Inteligência Artificial

Mapas Auto Organizáveis SOMs Mapas de Kohonen

Reconhecimento de Faces com PCA e Redes Neurais

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Reconhecimento de Padrões

Aprendizado de Máquina

JAI 6 - Deep Learning Teoria e Prática

Object Tracking. Fernando Medeiros Dufour Ciência da Computação - UFPR Tópicos em Visão Computacional

Reconhecimento de palma de mão. Peterson Wagner Kava de Carvalho

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Redes Neurais Artificial. Prática. Inteligência Artificial

Classificação Linear. André Tavares da Silva.

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Redes Neurais Feedforward e Backpropagation. André Siqueira Ruela

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Redes Neurais Convolucionais

Reconhecimento de Caracteres em Imagens com Ruído

SUPPORT VECTOR MACHINE - SVM

2. Redes Neurais Artificiais

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos

Aprendizado de Máquina. Combinando Classificadores

Introdução à Redes Neurais. Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana

Redes Neurais Convolucionais

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

2 Reconhecimento Facial

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Segmentação e Classificação. Prof. Herondino

Classificadores Lineares

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION - VGG

Informática Parte 19 Prof. Márcio Hunecke

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Aula 7 RNA Redes Auto-Organizáveis de Kohonen

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

Introdução ao Reconhecimento. Prof. Dr. Geraldo Braz Junior

Thiago Zavaschi Orientador: Alessandro Koerich Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade

Protótipo de Software para Reconhecimento de Impressões Digitais

Redes Neurais Artificiais

Determinação de vícios refrativos oculares utilizando Support Vector Machines

Reconhecimento de texturas utilizando padrão binário local e classificador knn.

SISTEMA DE RECONHECIMENTO BASEADO EM RANDOM FOREST PARA CARACTERES DE CAPTCHAS. Ademir Rafael Marques Guedes, Victor Luiz Guimarães

GoogLeNet - Going Deeper with Convolutions

Análise Quantitativa de Tecidos em Úlceras de Perna

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Rede Perceptron. Capítulo 3

Classificação de imagens de Sensoriamento Remoto. Disciplina: Geoprocessamento Profª. Agnes Silva de Araujo

Descritores de Imagens

Adriana da Costa F. Chaves. Máquina de Vetor Suporte (SVM) para Classificação Binária 2

Regra de Oja. Para taxa de aprendizagem pequena, Oja aproximou. pesos para criar uma forma útil da aprendizagem

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

INF 1771 Inteligência Artificial

Aprendizado de Máquina (Machine Learning)

Biometria Multimodalidade Íris + Face. Luiz Antonio Zanlorensi Junior

Transcrição:

SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene

SUMÁRIO Introdução Learning Architecture 1º artigo: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning 2º artigo: End-to-End Text Recognition with Convolutional Neural Networks Resultados e conclusões Referências 2

INTRODUÇÃO Detecção de texto e identificação de caracteres em imagens naturais é um problema de reconhecimento visual desafiador. Ampla gama de variações nas condições de fundos, texturas, fontes e iluminação. 3

INTRODUÇÃO Diversas propostas e algoritmos na área geralmente com foco especifico Modelos probabilístico: Sistema de detecção Sistemas de reconhecimento. Sistemas de aprendizagem altamente flexíveis: Arquiteturas de rede neural multicamadas 4

LEARNING ARCHITECTURE K-means clustering Técnica que usa o algoritmo de agrupamento de dados por K-médias. Objetivo: encontrar a melhor divisão de P dados em K grupos Ci, i =1,... K, de maneira que a distância total entre os dados de um grupo e o seu respectivo centro, somada por todos os grupos, seja minimizada. 5

LEARNING ARCHITECTURE Rede Neural Covolucional(CNN) Múltiplas camadas constituídas por diferentes fins. Primeira: Fase de extração de características, que consiste em neurônios convolucionais e redução da resolução. Final: Neurônios da rede perceptron realizam a classificação das características extraídas. 6

TEXT DETECTION AND CHARACTER RECOGNITION IN SCENE IMAGES WITH UNSUPERVISED FEATURE LEARNING Algoritmos de grande escala para aprender os recursos automaticamente a partir de dados sem definições. Mostrar classificadores altamente eficazes tanto para a detecção e reconhecimento para ser usado em uma alta precisão sistema end-to-end. 7

TEXT DETECTION AND CHARACTER RECOGNITION IN SCENE IMAGES WITH UNSUPERVISED FEATURE LEARNING 1. Coletar um conjunto de patches pequena imagem, x (i) de formação dados. Escala de cinza 8x8 patches. 2. Aplicar simples pré-tratamento estatístico (clareamento) para as porções de entrada para produzir um novo conjunto de dados x (i). 3. Executar um algoritmo de aprendizado não supervisionado nas x (i) a construir um mapeamento de fragmentos de entrada para um vetor de características, z (i) = f(x (i) ) 8

TEXT DETECTION AND CHARACTER RECOGNITION IN SCENE IMAGES WITH UNSUPERVISED FEATURE LEARNING Aprendizagem de Características Dado um conjunto de imagens de treinamento: Extraíram um conjunto de 8 por 8 pixels para produzir vetores. Branqueamento. Estágio de aprendizado não supervisionado: Variante do K-means clustering. Aprende-se um conjunto de vetores normalizados D (j), j {1,..., d} para formar as colunas de D, utilizando produto interno como semelhança métrica. A otimização é feita por minimização sobre D alternadamente. e os s (i) 9

TEXT DETECTION AND CHARACTER RECOGNITION IN SCENE IMAGES WITH UNSUPERVISED FEATURE LEARNING Dicionário treinado: Definir as características para um único novo patch de 8 por 8. Dado um novo patch de entrada x: Aplicar a normalização e branqueamento já utilizado. Mapeá-lo para uma nova representação z R d tomando o produto interno com cada elemento do dicionário e aplicar uma função escalar não-linear. z = max {0, D. x - α} 10

TEXT DETECTION AND CHARACTER RECOGNITION IN SCENE IMAGES WITH UNSUPERVISED FEATURE LEARNING Extração de características Reduz a dimensionalidade da representação antes da classificação. Pooling média: soma os vetores z (i, j) de mais de 9 blocos em uma grade 3-por-3 sobre a imagem, gerando um vetor de características final com características 9d para esta imagem Treinamento do detector de texto Treinou-se um classificador binário que visa distinguir as que possuem texto ou não. Conjunto de treinamento: Windows de 32-by-32 a partir do conjunto de dados Treinamento ICDAR 2003. 11

TEXT DETECTION AND CHARACTER RECOGNITION IN SCENE IMAGES WITH UNSUPERVISED FEATURE LEARNING Treinamento do classificador Carácter Problema: Produzir um grande número de características, usando a abordagem de aprendizagem. Minimização: Combinação entre dados de várias fontes. Imagens Treinamento ICDAR 2003, de Weinman et al. Sinal, e o subconjunto Inglês do conjunto de dados Chars74k. 12.400 imagens. Com o intuito de obter mais dados uteis com um grande número de características: Aumentos sintéticas destes conjuntos de dados. Cópias das amostras Treinamento ICDAR com distorções aleatórias e filtros de imagem aplicada,e exemplos de caracteres artificiais. 49.200 imagens. 12

ETAPAS DO SISTEMA DESCRITO EM: END-TO- END TEXT RECOGNITION WITH CONVOLUTIONAL NEURAL NETWORKS 1) Construção do banco de características (filtros); 2) Avaliação das características convolucionalmente e redução do número de características; 3) Treinamento de classificadores lineares: Detecção de texto; Reconhecimento de caracteres. 4) Integração com dicionário. 13

BANCO DE CARACTERÍSTICAS Seleciona-se m blocos 8x8; Normalização: Subtrai-se a média e divide-se pelo desvio padrão; Branqueamento: ZCA: é como Análise de Componentes Principais (PCA), porém rotaciona os dados de volta para os mesmos eixos da entrada original. Fig.: Exemplo PCA 14

BANCO DE CARACTERÍSTICAS Variante K-means: banco de n1 filtros D (64 x n1); Fig.: Exemplo K-means 15

REDE NEURAL CONVOLUCIONAL Diante da imagem de entrada de 32x32, calculamos z para cada sub-janela 8x8 para obter o mapa de características 25x25xn1 resultante da primeira camada. z = max {0, D. x - α}, onde α = 0,5 16

REDE NEURAL CONVOLUCIONAL Sub-amostragem: agrupamento médio; Classificação: SVM (Máquina de Vetores de Suporte) Fig.: (a) Hiperplano com margem pequena. (b) Hiperplano com margem máxima. 17

INTEGRAÇÃO: MÓDULOS DE DETECÇÃO E RECONHECIMENTO COM UM DICIONÁRIO Aplica-se NMS (Non-Maximum Suppression) sobre as resposta do detector de texto para: Identificar as linhas horizontais, Remover caixas delimitadoras sobrepostas; Detectar lacunas. Segmentação de caracteres: Beam Search; Utilizando o módulo de reconhecimento, cria uma matriz M de pontuação, 62 N; Encontra-se a palavra do dicionário w* que mais combina com uma matriz de pontuação M. 18

RESULTADOS E CONCLUSÕES Maiores bancos características conseguem aumentar a precisão [1]; O sistema alcança o desempenho dos métodos estado da arte em conjuntos de teste padrão [2]. 19

REFERÊNCIAS [1] Coates, A., Carpenter, B., Case, C., Satheesh, S., Suresh, B., Wang, T.,... & Ng, A. Y. (2011, September). Text detection and character recognition in scene images with unsupervised feature learning. In Document Analysis and Recognition (ICDAR), 2011 International Conference on (pp. 440-445). IEEE. [2] Wang, T., Wu, D. J., Coates, A., & Ng, A. Y. (2012, November). End-to-end text recognition with convolutional neural networks. In Pattern Recognition (ICPR), 2012 21st International Conference on (pp. 3304-3308). IEEE. 20