GoogLeNet - Going Deeper with Convolutions

Documentos relacionados
Redes Neurais Convolucionais

Reconhecimento de Modelos de Veículos

Redes Neurais Convolucionais

Region Based CNNs. Francisco Calaça Xavier. Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado. Instituto de Informática UFG

JAI 6 - Deep Learning Teoria e Prática

Uma Abordagem Genética Para Redes Neurais Convolucionais

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION - VGG

Roberto Lotufo Big Data Brasil São Paulo, 23 de junho de 2018

RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO

Redes Neurais Convolucionais Aplicadas à Preensão Robótica

2. Redes Neurais Artificiais

Redes Convolucionais Aplicadas em Visão Computacional

Machine learning para reconhecimento de padrões em tempo real

READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING

Classificação de espécies de peixe utilizando redes neurais convolucional

SEMINÁRIO DOS ARTIGOS:

Deep Learning para Classificação de Imagens

introdução ao deep learning

AI / ML / Deep Learning

Aprendizagem de Máquina

Recognition of Pantanal Animal Species using Convolutional Neural Networks

Reconhecimento de Caracteres em Imagens com Ruído

INTRODUÇÃO À APRENDIZAGEM PROFUNDA. Eduardo Bezerra (CEFET/RJ)

Deep Learning. Taiane Ramos

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

Object Tracking. Fernando Medeiros Dufour Ciência da Computação - UFPR Tópicos em Visão Computacional

Avaliando Técnicas de Aprendizado Profundo para Detecção de Esquistossomose Mansoni em Imagens de Exames Parasitológicos

Um comparativo entre arquiteturas de redes neurais profundas aplicadas no reconhecimento de imagens

Reconhecimento de Gestos

JAI 6 - Deep Learning Teoria e Prática

Reconhecimento de Sinais de Trânsito Utilizando Deep Learning

Aprendizado Profundamente Supervisionado. em Grafos Aplicado a Pecuária de Precisão

Face Detection. Image Processing scc moacir ICMC/USP São Carlos, SP, Brazil

Aprendizagem de Máquina

Diagnóstico de Leucemia Linfoide Aguda com Redes Neurais Convolucionais Pré-treinadas

WERTON PONTES DE ARAUJO LOCALIZAÇÃO DOS CENTROS DOS OLHOS USANDO REDES NEURAIS CONVOLUTIVAS E GRADIENTES DE IMAGEM

Descritores de Imagem

Inteligência Artificial

Deep Learning na Visão Computacional

Redes Neurais Convolucionais com Tensorflow: Teoria e Prática

Redes Neurais Arti-iciais - Introdução. Visão Computacional Prof. Geraldo Braz Junior

Palavras Chave: raspberry pi; detecção de objetos; reconhecimento facial; detecção de ações.

Revista de Sistemas de Informação da FSMA n. 22 (2018) pp

Aprendizado de Máquinas. Multi-Layer Perceptron (MLP)

SISTEMA DE RECONHECIMENTO DE EXPRESSÕES FACIAIS PARA CLASSIFICAÇÃO DE EMOÇÕES DE USUÁRIOS EM SISTEMAS COMPUTACIONAIS

Segmentação Automática da Próstata em Imagens de Ressonância Magnética utilizando Redes Neurais Convolucionais e Mapa Probabilístico

Como funciona o Deep Learning

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Redes Neurais Artificiais

Sistema de Reconhecimento Facial Baseado em Redes Neurais Convolucionais Profundas com Aplicação no Comércio Varejista

Composição de música utilizando LSTM

Face Recognition using RGB-D Images

Descritores de Imagens

Visualização de Camadas Intermediárias de Redes Neurais Convolucionais de Transformação de Imagem

SISTEMA DE RECONHECIMENTO BASEADO EM RANDOM FOREST PARA CARACTERES DE CAPTCHAS. Ademir Rafael Marques Guedes, Victor Luiz Guimarães

Introdução ao deep learning e suas aplicações em genética e melhoramento

Detecção Automática de Tuberculose Utilizando Redes Neurais Convolucionais

Marcos Pedro Ferreira Leal Silva

Introdução a Visão Computacional. Prof. Dr. Geraldo Braz Junior DEINF - UFMA

Avaliação do desempenho das ConvNets na detecção de ovos de esquistossomose PROPOSTA DE TRABALHO DE GRADUAÇÃO

Multiple Layer Perceptron

Combinação de Superpixels e Redes Convolucionais para Segmentação de Bovinos. Diogo Nunes Gonçalves

Redes Neurais Artificial. Prática. Inteligência Artificial

Transcrição:

- Going Deeper with Convolutions Heyde Francielle do Carmo França Prof. Dr. Anderson Soares Instituto de Informática Universidade Federal de Goiás 02 de Dezembro de 2016 1 / 35

Sumário I 1 2 3 2 / 35

3 / 35

Uma arquitetura de rede neural convolucional profunda 22 camadas de profundidade. Ficou em 1 o lugar tanto em Classicação como em detecção de objetos no ILSVRC14. Visa uma melhor utilização dos recursos de computação pela rede, ao mesmo tempo que aumenta seu tamanho, profundidade e largura. Utiliza 12x menos parâmetros do que a arquitetura vencedora no ano de 2012. Signicativamente mais precisa que o estado da arte. 4 / 35

Contextualização Por que o Deep Learning vem ganhando tanto destaque recentemente? Deep Learning precisa de uma grande base de dados para treinamento. Necessidade de grande quantidade de recursos computacionais. 5 / 35

Contextualização Por que o Deep Learning vem ganhando tanto destaque recentemente? Problema do desaparecimento do gradiente e convergência da rede. Sigmoid/Tangh [-1,1] = Aprendizado Lento / Custo computacional mais alto (expoentes e multiplicações) Rectied Linear Unit [?] - RELU [0, ] = Aprendizado Rápido / Custo computacional mais baixo (threshold) 6 / 35

Problema As técnicas de detecção e classicação tem sido severamente melhoradas nos últimos 3 anos, utilizando as técnicas de deep learning e redes convolucionais. Necessidade de propor uma rede que obtenha resultados melhores sem depender de mais poder computacional e nem de base de dados maiores. 7 / 35

Problema O estado da arte já apresenta resultados muito bons Aumentar a quantidade de camadas ou a profundidade da rede também aumenta a necessidade de maior poder computacional. 8 / 35

Motivação Superar o atual estado da arte para classicação e detecção de objetos. Vencer o desao ILSVRC14. 9 / 35

Objetivo Propor uma nova arquitetura de rede de aprendizado profundo capaz de sobrepor o atual estado da arte de classicação e detecção de objetos em imagens sem a necessidade de maior poder computacional. 10 / 35

11 / 35

LeNet-5 [1] NiN- Network in Network [2] R-CNN (Regions with Convolutional Neural Networks)[4] 12 / 35

LeNet-5 Figura: Arquitetura da LeNet-5[1] Possui uma estrutura padrão: Camadas de Convoluções empilhadas (opcionalmente seguidas de pooling); Seguidas de uma ou mais camadas FC. 13 / 35

NiN Figura: Arquitetura da NiN[2] A estrutura geral da NiN incluem três camadas mlpconv e uma camada de average pooling. 14 / 35

R-CNN Figura: Arquitetura da R-CNN [4] 15 / 35

16 / 35

Detalhes da Arquitetura Inception Module Figura: Inception Module 17 / 35

Detalhes da Arquitetura Inception Module Figura: Inception Module 18 / 35

Detalhes da Arquitetura Inception Module Figura: Inception Module 19 / 35

Detalhes da Arquitetura Inception Module Figura: Inception Module 20 / 35

Detalhes da Arquitetura Inception Module Figura: Inception Module 21 / 35

Figura: Arquitetura da 22 / 35

23 / 35

-Características Estruturais Além dos módulos Inceptions Uma camada de Avg Pool de 5x5 e passo 3, que resulta em uma saída 4x4x512 para a camada 4(a) e 4x4x528 para a camada 4(d); A convolução de 1x1 com 128 ltros para redução de dimensionalidade e ReLu como função de ativação; A camada de Classicação; Uma camada de Dropout; Uma camada linear com softmax como classicador (predizendo As mesmas 1000 classes que o classicador principal, mas Removida no momento da inferência). 24 / 35

- Estrutura Extra 25 / 35

-Metodologia de Treinamento DistBelief[3] CPU x GPU Assíncrono gradiente descendente estocástico[3] Média Polyak Características que se mostraram importantes: Tamanho da imagem Distorções da imagem: como iluminação e ruídos. 26 / 35

Resultados na etapa de Classicação As imagens estão divididas em 1000 categorias Existem 1,2 milhões de imagens para treinamento, 50.000 para validação e 100.000 para testes. 7 modelos foram treinados Redimensionamento de imagens com 4 escalas diferentes: 256, 288, 320, 352. 27 / 35

Resultados na etapa de Classicação 28 / 35

Resultados na etapa de Detecção O Objetivo é inserir uma caixa em torno do objeto que são separados em 200 classes diferentes Diferentemente da fase de Classicação, cada imagem pode conter muitos objetos ou Nenhum, e sua escala pode variar. 6 essembles Técnica semelhante ao R-CNN[4], mas aumentada com o modelo Inception como o classicador de região. 29 / 35

Resultados na etapa de Detecção Figura: Resultado sem a utilização de Ensemble 30 / 35

Resultados na etapa de Detecção Figura: Resultado com a utilização de Ensemble 31 / 35

Ótimos resultados tanto na classicação quanto na detecção de objetos. Ganho signicativo na qualidade com um pequeno aumento de poder computacional. 32 / 35

Referências Szegedy, Christian, et al. "Going deeper with convolutions."proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015 [1] S. Arora, A. Bhaskara, R. Ge, and T. Ma. Provable bounds for learning some deep representations. CoRR,abs/1310.6343, 2013. [2] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks. In P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, NIPS, pages 1232a 1240. 2012. [3] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 33 / 35

Referências [4] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E.Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comput., 541a551, Dec. 1989 [5] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs 1312.4400, 2013. [6] I. Sutskever, J. Martens, G. E. Dahl, and G. E. Hinton.On the importance of initialization and momentum in deep learning. In ICML, volume 28 of JMLR Proceedings,pages 1139a1147. JMLR.org, 2013. 34 / 35

Fim Perguntas?? 35 / 35