GoogLeNet - Going Deeper with Convolutions

- Going Deeper with Convolutions Heyde Francielle do Carmo França Prof. Dr. Anderson Soares Instituto de Informática Universidade Federal de Goiás 02 de Dezembro de 2016 1 / 35

Sumário I 1 2 3 2 / 35

3 / 35

Uma arquitetura de rede neural convolucional profunda 22 camadas de profundidade. Ficou em 1 o lugar tanto em Classicação como em detecção de objetos no ILSVRC14. Visa uma melhor utilização dos recursos de computação pela rede, ao mesmo tempo que aumenta seu tamanho, profundidade e largura. Utiliza 12x menos parâmetros do que a arquitetura vencedora no ano de 2012. Signicativamente mais precisa que o estado da arte. 4 / 35

Contextualização Por que o Deep Learning vem ganhando tanto destaque recentemente? Deep Learning precisa de uma grande base de dados para treinamento. Necessidade de grande quantidade de recursos computacionais. 5 / 35

Contextualização Por que o Deep Learning vem ganhando tanto destaque recentemente? Problema do desaparecimento do gradiente e convergência da rede. Sigmoid/Tangh [-1,1] = Aprendizado Lento / Custo computacional mais alto (expoentes e multiplicações) Rectied Linear Unit [?] - RELU [0, ] = Aprendizado Rápido / Custo computacional mais baixo (threshold) 6 / 35

Problema As técnicas de detecção e classicação tem sido severamente melhoradas nos últimos 3 anos, utilizando as técnicas de deep learning e redes convolucionais. Necessidade de propor uma rede que obtenha resultados melhores sem depender de mais poder computacional e nem de base de dados maiores. 7 / 35

Problema O estado da arte já apresenta resultados muito bons Aumentar a quantidade de camadas ou a profundidade da rede também aumenta a necessidade de maior poder computacional. 8 / 35

Motivação Superar o atual estado da arte para classicação e detecção de objetos. Vencer o desao ILSVRC14. 9 / 35

Objetivo Propor uma nova arquitetura de rede de aprendizado profundo capaz de sobrepor o atual estado da arte de classicação e detecção de objetos em imagens sem a necessidade de maior poder computacional. 10 / 35

11 / 35

LeNet-5 [1] NiN- Network in Network [2] R-CNN (Regions with Convolutional Neural Networks)[4] 12 / 35

LeNet-5 Figura: Arquitetura da LeNet-5[1] Possui uma estrutura padrão: Camadas de Convoluções empilhadas (opcionalmente seguidas de pooling); Seguidas de uma ou mais camadas FC. 13 / 35

NiN Figura: Arquitetura da NiN[2] A estrutura geral da NiN incluem três camadas mlpconv e uma camada de average pooling. 14 / 35

R-CNN Figura: Arquitetura da R-CNN [4] 15 / 35

16 / 35

Detalhes da Arquitetura Inception Module Figura: Inception Module 17 / 35

Figura: Arquitetura da 22 / 35

23 / 35

-Características Estruturais Além dos módulos Inceptions Uma camada de Avg Pool de 5x5 e passo 3, que resulta em uma saída 4x4x512 para a camada 4(a) e 4x4x528 para a camada 4(d); A convolução de 1x1 com 128 ltros para redução de dimensionalidade e ReLu como função de ativação; A camada de Classicação; Uma camada de Dropout; Uma camada linear com softmax como classicador (predizendo As mesmas 1000 classes que o classicador principal, mas Removida no momento da inferência). 24 / 35

- Estrutura Extra 25 / 35

-Metodologia de Treinamento DistBelief[3] CPU x GPU Assíncrono gradiente descendente estocástico[3] Média Polyak Características que se mostraram importantes: Tamanho da imagem Distorções da imagem: como iluminação e ruídos. 26 / 35

Resultados na etapa de Classicação As imagens estão divididas em 1000 categorias Existem 1,2 milhões de imagens para treinamento, 50.000 para validação e 100.000 para testes. 7 modelos foram treinados Redimensionamento de imagens com 4 escalas diferentes: 256, 288, 320, 352. 27 / 35

Resultados na etapa de Classicação 28 / 35

Resultados na etapa de Detecção O Objetivo é inserir uma caixa em torno do objeto que são separados em 200 classes diferentes Diferentemente da fase de Classicação, cada imagem pode conter muitos objetos ou Nenhum, e sua escala pode variar. 6 essembles Técnica semelhante ao R-CNN[4], mas aumentada com o modelo Inception como o classicador de região. 29 / 35

Resultados na etapa de Detecção Figura: Resultado sem a utilização de Ensemble 30 / 35

Resultados na etapa de Detecção Figura: Resultado com a utilização de Ensemble 31 / 35

Ótimos resultados tanto na classicação quanto na detecção de objetos. Ganho signicativo na qualidade com um pequeno aumento de poder computacional. 32 / 35

Referências Szegedy, Christian, et al. "Going deeper with convolutions."proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2015 [1] S. Arora, A. Bhaskara, R. Ge, and T. Ma. Provable bounds for learning some deep representations. CoRR,abs/1310.6343, 2013. [2] J. Dean, G. Corrado, R. Monga, K. Chen, M. Devin, M. Mao, M. Ranzato, A. Senior, P. Tucker, K. Yang, Q. V. Le, and A. Y. Ng. Large scale distributed deep networks. In P. Bartlett, F. Pereira, C. Burges, L. Bottou, and K. Weinberger, editors, NIPS, pages 1232a 1240. 2012. [3] R. B. Girshick, J. Donahue, T. Darrell, and J. Malik. Rich feature hierarchies for accurate object detection and semantic segmentation. In Computer Vision and Pattern Recognition, 33 / 35

Referências [4] Y. LeCun, B. Boser, J. S. Denker, D. Henderson, R. E.Howard, W. Hubbard, and L. D. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comput., 541a551, Dec. 1989 [5] M. Lin, Q. Chen, and S. Yan. Network in network. CoRR, abs 1312.4400, 2013. [6] I. Sutskever, J. Martens, G. E. Dahl, and G. E. Hinton.On the importance of initialization and momentum in deep learning. In ICML, volume 28 of JMLR Proceedings,pages 1139a1147. JMLR.org, 2013. 34 / 35

Fim Perguntas?? 35 / 35