VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION - VGG

Documentos relacionados
Region Based CNNs. Francisco Calaça Xavier. Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado. Instituto de Informática UFG

Redes Convolucionais Aplicadas em Visão Computacional

Redes Neurais Convolucionais

Redes Neurais Convolucionais

RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO

GoogLeNet - Going Deeper with Convolutions

Reconhecimento de Modelos de Veículos

JAI 6 - Deep Learning Teoria e Prática

Roberto Lotufo Big Data Brasil São Paulo, 23 de junho de 2018

Redes Neurais Convolucionais Aplicadas à Preensão Robótica

SEMINÁRIO DOS ARTIGOS:

2. Redes Neurais Artificiais

Classificação de espécies de peixe utilizando redes neurais convolucional

READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING

INF011 - Seminários de Pesquisa II

Redes Neurais Arti-iciais - Introdução. Visão Computacional Prof. Geraldo Braz Junior

Machine learning para reconhecimento de padrões em tempo real

Aprendizado de Máquina

IMPLEMENTAÇÃO DE REDES NEURAIS PROFUNDAS PARA RECONHECIMENTO DE AÇÕES EM VÍDEO. Patrícia de Andrade Kovaleski

Combinação de Superpixels e Redes Convolucionais para Segmentação de Bovinos. Diogo Nunes Gonçalves

UNIVERSIDADE DE SÃO PAULO ESCOLA DE ENGENHARIA DE SÃO CARLOS FABIO AUGUSTO GONÇALVES FACCINI

Deep Learning na Visão Computacional

Redes Neurais Convolucionais com Tensorflow: Teoria e Prática

Como funciona o Deep Learning

Inteligência Artificial

Um Estudo sobre Diferente Tipos de Funções de Custo Para Redes Neurais Convolucionais

Análise Quantitativa de Tecidos em Úlceras de Perna

APRENDIZADO PROFUNDO PARA CLASSIFICAÇÃO DE MICROORGANISMOS. Renan Carlos Prata de Faria

Um comparativo entre arquiteturas de redes neurais profundas aplicadas no reconhecimento de imagens

Métodos de Deep Learning Aplicados a Candlestick como Estratégia de Investimento

APLICAÇÃO DE REDES NEURAIS CONVOLUCIONAIS DENSAMENTE CONECTADAS NO PROCESSAMENTO DIGITAL DE IMAGENS PARA GAUSSIANO. Leonardo Oliveira Mazza

Sistema de Reconhecimento Facial Baseado em Redes Neurais Convolucionais Profundas com Aplicação no Comércio Varejista

WERTON PONTES DE ARAUJO LOCALIZAÇÃO DOS CENTROS DOS OLHOS USANDO REDES NEURAIS CONVOLUTIVAS E GRADIENTES DE IMAGEM

Redes Neurais Convolucionais de Profundidade para Reconhecimento de Textos em Imagens de CAPTCHA

UNIVERSIDADE DE SÃO PAULO ESCOLA DE ENGENHARIA DE SÃO CARLOS. Kaio Augusto de Oliveira

UM ESTUDO SOBRE ABORDAGENS PARA DE CLASSIFICAÇÃO DE ANIMAIS EM IMAGENS DE ARMADILHAS FOTOGRÁFICAS

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

Deep Learning para Classificação de Imagens

Visualização de Camadas Intermediárias de Redes Neurais Convolucionais de Transformação de Imagem

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

Avaliação do desempenho das ConvNets na detecção de ovos de esquistossomose PROPOSTA DE TRABALHO DE GRADUAÇÃO

JAI 6 - Deep Learning Teoria e Prática

Avaliação do desempenho das redes neurais convolucionais na detecção de ovos de esquistossomose

Reconhecimento de Faces Utilizando Redes Neurais MLP

Redes Neurais e Sistemas Fuzzy

Unidade 08 MATLAB Neural Network Toolkit

EXTRAÇÃO DE NETLIST A PARTIR DE IMAGENS UTILIZANDO REDES NEURAIS CONVOLUCIONAIS. Arthur de Arruda Chau

Protótipo de Software para Reconhecimento de Impressões Digitais

ANÁLISE DE IMAGENS COM DEEP LEARNING MATHEUS VIANA IBM RESEARCH BRASIL

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Resultados da Análise Quantitativa de Tecidos

INTRODUÇÃO À APRENDIZAGEM PROFUNDA. Eduardo Bezerra (CEFET/RJ)

ESCOLA POLITÉCNICA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO MESTRADO EM CIÊNCIA DA COMPUTAÇÃO LEANDRO PEREIRA DA SILVA

Reconhecimento e detecção de logotipos a partir de redes neurais convolucionais profundas

Uma Abordagem Genética Para Redes Neurais Convolucionais

Previsão de Vazões utilizando Redes Neurais Artificiais MLP e NSRBN

UMA ABORDAGEM HÍBRIDA COM REDES DE ARQUITETURA PROFUNDA APLICADA AO RECONHECIMENTO DE EXPRESSÕES FACIAIS

UNIVERSIDADE FEDERAL DO CEARÁ CAMPUS QUIXADÁ CURSO DE GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO LEODÉCIO BRAZ DA SILVA SEGUNDO

Redes Neurais não Supervisionadas: SOM

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ DEPARTAMENTO ACADÊMICO DE INFORMÁTICA E DEPARTAMENTO ACADÊMICO DE ELETRÔNICA

6 Resultados Análise de Desempenho

A instalação do DCR compreende apenas a descompactação do arquivo DCR.zip num diretório no disco. Descompacte o arquivo DCR.zip num novo diretório.

IA - TensorFlow. Paulo Cotta

COMPARAÇÃO ENTRE DIFERENTES ESTRUTURAS DE REDES NEURAIS NO PROBLEMA PRESA-PREDADOR 1

Self Organizing Maps - Redes de Kohonen

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

5 RNA para Diagnóstico de Falhas em Turbinas a Gás

Um Estudo Sobre a Performance de Aplicações Big Data com Deep Learning

UNIVERSIDADE FEDERAL DO CEARÁ CAMPUS QUIXADÁ BACHARELADO EM ENGENHARIA DE SOFTWARE EDUARDO DA SILVA LOPES FILHO

MouseCam: aplicação de controle do mouse via câmera

Título do Projeto: Visão Computacional e Aprendizagem Automática para Aplicações em Agropecuária e Ciências Forenses.

Redes Neurais Feedforward e Backpropagation. André Siqueira Ruela

Projetos finais. Grupo 3

Redes Neurais: MLP. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

DETECÇÃO DE PORNOGRAFIA INFANTIL EM IMAGENS ATRAVÉS DE TÉCNICAS DE APRENDIZADO PROFUNDO PAULO ROBERTO ROCHA VITORINO

Object Tracking. Fernando Medeiros Dufour Ciência da Computação - UFPR Tópicos em Visão Computacional

DESCOBERTA DE ELENCO EM TRAILERS DE FILMES UTILIZANDO RECONHECIMENTO FACIAL EM DEEP LEARNING

CLASSIFICAÇÃO DE IMAGENS DE SENSORIAMENTO REMOTO BASEADA EM TEXTURA POR REDES NEURAIS ADRIANO BELUCO 1 ALEXANDRE BELUCO 2 PAULO MARTINS ENGEL 3

Inteligência Artificial. Prof. Tiago A. E. Ferreira Aula 21 Projeto de RNA

Aprendizagem Profunda (Deep Learning) Marcondes Ricarte Universidade Federal de Pernambuco Centro de Informática

Detecção de Faces Humanas em Imagens Coloridas Utilizando Redes Neurais Artificiais

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Aplicações da RMC. Avaliação de Algoritmos. Tratamento nos dados 27/8/2010. Roseli A F Romero SCC 5809 REDES NEURAIS

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS UnilesteMG Disciplina: Introdução à Inteligência Artificial Curso: Sistemas de Informação

Introdução à Aprendizagem Profunda

INSTITUTO FEDERAL DO ESPÍRITO SANTO PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE CONTROLE E AUTOMAÇÃO DING YIH AN

Nota 1: Baixei Tiny-DNN em 28/7/2017 a última versão.

Classificação de Objetos em Contexto Real por Redes Neurais Convolutivas

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

Reconhecimento de Caracteres em Imagens com Ruído

1 Introdução. 2 Especificação

Introdução ao deep learning e suas aplicações em genética e melhoramento

Uma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law

Workshop de Inteligência Artificial e Redes Neurais

Reconhecimento de Produtos por Imagem Utilizando Palavras Visuais e Redes Neurais Convolucionais

Reconhecimento de Gestos usando Redes Neurais Convolucionadas

Felix da Cunha 412, Pelotas RS Home-Page: s: Bolsista BIC/FAPERGS

Revista de Sistemas de Informação da FSMA n. 22 (2018) pp

6. Controle por Aprendizado Neuro-Fuzzy

Transcrição:

Exemplo de Implementação - 16 VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION - VGG Edjalma Queiroz da Silva Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado Instituto de Informática - UFG Goiânia, 11 de Novembro de 2016 Edjalma Queiroz da Silva 1 / 26

Exemplo de Implementação - 16 Sumário I 1 2 3 4 Macro-arquitetura As 6 arquiteturas da 5 Passo 1 Passo 2 Passo 3 Passo 4 Edjalma Queiroz da Silva 2 / 26

Exemplo de Implementação - 16 Sumário II Passo 5 6 7 Exemplo de Implementação - 16 8 Edjalma Queiroz da Silva 3 / 26

Exemplo de Implementação - 16 No processo de classificação de Imagem, é interessante saber qual ou quais partes da imagem são relevantes para a classificação. Dessa forma, o método apresentado por Oquab, Bottou, Laptev e Sivic objetiva descobrir essas áreas utilizando técnica de aprendizado fracamente supervisionada. Assim, cada frame descoberto, será, classificado e pontuado. A classe de maior pontuação será a escolhida como mapa de ativação. Edjalma Queiroz da Silva 4 / 26

Exemplo de Implementação - 16 Classificação de Imagem Edjalma Queiroz da Silva 5 / 26

Exemplo de Implementação - 16 Classificação de Imagem Edjalma Queiroz da Silva 6 / 26

Exemplo de Implementação - 16 Camadas utilizadas para construção de ConvNets Entrada: Entrada para a Rede. Geralmente em RGB, assim uma imagem de tamanho 32x32, será entendida como 32 de largura, 32 de altura e 3 canais de cores (R, G e B). CONV: camada responsável por calcular a saída dos neurônios que estão conectados as regiões de entrada. Se caso adotássemos 12 filtros, isso pode resultaria em algo como 32X32X12. Ao final, como resultado da camada de Convolução, teremos uma imagem que gera um conjunto de outras imagens como saída. Edjalma Queiroz da Silva 7 / 26

Exemplo de Implementação - 16 Camadas utilizadas para construção de ConvNets RELU: Aplicará uma função de ativação, como Max(0, Input). O Volume de dados permanecerá inalterado, ou seja, 32x32x12. POOL: Aplicará alguma operação (Max, Min, Media) de downsample ao longo das dimensões espaciais (largura e altura), como resultado temos uma diminuição do volume, por exemplo, saindo de 32x32x12 para 16x16x12. Outro resultado da aplicação desta camada, é a maior ativação para propagar a região de interesse do campo receptivo. Ou seja, captura o que há de mais relevante na imagem, por exemplo. FC: Fully-Connected, camada que computa a pontuação de cada classe. Edjalma Queiroz da Silva 8 / 26

Exemplo de Implementação - 16 Trabalho publicado 1 por Karen Simonyan e Andrew Zisserman na ICLR 2 2015. O uso na primeira camada de Filtros 3x3 é um diferencial em relação a de 11X11 da AlexNet s e 7x7 da ZF Net s. 1 disponivel em: http://arxiv.org/pdf/1409.1556v6.pdf 2 Conferencia Internacional de Representação de Aprendizado (DeepLearnig) Edjalma Queiroz da Silva 9 / 26

Exemplo de Implementação - 16 Criaram 19 camadas CNN 3 utilizando estritamente filtros 3x3, juntamente com outro filtro 2x2 na segunda camada de maxpooling. Dessa forma, consegue simular filtros de maior dimensão, contudo, mantendo os benefícios de ser um filtro pequeno. Com isso, obtêm um menor número de parâmetros. 3 Redes Neurais Convolucionais Edjalma Queiroz da Silva 10 / 26

Exemplo de Implementação - 16 Outro beneficio: com duas camadas de Conv, pode-se habilitar duas camadas ReLU. Como o tamanho do volume de entrada diminui (por conta da Convolução e de Pooling), a profundidade da Rede aumenta devido ao aumento do número de filtros a serem aplicados O número de Filtros dobram após cada camada de MaxPooling. Assim, ocorre a diminuição da quantidade de dimensões espaciais, contudo, aumenta a profundidade da rede. Edjalma Queiroz da Silva 11 / 26

Exemplo de Implementação - 16 A priori criado para a tarefa de Localização, também apresentou bons resultados para classificação em Imagens. Na etapa de regressão, fazem o uso de uma especie de localização. Como toolbox, criaram o framework Caffe. Fazem uso da camada de ReLu após a camada de Convolução (Conv + ReLu) Edjalma Queiroz da Silva 12 / 26

Exemplo de Implementação - 16 Macro-arquitetura As 6 arquiteturas da A macroarquitetura da VGG16 pode ser observada na Figura 16 (próximo slide). Observe que incluem uma camada de pré-processamento que pega a imagem em RGB e padronizam os pixels em valores entre 0 e 255. Após isso, subtrai-se os valores médios com base no conjunto de treino (adotado o conjunto da ImageNet). Observe também que há uma grande quantidade de camada de convolução seguidas por Max-pooling, reduzindo a dimensionalidade. Edjalma Queiroz da Silva 13 / 26

Macro-arquitetura Exemplo de Implementação - 16 Macro-arquitetura As 6 arquiteturas da Edjalma Queiroz da Silva 14 / 26

Exemplo de Implementação - 16 Macro-arquitetura As 6 arquiteturas da O modelo proposto alcança a precisão de 92.7%, ficando entre os 5 melhores na ImageNet, que é um conjunto de dados de mais de 14 milhões de imagens classificadas em 1.000 classes Edjalma Queiroz da Silva 15 / 26

Exemplo de Implementação - 16 Macro-arquitetura As 6 arquiteturas da Edjalma Queiroz da Silva 16 / 26

Exemplo de Implementação - 16 Passo 1 Passo 2 Passo 3 Passo 4 Passo 5 Durante o treinamento, a imagem para a ConvNets é fixada em 224x224 Existe apenas um pré-processamento: subtração dos valores Medios do RGB, calculados sobre o conjunto de treinamento, de cada pixel da imagem. A imagem então é passada para as próximas camadas, que são na verdade uma pilha de Convoluções+ReLU. Edjalma Queiroz da Silva 17 / 26

Exemplo de Implementação - 16 Passo 1 Passo 2 Passo 3 Passo 4 Passo 5 Na pilha de convoluções são aplicados filtros, bem pequenos, 3X3 ( que é o menor tamanho para capturar a noção de esquerda/direita, centro, e acima/abaixo). A convolução é fixada em 1 pixel, dessa forma, o preenchimento espacial da camada de entrada de convolução, é de tal modo, que a resolução espacial é preservada após a convolução. A cada final da execução de uma pilha de convolução, é realizado a chamada a camada de max-pooling. Edjalma Queiroz da Silva 18 / 26

Exemplo de Implementação - 16 Passo 1 Passo 2 Passo 3 Passo 4 Passo 5 Note que a camada de max-pooling não é executada a todo final de UMA max-pooling, e sim, de um conjunto de convolução. Assim, a camada de max-pooling é realizada por cinco vezes. Max-pooling é executada em uma janela de 2X2. Edjalma Queiroz da Silva 19 / 26

Exemplo de Implementação - 16 Passo 1 Passo 2 Passo 3 Passo 4 Passo 5 Ao final das execuções anteriores, são acionadas 3 camadas de Fully-Connected (FC). Os dois primeiros têm exatamente 4096 canais cada uma A terceira possui 1000 canais (uma para cada classe). Todas as camadas de FC são equipadas comadas ocultas ReLU. Edjalma Queiroz da Silva 20 / 26

Exemplo de Implementação - 16 Passo 1 Passo 2 Passo 3 Passo 4 Passo 5 A camada final é uma camada de soft-max. A configuração das camadas FC são as mesma em toda a rede. Autores indicam que o uso de normalização, não apontou melhora no desempenho/acurácia do algoritmo, contudo, aumenta o consumo de memória e o tempo de execução. Edjalma Queiroz da Silva 21 / 26

Exemplo de Implementação - 16 Os resultados do uso da VGG demonstra que são competitos em relação a GooLeNet (Campeã no ILSVRC-2012) GooLeNet 6.7% de erro, contra 6.8% da VGGNet16 São extremamente superior em relação a Clarifi (11.2%), campeã no ILSVRC-2013. Os resultados demonstram, ainda, a importância do aprendizado profundo na representação visual. Edjalma Queiroz da Silva 22 / 26

Exemplo de Implementação - 16 Arquivos necessário: arquivo com modelo de pesos Arquivo principal, no nosso caso, utilizando framework TensorFlow Arquivo com as diferentes classes existentes e classificadas Arquivo como entrada, para ser utilizado como exemplo de entrada para a Classificação. Edjalma Queiroz da Silva 23 / 26

Exemplo de Implementação - 16 Nota sobre os Pesos Os autores disponibilizaram publicamente o arquivo contendo os Pesos. Os autores fizeram o uso do framework Caffe 4. Foram feitas conversões para que este mesmo arquivo pudesse ser utilizado no framework Tensor Flow (vgg16 weights.npz). 4 https://gist.github.com/ksimonyan/211839e770f7b538e2d8file-readme-md Edjalma Queiroz da Silva 24 / 26

Exemplo de Implementação - 16 Edjalma Queiroz da Silva 25 / 26

Exemplo de Implementação - 16 Ao INF pela oportunidade. Ao professor Anderson 5, que em pouquissimo tempo, na disciplina de TARP, alavancou nossos conhecimentos. 5 http://www.inf.ufg.br/ anderson/ Edjalma Queiroz da Silva 26 / 26