Reconhecimento de Produtos por Imagem Utilizando Palavras Visuais e Redes Neurais Convolucionais

Tamanho: px
Começar a partir da página:

Download "Reconhecimento de Produtos por Imagem Utilizando Palavras Visuais e Redes Neurais Convolucionais"

Transcrição

1 Reconhecimento de Produtos por Imagem Utilizando Palavras Visuais e Redes Neurais Convolucionais Guilherme Defreitas Juraszek 1 Alexandre Gonçalves Silva 2 André Tavares da Silva 1 Resumo: Este trabalho consiste no reconhecimento de imagens de produtos, com base em três métodos: palavras visuais por meio de descritores artificiais Bag of Visual Words (BOVW), redes neurais convolucionais (CNN) e descritores naturais (obtidos através de uma rede neural previamente treinada em uma base distinta). Na técnica BOVW são comparados os descritores SIFT e SURF, extraídos de forma densa e utilizando MSER, agrupados com KMeans e Floresta de Caminhos Ótimos não Supervisionada (OPF-U) e classificados com Máquinas de Vetor de Suporte (SVM) e Floresta de Caminhos Ótimos Supervisionada (OPF-S). São avaliadas as acurácias obtidas na base Caltech 101 e em uma base de produtos com 12 mil imagens em 36 categorias. A CNN como um descritor natural, em conjunto com o classificador SVM, apresentou a melhor acurácia com 0,856 na base Caltech101 e 0,906 na base criada (escala de 0 a 1). A CNN modelada sem treinamento prévio obteve a acurácia de 0,540 na base Caltech101 e 0,710 na base criada. Ambas as CNN testadas, com treinamento prévio e sem, obtiveram uma acurácia superior à técnica BOVW. 1 Departamento de Ciência da Computação (DCC) Universidade do Estado de Santa Catarina (UDESC) {dcc6gdj,atavares@joinville.udesc.br} 2 Departamento de Informática e Estatística (INE) Universidade Federal de Santa Catarina (UFSC) {alexandre.silva@inf.ufsc.br}

2 Abstract: In this work three methods are evaluated to recognize images of products: bag of visual words using artificial descriptors (BOVW), convolutional neural networks (CNN) and natural descriptors (obtained using a pre-trained CNN in a different dataset). In the BOVW the SIFT and SURF descriptors are compared, densely extracted and using MSER, clustered with KMeans and unsupervised Optimum-Path Forest (OPF-U) and classified with Support Vector Machines (SVM) and supervised Optimum-Path Forest (OPF-S). The accuracy is evaluated in the Caltech101 dataset and in a new dataset with 12 thousand images of products in 36 categories. The CNN as a natural descriptor with a SVM classifier obtained the best accuracy with 0,856 in the Caltech101 dataset and 0,906 in the created dataset (scale from 0 to 1). The CNN modeled without previous training obtained the accuracy 0,540 in the Caltech101 and 0,710 in the created dataset. Both CNNs, with and without previous training, resulted in a better accuracy than the BOVW method. 1 Introdução A popularização de equipamentos como câmeras e equipamentos com câmeras resultou em um grande volume de informações no formato de imagens e vídeos disponibilizadas na internet. O crescente volume de dados digitais em forma de imagens e vídeos demanda a criação de novas soluções de buscas baseadas não apenas em texto, mas capazes de extraírem informações relevantes diretamente desses formatos de mídia. O processo de identificação visual de objetos é trivial para o cérebro humano, porém extremamente difícil para os computadores. Um objeto tridimensional real pode ser representado através de uma grande quantidade de imagens bidimensionais conforme a sua variação de posição, orientação, tamanho, luz e contexto [17]. Condições adicionais como variações intra-classes, oclusões e deformações geram um número ainda maior de possibilidades, dificultando o reconhecimento. Outra característica dos problemas envolvendo reconhecimento e aprendizagem é a mudança constante das variáveis envolvidas. Um sistema desenvolvido para identificar um determinado objeto pode sofrer uma mudança dos requisitos, sendo necessário identificar outros objetos que não estavam previstos no escopo inicial. Este trabalho demonstra a utilização de três técnicas de aprendizado de máquina aplicados ao reconhecimento de padrões, mais especificamente, no reconhecimento de produtos por imagem. Tais técnicas podem ser aplicadas em uma ampla gama de sistemas como reconhecimento de produtos utilizando dispositivos móveis como smartphones, obtenção de informações de produtos visualizados utilizando um óculos de realidade aumentada, reconhecimento de produtos em vídeos, entre outros. Na primeira técnica é avaliado o reconhecimento de imagens utilizando palavras visuais com os descritores artificiais SIFT e SURF. São avaliadas a localização de pontos de interesse com MSER e de forma densa. São estudados os 2

3 algoritmos KMeans e floresta de caminhos ótimos não supervisionada (OPF-U) na etapa de agrupamento e criação do dicionário de palavras visuais. Já na etapa de classificação são avaliados os classificadores baseados em Máquinas de Vetor de Suporte (SVM) e em Floresta de Caminhos Ótimos supervisionada (OPF-S). A segunda técnica utiliza uma rede neural de três camadas convolucionais seguidas de duas camadas totalmente conectadas. Na terceira técnica consiste no uso de uma CNN (Overfeat) [21], previamente treinada na base de imagens ImageNet, de cinco camadas convolucionais, seguidas de três camadas totalmente conectadas. Um vetor de características, que atua como um descritor natural, é extraído da última camada convolucional e é classificado utilizando SVM e OPF-S. 2 Trabalhos Relacionados Os trabalhos encontrados na literatura podem ser classificados entre dois grupos de acordo com seus objetivos principais: (i) a recuperação de imagens semelhantes através da extração de características e a comparação de descritores utilizando uma função de distância; (ii) o reconhecimento ou classificação de objetos em uma imagem. Os trabalhos relacionados ao primeiro grupo são conhecidos como Sistemas de Recuperação de Imagens por Conteúdo (Content-Based Image Retrieval - CBIR). Torres e Falcão [23] mostram algumas abordagens comuns em sistemas CBIR onde um vetor é extraído das imagens de acordo com características como forma, textura, distribuição das cores. Em Datta et al. [5] são estudados 300 trabalhos de contribuições em sistemas CBIR onde o autor destaca um crescimento da utilização de técnicas de aprendizado de máquina combinados com descritores artificiais para a obtenção de melhores resultados em sistemas CBIR aplicados em diversas áreas. Os descritores SIFT [14], FAST [19], ORB [20], MSER [15] e SURF [2] são alguns exemplos de descritores artificiais locais utilizados em algoritmos pertencentes, tanto em sistemas CBIR, quanto em sistemas de reconhecimento. Um bom descritor deve fornecer informações sobre uma imagem capaz de identificar pontos semelhantes, mesmo quando duas imagens diferentes do mesmo objeto são comparadas. Um descritor deve extrair características que sejam invariantes à iluminação, rotação, escala, translação e deformações através de diferentes ângulos de visão. Mikolajczyk at al. [16] realizam um comparativo entre diversas técnicas para detecção de regiões de interesse em imagens de diferentes perspectivas e mostram um bom desempenho do algoritmo MSER. Liu et al [13] descrevem em seu artigo um algoritmo para a criação de agrupamentos (clusters) contendo milhares de imagens semelhantes utilizando k-vizinhos mais próximos (KNN). Os trabalhos para reconhecimento e classificação de objetos em uma imagem utilizam descritores ou filtros para a extração de características, seguida de uma etapa de quantização e agrupamento para redução da dimensionalidade e, por último, uma etapa de classificação. Estes algoritmos podem, por sua vez, serem subdivididos em duas categorias: algoritmos de 3

4 estágio de extração de características único e algoritmos de dois ou mais estágios [9]. Em uma primeira categoria enquadram-se algoritmos que possuem apenas uma etapa de extração de características. A técnica de BOVW, derivada da técnica amplamente utilizada na extração de informações de documento de texto (conhecida como bag of words), consiste em extrair descritores de regiões da imagem agrupando-os de acordo com as suas semelhanças. A quantidade de descritores possui um tamanho variável de acordo com a quantidade de pontos chaves considerados estáveis na imagem. Com o objetivo de criar um vetor de tamanho fixo, é realizada a quantização e criação de um histograma com base em características destes descritores. Características semelhantes devem ser marcadas como pertencentes a um mesmo grupo, que são denominados palavras. O conjunto de palavras encontrado forma um dicionário, no qual todos os descritores da imagem são rotulados. Após a rotulação é extraído um histograma que consiste na contagem de palavras de cada tipo na imagem. O histograma forma um vetor de características onde a distância entre imagens de uma mesma classe deve ser menor do que a distância entre imagens de diferentes classes. A última etapa é responsável pelo treinamento de um classificador para que este aprenda a distinguir entre as diferentes classes com base no histograma. O processo de encontrar o dicionário de palavras pode utilizar o algoritmo KMeans [7] onde o número de palavras precisa ser informado. Um estudo utilizando a versão não supervisionada do algoritmo de Floresta de Caminhos Ótimos (OPF), como substituto do KMeans, mostrou bons resultados comparando a etapa de classificação entre um classificador bayesiano e a versão supervisionada do OPF [1]. O estudo mostra ainda a obtenção do tamanho do dicionário de forma automática pelo OPF não supervisionado. Wallraven e Caputo [24] demonstram que descritores baseados em características locais superam descritores globais baseados em cores quando combinados com um classificador linear de objetos enquanto a extração de descritores de forma densa é mais eficiente na classificação de cenas [12]. Informações como a localização das palavras na imagem também podem ser utilizadas [11]. A segunda categoria consiste em algoritmos que utilizam dois ou mais estágios na etapa de extração de características. O objetivo principal é aprender não apenas a distinguir as classes com base em descritores artificiais, mas aprender os próprios descritores com base nos dados brutos, no caso de imagens, os próprios valores dos pixels. Estudos realizados por Jarret et. al [9] mostram que algoritmos de dois estágios obtiveram um desempenho similar à técnica BOVW, mesmo em bases com poucos exemplos como a Caltech 101. Outra vantagem importante que deve ser destacada é a capacidade de aprender representações em níveis hierárquicos semânticos mais elevados. Jarret et. al. mostram que a utilização de normalização e de uma função de ativação retificada, neste caso a abs(tanh(x)), melhoram significativamente o desempenho na classificação. São efetuados ainda comparativos inicializando os filtros da rede convolucional de forma aleatória e não supervisionada. A rede neural convolucional com a função de retificação resultou em um aumento significativo no desempenho passando de 18, 5% (N e P A ) para 54, 2% (N, P A e P abs ) na rede de uma 4

5 camada convolucional utilizando filtros não supervisionados e ajuste fino (U + ). Um ganho expressivo também é observado em uma arquitetura com duas camadas convolucionais. Redes neurais convolucionais vem sendo utilizadas a anos no reconhecimento de imagens, tento obtido grande sucesso no reconhecimento de caracteres [4]. Estudos mais recentes utilizando redes neurais convolucionais (CNN) conhecidas como Deep Convolutional Neural Networks obtiveram o novo estado da arte no reconhecimento de objetos em bases CIFAR-10 e NORB [3]. De forma geral as CNN são treinadas de forma supervisionada, mas trabalhos sugerem que o pré-treinamento da CNN com filtros obtidos de forma não supervisionada apresentam um melhor resultado [10]. A criação de camadas intermediárias em redes neurais resulta no crescimento no números de parâmetros a serem treinados. Para reduzir a chance de overfitting são utilizadas abordagens como aumento dos exemplos de treinamentos através da inclusão de imagens existentes levemente modificadas artificialmente com rotações e escalas. Esta técnica é conhecida como aumento de dados. Abordagens mais sofisticadas, utilizando uma técnica de regularização denominada dropout, obtiveram uma taxa de erro de 16,6% na base CIFAR-10, comparado ao estado da arte anterior de 18,5% utilizando apenas o aumento de dados [8]. Zeiler et. al [25] demonstram que a seleção de ativações de forma estocástica na etapa de pooling em uma técnica denominada Stochastic Pooling pode melhorar ainda mais os resultados atingindo 15,12% de erro na base CIFAR-10. De acordo com Zeiler, as estratégias de Stochastic Pooling e Dropout podem ser combinadas para a obtenção de resultados ainda melhores. Tang [22] aborda ainda a substituição da função softmax, normalmente utilizada em redes neurais convolucionais, por máquinas de vetor de suporte e reporta a taxa de erro de 11,9%. Goodfellow et. al. [6] propõe um novo método chamado Maxout combinado com o Dropout, obtendo o erro de 11,68% sem utilizar o aumento de dados e 9,35% utilizando translações e espelhamento horizontal das imagens. Sermanet et al. [21] utilizam redes neurais convolucionais para efetuar não apenas o reconhecimento, mas também a detecção e localização de imagens, sendo os vencedores do campeonato ImageNet Large Scale Visual Recognition Challenge 2013 (ILSVRC2013). No trabalho realizado por Razavian et. al. [18] a CNN Overfeat [21] é utilizada para extração de um descritor de diferentes bases de imagens na qual a CNN não foi originalmente treinada. Os descritores são então classificados utilizando um classificador linear SVM. Os resultados demonstram um desempenho compatível com o estado da arte, mesmo se comparado com algoritmos treinados especificamente na base analisada utilizando imagens segmentadas manualmente, procedimento que não é necessário quando utilizada a CNN. 5

6 3 Experimentos Nesta seção são detalhados os algoritmos implementados com o objetivo de efetuar a identificação de produtos a partir de uma imagem. As abordagens de conjunto de palavras visuais, redes neurais convolucionais e redes neurais convolucionais como descritores naturais são apresentadas. 3.1 Conjunto de Palavras Visuais O algoritmo utilizando a estratégia de conjuntos de palavras visuais (BOVW) possui cinco etapas: pré-processamento, extração de características, agrupamento, criação do histograma (ou vetor de características) e classificação. Na etapa de pré-processamento a imagem é redimensionada até que um dos lados possua o tamanho máximo sendo o outro, menor, ajustado proporcionalmente ao tamanho da imagem original. Os tamanhos avaliados foram de 64, 128, 256 e 512 pixels. Nesta etapa as imagens são convertidas do formato de cores RGB para escala em tons de cinza variando de 0 a 255. Na segunda etapa é realizada a extração das características utilizando a combinação de identificação de pontos de interesse e algoritmos descritores conforme a Tabela 2. O extrator denso corresponde à divisão da imagem em uma grade de pixels e a extração de um vetor descritor de cada quadrante da grade. Nos demais, são extraídos os descritores apenas dos pontos de interesse identificados pelos algoritmos MSER, SIFT ou SURF. Os descritores extraídos são então agrupados de acordo com uma função de distância entre eles. Os algoritmos agrupadores avaliados foram o KMeans e o OPF não supervisionado (OPF-U) utilizando em ambos a distância Euclidiana. Esta etapa é responsável pela criação do dicionário de palavras onde descritores semelhantes são agrupados em uma única representação lógica chamada de palavra visual. Diante da grande quantidade de descritores extraídos e do tamanho das bases (algumas com mais de 10 mil imagens), o agrupamento de todos os descritores na infra-estrutura disponível para experimento tornaria a execução inviável. Para a realização dos experimentos foram selecionadas aleatoriamente 500 imagens de cada base para a extração dos descritores. Dentre todos os descritores extraídos, foram selecionados aleatoriamente O algoritmo KMeans exige a especificação de um parâmetro informando o tamanho do dicionário a ser criado, ou seja, qual a quantidade de palavras visuais o dicionário possui. O algoritmo OPF-U estabelece o número de palavras visuais automaticamente, porém, necessita de outros parâmetros adicionais detalhados na seção de implementação mais adiante. A obtenção dos parâmetros do algoritmo OPF-U que resultam no melhor tamanho de dicionário é obtida através de experimentações. Com o objetivo de efetuar uma comparação mais justa entre o OPF-U e o KMeans, é efetuado um comparativo utilizando o melhor tamanho de dicionário obtido nas experimentações do OPF-U no comparativo do KMeans. Desta forma ambos os algoritmos são executados com o mesmo tamanho 6

7 de dicionário. Com o dicionário de palavras visuais criado é necessário extrair todos os descritores de todas as imagens da base de treinamento, identificar a qual palavra visual o descritor pertence e, ao término deste processo, criar um histograma contendo a quantidade de cada palavra visual na imagem analisada. Este histograma é um vetor onde cada posição corresponde a uma palavra visual e seu valor corresponde à quantidade de palavras visuais daquele tipo na imagem. O processamento é realizado em todas as imagens de treinamento e o resultado é um histograma para cada imagem. A última etapa consiste no treinamento de um classificador linear para que através do histograma de palavras visuais possa ser determinada a categoria na qual a imagem pertence. São avaliados os classificadores lineares SVM e OPF supervisionado (OPF-S). Dada sua natureza aleatória, na seleção das imagens e dos descritores, todos os experimentos são executados três vezes, sendo também analisados seus desvios padrões. A Tabela 1 mostra a combinação de algoritmos de agrupamento e classificadores analisados. Tabela 1. Agrupadores e classificadores analisados. Agrupador KMeans KMeans OPF-U OPF-U Classificador SVM OPF-S SVM OPF-S Cada um dos experimentos da Tabela 1 é executado com o conjunto de descritores mostrado na Tabela 2. Tabela 2. Descritores analisados. Extrator de pontos de interesse SIFT MSER Denso SURF Denso Descritor SIFT SIFT SIFT SURF SURF 7

8 3.2 Rede Neural Convolucional O segundo algoritmo implementado consiste em uma rede neural com três camadas convolucionais, cada uma contendo a convolução, ativação não linear utilizando a função Rectified Linear Unit (ReLU) max(x, 0) e a redução através do Maxpooling. As duas últimas camadas são compostas por neurônios totalmente conectados. A Tabela 3 mostra a arquitetura da CNN proposta. Tabela 3. Arquitetura da rede neural convolucional proposta. Camada Tipo de estágio Conv Conv Conv Total Total Tam. de entrada Num. de canais n. o de categorias Tam. do filtro Tam. de redução A primeira camada convolucional tem como entrada os 3 canais de cores da imagem (RGB ou YUV). É realizada a convolução por 52 filtros, a associação entre o canal de cor e o filtro a ser realizada a convolução é atribuída aleatoriamente de forma que cada canal de cor seja processado por pelo menos um filtro. Após a convolução é aplicada a função ReLU seguida da redução através do valor máximo de vizinhança 2 2. O processo se repete na camada convolucional 2 com 256 filtros e na camada convolucional 3 com 512 filtros. Após o processamento da camada convolucional 3 são obtidos 512 mapas de tamanho 1 1. Esses mapas são reorganizados em um vetor para treinamento de uma rede neural totalmente conectada com 256 neurônios de saída onde é aplicado o Dropout em 50% das conexões. A última etapa consiste em uma rede neural totalmente conectada entre as 256 ativações e o número de neurônios correspondente a quantidade de classes na base a ser processada (36 na base criada e 101 na base Caltech101). Para o treinamento da CNN foi utilizada a função Softmax e o algoritmo backpropagation. Inspirado no trabalho de Dundar 3 os experimentos são realizados utilizando os espaços de cores RGB e YUV. No com YUV, no canal Y, é realizada uma normalização local utilizando um filtro de tamanho 7. Os canais U e V são normalizados realizando a subtração pela média e a divisão pelo desvio padrão. Os experimentos com RGB realizam a normalização dos canais R, G e B subtraindo a média e dividindo pelo desvio padrão

9 3.3 CNN como Descritor Natural As CNN dispõem de uma propriedade ainda pouco explorada conhecida como transferência de conhecimento. Esta propriedade remete ao fato de uma CNN poder ser treinada em uma base de imagens A (pesos ajustados para classificação da base A) sendo os pesos do aprendizado (e filtros nas CNN) considerados genéricos o suficiente para serem usados no treinamento de uma nova base B. Inspirado no trabalho de Razavian et al. [18] é realizado um experimento reutilizando a CNN Overfeat [21], previamente treinada na grande base de imagens ImageNet, para extrair um descritor para cada imagem da nova base. Após a extração, os descritores são classificados usando os classificadores lineares SVM e OPF-S conforme o algoritmo. Treinar uma nova CNN de mesmo tamanho seria inviável com os recursos computacionais disponíveis para a execução deste trabalho sendo assim, visto que os códigos e arquivos de pesos da rede pré-treinada CNN Overfeat [21] foram disponibilizados pelos autores para fins acadêmicos, estes serão utilizados para a extração do vetor de características para o treinamento do classificador linear. A CNN Overfeat é disponibilizada em duas versões, uma menor, com execução mais rápida e uma maior com uma acurácia superior. Este trabalho utiliza a CNN menor, com arquitetura mostrada na Tabela 4, com 5 camadas convolucionais e 3 camadas conectadas. Tabela 4. Arquitetura Overfeat da CNN menor [21] Camada Tipo de estágio Conv+Max Conv+Max Conv Conv Conv+Max Total Total Total Tam. de entrada 231x231 24x24 12x12 12x12 12x12 6x6 1x1 1x1 Num. de canais Tam. do filtro 11x11 5x5 3x3 3x3 3x Tam. de redução 2x2 2x x As imagens da nova base a ser classificada, em formato RGB, são processadas pela rede e a saída da sexta camada é capturada. Um vetor com 4096 posições é considerado o descritor natural. Ao término da extração dos descritores naturais de todas as imagens, são treinados os classificadores SVM e OPF-S. 4 Resultados Nesta seção são apresentados os resultados dos experimentos das três técnicas avaliadas nas base Caltech101 e na base de imagens de produtos criada neste projeto. 9

10 4.1 Acurácia na base Caltech101 Nesta seção trata-se o processamento da base Caltech101. Na Tabela 5 são mostrados os melhores resultados obtidos com a técnica BOVW (Kmeans + SVM, KMeans + OPF-S, OPF-U + OPF-S e OPF-U + SVM), os resultados da CNN treinada exclusivamente nestas bases e os resultados da CNN previamente treinada (Overfeat) utilizada como descritor natural e classificada com OPF-S e SVM. São mostradas a acurácia, o desvio padrão e na coluna observação são incluídas informações sobre o algoritmo de localização de pontos de interesse, descritores e tamanho de imagens utilizado. As técnicas CNN e CNN Overfeat com os classificadores SVM e OPF-S foram executadas uma única vez devido ao elevado tempo necessário para treinamento, no caso da CNN, e extração das características na CNN Overfeat. A Figura 1 mostra um gráfico com os comparativos dos melhores resultados entre as técnicas BOVW, CNN e CNN como um descritor natural, onde fica evidente a superioridade, na acurácia, da CNN Overfeat (0,856), utilizada como um descritor natural, em conjunto com o classificador SVM. Tabela 5. Acurácia dos experimentos na base Caltech101. Técnica Acurácia Desvio Padrão Observação BOVW KMeans + SVM 0, , MSER + SIFT BOVW KMeans + OPF-S 0, , Denso + SIFT BOVW OPF-U + OPF-S 0, , Denso + SIFT BOVW OPF-U + SVM 0, , Denso + SIFT CNN RGB 0, CNN YUV 0, Overfeat + SVM 0, Overfeat + OPF-S 0, Acurácia na base criada Nesta seção são apresentados os resultados obtidos no processamento da base criada neste projeto com 12 mil imagens em 36 categorias. A Tabela 6 mostra os resultados das técnicas abordadas. O resultado mostra novamente uma acurácia superior (0,906) da técnica CNN utilizada como um descritor natural (Overfeat) em conjunto com o classificador SVM. O resultado mostra também a superioridade da CNN criada em relação à técnica BOVW. A técnica BOVW utilizando OPF-U (não supervisionado) para agrupamento demonstrou o pior resultado dentre as avaliadas (acurácia de 0,329). A Figura 2 mostra, em um gráfico, as acurácias. diferença na acurácia obtida pelas técnicas. É possível observar a gradativa 10

11 Figura 1. Acurácia na base Caltech101. Acurácia OVERFEAT+SVM Caltech101 - Acurácia x Agrupador+Classificador OVERFEAT+OPF CNN RGB CNN YUV Kmeans+SVM (MSER+SIFT+256) Kmeans+OPF-S (Denso+SIFT+512) OPF-U+OPF-S (Denso+SIFT+512) OPF-U+SVM (Denso+SIFT+512) Classificador+Agrupador Tabela 6. Acurácia dos experimentos na base criada pelo autor. Técnica Acurácia Desvio Padrão Observação BOVW KMeans + SVM 0, , MSER + SIFT BOVW KMeans + OPF-S 0, , Denso + SIFT BOVW OPF-U + OPF-S 0, , Denso + SIFT BOVW OPF-U + SVM 0, , Denso + SIFT CNN RGB 0, CNN YUV 0, Overfeat + SVM 0, Overfeat + OPF-S 0, Conclusão A utilização de uma CNN pré-treinada em uma base anterior resultou na melhor acurácia entre as técnicas avaliadas. Este resultado mostra que é possível realizar uma transferência de conhecimento onde os pesos de uma CNN treinada em uma base distinta podem ser utilizados com sucesso para classificação em uma base diferente apenas treinando a última 11

12 Acurácia OVERFEAT+SVM OVERFEAT+OPF Figura 2. Acurácia na base criada. Base criada (36 cat.) - Acurácia x Agrupador+Classificador CNN RGB CNN YUV Kmeans+SVM (MSER+SIFT+512) Classificador+Agrupador Kmeans+OPF-S (Denso+SIFT+128) OPF-U+OPF-S (Denso+SURF+256) OPF-U+SVM (Denso+SURF+512) camada de classificação, neste caso, a SVM. A CNN criada e treinada exclusivamente a partir das imagens da base mostrou uma acurácia superior à técnica BOVW, porém inferior à CNN Overfeat. Apesar das bases possuírem uma quantidade de imagens pequena, se comparada à ImageNet na qual a CNN Overfeat foi treinada, a utilização da regularização Dropout possibilitou o treinamento sem a ocorrência de overfitting. A CNN criada não mostrou uma diferença significativa na acurácia quando treinada a partir de imagens no padrão RGB e imagens no padrão YUV. De forma geral, todos os comparativos utilizando o classificador OPF (supervisionado e não supervisionado) obtiveram uma acurácia inferior à técnica equivalente. A diferença foi maior nas técnicas do tipo BOVW onde o agrupamento realizado utilizando o OPF-U obteve uma acurácia significativamente menor do que quando o agrupamento foi realizado com o KMeans. Os resultados obtidos no experimentos em ambas as bases mostraram um comportamento semelhante. A ordem de melhor acurácia pelas técnicas abordadas se manteve. A CNN Overfeat como descritor natural obteve a melhor acurácia, com 0,856 na Caltech101 e 0,906 na base criada. A segunda melhor técnica foi a CNN criada e treinada manualmente 12

13 obtendo 0,540 na Caltech101 e 0,710 na base criada. Dentre as três técnicas a que resultou na pior acurácia foi a BOVW obtendo 0,467 na base Caltech101 e 0,587 na base criada. Ambas utilizando o agrupador KMeans e o classificador SVM em conjunto com descritores SIFT localizador a partir do MSER. Referências [1] Luis C. S. Afonso, João. P. Papa, Luciene P. Papa, Aparecido Nilceu Marana, and Anderson Rocha. Automatic visual dictionary generation through optimum-path forest clustering. In ICIP, pages IEEE, [2] Herbert Bay, Andreas Ess, Tinne Tuytelaars, and Luc Van Gool. Speeded-up robust features (surf). Comput. Vis. Image Underst., 110(3): , June [3] Dan Ciresan, Ueli Meier, and Jurgen Schmidhuber. Multi-column deep neural networks for image classification. In IN PROCEEDINGS OF THE 25TH IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR 2012, pages , [4] Le Cun, B. Boser, J. S. Denker, D. Henderson, R. E. Howard, W. Hubbard, and L. D. Jackel. Handwritten digit recognition with a back-propagation network. In Advances in Neural Information Processing Systems, pages Morgan Kaufmann, [5] Ritendra Datta, Dhiraj Joshi, Jia Li, and James Z. Wang. Image retrieval: ideas, influences, and trends of the new age. ACM COMPUTING SURVEYS, [6] Ian J. Goodfellow, David Warde-Farley, Mehdi Mirza, Aaron C. Courville, and Yoshua Bengio. Maxout networks. CoRR, abs/ , [7] J. A. Hartigan and M. A. Wong. Algorithm AS 136: A k-means clustering algorithm. Applied Statistics, 28(1): , [8] Geoffrey E. Hinton, Nitish Srivastava, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs/ , [9] Kevin Jarrett, Koray Kavukcuoglu, and Yann Lecun. What is the best multi-stage architecture for object recognition? IEEE 12th International Conference on Computer Vision, [10] Koray Kavukcuoglu, Pierre Sermanet, Y lan Boureau, Karol Gregor, Michaël Mathieu, and Yann Lecun. Learning convolutional feature hierarchies for visual recognition,

14 [11] Svetlana Lazebnik, Cordelia Schmid, and Jean Ponce. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 2, CVPR 06, pages , Washington, DC, USA, IEEE Computer Society. [12] Fei-Fei Li and Pietro Perona. A bayesian hierarchical model for learning natural scene categories. In Proceedings of the 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR 05) - Volume 2 - Volume 02, CVPR 05, pages , Washington, DC, USA, IEEE Computer Society. [13] Ting Liu, Charles Rosenberg, and Henry A. Rowley. Clustering billions of images with large scale nearest neighbor search. In Proceedings of the Eighth IEEE Workshop on Applications of Computer Vision, WACV 07, pages 28, Washington, DC, USA, IEEE Computer Society. [14] David G. Lowe. Distinctive image features from scale-invariant keypoints. Int. J. Comput. Vision, 60(2):91 110, November [15] J. Matas, O. Chum, M. Urban, and T. Pajdla. Robust wide baseline stereo from maximally stable extremal regions. In Proceedings of the British Machine Vision Conference, pages BMVA Press, doi: /c [16] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir, and L. Van Gool. A comparison of affine region detectors. Int. J. Comput. Vision, 65(1-2):43 72, November [17] Nicolas Pinto, David D. Cox, and James J. Dicarlo. Why is real-world visual object recognition hard. PLoS Computational Biology, [18] Ali Sharif Razavian, Hossein Azizpour, Josephine Sullivan, and Stefan Carlsson. Cnn features off-the-shelf: an astounding baseline for recognition. CoRR, abs/ , [19] Edward Rosten and Tom Drummond. Machine learning for high-speed corner detection. In In European Conference on Computer Vision, pages , [20] Ethan Rublee, Vincent Rabaud, Kurt Konolige, and Gary Bradski. Orb: An efficient alternative to sift or surf. In Proceedings of the 2011 International Conference on Computer Vision, ICCV 11, pages , Washington, DC, USA, IEEE Computer Society. [21] Pierre Sermanet, David Eigen, Xiang Zhang, Michaël Mathieu, Rob Fergus, and Yann LeCun. Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs/ ,

15 [22] Yichuan Tang. Deep learning using support vector machines. CoRR, abs/ , [23] Ricardo Da Silva Torres and Alexandre Xavier Falc ao. Content based image retrieval theory and applications. Revista de Informática Teórica e Aplicada, 13: , [24] Christian Wallraven, Barbara Caputo, and Arnulf Graf. Recognition with local features: the kernel recipe. In Proceedings of the Ninth IEEE International Conference on Computer Vision - Volume 2, ICCV 03, pages 257, Washington, DC, USA, IEEE Computer Society. [25] Matthew D. Zeiler and Rob Fergus. Stochastic pooling for regularization of deep convolutional neural networks. CoRR, abs/ ,

RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO

RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO Fernanda Maria Sirlene Pio SUMARIO Introdução Trabalhos Relacionados Metodologia Experimentos Conclusão Referências 2 INTRODUÇÃO Reconhecimento de Padrões

Leia mais

SEMINÁRIO DOS ARTIGOS:

SEMINÁRIO DOS ARTIGOS: SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 18 Descritores Locais e Frameworks SIFT SURF Viola-Jones

Leia mais

Redes Neurais Convolucionais

Redes Neurais Convolucionais André Gustavo Hochuli Orientadores: Dr. Luiz E. S. Oliveira/Dr. Alceu Britto Programa de Pós-Graduação em Informática Departamento de Informática UFPR Neurônio Artificial Redes Neurais - Vetor de Caracteristícas

Leia mais

Identificação de Produtos por Imagem Utilizando o Algoritmo SURF

Identificação de Produtos por Imagem Utilizando o Algoritmo SURF Identificação de Produtos por Imagem Utilizando o Algoritmo SURF Um Comparativo Entre Redes Perceptron Multicamadas e Máquinas de Vetor de Suporte Guilherme Defreitas Juraszek, Alexandre Gonçalves Silva

Leia mais

Face Recognition using RGB-D Images

Face Recognition using RGB-D Images Face Recognition using RGB-D Images Helder C. R. de Oliveira N.USP: 7122065 Polyana Nunes N.USP: 9043220 Sobre o Artigo Publication: 2013 IEEE Sixth International Conference Author(s) Goswami, G. (Índia

Leia mais

GoogLeNet - Going Deeper with Convolutions

GoogLeNet - Going Deeper with Convolutions - Going Deeper with Convolutions Heyde Francielle do Carmo França Prof. Dr. Anderson Soares Instituto de Informática Universidade Federal de Goiás 02 de Dezembro de 2016 1 / 35 Sumário I 1 2 3 2 / 35 3

Leia mais

Redes Neurais Convolucionais

Redes Neurais Convolucionais André Gustavo Hochuli Orientador: Prof. Dr. Luiz Eduardo Soares de Oliveira Programa de Pós-Graduação em Informática Departamento de Informática UFPR http://www.inf.ufpr.br/aghochuli/caffe/ Redes Neurais

Leia mais

Region Based CNNs. Francisco Calaça Xavier. Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado. Instituto de Informática UFG

Region Based CNNs. Francisco Calaça Xavier. Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado. Instituto de Informática UFG Region Based CNNs Francisco Calaça Xavier Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado Instituto de Informática UFG Prof. Anderson Soares Agenda O problema Estado da arte R-CNN

Leia mais

Descritores de Imagem

Descritores de Imagem Descritores de Imagem André Tavares da Silva 31 de março de 2014 1 Descritores de imagem (continuação) 1.1 Frameworks de detecção de objetos SIFT (scale-invariant features transform) (Lowe, 1999) SIFT

Leia mais

Image Descriptors: local features

Image Descriptors: local features Image Descriptors: local features Image Processing scc0251 www.icmc.usp.br/ moacir moacir@icmc.usp.br ICMC/USP São Carlos, SP, Brazil 2011 Moacir Ponti Jr. (ICMCUSP) Image Descriptors: local features 2011

Leia mais

Reconhecimento de Modelos de Veículos

Reconhecimento de Modelos de Veículos Reconhecimento de Modelos de Veículos Fernando Benedito Veras Magalhães January 15, 2018 1 Introdução Em 2017, 2,1 milhões de automóveis, incluindo picapes e furgões, foram vendidos no Brasil. A variedade

Leia mais

Uma Abordagem Genética Para Redes Neurais Convolucionais

Uma Abordagem Genética Para Redes Neurais Convolucionais Uma Abordagem Genética Para Redes Neurais Convolucionais Roberto M. Pinheiro Pereira 1, Lucas Bezerra Maia 1, Polyana Bezerra Da Costa 1, Jordan Boaz Rodrigues 1, Geraldo Braz Junior 1 João D. S. De Almeida,

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores

Leia mais

JAI 6 - Deep Learning Teoria e Prática

JAI 6 - Deep Learning Teoria e Prática JAI 6 - Deep Learning Teoria e Prática Cristina Nader Vasconcelos Universidade Federal Fluminense CNNs Câmeras estão por toda parte! crisnv@ic.uff.br Aquisição de imagens digitais crisnv@ic.uff.br 3 Representação

Leia mais

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva Visão computacional Juliana Patrícia Detroz Orientador: André Tavares Silva Visão computacional Tentativa de replicar a habilidade humana da visão através da percepção e entendimento de uma imagem; Fazer

Leia mais

Roberto Lotufo Big Data Brasil São Paulo, 23 de junho de 2018

Roberto Lotufo Big Data Brasil São Paulo, 23 de junho de 2018 Roberto Lotufo roberto@neuralmind.ai Big Data Brasil São Paulo, 23 de junho de 2018 Classificação dedo falso/dedo vivo Desempenho atual: 200ms Intel I5 99% acurácia LivDet 2015 - Fingerprint Liveness Competition

Leia mais

RECONHECIMENTO DE PRODUTOS POR IMAGEM UTILIZANDO PALAVRAS VISUAIS E REDES NEURAIS CONVOLUCIONAIS GUILHERME DEFREITAS JURASZEK

RECONHECIMENTO DE PRODUTOS POR IMAGEM UTILIZANDO PALAVRAS VISUAIS E REDES NEURAIS CONVOLUCIONAIS GUILHERME DEFREITAS JURASZEK UNIVERSIDADE DO ESTADO DE SANTA CATARINA UDESC CENTRO DE CIÊNCIAS TECNOLÓGICAS CCT CURSO DE MESTRADO EM COMPUTAÇÃO APLICADA DISSERTAÇÃO DE MESTRADO RECONHECIMENTO DE PRODUTOS POR IMAGEM UTILIZANDO PALAVRAS

Leia mais

READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING

READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING Fernanda Maria Sirlene READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING NIPS Workshop on Deep Learning and Unsupervised

Leia mais

Análise do Uso de Descritores Locais e Classificadores no Reconhecimento de Cédulas de Real

Análise do Uso de Descritores Locais e Classificadores no Reconhecimento de Cédulas de Real III Escola Regional de Informática do Piauí. Livro Anais - Artigos e Minicursos, v. 1, n. 1, p. 218-223, jun, 2017. www.eripi.com.br/2017 - ISBN: 978-85-7669-395-6 Análise do Uso de Descritores Locais

Leia mais

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo Juliana Patrícia Detroz Professor: André Tavares da Silva Universidade do Estado de Santa Catarina

Leia mais

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION - VGG

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION - VGG Exemplo de Implementação - 16 VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION - VGG Edjalma Queiroz da Silva Programa de pós-graduação em Ciências da Computação Mestrado e Doutorado

Leia mais

SIFT (Scale-invariant feature transform), SURF (Speeded up robust features)

SIFT (Scale-invariant feature transform), SURF (Speeded up robust features) SIFT (Scale-invariant feature transform), SURF (Speeded up robust features) Scale- and rotation-invariant interest point detector and descriptor. detector (keypoints) descriptor matching Aplicações: Camera

Leia mais

2. Redes Neurais Artificiais

2. Redes Neurais Artificiais Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.6. Deep Learning 2.6.1. O Problema da Extração de Características

Leia mais

Anotador automático de placas de publicidade em vídeos esportivos

Anotador automático de placas de publicidade em vídeos esportivos MAC0499 - Trabalho de Formatura Supervisionado Professor: Carlos Eduardo Ferreira Universidade de São Paulo Instituto de Matemática e Estatística Aluno: Ricardo Augusto Fernandes Orientador: Prof. Dr.

Leia mais

Um Estudo sobre Diferente Tipos de Funções de Custo Para Redes Neurais Convolucionais

Um Estudo sobre Diferente Tipos de Funções de Custo Para Redes Neurais Convolucionais Um Estudo sobre Diferente Tipos de Funções de Custo Para Redes Neurais Convolucionais Roberto M. Pinheiro Pereira, Lucas Bezerra Maia, Thalles Alencar Silva, Alexandre César P. Pessoa, Geraldo Braz Junior

Leia mais

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar Introdução Comidas podem apresentar deformações e variações em sua forma, além de conter muitos ingredientes, nem todos visíveis; Métodos tradicionais de reconhecimento requerem a detecção de características

Leia mais

Person Re-Identification. Autor: Guilherme Zasyeki Machado

Person Re-Identification. Autor: Guilherme Zasyeki Machado Person Re-Identification Autor: Guilherme Zasyeki Machado Sumário - Introdução ao problema - Visão geral ao processo de Re-Identificação - Evolução estado da arte - Datasets disponíveis - Análise estado

Leia mais

Caracterização de Imagens via Redes Neurais Artificiais

Caracterização de Imagens via Redes Neurais Artificiais Caracterização de Imagens via Redes Neurais Artificiais Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Principais tópicos Aprendizado profundo André C P L F de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Introdução Redes profundas Aprendizado profundo Redes autodecodificadoras

Leia mais

Reconhecimento de texturas utilizando padrão binário local e classificador knn.

Reconhecimento de texturas utilizando padrão binário local e classificador knn. Reconhecimento de texturas utilizando padrão binário local e classificador knn. Vinicius Santos Andrade 1 Resumo. Através de uma imagem é possível obter inúmeras informações. Portanto, é cada vez mais

Leia mais

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes. HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala 3 CCET [quinta-feira, 8:20 12:00] Atendimento

Leia mais

introdução ao deep learning

introdução ao deep learning introdução ao deep learning Jeferson de Souza Santos SERFA 2016 IEAv / EGI-S introdução Introdução - Aplicações de Machine Learning - Redes Profundas Figure: Fontes: techli.com; wccftech.com; updateordie.net;

Leia mais

Sistema de Reconhecimento de Logotipos

Sistema de Reconhecimento de Logotipos Sistema de Reconhecimento de Logotipos Fellipe Duarte, Saulo T. Oliveira {duartefellipe,sto}@cos.ufrj.br Relatório Técnico, Introdução ao Processamento de Imagens Programa de Engenharia de Sistemas e Computação

Leia mais

Inteligência Artificial

Inteligência Artificial Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem (Redes Neurais - Complementar) Prof. a Joseana Macêdo

Leia mais

"Análise de Extratores de Característica para Reconhecimento de Face"

Análise de Extratores de Característica para Reconhecimento de Face Universidade Federal de Pernambuco Centro de Informática Graduação em Engenharia de Computação Proposta de Trabalho de Graduação "Análise de Extratores de Característica para Reconhecimento de Face" Orientador:

Leia mais

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro

SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro SEMINÁRIO Visão Computacional Aluno: Afonso Pinheiro Detecting Pedestrians Using Patterns of Motion and Appearance *Paul Viola *Michael J. Jones *Daniel Snow Por que detectar pedestres? http://conexaopenedo.com.br/2016/02/sistema-consegue-detectar-pedestres-em-tempo-real/

Leia mais

Reconhecimento de Instâncias (parte 2)

Reconhecimento de Instâncias (parte 2) Reconhecimento de Instâncias (parte 2) Rafael Galvão de Mesquita rgm@cin.ufpe.br Carlos Alexandre Mello cabm@cin.ufpe.br SURF Speeded-Up Robust Features [3] Computer Vision and Image Understanding, 2004

Leia mais

Descritores de Imagem (exemplos)

Descritores de Imagem (exemplos) Descritores de Imagem (exemplos) André Tavares da Silva andre.silva@udesc.br Baseado em Penatti (2009) e Silva (2011) Alguns exemplos Descritores baseados em cor Na literatura existem quatro abordagens

Leia mais

10º Congresso Interinstitucional de Iniciação Científica CIIC a 04 de agosto de 2016 Campinas, São Paulo ISBN

10º Congresso Interinstitucional de Iniciação Científica CIIC a 04 de agosto de 2016 Campinas, São Paulo ISBN Um Estudo de Descritores e Classificadores para Reconhecimento de Bagas de Café Pedro Henrique Ferreira Stringhini 1 ; Thiago Teixeira Santos 2 Nº 16605 RESUMO Métodos de reconhecimento de frutos baseados

Leia mais

Reconhecimento de Caracteres em Imagens com Ruído

Reconhecimento de Caracteres em Imagens com Ruído Reconhecimento de Caracteres em Imagens com Ruído Sirlene Pio UFOP sirlenepg@gmail.com Fernanda Maria Ribeiro UFOP fernandamaria si@yahoo.com.br Abstract O desempenho dos métodos de aprendizagem de máquina

Leia mais

Classificação de Faces de Personagens de Mangá

Classificação de Faces de Personagens de Mangá Classificação de Faces de Personagens de Mangá Ivan de Jesus Pereira Pinto 1, Jessica Paloma Sousa Cardoso 1 1 Universidade Federal do Maranhão Caixa Postal 322 65065-545 São Luís, MA Brazil navi1921@gmail.com,jessicacardosops@gmail.com

Leia mais

Sketch to Photo Matching: A Feature-based Approach (Klare and Jain [2010])

Sketch to Photo Matching: A Feature-based Approach (Klare and Jain [2010]) Sketch to Photo Matching: A Feature-based Approach (Klare and Jain [2010]) Marco Antonio de A. Silva Programa de Pós-Graduação em Ciência da Computação - PPGCC Departamento de Computação - DECOM Universidade

Leia mais

11º Congresso Interinstitucional de Iniciação Científica CIIC a 04 de agosto de 2017 Campinas, São Paulo ISBN

11º Congresso Interinstitucional de Iniciação Científica CIIC a 04 de agosto de 2017 Campinas, São Paulo ISBN DETECÇÃO DE FRUTOS EM CAMPO POR APRENDIZADO DE MÁQUINA Andreza Aparecida dos Santos¹; Thiago Teixeira Santos 2 Nº 17603 RESUMO Métodos de reconhecimento de frutos utilizando diferentes descritores e classificadores

Leia mais

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,

Leia mais

Processamento De Imagem. Descritores de Cor

Processamento De Imagem. Descritores de Cor Processamento De Imagem Descritores de Cor Cores Uma das propriedades mais importantes para visão humana. Muito usada em sistemas de recuperação de imagens, CBIRs. Taxonomia Global A informação de cor

Leia mais

Making an image worth a thousand visual words

Making an image worth a thousand visual words Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015-10 Making an image worth a thousand

Leia mais

Color Eyes Detector. Duarte Petiz. DCC/FCUP

Color Eyes Detector. Duarte Petiz. DCC/FCUP Color Eyes Detector Duarte Petiz DCC/FCUP up201204625@fc.up.pt Resumo Este relatório descreve a implementação da aplicação desenvolvida Color Eyes Detector bem como mostra os resultados finais da execução

Leia mais

Redes Neurais Convolucionais Aplicadas à Preensão Robótica

Redes Neurais Convolucionais Aplicadas à Preensão Robótica Redes Neurais Convolucionais Aplicadas à Preensão Robótica Renata Oliveira, Errison Alves e Carlos Malqui DEE - Pontifícia Universidade Católica do Rio de Janeiro (PUC-Rio), RJ, Brasil renata.garcia.eng@gmail.com

Leia mais

INF011 - Seminários de Pesquisa II

INF011 - Seminários de Pesquisa II INF011 - Seminários de Pesquisa II Doutorando: Erick Toshio Yamamoto Orientador: Prof. Dr. Ricardo Suyama Professor da Disciplina: Prof. Dr. João Henrique Kleinschmidt Santo André, 02 de maio de 2018 Agenda

Leia mais

Detecção de pessoas em um ambiente industrial utilizando imagens de profundidade e classificadores profundos

Detecção de pessoas em um ambiente industrial utilizando imagens de profundidade e classificadores profundos Detecção de pessoas em um ambiente industrial utilizando imagens de profundidade e classificadores profundos Eduardo Henrique Arnold e Danilo Silva Resumo Esse trabalho descreve o desenvolvimento de um

Leia mais

Deep Learning para Classificação de Imagens

Deep Learning para Classificação de Imagens Deep Learning para Classificação de Imagens Vinicius Eiji Martins 1, Sylvio Barbon Junior 1 1 Departamento de Computação Universidade Estadual de Londrina (UEL) Caixa Postal 10.011 CEP 86057-970 Londrina

Leia mais

First-person activity recognition. Matheus A. Nerone

First-person activity recognition. Matheus A. Nerone First-person activity recognition Matheus A. Nerone Sumário 1. 2. 3. Introdução a. Contexto b. Problema c. Exemplos de uso d. Dificuldades Trabalhos Relacionados a. Artigo inicial b. Histórico Artigos

Leia mais

Detecção de Faces Humanas em Imagens Coloridas Utilizando Redes Neurais Artificiais

Detecção de Faces Humanas em Imagens Coloridas Utilizando Redes Neurais Artificiais Detecção de Faces Humanas em Imagens Coloridas Utilizando Redes Neurais Artificiais Wellington da Rocha Gouveia Universidade de São Paulo Escola de Engenharia de São Carlos Departamento de Engenharia Elétrica

Leia mais

Reconhecimento de Sinais de Trânsito Utilizando Deep Learning

Reconhecimento de Sinais de Trânsito Utilizando Deep Learning Reconhecimento de Sinais de Trânsito Utilizando Deep Learning Marcos Vinícius Oliveira Sobrinho 1, Matheus Chaves Menezes 1, Chrystian Gustavo Martins Nascimento 1, Geraldo Braz Júnior 2 1 Curso de Ciência

Leia mais

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais

Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais Ricardo Cerri Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo cerri@icmc.usp.br Roteiro Introdução

Leia mais

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo Estudo de comparação do descritor de imagens coloridas BIC empregando diferentes abordagens de classificação de detecção de bordas: Canny e Operador Laplaciano Diego Martin Mancini Orientador: Prof. Paulo

Leia mais

Um comparativo entre arquiteturas de redes neurais profundas aplicadas no reconhecimento de imagens

Um comparativo entre arquiteturas de redes neurais profundas aplicadas no reconhecimento de imagens Um comparativo entre arquiteturas de redes neurais profundas aplicadas no reconhecimento de imagens Leandro R. L. Pavão, Tatiana F. M. dos Santos, Carlos O. Rolim Universidade Regional Integrada do Alto

Leia mais

Métodos de Segmentação de Imagem para Análise da Marcha

Métodos de Segmentação de Imagem para Análise da Marcha Métodos de Segmentação de Imagem para Análise da Marcha Maria João M. Vasconcelos, João Manuel R. S. Tavares maria.vasconcelos@fe.up.pt, tavares@fe.up.pt 3º Congresso Nacional de Biomecânica 11-12 Fevereiro

Leia mais

Extração de atributos usando o método LBP - Local Binary Pattern

Extração de atributos usando o método LBP - Local Binary Pattern Extração de atributos usando o método LBP - Local Binary Pattern Lia Nara Balta Quinta. 2 de maio de 2006 1 Antecedentes e Justificativa O Brasil possui, atualmente, um grande rebanho bovino, porém em

Leia mais

Inteligência Artificial

Inteligência Artificial Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis

Leia mais

Introdução a Visão Computacional. Prof. Dr. Geraldo Braz Junior DEINF - UFMA

Introdução a Visão Computacional. Prof. Dr. Geraldo Braz Junior DEINF - UFMA Introdução a Visão Computacional Prof. Dr. Geraldo Braz Junior DEINF - UFMA O que é Visão Computacional? Você já viu? 2 O que se espera? Visão é sobre entender imagens Coloridas ou em tons de cinza Pequenas

Leia mais

Reconhecimento de Faces Utilizando Redes Neurais MLP

Reconhecimento de Faces Utilizando Redes Neurais MLP Reconhecimento de Faces Utilizando Redes Neurais MLP Autor: Adilmar Coelho Dantas 1, Orientador: Márcia Aparecida Fernandes 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal do

Leia mais

Feature Description (SIFT + SURF) Prof. Dr. Geraldo Braz Junior

Feature Description (SIFT + SURF) Prof. Dr. Geraldo Braz Junior Feature Description (SIFT + SURF) Prof. Dr. Geraldo Braz Junior Feature Detection 1. Encontre um conjunto de keypoints 2. Defina uma região ao redor do keypoint 3. Normalize a região 4. Extraia caracterísfcas

Leia mais

Trabalho Final de Sistemas Inteligentes

Trabalho Final de Sistemas Inteligentes Trabalho Final de Sistemas Inteligentes Rodrigo Kanehisa 2 1 Departamento de Informática Universidade Federal do Maranhão (UFMA) Av. dos Portugueses, 1966 Bacanga - CEP 65080-805 São Luís MA Brasil 2 Universidade

Leia mais

Projetos finais. Grupo 3

Projetos finais. Grupo 3 Projetos finais Grupo 3 Integrantes Laez Barbosa da Fonseca Filho 8586902 laez.filho@usp.br Caetano Mastroianni Dieguez 7210164 caetano.dieguez@usp.br Lais Harumi Fukujima Aguiar 8587142 lais.aguiar.br@ieee.org

Leia mais

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina. Combinando Classificadores Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Apresentação da Disciplina Alessandro L. Koerich 2008 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem

Leia mais

Classificação de Gênero com Diferentes Técnicas de Aprendizado de Máquina

Classificação de Gênero com Diferentes Técnicas de Aprendizado de Máquina Classificação de Gênero com Diferentes Técnicas de Aprendizado de Máquina Eduardo Henrique Giroto 1, Sérgio Montazzolli Silva 1 1 Departamento de Computação Universidade Estadual de Londrina (UEL) Caixa

Leia mais

Extração de características de imagens. Descritores de cor

Extração de características de imagens. Descritores de cor Extração de características de imagens Descritores de cor Descritores de imagens Problema: computar, de forma eficiente, valores que descrevam uma imagem (ou parte dela) Vetores de características (feature

Leia mais

SIFT - Scale Invariant Feature Transform

SIFT - Scale Invariant Feature Transform SIFT - Scale Invariant Feature Transform Daniel Pinto Coutinho Prof. Ricardo Marroquim 1 Introdução A detecção de pontos de interesse em uma figura é uma tarefa muito comum no campo de processamento de

Leia mais

Redes Convolucionais Aplicadas em Visão Computacional

Redes Convolucionais Aplicadas em Visão Computacional Redes Convolucionais Aplicadas em Visão Computacional Marcos José Canêjo Estevão de Azevêdo mjcea@cin.ufpe.br Sumário História Evolução Tipos Aplicações Considerações Finais 2 História Surgiram em 1980

Leia mais

Brazilian License Plate Character Recognition using Deep Learning

Brazilian License Plate Character Recognition using Deep Learning Brazilian License Plate Character Recognition using Deep Learning S. P. Peixoto, G. Cámara-Chávez, D. Menotti Departamento de Computação Universidade Federal de Ouro Preto Ouro Preto, MG, Brazil Email:

Leia mais

Biometria Multimodalidade Íris + Face. Luiz Antonio Zanlorensi Junior

Biometria Multimodalidade Íris + Face. Luiz Antonio Zanlorensi Junior Biometria Multimodalidade Íris + Face Luiz Antonio Zanlorensi Junior Sumário Introdução Fusionamento Artigo 1 Seleção de características Multimodal Problemas Base de dados Artigo 2 Unimodal + Multimodal

Leia mais

Classificação de espécies de peixe utilizando redes neurais convolucional

Classificação de espécies de peixe utilizando redes neurais convolucional Classificação de espécies de peixe utilizando redes neurais convolucional Andre G. C. Pacheco a,1 a Programa de Pós-Graduação em Informática (PPGI), Universidade Federal do Espírito Santo (UFES), Vitória

Leia mais

Um sistema para extração automática de keyframes a partir de fluxos de vídeo direcionado à reconstrução tridimensional de cenários virtuais

Um sistema para extração automática de keyframes a partir de fluxos de vídeo direcionado à reconstrução tridimensional de cenários virtuais Um sistema para extração automática de keyframes a partir de fluxos de vídeo direcionado à reconstrução tridimensional de cenários virtuais Sérgio Carlos Portari Júnior Orientador: Prof. Dr. Antonio Carlos

Leia mais

Mapeamento de ambientes e processamento visual utilizando Kinect

Mapeamento de ambientes e processamento visual utilizando Kinect Mapeamento de ambientes e processamento visual utilizando Kinect Mário Alberto Cecchi Raduan Bolsista PIBIC/UFRJ Orientador: Adriano Joaquim de Oliveira Cruz, PhD Laboratório de Inteligência Computacional

Leia mais

scikit-learn: Aprendizado de máquina 101 com Python

scikit-learn: Aprendizado de máquina 101 com Python scikit-learn: Aprendizado de máquina 101 com Python Luciana Fujii Campus Party BH 2016 1 / 30 Introdução Aprendizado de máquina Aprendizado de máquina é o campo da ciência da computação que dá aos computadores

Leia mais

Descritores de Imagem (introdução)

Descritores de Imagem (introdução) Descritores de Imagem (introdução) André Tavares da Silva andre.silva@udesc.br Roteiro da aula Definição de descritor de imagem Extração de Característica Tipos Geral x Específico Global (cor, textura,

Leia mais

Image Descriptors: color

Image Descriptors: color Image Descriptors: color Image Processing scc0251 www.icmc.usp.br/ moacir moacir@icmc.usp.br ICMC/USP São Carlos, SP, Brazil 2011 Moacir Ponti Jr. (ICMCUSP) Image Descriptors: color 2011 1 / 29 Agenda

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Plano da Apresentação Aprendizagem de Máquina Alessandro L. Koerich 2007 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Professor & Experiência Acadêmica Horários

Leia mais

Recuperação de Imagem por Conteúdo considerando a Percepção Visual Humana

Recuperação de Imagem por Conteúdo considerando a Percepção Visual Humana Recuperação de Imagem por Conteúdo considerando a Percepção Visual Humana Autor: Robson de Carvalho Soares 1, Orientadora: Denise Guliato 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade

Leia mais

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES Universidade Federal do Rio de Janeiro Instituto Alberto Luiz Coimbra de Pós-Graduação e Pesquisa de Engenharia Programa de Engenharia de Sistemas e Computação Rio de Janeiro, RJ Brasil RECONHECIMENTO

Leia mais

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA Envolve a pergunta: É esta parte da imagem uma parte do objeto X? (modelo dado, região da imagem dada) Utiliza imagens ao invés de características como

Leia mais

Reconhecimento Ótico de Caracteres em Placas Veiculares

Reconhecimento Ótico de Caracteres em Placas Veiculares Universidade Federal De Pernambuco Centro De Informática Graduação Em Engenharia Da Computação 2012.2 Reconhecimento Ótico de Caracteres em Placas Veiculares Proposta de Trabalho de Graduação Aluno Pedro

Leia mais

Reconhecimento de Gestos

Reconhecimento de Gestos Reconhecimento de Gestos Henrique Augusto Richter Tópicos em Visão Computacional Universidade Federal do Paraná Sumário Introdução Utilização Problemas Trabalhos Artigo 1 Artigo 2 Project Soli Introdução

Leia mais

Mapas Auto Organizáveis SOMs Mapas de Kohonen

Mapas Auto Organizáveis SOMs Mapas de Kohonen Mapas Auto Organizáveis SOMs Mapas de Kohonen PSI 2886 Princípios de Neurocomputação Edição de 2008 1 PSI 5886 Prof. Emilio Self Organizing Maps de Kohonen Estes slides foram usados nas aulas #8 e #9 na

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

Detecção de fraudes em hidrômetros através da utilização de técnicas de reconhecimento de padrões

Detecção de fraudes em hidrômetros através da utilização de técnicas de reconhecimento de padrões Detecção de fraudes em hidrômetros através da utilização de técnicas de reconhecimento de padrões Juliana Patrícia Detroz Orientador: André Tavares da Silva Programa de Pós-Graduação em Computação Aplicada

Leia mais

Abstract. 2. Material e Métodos. 1. Introdução

Abstract. 2. Material e Métodos. 1. Introdução Análise de Desempenho de Classificadores Baseados em Redes Neurais, Máquinas de Vetores de Suporte e Florestas de Caminhos Ótimos para o Reconhecimento de Dígitos Manuscritos Aparecido Nilceu Marana, João

Leia mais

Análise Quantitativa de Tecidos em Úlceras de Perna

Análise Quantitativa de Tecidos em Úlceras de Perna 49 5 Análise Quantitativa de Tecidos em Úlceras de Perna A avaliação das áreas proporcionais de cada tecido interno das úlceras fornece informações importantes sobre seu estado patológico [BERRISS, 2000],

Leia mais

Um Estudo sobre Vetores de Descritores Localmente Agregados para Diagnóstico de Câncer de Mama

Um Estudo sobre Vetores de Descritores Localmente Agregados para Diagnóstico de Câncer de Mama Um Estudo sobre Vetores de Descritores Localmente Agregados para Diagnóstico de Câncer de Mama Ricardo Costa da Silva Marques 1, Geovane Menezes Ramos Neto 1, Geraldo Braz Júnior 1, João Dallyson de Sousa

Leia mais

SIMPLES: UM DESCRITOR DE CARACTERÍSTICAS LOCAIS RÁPIDO E SIMPLES

SIMPLES: UM DESCRITOR DE CARACTERÍSTICAS LOCAIS RÁPIDO E SIMPLES SIMPLES: UM DESCRITOR DE CARACTERÍSTICAS LOCAIS RÁPIDO E SIMPLES MARCOS CESAR VOLTOLINI, HAE YONG KIM Dept. Eng. Sistemas Eletrônicos, Escola Politécnica, USP Av. Prof. Luciano Gualberto, trav. 3, 158,

Leia mais

Reconhecimento de Alimentos utilizando Histograma de Cor e SIFT

Reconhecimento de Alimentos utilizando Histograma de Cor e SIFT Reconhecimento de Alimentos utilizando Histograma de Cor e SIFT Daniela S. Costa 1, Polyana B. Costa 1, Geraldo Braz Jr. 2 1 Núcleo de Computaçao Aplicada - Universidade Federal do Maranhão (UFMA) Caixa

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

7 Resultados e Discussão

7 Resultados e Discussão 114 7 Resultados e Discussão A fim de avaliar a importância da utilização de imagens polarizadas em medidas de textura, cujo processamento necessita de imagens nos dois modos de captura (campo claro e

Leia mais

Metodologia de Identificação de Cédulas Monetárias para Deficientes Visuais Monetary Notes Identification Methodology for Visually Impaired

Metodologia de Identificação de Cédulas Monetárias para Deficientes Visuais Monetary Notes Identification Methodology for Visually Impaired Metodologia de Identificação de Cédulas Monetárias para Deficientes Visuais Monetary Notes Identification Methodology for Visually Impaired Leonardo Pereira de Sousa, Rodrigo de Melo Souza Veras, Luis

Leia mais