FELIPE SEITI HORIUCHI ESTUDO SOBRE MULTIMODAL DEEP LEARNING

Documentos relacionados
Aprendizado de Máquina (Machine Learning)

3 Redes Neurais Artificiais

Aprendizado de Máquinas. Multi-Layer Perceptron (MLP)

Previsão de Vazões utilizando Redes Neurais Artificiais MLP e NSRBN

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

Reconhecimento de Sinais de Trânsito Utilizando Deep Learning

Classificação Linear. André Tavares da Silva.

Introdução à Redes Neurais. Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

READING DIGITS IN NATURAL IMAGES WITH UNSUPERVISED FEATURE LEARNING

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

Detecção de Faces Humanas em Imagens Coloridas Utilizando Redes Neurais Artificiais

XII Congresso Brasileiro de Meteorologia, Foz de Iguaçu-PR, 2002

Paradigmas de Aprendizagem

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Face Recognition using RGB-D Images

Redes Neurais MLP: Exemplos e Características

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

REDES NEURONAIS Conceitos. Jorge M. Santos

Redes Neurais: MLP. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

scikit-learn: Aprendizado de máquina 101 com Python

Métodos de Segmentação de Imagem para Análise da Marcha

Previsão de séries temporais mediante redes neurais

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

INTELIGÊNCIA ARTIFICIAL

Mapeamento do uso do solo

Face Detection. Image Processing scc moacir ICMC/USP São Carlos, SP, Brazil

Inteligência Computacional

Protótipo de Software para Reconhecimento de Impressões Digitais

Reconhecimento do alfabeto da linguagem de sinais brasileira por classificação de animação 3D gerada por kinect.

Inteligência Artificial. Prof. Tiago A. E. Ferreira Aula 21 Projeto de RNA

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Rastreamento de Objetos Baseado em Grafos. Casamento Inexato entre Grafos Relacionais com Atributos

Aula 1 Introdução - RNA

Inteligência Artificial Redes Neurais Artificiais

Rede RBF (Radial Basis Function)

Detecção e Correção Automáticas de Olhos Vermelhos

Redes neurais e sua aplicação em sistemas de recuperação de informação

serotonina (humor) dopamina (Parkinson) serotonina (humor) dopamina (Parkinson) Prozac inibe a recaptação da serotonina

APLICAÇÃO DE REDES NEURAIS ARTIFICIAIS PARA ESTIMAR MATRIZ ORIGEM-DESTINO DE CARGA

RECONHECIMENTO FACIAL UTILIZANDO EIGENFACES

FUNDAÇÃO EDUCACIONAL DE ANDRADINA NOME DO(S) AUTOR(ES) EM ORDEM ALFABÉTICA TÍTULO DO TRABALHO: SUBTÍTULO DO TRABALHO, SE HOUVER

Autor 1 Orientador: 1. dia de mês de ano

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

UM MODELO NEURAL PARA A PREVISÃO DA DEMANDA DE ENERGIA ELÉTRICA NA CIDADE DE FRANCA

ANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA º PERÍODO - 7º MÓDULO AVALIAÇÃO A1 DATA 10/09/2009 ENGENHARIA DE USABILIDADE

Descritores de Imagem

Inteligência Artificial

3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes

Redes Neurais Artificiais. Everton Gago

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Introdução às Redes Neurais Artificiais

ACCURATE IRIS LOCALIZATION USING CONTOUR SEGMENTS

3 Redes Neurais Introdução

Reconhecimento facial. uma aplicação prática do reconhecimento de padrões

Capítulo III Processamento de Imagem

Algoritmos de Aprendizado. CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico. Regra de HEBB.

Avaliação de desempenho de virtualizadores no envio e recebimento de pacotes em sistemas Linux

CUDA: Compute Unified Device Architecture. Marco Antonio Simões Teixeira

UFAM - Engenharia Elétrica

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Unidade 1 Introdução à Análise de Sistemas. Objectivos

Fundamentos das Redes Neurais: exemplos em Java

Nome da disciplina Título do trabalho

Protótipo de um robô rastreador de objetos. Orientando: Emerson de Oliveira Orientador : Miguel Wisintainer

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Inteligência Artificial

Protótipo de um Simulador de um Aspirador de Pó, Utilizando Algoritmo de Busca e Agentes Inteligentes, em Ambientes com Barreiras

PREVISÃO CLIMÁTICA DE PRECIPITAÇÃO USANDO REDE NEURAL

Reconhecimento de Tipos de Movimento Humano baseados no método GMM.

Tabela 4.1 Distribuição dos indicadores por tipo Tipo de Indicador No. de indicadores. Indicadores de Evento 93. Indicadores de Tendência 37

Inteligência Artificial

1 INTRODUÇÃO. As mudanças no cenário político-mundial na última década fizeram. com que o acirramento entre empresas no mercado globalizado aumentasse

INF 1771 Inteligência Artificial

Aprendizagem de Máquina

Detecção Automática de Incompatibilidades Cross-Browser utilizando Redes Neurais Artificiais

CRITÉRIOS DA USABILIDADE Um auxílio à qualidade do software

INF Fundamentos da Computação Gráfica Professor: Marcelo Gattass Aluno: Rogério Pinheiro de Souza

Sistemas de Informação e Decisão. Douglas Farias Cordeiro

Aplicação de Histograma de Gradientes Orientados para detecção de hidrômetros em imagens de fundo complexo

Universidade Regional de Blumenau Centro de Ciências Exatas e Naturais Departamento de Sistemas e Computação

Transformação de Imagens Digitais em Código CNC Aprimoradas com Redes Neurais Artificiais

USO DE JOGOS LÓGICOS APLICADOS A APRENDIZAGEM DE MÁQUINA. 1

4 Cálculo de Equivalentes Dinâmicos

ESTUDO DE ALGORITMO MLP COMO APROXIMADOR DE FUNÇÃO

FACULDADE PITÁGORAS PRONATEC

Pontifícia Universidade Católica do Rio de Janeiro. Departamento de Informática. Fundamentos de Computação Gráfica

Tipos para uma Linguagem de Transformação

2011 Profits Consulting. Inteligência Computacional

Inteligência Artificial. IA Conexionista: Perceptron de Múltiplas Camadas Mapas Auto-Organizáveis. Renan Rosado de Almeida

Sumário. SCC0661 Multimídia e Hipermídia. Ementa do Curso. Ementa do Curso. Programa do Curso. Avaliação

4 Redes Neurais Artificiais RNAs

5 Experimentos Conjunto de Dados

1 INTRODUÇÂO. 1.1.Motivação

Transcrição:

FELIPE SEITI HORIUCHI ESTUDO SOBRE MULTIMODAL DEEP LEARNING LONDRINA PR 2017

FELIPE SEITI HORIUCHI ESTUDO SOBRE MULTIMODAL DEEP LEARNING Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. Orientador: Fábio Sakuray LONDRINA PR 2017

FELIPE SEITI HORIUCHI Estudo Sobre Multimodal Deep Learning/ FELIPE SEITI HORIUCHI. Londrina PR, 2017-42 p. : il. (algumas color.) ; 30 cm. Orientador: Fábio Sakuray Universidade Estadual de Londrina, 2017. 1. Palavra-chave1. 2. Palavra-chave2. I. Orientador. II. Universidade xxx. III. Faculdade de xxx. IV. Título CDU 02:141:005.7

FELIPE SEITI HORIUCHI ESTUDO SOBRE MULTIMODAL DEEP LEARNING Versão Preliminar de Trabalho de Conclusão de Curso apresentado ao curso de Bacharelado em Ciência da Computação da Universidade Estadual de Londrina para obtenção do título de Bacharel em Ciência da Computação. BANCA EXAMINADORA Fábio Sakuray Universidade Estadual de Londrina Orientador Prof. Dr. Segundo Membro da Banca Universidade/Instituição do Segundo Membro da Banca Prof. Dr. Terceiro Membro da Banca Universidade/Instituição do Terceiro Membro da Banca Prof. Ms. Quarto Membro da Banca Universidade/Instituição do Quarto Membro da Banca Londrina PR, 24 de novembro de 2017

Este trabalho é dedicado às crianças adultas que, quando pequenas, sonharam em se tornar cientistas.

AGRADECIMENTOS Os agradecimentos principais são direcionados à Gerald Weber, Miguel Frasson, Leslie H. Watter, Bruno Parente Lima, Flávio de Vasconcellos Corrêa, Otavio Real Salvador, Renato Machnievscz 1 e todos aqueles que contribuíram para que a produção de trabalhos acadêmicos conforme as normas ABNT com L A TEX fosse possível. Agradecimentos especiais são direcionados ao Centro de Pesquisa em Arquitetura da Informação 2 da Universidade de Brasília (CPAI), ao grupo de usuários latex-br 3 e aos novos voluntários do grupo abntex2 4 que contribuíram e que ainda contribuirão para a evolução do abntex2. 1 Os nomes dos integrantes do primeiro projeto abntex foram extraídos de <http://codigolivre.org. br/projects/abntex/> 2 <http://www.cpai.unb.br/> 3 <http://groups.google.com/group/latex-br> 4 <http://groups.google.com/group/abntex2> e <http://abntex2.googlecode.com/>

Não vos amoldeis às estruturas deste mundo, mas transformai-vos pela renovação da mente, a fim de distinguir qual é a vontade de Deus: o que é bom, o que Lhe é agradável, o que é perfeito. (Bíblia Sagrada, Romanos 12, 2)

SOBRENOME, N. A.. Estudo Sobre Multimodal Deep Learning. 42 p. Trabalho de Conclusão de Curso Versão Preliminar (Bacharelado em Ciência da Computação) Universidade Estadual de Londrina, Londrina PR, 2017. RESUMO Devido aos avanços tecnológicos dos últimos anos, machine learning tem ganhado muita importância, tanto na área cientifica, como na área econômica, estando presente no dia a dia de muitos, em smartphones, recomendações de amigos nas redes sociais, reconhecimento facial, buscas na internet e até classificação de gênero de músicas. Tendo em vista isso, este trabalho tem como objetivo abordar uma das técnicas utilizadas em machine learning, multimodal deep learning. Palavras-chave: Latex. Template ABNT-DC-UEL. Editoração de texto.

SOBRENOME, N. A.. Study of Multimodal Deep Learning. 42 p. Final Project Draft Version (Bachelor of Science in Computer Science) State University of Londrina, Londrina PR, 2017. ABSTRACT Due to the technological advances in past years, machine learning has gained a lot of importance in the scientific area and in the economic area, being present in daily life of many, on smartphones, friend requests on social media, face recognition, web searches, even on music genre classification. That said, this work has the objective of approaching one of the techniques used in machine learning, multimodal deep learning. Keywords: Latex. ABNT-DC-UEL. Text editoration.

LISTA DE ILUSTRAÇÕES Figura 1 Representação de um neurônio artificial. (Fonte: http://ataspinar.com/2016/12/22/theperceptron/)................................ 25 Figura 2 Representação de uma arquitetura MLP. 1................ 26 Figura 3 Representação de underfit e overfit. (Fonte: http://www.bogotobogo.com/python/scikitlearn/artificial-neural-network-ann-7-overfitting-regularization.php) 27 Figura 4 Representação de deep learning. (Fonte: https://hackernoon.com/loganalytics-with-deep-learning-and-machine-learning-20a1891ff70e).... 29 Figura 5 Representação de multimodal learning. (Fonte: 2)............ 30

LISTA DE TABELAS

LISTA DE ABREVIATURAS E SIGLAS ABNT BNDES IBGE IBICT NBR Associação Brasileira de Normas Técnicas Banco Nacional de Desenvolvimento Econômico e Social Instituto Nacional de Geografia e Estatística Instituto Brasileiro de Informação em Ciência e Tecnologia Norma Brasileira

SUMÁRIO 1 INTRODUÇÃO............................ 23 2 FUNDAMENTAÇÃO TEÓRICA................. 25 2.1 Rede Neural............................... 25 2.2 Treinamento de Uma Rede Neural................. 26 2.2.1 Fitting................................... 27 2.2.2 Modelos de Treinamento....................... 28 2.2.2.1 Aprendizado Supervisionado...................... 28 2.2.2.2 Aprendizado Não-Supervisionado................... 28 2.2.2.3 Aprendizado Reforçado......................... 28 2.3 Deep Learning.............................. 29 2.4 Multimodal Learning......................... 30 2.5 Deep Convolutional Neural Network................ 30 2.6 Deep Recurrent Neural Network.................. 30 2.7 TensorFlow................................ 30 3 PROCEDIMENTOS METODOLÓGICOS/MÉTODOS E TÉC- NICAS................................. 33 4 CONCLUSÃO............................. 35 REFERÊNCIAS........................... 37 APÊNDICES 39 ANEXOS 41

23 1 INTRODUÇÃO Machine learning ou, aprendizagem de máquina, está por trás de muitos aspectos do cotidiano das pessoas, de simples buscas na internet e filtros de conteúdo nas mídias sociais à recomendações de produtos em sites de venda, e está cada vez mais presente em produtos como câmeras e smartphones. Sistemas de aprendizagem são usados para identificar objetos em imagens, transcrever fala em texto, selecionar notícias, anúncios, ou posts que interessam o usuário e selecionar resultados relevantes de uma pesquisa[3]. As técnicas convencionais de machine learning eram muito limitadas quando se tratava de processamento de dados raw, uma vez que os mesmos eram dados muito abstratos, sem rotulagem definida. Então começaram a enfatizar mais os estudos de representation learning, que é o estudo que verifica quais são as representações que mais facilitam a classificação e extração de dados uteis[4], e, mais recentemente, de deep learning, que é um método de aprendizagem de máquina que utiliza deep neural networks que são redes neurais com muitas camadas de processamento que são capazes de quebrar o conhecimento em pequenas etapas e são capazes de classificar dados a partir das informações obtidas pelas suas camadas. Desde então, pesquisadores procuram formas de melhorar o desempenho dessas redes neurais utilizando deep learning, aplicando funções de controle de eficiência, utilizando GPU s para aumentar a velocidade de treinamento das redes[5] e etc. Multimodal Deep Learning é um dos métodos que os pesquisadores encontraram para tentar melhorar o desempenho destas redes neurais utilizando diferentes modalidades de dados para diminuir a porcentagem de erro na leitura e interpretação de um dado, caso haja algum tipo de ruído no mesmo, e também, aumentar a assertividade da rede, uma vez que se a partir de duas modalidades de dados o resultado for semelhante, a possibilidade do resultado estar certo é maior. Multimodal Deep Learning segue o princípio de que informações no mundo real são transmitidas através de vários canais de entrada. Imagens são associadas a legendas e rótulos, vídeos contem sinais visuais e auditivos, sensores de movimento utilizam informações coletadas a partir do som, do tato, do movimento e da visão. [6] Assim como o cérebro humano capta essas diferentes informações que se complementam entre si para melhor definir as informações recebidas, a ideia de utilizar diferentes formatos de dados para reconhecer e classificar uma entrada pode ser benéfico aos resultados. A aplicação desta ideia pode ser observada em sistemas de reconhecimento de voz, onde se captura o som da voz e o vídeo contendo o movimento dos lábios da pessoa. [7] Outro exemplo de aplicação é a detecção de pedestres, que utiliza imagens em formato de

24 vídeo e o mesmo cenário, porém, utilizando um detector de calor, que pode complementar as informações obtidas caso a captura da imagem esteja muito escura ou tenha muitos ruídos. [8] Essa ideia também pode ser observada em sistemas que medem a distribuição dos raios solares em um ambiente, onde pode utilizado as várias frequências como diferentes entradas para se verificar com mais certeza os locais onde há maior e menor incidência dos raios. [9] O restante do trabalho está organizado da seguinte maneira: o Capítulo 2 contém a uma apresentação de conceitos iniciais sobre redes neurais, deep learning e multimodal learning.

25 2 FUNDAMENTAÇÃO TEÓRICA 2.1 Rede Neural O conceito de redes neurais pode ser definido como um conjunto de algorítmos matemáticos inpirados na funcionalidade biológica dos neurônios. Esta definição foi introduzida por McCulloch e Prits [10], que propôs um modelo matemático para simular as atividades de um neurônio. [11] O neurônio artificial, também chamado na literatura de "Perceptron", proposto por McCulloch funciona da seguinte forma: ao receber um sinal de entrada, podendo ter um ou mais elementos, cada elemento é multiplicado por um peso, que geralmente é representado pela letra "w"na literatura, então o valor calculado é somado e então submetido a uma função de ativação. A figura 1 representa estas ações onde "1, x1, x3 e x4"são entradas que são multiplicadas por um peso "w"e a sua soma é submetida a uma função de ativação "unit step function". Figura 1 Representação de um neurônio artificial. (Fonte: http://ataspinar.com/2016/12/22/the-perceptron/) Os pesos de cada rede neural são definidos pelo autor da rede, sendo que cada um representa o "nível de importância"de cada elemento da entrada e a funçao de ativação, também definida pelo autor, geralmente apresenta um "limiar"que deve ser atingido pela

26 soma calculada para a ativação, ou não do perceptron. Isto pode ser descrito pela seguinte função: f(y) = sum N i=0w ijxi + Bj Onde y é a saída, Wij é o peso W da camada i do neurônio para a entrada j, e Xi é a entrada X. Estes neurônios podem ser agrupados para formar uma rede neural. As diferentes formas de se agrupar os perceptrons são responsáveis por definir a arquitetura da rede neural. [12] [13] A figura 2 apresenta um exemplo de multi-layer-perceptron que é uma arquitetura composta por vários perceptrons organizados em camadas.[14] Figura 2 Representação de uma arquitetura MLP. 1 2.2 Treinamento de Uma Rede Neural Uma das caracteristicas mais importantes de uma rede neural é a capacidade de aprender utilizando exemplos e extrair informações de seu aprendizado, melhorando gradativamente o seu desempenho. As redes neurais geralmente utilizam um algoritmo de aprendizagem que tem como objetivo, ajustar os pesos e os biases dos perceptrons.[15] Estes algoritmos são utilizados para facilitar a definição da taxa de aprendizagem de uma

27 rede neural, uma vez que, caso a taxa escolhida seja muito baixa, a rede demorará muito para ser treinada e ela tem mais chances de ficar "presa"em um máximo, ou mínimo local, o que a impediria de obter o seu desempenho máximo. Porém, caso a taxa escolhida seja muito alta, a rede neural pode não conseguir convergir para um único ponto de melhor desempenho e ficará instável. 2.2.1 Fitting Um dos problemas que as redes neurais possuem é a ausencia de um "ponto fixo ideal"de treino, ou seja, cada rede tem um certo grau ideal para que ela seja treinada. Caso este ponto não seja estabelecido corretamente pode levar a rede a apresentar problemas como "overfitting"e "underfitting". Overfitting é o problema que se da quando uma rede neural é muito específica para um certo grupo de dados, isso pode prejudicá-la caso o problema a ser resolvido, ou classificado, por ela tenha um grande número de variáveis. Já o contrário, underfitting acontece quando a rede neural é muito geral, fazendo com que ela passe a aceitar mais dados do que o esperado. Ambos os problemas podem levar a uma rede neural sem precisão, o que a deixaria inutilizável em casos de problemas reais. Figura 3 Representação de underfit e overfit. (Fonte: http://www.bogotobogo.com/python/scikit-learn/artificial-neural-network- ANN-7-Overfitting-Regularization.php) Para solucionar estes problemas, foram estudadas algumas técnicas que podem ser utilizadas para reduzir a ocorrência deles. Uma delas é a "Dropout", que consiste em selectionar alguns perceptrons da camada de processamento (hidden layer) e bloquear a sua saída de dados para os perceptros de output fazendo assim com que eles não sejam avaliados nos algoritmos de aprendizagem, então, após um tempo, desbloqueiar a saídas dos perceptrons bloqueados e bloquear outros neurônios. Isso faz com que a rede neural se torne mais geral, não dependendo apenas de um conjunto de neurônios para tomar certas decisões, mas sim da decisão de vários conjuntos.[16] [17]

28 Outra solução é "Early Stopping", que consiste em separar o conjunto de teste em tres conjuntos, um para o treinamento, um para validação e outro com a função de representar casos reais de aplicação da rede. Outra parte importante deste método é constantemente avaliar os resultados de cada fase do treinamento de uma rede e parar o treinamento antes que a rede neural se torne "overfit". Essa técnica não permite que a rede neural fique muito específica para o conjunto de teste, a ponto de começar a prejudicar os resultados dela para casos de aplicação real.[18] [19] 2.2.2 Modelos de Treinamento Existem diferentes modelos de treinamento para uma dada rede neural, que correspondem ao modo que os dados de entrada são estruturados, fornecidos à rede e analisados por ela. 2.2.2.1 Aprendizado Supervisionado No aprendizado supervisionado é oferecido à rede um conjunto de dados que possuem, basicamente, dois parâmetros uma entrada e a saída esperada por aquela entrada e a função do algoritmo é determinar uma função que dado tal entrada, teria o resultado esperado. Portanto, é necessário ter um conhecimento prévio do comportamento que se deseja, ou se espera da rede. Para cada entrada, deve-se indicar explicitamente à rede neural se a resposta calculada é boa ou ruim, então o erro entre as respostas, esperadas e obtidas, é calculado e de acordo com ele são feitos ajustes para aumentar o desempenho em futuros testes.[15] [3] 2.2.2.2 Aprendizado Não-Supervisionado No aprendizado não-supervisionado, o algoritmo analisa os dados de exemplos fornecidos e tenta determinar se alguns deles podem ser agrupados de alguma maneira, formando agrupamentos ou clusters. Então, após determinar os clusters de dados, os mesmos precisam ser rotulados de acordo com o contexto do problema analisado.[20] O aprendizado não-supervisionado é uma ferramenta muito poderosa para o treinamento de redes neurais, pois com ele é possível utilizar grandes conjuntos de dados para o processo, uma vez que os dados não precisam ser rotulados, porém, geralmente o aprendizado não-supervisionado é utilizado em conjunto com o aprendizado supervisionado que é utilizado em pequenos intervalos para ter uma melhor definição das funções de clusterização de acordo com o problema tratado. 2.2.2.3 Aprendizado Reforçado O aprendizado reforçado se assemelha um pouco ao aprendizado supervisionado em vista que os dados fornecidos para o trainamento precisam ter uma entrada e uma

29 saída esperada, porém, a diferença é que ao invés de procurar uma função que leva ao resultado, o aprendizado reforçado é feito dividido em "passos"e em cada passo é verificado "qual o melhor passo a se dar", de acordo, apenas, com o estado atual e baseando-se na ação tomada, a rede neural recebe um estimulo positivo ou negativo dependendo das consequências. Geralmente utilizado em robótica e jogos, onde é possível e tem mais facilidade de dividir as ações em etapas. 2.3 Deep Learning Deep Learning, ou Aprendizagem Profunda, é um conceito que começou a se desenvolver desde a década de 80, porém não era muito utilizada, pois possuia vários problemas como a dificuldade de se programar e também o seu desempenho era pior do que as redes neurais mais simples que existiam devido a um problema chamado "Vanishing Gradient". Foi apenas na década de 90 que o Deep Learning começou a ser mais utilizado, pois permitia o uso do aprendizado não supervisionado e também teve vários avanços na área de aprendizado supervisionado. Enfim, atualmente, Deep Learning está sendo aplicado em várias áreas de conhecimento, alcançando o primeiro resultado "super-humano"na área de reconhecimento de padrões visuais, ou seja, o resultado obtido pela rede neural obteve melhores resultados do que uma pessoa real. [21] Deep Learning é o termo que se usa para classificar redes neurais que possuem várias camadas ocultas de processamento. Estas camadas permitem que o dado analisado seja dividido em várias partes, formando uma hierarquia de conhecimento, onde as camadas iniciais são responsáveis pela detecção de características mais gerais do dado e então as proximas camadas vão especificando cada vez mais as características analisadas. Por exemplo: Em uma rede neural que tem como objetivo detectar rostos de pessoas em imagens, as camadas iniciais são responsáveis por analisar os cantos do rosto, dando a sua forma, então as camadas finais verificariam a presença e a cor dos olhos, dentes, etc.[3] Figura 4 Representação de deep learning. (Fonte: https://hackernoon.com/loganalytics-with-deep-learning-and-machine-learning-20a1891ff70e)

30 2.4 Multimodal Learning Multimodal Learning é o conceito utilizado para denominar redes neurais que utilizam de mais de uma "modality", ou modalidade, para analisar os dados. Uma modalidade pode ser definida como qualquer tipo de representação de um dado, podendo ser texto, audio, imagem, etc. [22] [6] [23] A aprendizagem multimodal é feita com a analise separada dos dados, em diferentes redes neurais, então seus resultados são comparados juntos para obter um resultado, como representado na figura 5. Figura 5 Representação de multimodal learning. (Fonte: 2) 2.5 Deep Convolutional Neural Network 2.6 Deep Recurrent Neural Network 2.7 TensorFlow TensorFlow é uma interface para expressão e execução de algoritmos de aprendizado de máquina. Ela foi criada para ser a sucessora da DistBelief que foi a ferramenta para treinamento de redes neurais utilizada pelo Google até 2011. [24]

31 Uma aplicação TensorFlow pode ser descrita como uma estrutura de gráfo direcionado composta por nós. O gráfo representa o fluxo dos dados que possuem extensões que permitem que os nós mantenham e atualizem seu estado, o que é utilizado para criação de "loops". [24]

33 3 PROCEDIMENTOS METODOLÓGICOS/MÉTODOS E TÉCNICAS Para a realização do trabalho será programado uma rede neural aplicando os conceitos de Multimodal Deep Learning, combinando uma rede neural convolucional com apois de uma rede recorrente que fará analise de dado em formato de vídeo e uma rede neural recorrente que fará a leitura de dados em formato de audio, no contexto de reconhecimento de voz utilizando o framework TensorFlow e então os resultados serão comparados aos resultados de outras redes neurais e estudados.

4 CONCLUSÃO 35

37 REFERÊNCIAS [1] AZZOUZ, N.; BECHIKH, S.; SAID, L. B. Steady state ibea assisted by mlp neural networks for expensive multi-objective optimization problems. In: ACM. Proceedings of the 2014 Annual Conference on Genetic and Evolutionary Computation. [S.l.], 2014. p. 581 588. [2] EITEL, A. et al. Multimodal deep learning for robust rgb-d object recognition. In: IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS). Hamburg, Germany: [s.n.], 2015. Disponível em: <http://ais.informatik.uni-freiburg. de/publications/papers/eitel15iros.pdf>. [3] LECUN, Y.; BENGIO, Y.; HINTON, G. Deep learning. Nature, Nature Research, v. 521, n. 7553, p. 436 444, 2015. [4] BENGIO, Y.; COURVILLE, A.; VINCENT, P. Representation learning: A review and new perspectives. IEEE transactions on pattern analysis and machine intelligence, IEEE, v. 35, n. 8, p. 1798 1828, 2013. [5] CHEN, X.-W.; LIN, X. Big data deep learning: challenges and perspectives. IEEE access, Ieee, v. 2, p. 514 525, 2014. [6] SRIVASTAVA, N.; SALAKHUTDINOV, R. R. Multimodal learning with deep boltzmann machines. In: Advances in neural information processing systems. [S.l.: s.n.], 2012. p. 2222 2230. [7] HOU, J.-C. et al. Audio-visual speech enhancement based on multimodal deep convolutional neural network. arxiv preprint arxiv:1703.10893, 2017. [8] XU, D. et al. Learning cross-modal deep representations for robust pedestrian detection. arxiv preprint arxiv:1704.02431, 2017. [9] MA, L. et al. Multimodal deep learning for solar radio burst classification. Pattern Recognition, Elsevier, v. 61, p. 573 582, 2017. [10] MCCULLOCH, W. S.; PITTS, W. A logical calculus of the ideas immanent in nervous activity. The bulletin of mathematical biophysics, Springer, v. 5, n. 4, p. 115 133, 1943. [11] CARDOSO, J. B. et al. Structural reliability analysis using monte carlo simulation and neural networks. Advances in Engineering Software, Elsevier, v. 39, n. 6, p. 505 513, 2008. [12] RUMELHART, D. E.; HINTON, G. E.; WILLIAMS, R. J. Learning internal representations by error propagation. [S.l.], 1985. [13] ROSENBLATT, F. The perceptron: A probabilistic model for information storage and organization in the brain. Psychological review, American Psychological Association, v. 65, n. 6, p. 386, 1958.

38 [14] GARDNER, M. W.; DORLING, S. Artificial neural networks (the multilayer perceptron) a review of applications in the atmospheric sciences. Atmospheric environment, Elsevier, v. 32, n. 14, p. 2627 2636, 1998. [15] FERNEDA, E. Redes neurais e sua aplicação em sistemas de recuperação de informação. Ciência da Informação, SciELO Brasil, v. 35, n. 1, 2006. [16] SRIVASTAVA, N. et al. Dropout: a simple way to prevent neural networks from overfitting. Journal of machine learning research, v. 15, n. 1, p. 1929 1958, 2014. [17] KRIZHEVSKY, A.; SUTSKEVER, I.; HINTON, G. E. Imagenet classification with deep convolutional neural networks. In: Advances in neural information processing systems. [S.l.: s.n.], 2012. p. 1097 1105. [18] DOAN, C. D.; LIONG, S.-y. Generalization for multilayer neural network bayesian regularization or early stopping. In: Proceedings of Asia Pacific Association of Hydrology and Water Resources 2nd Conference. [S.l.: s.n.], 2004. p. 5 8. [19] CARUANA, R.; LAWRENCE, S.; GILES, C. L. Overfitting in neural nets: Backpropagation, conjugate gradient, and early stopping. In: Advances in neural information processing systems. [S.l.: s.n.], 2001. p. 402 408. [20] MONARD, M. C.; BARANAUSKAS, J. A. Conceitos sobre aprendizado de máquina. Sistemas Inteligentes-Fundamentos e Aplicações, v. 1, n. 1, 2003. [21] SCHMIDHUBER, J. Deep learning in neural networks: An overview. Neural networks, Elsevier, v. 61, p. 85 117, 2015. [22] NGIAM, J. et al. Multimodal deep learning. In: Proceedings of the 28th international conference on machine learning (ICML-11). [S.l.: s.n.], 2011. p. 689 696. [23] GU, Y. et al. Speech intention classification with multimodal deep learning. In: SPRINGER. Canadian Conference on Artificial Intelligence. [S.l.], 2017. p. 260 271. [24] ABADI, M. et al. Tensorflow: A system for large-scale machine learning. In: OSDI. [S.l.: s.n.], 2016. v. 16, p. 265 283.

Apêndices

Anexos