Paradigmas de Aprendizagem

Documentos relacionados
3 Redes Neurais Artificiais

Aprendizado de Máquina

Aprendizado de Máquina

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Redes Neurais: RBF. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

Aprendizado de Máquina

Rede RBF (Radial Basis Function)

Aprendizado de Máquina (Machine Learning)

REDES NEURAIS ARTIFICIAIS

Redes Neurais: MLP. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

Redes Neurais e Sistemas Fuzzy

Mapas Auto-Organizáveis de Kohonen SOM

Inteligência Artificial Redes Neurais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Redes Neurais não Supervisionadas: SOM

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Mapas Auto-Organizáveis de Kohonen SOM

Inteligência Artificial. IA Conexionista: Perceptron de Múltiplas Camadas Mapas Auto-Organizáveis. Renan Rosado de Almeida

2. Redes Neurais Artificiais

Primeiras Redes Neurais Artificiais: Perceptron e Adaline

Perceptron de Múltiplas Camadas e Backpropagation

2. Redes Neurais Artificiais

serotonina (humor) dopamina (Parkinson) serotonina (humor) dopamina (Parkinson) Prozac inibe a recaptação da serotonina

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

INTELIGÊNCIA ARTIFICIAL

Redes Neurais Artificial. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto

A evolução natural deu ao cérebro humano muitas características desejáveis que não estão presentes na máquina de von Neumann:

Aula 7 RNA Redes Auto-Organizáveis de Kohonen

TÓPICOS EM INTELIGÊNCIA ARTIFICIAL Redes Neurais Artificiais

Redes Neurais Artificiais

3 Aprendizado por reforço

Redes Neurais MLP: Exemplos e Características

Rede Perceptron. Capítulo 3

Classificação Linear. André Tavares da Silva.

Resolução da Prova 1 SCC Redes Neurais 2o. Semestre de Prof. João Luís

Redes Neurais Artificiais

Introdução às Redes Neurais Artificiais

Redes Neurais Artificiais

Introdução à Redes Neurais. Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana

Algoritmos de Aprendizado. CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico. Regra de HEBB.

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Introdução a Redes Neurais Artificiais com a biblioteca Encog em Java

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Redes Neurais Artificiais

Aprendizado de Máquina

Inteligência Computacional

Inteligência Artificial. Prof. Tiago A. E. Ferreira Aula 21 Projeto de RNA

Regra de Oja. Para taxa de aprendizagem pequena, Oja aproximou. pesos para criar uma forma útil da aprendizagem

Por que Redes Neurais?

Aprendizado de Máquina (Machine Learning)

2. Redes Neurais Artificiais

Redes Neurais Artificiais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Redes Neurais (Inteligência Artificial)

Neurocomputação Parte 2

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Aprendizado de Máquina Introdução às Redes Neurais Artificiais

Aprendizagem de Máquinas

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

Inteligência Artificial Redes Neurais Artificiais

Redes Neurais Artificiais

Sistema de Inferência Fuzzy baseado em Redes Adaptativas (ANFIS) Sistema de Inferência Fuzzy

Introdução às Redes Neurais Artificiais

3 Modelos Comparativos: Teoria e Metodologia

Redes Neurais e Sistemas Fuzzy

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação

2. Redes Neurais Artificiais

Redes Neurais Artificiais Sistemas Inteligentes Especialização em Automação Industrial SISTEMAS INTELIGENTES PROFESSOR FLÁVIO MURILO

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

3 REDES CLÁSSICAS PERCEPTRON E ADALINE

Transcrição:

Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Paradigmas de Aprendizagem Redes Neurais Artificiais Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com

Paradigmas de Aprendizagem Representação do Conhecimento. Paradigmas de Aprendizagem. Processos de Aprendizagem. 2

Representação do Conhecimento Definição genérica de conhecimento: Conhecimento se refere à informação armazenada ou a modelos utilizados por uma pessoa ou máquina para interpretar, prever e responder apropriadamente ao mundo exterior (citação de Fischler e Firschein, 1987, em Haykin, 1999). Principais características da representação do conhecimento: Quais informações realmente são expostas; Como a informação realmente é codificada de forma física para ser utilizada posteriormente. Assim, podemos ver que a representação do conhecimento é direcionada a um bom objetivo. Entretanto, escolher os parâmetros corretos de uma RNA para o aprendizado dos dados reais costuma ser complicada devido a diversidade de escolhas existentes: Isso transforma a construção (design) de uma RNA em um desafio. 3

Representação do Conhecimento A RNA deve: Aprender um modelo do mundo (ambiente de trabalho); Manter um modelo consistente com o mundo real, de forma a atingir os objetivos de interesse de onde está sendo aplicada. O conhecimento do mundo consiste em dois tipos de informação: Pelo estado conhecido do mundo, representado pelos fatos que dizem o que é pelo que se conhece (informação prévia); Pelas observações do mundo, geradas por medidas provenientes de sensores ou cálculos. São sobre essas medidas que a RNA trabalhará e produzirá resultados. Essas observações formam exemplos que serão fornecidos à RNA. 4

Representação do Conhecimento Os exemplos podem ser: Com rótulos: Para cada padrão de entrada existe uma resposta desejada já conhecida e agregada aos exemplos; Sem rótulos: Onde os padrões de entrada possuem diferentes percepções (características) do ambiente por si só que devem ser agrupadas (clustering) pela RNA. De qualquer forma, quaisquer exemplos apresentam o conhecimento do ambiente para a RNA. Um conjunto de exemplos, consistindo de entrada e saída (com rótulos) ou somente de entradas (sem rótulos), são chamados de: Conjunto de dados de treinamento; ou Amostra de treinamento; ou Padrões de treinamento. 5

Representação do Conhecimento Considere o problema de reconhecer um dígito manuscrito (digitalizado para uma imagem de 10 pixeis): Uma arquitetura da RNA deve ser criada: Possuindo 10 neurônios de entrada, um para cada pixel; Possuindo uma camada oculta com H neurônios; Possuindo C saídas para a classificação desejada. A RNA deve receber um subconjunto de treino e deve ser treinada por um algoritmo apropriado: Fase chamada de Aprendizagem. Deve-se então testar o reconhecimento da rede treinada: Isso é feito comparando-se a saída da RNA com a saída desejada Essa fase é chamada de Generalização, um termo da psicologia. Os exemplos podem ser tanto positivos quanto negativos. Os exemplos devem ser estandardizados (standadization). 6

Representação do Conhecimento Em uma Rede Neural Artificial, A representação do conhecimento do meio ambiente é definida pelos valores dos parâmetros livres da rede. Parâmetros Livres: Pesos sinápticos; Bias. O design (arquitetura, formação, distribuição dos neurônios e sinapses) da RNA constituem a forma de representação desses parâmetros livres. Essa é a chave do desempenho das RNAs. Porém, a representação do conhecimento dentro da RNA é realmente complicada e existem somente quatro regras básicas para sua criação/desenvolvimento. 7

Representação do Conhecimento Regra 1: Entradas similares de classes similares normalmente devem produzir representações similares no interior da RNA. Portanto devem ser classificadas como pertencentes à mesma categoria. Classificação de Entradas similares: Distância euclidiana; Tamanho da projeção de xi em x j ; Distância de Mahalanobis: distância euclidiana entre xi e sua média. 8

Representação do Conhecimento Regra 2: Devem ser atribuídas representações bem diferentes na rede a itens que devem ser categorizados como classes separadas; Contrário da regra 1. Regra 3: Se uma característica particular é importante, então deve haver um grande número de neurônios envolvidos na representação daquele item na RNA. Deve haver um grande número de neurônios envolvidos na tomada de decisão para uma saída correta; Também deve haver um grande número de neurônios envolvidos na tomada de decisão quando existem perturbações; A probabilidade de resposta correta deve ser maior que a probabilidade de alarmes falsos (falso positivos). 9

Representação do Conhecimento Regra 4: Informação prévia e variâncias devem ser incorporadas no projeto de uma rede neural, Simplificando com isso o projeto da rede por não ter que aprendê-las. Isso gera uma rede especializada. É desejável, pois: As Redes Neurais Biológicas visuais e auditivas são muito especializadas; Uma RNA especializada possui um número menor de parâmetros livres para serem ajustados. Assim, aprende mais rápido e generaliza melhor; A taxa de transmissão é mais rápida; O custo de construção da RNA é reduzido. 10

Representação do Conhecimento Incorporação de informação prévia no projeto da RNA: Infelizmente não há regras para fazer isso; Mas há alguns métodos que produzem resultados úteis (técnicas de LeCun et al., 1990a, citadas em Haykin, 1999). v 1 v 2 v 3 v 4 campo receptivo I. Restringir a arquitetura da rede utilizando conexões locais conhecidas como campos receptivos; II. Restringir a escolha de pesos sinápticos com a utilização do compartilhamento de peso. 6 v j = i=1 Rede Convolutiva w i x i+ j 1, j=1,2,3, 4 11

Representação do Conhecimento Incorporação de invariâncias no projeto da RNA: Invariância por Estrutura: Incluir características nos pesos, como a replicação do mesmo valor de peso. Ex.: w ji = w jk para todos os pixeis com distância igual ao centro da imagem, fazendo com que a RNA seja invariante a rotações do plano. Invariância por Treinamento: Apresentar um número de exemplos diferentes para o mesmo objeto. Os exemplos devem ser escolhidos para corresponder a diferentes transformações do objeto. Invariância do Espaço de Características: Inicialmente, utilizar métodos para extrair características que caracterizem o conteúdo essencial e que sejam invariantes às entradas. Após isso, fornecer essas características à RNA, aliviando assim seu processamento/transformações. 12

Paradigmas de Aprendizagem Aprendizagem Supervisionada. Aprendizagem Não-Supervisionada. 13

Aprendizagem supervisionada Também pode ser chamada de aprendizagem com um professor. Podemos considerar que o professor conhece o ambiente. Assim, o conhecimento é representado por um conjunto de exemplos com entrada e saída desejada. Como a RNA não conhece o ambiente, ela terá que aprender com os exemplos fornecidos. Se um novo padrão for apresentado: O professor saberá responder corretamente; Porém, a RNA responderá baseando-se somente no que aprendeu com os exemplos. A resposta do professor é a resposta desejada e representa a ação ótima da RNA. 14

Aprendizagem supervisionada Os parâmetros da RNA são ajustados sob influência: Do vetor de exemplos; Do Sinal de Erro da rede. Sinal de Erro: Diferença entre a resposta desejada e a resposta real da RNA. O ajuste dos parâmetros da RNA é realizado de forma iterativa ou determinística: O objetivo é emular o professor; Assim, o conhecimento do ambiente que está nos exemplos é transferido para a RNA; Quando esta condição é alcançada, pode-se dispensar o professor, pois a RNA pode lidar com o ambiente por si mesma. 15

Aprendizagem supervisionada Métodos determinísticos: Para sistemas lineares; Exemplos: Mínimos Quadrados; ou Utilização da Pseudo Inversa. Métodos iterativos: Atuam sobre a correção de erro; Exemplos: Regra de Delta; Descida do gradiente. 16

Aprendizagem supervisionada Para a medida de desempenho do sistema, pode-se utilizar: Erro médio quadrático; Soma dos erros quadrados. Cada uma pode ser definida como função dos parâmetros livres do sistema. Essa função pode ser visualizada como: Superfície multidimensional de desempenho de erro; ou como Superfície de erro. A verdadeira superfície de erro é obtida pela média sobre todos os exemplos possíveis de entrada e saída. 17

Aprendizagem supervisionada Cada operação realizada pelo professor é indicada como uma posição na superfície de erro. Para que o sistema melhore o desempenho, ele deve seguir o contrário do gradiente ou a estimativa instantânea, buscando assim o mínimo. O problema é encontrar mínimos locais ao invés de mínimos globais. 18

Aprendizagem supervisionada Divisão do conjunto de dados de entrada: DADOS 70% 15% 15% TREINO TESTES W = parâmetros VALIDAÇÃO Usar somente após λ = hiperparâmetros terminar o treino. TREINAMENTO Testar o modelo W, λ W final, λ final Realizar o Teste final. Obter/Determinar: W e λ Obter: % Erro Obter: Desempenho da RNA % Erro 19

Aprendizagem supervisionada Estandardização dos dados (standadization): Se não fizer, a RNA pode não aprender; Isso ficará mais claro ao trabalharmos com a descida do gradiente. Com os padrões de entrada, obtenha: μ = média (função mean do Octave); σ = desvio padrão (função std do Octave). Faça sobre todo o conjunto de treinamento X: X= X μ σ Isso uniformizará os dados de entrada para que todos tenham uma variância única. 20

Revisão: variância? Variância: Média da diferença quadrática entre X e sua média. Símbolo: σ² Variância de uma população com N elementos: Onde: μ: média; N σ 2 i=1 = (x i μ) 2 (xi μ): distância de x i até a média; A variância de uma amostra é obtida por: N = N i=1 Octave: var(x i μ, 1); e var(x i μ); N x i 2 μ2 s 2 = N i=1 (x i μ) 2 N 1 21

Revisão: desvio padrão? Desvio padrão: Mede quão espalhados os dados de um conjunto estão. É simplesmente a raiz da variância: σ= σ 2 Na função gaussiana: 22

Aprendizagem Não Supervisionada Também pode ser chamada de aprendizagem sem um professor. Assim, o conhecimento é representado por um conjunto de exemplos somente com as entradas. O objetivo da aprendizagem não supervisionada é descobrir estruturas entre os dados, fazendo uma aglomeração (clusters). Ela deve trabalhar sobre uma medida fornecida para se ajustar as regularidades estatísticas dos dados de entrada. Formas de aprender sem supervisão: Utilização da regra de Hebb; e Aprendizagem competitiva. 23