Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

Documentos relacionados
Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

Algoritmos de Aprendizado. CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico. Regra de HEBB.

PERCEPTRON. Características Básicas Modelo de Neurônio Estrutura da Rede Algoritmo de Aprendizado

Variações do BP. Variações do BP. Variações do BP. Taxa de Aprendizado Adaptativa. Taxa de Aprendizado Adaptativa

Algoritmos de Aprendizado

Considerações de Desempenho

Back Propagation. Dicas para o BP

Redes Neurais Artificiais. Sistemas de Informação/Ciências da Computação UNISUL Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 9)

Redes Neurais Artificiais

Teorema de Aprox. Universal. Teorema de Aprox. Universal. Teorema de Aprox. Universal. Teorema de Aprox. Universal. Teorema de Aprox.

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

3 Redes Neurais Artificiais

Inteligência Artificial Redes Neurais

Redes Neurais e Sistemas Fuzzy

4 Redes Neurais Artificiais

Redes Neurais. Prof. Aurora Pozo. Obs: slides baseados em Prof. Marcílio Souto e Prof. Marley Vellasco

Resolução da Prova 1 SCC Redes Neurais 2o. Semestre de Prof. João Luís

INF 1771 Inteligência Artificial

Primeiras Redes Neurais Artificiais: Perceptron e Adaline

Redes Neurais MLP: Exemplos e Características

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

GT-JeDi - Curso de Desenv. de Jogos IA para Jogos

Introdução às Redes Neurais Artificiais

Redes Neurais Artificiais - Introdução. Visão Computacional

JAI 6 - Deep Learning Teoria e Prática

Reconhecimento de Padrões/Objetos

Redes Neurais Artificial

Aprendizado de Máquinas. Multi-Layer Perceptron (MLP)

5HGHV1HXUDLV$UWLILFLDLV

Sistemas Inteligentes - Redes Neurais -

3 REDES CLÁSSICAS PERCEPTRON E ADALINE

Rede RBF (Radial Basis Function)

3 Redes Neurais Introdução

REDES NEURAIS. Marley Maria B.R. Vellasco. ICA: Núcleo de Pesquisa em Inteligência Computacional Aplicada CONTEÚDO

Fundamentos de Inteligência Artificial [5COP099]

Aprendizagem de Máquina

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

TÓPICOS EM INTELIGÊNCIA ARTIFICIAL Redes Neurais Artificiais

3 INTELIGÊNCIA COMPUTACIONAL (IC)

INTELIGÊNCIA ARTIFICIAL

Profa. Josiane M. Pinheiro outubro/2008

Redes Neurais Artificiais

Regra de Oja. Para taxa de aprendizagem pequena, Oja aproximou. pesos para criar uma forma útil da aprendizagem

Motivação, Objetivo, Definição, Características Básicas e Histórico. Neurônio Artificial, Modos de Interconexão

2. Redes Neurais Artificiais

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

2. Redes Neurais Artificiais

Redes Neurais e Sistemas Fuzzy

2. Redes Neurais Artificiais

Paradigmas de Aprendizagem

serotonina (humor) dopamina (Parkinson) serotonina (humor) dopamina (Parkinson) Prozac inibe a recaptação da serotonina

Processamento de Imagens CPS755

Aprendizado de Máquina (Machine Learning)

Classificação Linear. André Tavares da Silva.

Introdução à Teoria do Aprendizado

Redes Neurais Artificiais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Redes Neurais: MLP. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

Introdução às Redes Neurais Artificiais

APRENDIZADO EM MODELOS CONEXIONISTAS

Redes Neurais Artificiais (RNA)

p TPP = (6.1) e a rajada de perda de pacote é medida pela Comprimento Médio da Rajada (CMR ) que é dada por

Redes Neurais Artificiais

Multiple Layer Perceptron

UNIVERSIDADE FEDERAL DE LAVRAS DEPARTAMENTO DE CIÊNCIAS EXATAS (DEX) Estudo de Algoritmos de Aprendizado em Redes Neurais Artificiais

lnteligência Artificial Introdução a Redes Neurais Artificiais

Aprendizagem de Máquina. Redes Neurais Artificiais (RNAs)

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

SCC Capítulo 4 Perceptron de Camada Única

Redes Neurais Artificial. Prática. Inteligência Artificial

Mini-projeto: Reconhecimento de Digitos com MLPs. Germano C. Vasconcelos Centro de Informática - UFPE

O Algoritmo de Treinamento: Máquina de Aprendizado Extremo (Extreme Learning Machine - ELM)

Aprendizagem de Máquina

SCC Capítulo 5 Perceptron Multicamadas

Redes neurais artificiais

3 Modelos Comparativos: Teoria e Metodologia

Redes Neurais Artificial. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto

Redes Competitivas e de Kohonen

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

Modelo de Hopfield. Modelo de Hopfield. Modelo de Hopfield. Modelo de Hopfield. Redes Neurais Auto-organizáveis Modelo de Hopfield

Introdução à Redes Neurais. Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana

Aprendizagem por treinamento de redes de aproximação

Introdução a Redes Neurais Artificiais com a biblioteca Encog em Java

SCE REDES NEURAIS Redes Neurais Multi-Camadas Parte 2

Inteligência Artificial. IA Conexionista: Perceptron de Múltiplas Camadas Mapas Auto-Organizáveis. Renan Rosado de Almeida

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Introdução às Redes Neurais Artificiais

RECONHECIMENTO DE GÊNERO ATRAVÉS DA VOZ

Aprendizagem de Máquina

A evolução natural deu ao cérebro humano muitas características desejáveis que não estão presentes na máquina de von Neumann:

Transcrição:

Algoritmos de Aprendizado Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function Formas de Aprendizado Existe dois métodos básicos de aplicação do algoritmo Back Propagation: Aprendizado em Batch ( Batch Learning, por ciclo, etc) Aprendizado Incremental ( on-line, pattern-mode, por padrão, etc) 1

Aprendizado Batch x Incremental Aprendizado em Batch (por ciclo) Somente ajusta os pesos após a apresentação de TODOS os padrões Cada padrão é avaliado com a MESMA configuração de pesos obtém-se os termos derivativos δe p /δw e depois obtém-se a soma total do algoritmo: E E p = w w p cálculo correto do gradiente. Aprendizado Batch x Incremental Aprendizado em Batch (por ciclo) Melhor aproximação do verdadeiro gradiente descendente 2

Aprendizado Incremental Aprendizado Incremental (por padrão) Atualiza os pesos a cada apresentação de um novo padrão os pesos são atualizados usando o gradiente do erro de um único padrão não é mais uma aproximação simples do gradiente descendente mais atualizações ocorrem em um mesmo período de tempo tende a aprender melhor o último padrão apresentado sequência aleatória Aprendizado Incremental Verdadeiro gradiente x Gradiente de um padrão O gradiente de um único padrão pode ser visto como uma estimativa ruidosa do verdadeiro gradiente; Ele pode ter proj eções negativas sobre o verdadeiro gradiente; Na média, ele se move downhill ; Quando η << 1, os dois métodos se aproximam. 3

Aprendizado Incremental Aprendizado Incremental Na apresentação randômica dos padrões, a descida não é mais suave; Na média diminui o erro mas pode, eventualmente, aumentá-lo; No final do treinamento η deve ser pequeno para evitar oscilações. Batch X Incremental O modo Batch necessita de menos atualizações de pesos Tende a ser mais rápido Batch fornece uma medida mais precisa da mudança necessária dos pesos Batch necessita de mais memória Incremental tem menos chance de ficar preso em um mínimo local devido à apresentação aleatória dos padrões natureza estocástica stica de busca no espaço de pesos Tende a ser mais rápido se o conjunto de treinamento for grande e ruidoso. A eficiência dos dois métodos depende do problema em questão 4

Avaliação do Algoritmo Apesar do grande sucesso do Back Propagation, existem alguns problemas: definição do tamanho da rede; problema de paralisia da Rede Neural; problema de ficar preso em um mínimo local. Tamanho da Rede Neural Define o número de camadas escondidas e o número de processadores em cada uma dessas camadas. Compromisso entre Convergência e Generalização. Também conhecido como bias and variance dilemma. 5

Convergência É a capacidade da Rede Neural de aprender todos os padrões do conjunto de treinamento. Se a rede neural for pequena, não será capaz de armazenar todos os padrões necessários. Isto é, a rede não deve ser rígida a ponto de não modelar fielmente os dados. Generalização Se a rede for muito grande (muitos parâmetros = pesos), não responderá corretamente aos padrões nunca vistos. Isto é, a rede não deve ser excessivamente flexível a ponto de modelar também o ruído 6

Generalização Se a rede for muito grande (muitos parâmetros = pesos), não responderá corretamente aos padrões nunca vistos. Isto é, a rede não deve ser excessivamente flexível a ponto de modelar também o ruído f(x) generalização Mapeamento Suave x 1 x 2 x 3 x novo x 4 x 5 x i pontos do conjunt o de treinament o x novo novo pont o para generalizaç ão x Generalização Se a rede for muito grande (muitos parâmetros = pesos), não responderá corretamente aos padrões nunca vistos. Isto é, a rede não deve ser excessivamente flexível a ponto de modelar também o ruído f(x) generalizações Rede com muitos parâmetros Boa interpolação x 1 x 2 x 3 x novo x 4 x 5 x i pontos do conjunt o de treinament o x novo novo ponto para generalização x 7

Generalização Influenciada por três fatores: tamanho e eficiência do conjunto de treinamento; arquitetura da rede (número de processadores); complexidade do problema. Não se tem controle Duas formas de atacar o problema: arquitetura fixa e deve-se achar o tamanho do conjunto de treinamento tamanho do conjunto de treinamento é fixo e deve-se achar a melhor arquitetura da Rede Neural Métricas: Generalização Usou Kolmogorov Theorem: qualquer função de n variáveis Hecht-Nielsen pode ser representada por 2n+1 funções de uma variável número de PEs na camada escondida N hidden 2N in + 1 número de entradas 8

Generalização Métricas: Upadhyaya & Eryurek número de pesos O número de parâmetros necessários para codificar P padrões binários é log 2 P W N in. log 2 P número de entradas número de padrões Generalização Métricas: Baum-Haussler número de padrões N w ε número de sinapses 0 < ε 1/8 Erro desejado no teste (erro trein = ε /2) (generalização x precisão) N hidden = w N in + N out 9

Generalização Métricas: número de padrões Erro desejado no teste Baum-Haussler N Nhidden N ε test N in + N output número de PEs na camada escondida número de entradas número de PEs na camada de saída GENERALIZAÇÃO Resumo sobre número de Processadores Escondidos Nunca escolha h > 2i; Pode-se armazenar p padrões de i elementos em i log 2 p processadores escondidos nunca utilize mais do que esse limite para uma boa generalização utilize um número consideravelmente menor Assegure-se que se tem pelo menos 1/ε vezes mais padrões do que w Número de pesos = 10 x número de padrões 10

GENERALIZAÇÃO Resumo sobre número de Processadores Escondidos Feature Extraction requer menos elementos na camada escondida do que na entrada Classificação h aumenta conforme o número de classes aumenta Existe um compromisso entre generalização (h menor) e precisão (h maior) Redes maiores maior tempo de treinamento GENERALIZAÇÃO Técnicas para Reduzir a complexidade da rede: Weight Decay Análise de Sensibilidade 11

Weight Decay Adiciona um termo denominado weight decay Usado para ajustar a complexidade da rede à dificuldade do problema; Se a estrutura da rede for muito complexa, pode-se remover alguns pesos sem aumentar o erro significativamente; o método fornece aos pesos uma tendência de se dirigir ao valor zero, reduzindo a sua magnitude um pouco a cada iteração. Weight Decay Adiciona um termo denominado weight decay E w( t) = η ( t) ρw( t) w onde 0 ρ<<1 Se δe/δw i =0 w i irá diminuir até zero; caso contrário, os dois termos irão se equilibrar em um certo ponto, evitando que w i 0 12

Weight Decay Adiciona um termo denominado weight decay E w( t) = η ( t) ρw( t) w onde 0 ρ<<1 Equivale a modificar a definição de E incluindo um termo de penalidade correspondente à magnitude dos pesos da rede. 1 E = 2 1 k 2 ( di yi) + i= 1 2 λ w 2 GENERALIZAÇÃO Análise de Sensibilidade da Saída: Retira-se uma variável de entrada ou elementos processadores; Treina-se novamente a rede; Verifica-se e variação do erro de saída. Se a retirada do elemento não causar grande variação a rede é pouco sensível a este elemento, podendo ser retirado sem perda da capacidade de modelar os dados. 13

Avaliação do Algoritmo Apesar do grande sucesso do Back Propagation, existem alguns problemas: definição do tamanho da rede; problema de paralisia da Rede Neural; problema de ficar preso em um mínimo local. Problema de Paralisia Com o treinamento, os pesos podem alcançar valores muito grandes (w ij ) F(net j ) A soma ponderada de cada processador torna-se também muito grande (net j = Σ x i.w ij + θ j ) F (net ) ~ 0 j w ijij ~ 0 A Rede Neural não consegue aprender net j Regiões de derivada aproximadamente zero 14

Problema de Paralisia Como evitar paralisia da Rede? Deve-se escolher valores de pesos e bias uniformemente distribuídos dentro de um intervalo pequeno; Os neurônios devem, inicialmente, operar na sua região linear; O número de processadores na(s) camada(s) escondida(s) deve ser pequeno. Avaliação do Algoritmo Apesar do grande sucesso do Back Propagation, existem alguns problemas: definição do tamanho da rede; problema de paralisia da Rede Neural; problema de ficar preso em um mínimo local. 15

Problema do Local De acordo com o método do gradiente Descendente, tem-se: w ji = η.s i.e j Taxa de aprendizado 0.05 η 0.75 A taxa de aprendizado não deve ser nem muito pequena treinamento lento, nem muito grande oscilações Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição Inicial 1 Erro mínimo Global Local w L1 Pesos 16

Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição Inicial 1 Posição 2 Erro mínimo Global Local w w L2 w L1 Pesos Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição j Erro mínimo Global w Lj Pesos 17

Problema do Local Erro (w) Partindo da posição inicial 1: η pequeno Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Qualquer pequena mudança faz o erro aumentar não consegue sair do vale Posição j Erro mínimo Global w Lj Pesos Problema do Local Com η pequeno, não é possível calcular um w que faça a a Rede Neural sair do Local. A Rede Neural não consegue aprender com a precisão especificada (Erro )! 18

Problema do Local Erro (w) Partindo da posição inicial 2: η grande Posição Inicial 2 Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G1 Global Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Posição Inicial 2 Erro tende a diminuir com a atualização dos pesos Posição 2 Erro mínimo w w G1 w G2 Global Pesos 19

Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G2 Posição 2 w Posição 3 w G3 Global Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G3 Posição 3 w Posição 4 w G4 Pesos 20

Problema do Local Erro (w) Partindo da posição inicial 2: η grande Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo Posição 4 w Posição 5 w G4 w G5 As mudança não são suficientemente pequenas para levar a uma configuração de erro mínimo Global. Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Posição Inicial 2 Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G1 Global Pesos 21

Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Posição Inicial 2 Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Posição 2 Erro mínimo w w G1 w G2 Global Pesos Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G2 Posição 2 w Posição 3 w G3 Global Pesos 22

Problema do Local Erro (w) Partindo da posição inicial 2: η adequado Pelo método do Gradiente Descendente Erro tende a diminuir com a atualização dos pesos Erro mínimo w G3 Posição 3 w Gk Posição k Pesos Problema do Local Conclusões: Quando η é pequeno e dependendo da inicialização dos pesos (feita de forma aleatória), a Rede Neural pode ficar presa em um Local. Solução: Utilizar taxa de aprendizado (η ) adaptativa. 23

Problema do Local Conclusões: Quando η é grande, a Rede Neural pode nunca conseguir chegar ao Global pois os valores de w são grandes. Oscilações. Solução: Utilização do termo de Momento (α ). Termo de Momento (α ) Uma forma de diminuir a possibilidade de oscilações com valores de η maiores é incluir o Termo de Momento na atualização dos pesos sinápticos w ji (t+1) = η.s i.e j + α. w ji (t) Termo proporcional ao valor anterior de atualização do peso 0 < α < 0.9 24

Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) 25

Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) Termo de Momento (α ) w ji (t+1) = η.s i.e j + α. w ji (t) 26

Termo de Momento (α ) w 2 Situação 1: Ponto Inicial - A Global Corte na Superfície de Erro w 1 Termo de Momento (α ) w 2 Ponto Inicial - A A w(t) Global w 1 27

Termo de Momento (α ) w 2 A A Ponto Inicial - A w(t) -η E(t+1) + α w(t) Global w 1 Termo de Momento (α ) w 2 A A Ponto Inicial - A w(t) -η E(t+1) + α w(t) Global A e A estão na mesma direção α acelera o aprendizado w 1 28

Termo de Momento (α ) w 2 Situação 2: Ponto Inicial - B Global w 1 Termo de Momento (α ) w 2 Ponto Inicial - B w(t) B Global w 1 29

Termo de Momento (α ) w 2 Ponto Inicial - B α w(t) B -η E(t+1) B Global w 1 Termo de Momento (α ) w 2 Ponto Inicial - B α w(t) B -η E(t+1) B Global B e B estão em direções opostas α evita oscilações w 1 30

Termo de Momento (α ) Aprendizado em Batch sem Termo de Momento Termo de Momento (α ) Aprendizado em Batch com Term o de Momento 31

Termo de Momento (α ) Aprendizado em Batch com Term o de Momento Sim ulações com a mesm a configuração inicial de pesos Conforme α aumenta converge mais rápido (para valores pequenos) Conforme α aumenta mais pode oscilar Exemplo - Paridade 4 bits Rede 4/4/1, com treinamento em batch e tanh; Entradas ±1, target ±0.9 e pesos iniciais distribuídos [-0.5, +0.5]; η fixa de 0.001 a 10.0 (37 valores) e α de 0 a 0.99 (14 valores); 100 simulações para cada configuração; treinamento por no máximo 5000 iterações; convergência quando E MSE <0.001 ou se todos padrões erro < 0.2; paralisia se, entre epochs, E MSE < 10-12 ou se gradiente < 10-10 ; tempo de convergência Ti i Tavg = N convergiram Probabilidade de convergência N convergiram /100 32

Exemplo - Paridade 4 bits # epochs probabilidade de convergência Batch X Incremental Apresentação aleatória dos padrões Oscilações comuns. 33

Batch X Incremental Aprendizado Incremental 4-bits paridade, η=0.3 e α=0 mesm os pesos iniciais única rede que convergiu ICADEMO Formato de Entrada: 34

ICADEMO Formato de Saída: Vetor de 10 elementos binários dígito 1 dígito 2 dígito 0 Topologia: ICADEMO 1 0 0 0 35

Aplicação Prática Reconhecimento de Dígitos ICADEMO 36