Considerações de Desempenho

Documentos relacionados
Back Propagation. Dicas para o BP

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

Redes Neurais Artificial. Prática. Inteligência Artificial

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Rede RBF (Radial Basis Function)

Redes Neurais MLP: Exemplos e Características

3 Redes Neurais Artificiais

Aplicações da RMC. Avaliação de Algoritmos. Tratamento nos dados 27/8/2010. Roseli A F Romero SCC 5809 REDES NEURAIS

Reconhecimento de Padrões/Objetos

JAI 6 - Deep Learning Teoria e Prática

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

2. Redes Neurais Artificiais

( ) Aula de Hoje. Introdução a Sistemas Inteligentes. Modelo RBF (revisão) Modelo RBF (revisão)

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

Redes Neurais Artificiais

Aprendizado de Máquina Introdução às Redes Neurais Artificiais

Aprendizado de Máquina (Machine Learning)

Redes Neurais e Sistemas Fuzzy

Múltiplos Classificadores

serotonina (humor) dopamina (Parkinson) serotonina (humor) dopamina (Parkinson) Prozac inibe a recaptação da serotonina

O Algoritmo de Treinamento: Máquina de Aprendizado Extremo (Extreme Learning Machine - ELM)

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Metodologia Aplicada a Computação.

Algoritmos de Aprendizado

Aprendizagem de Máquina

Aprendizado de Máquinas. Multi-Layer Perceptron (MLP)

Variações do BP. Variações do BP. Variações do BP. Taxa de Aprendizado Adaptativa. Taxa de Aprendizado Adaptativa

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

Redes Neurais Artificiais

Inteligência Artificial Redes Neurais

Fundamentos de Inteligência Artificial [5COP099]

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

SCC0173 Mineração de Dados Biológicos

Redes Neurais: RBF. Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação

VRS usando redes neurais

Roteiro. PCC142 / BCC444 - Mineração de Dados. Por que pré-processar os dados? Introdução. Limpeza de Dados

2. Redes Neurais Artificiais

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

Introdução às Redes Neurais Artificiais

Trabalho de IA - Redes Neurais: Multilayer Perceptron e16 Learning de março Vector de 2015 Quantization 1 / 28

Redes Neurais Artificial. Inteligência Artificial. Professor: Rosalvo Ferreira de Oliveira Neto

Classificação Linear. André Tavares da Silva.

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Multiple Layer Perceptron

6 Clustering: Definindo Grupos Estratégicos

Mistura de modelos. Marcelo K. Albertini. 31 de Julho de 2014

Mineração de Dados em Biologia Molecular

INF 1771 Inteligência Artificial

SEMINÁRIO DOS ARTIGOS:

Análise de Tempo de Duração de Processos Trabalhistas. Sumário

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

GT-JeDi - Curso de Desenv. de Jogos IA para Jogos

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Extração de Características

Teorema de Aprox. Universal. Teorema de Aprox. Universal. Teorema de Aprox. Universal. Teorema de Aprox. Universal. Teorema de Aprox.

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Aplicação de Redes Neuronais Artificiais no Comportamento da Precipitação em Portugal Continental.

SUPPORT VECTOR MACHINE - SVM

KDD E MINERAÇÃO DE DADOS

Redes Neurais Artificiais - Introdução. Visão Computacional

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

3 Redes Neurais Introdução

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

INTELIGÊNCIA ARTIFICIAL

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

PERCEPTRON. Características Básicas Modelo de Neurônio Estrutura da Rede Algoritmo de Aprendizado

Aprendizado de Máquina (Machine Learning)

2 Processo de Agrupamentos

3 Modelos Comparativos: Teoria e Metodologia

Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

2. Redes Neurais Artificiais

Representação esquemática de estruturas de dados

SCC Capítulo 5 Perceptron Multicamadas

Variáveis Aleatórias Discretas e Distribuição de Probabilidade

Estatística Descritiva

Introdução às Redes Neurais Artificiais

Reconhecimento de Padrões

Modelos Evolucionários e Tratamento de Incertezas

Aprendizado de Máquina (Machine Learning)

Redes Neurais (Inteligência Artificial)

Aprendizado por Reforço usando Aproximação

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Estatística e Probabilidade Aula 06 Distribuições de Probabilidades. Prof. Gabriel Bádue

Unidade 08 MATLAB Neural Network Toolkit

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Teoria das Filas aplicadas a Sistemas Computacionais. Aula 08

Introdução à Redes Neurais. Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana

Introdução às Redes Neurais Artificiais

Paradigmas de Aprendizagem

Redes Neurais Artificiais (RNA)

4 Redes Neurais Artificiais

Estimação da Resposta em Frequência

Redes Neurais e Sistemas Fuzzy

Transcrição:

Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 1

Dicas para o BP Os pesos devem ser inicializados com valores uniformemente distribuídos em um intervalo que depende do F IN (número de entradas do neurônio) inicialização feita para cada neurônio separadamente EX: tanh = 2a - a a=1.716 1+exp(-bv) b=2/3 intervalo dos pesos = (-2.4/ F IN,+2.4/ F IN ) Dicas para o BP A ordem de apresentação dos padrões de treinamento deve ser alterada a cada época ordem aleatória Todos os neurônios devem aprender na mesma taxa como os processadores de saída têm tipicamente maior gradiente, η OUT deve ser menor 2

O processo de aprendizado pode ser visto como um problema de CURVE FITTING Modelagem da Rede Neural 3

Treinamento Fatores importantes para a modelagem do treinamento supervisionado: Seleção de variáveis e representação; Seleção e preparação dos dados de treinamento; Seleção do Modelo (estrutura da rede); Escolha da função de erro; Escolha do método de otimização (ex. BP); Generalização (validação cruzada). Modelagem da Rede Neural PRÉ-PROCESSAMENTO: Limpeza de Dados Seleção de Dados Normalização Representação 4

Modelagem da Rede Neural Limpeza de Dados as transações podem conter valores incorretos, dados ausentes e inconsistências conhecimento sobre os limites dos dados; visualização para identificar outliers ; uso de informação estatística para estabelecer como neutros os valores ausentes ou incorretos. Modelagem da Rede Neural Seleção de Dados diminui o tamanho da rede acelera o aprendizado melhora a generalização da Rede combinação de variáveis (atributos): razão, produto, soma ou diferença de 2 valores diversos métodos: correlação; PCA (Principal Component Analysis); etc. 5

Modelagem da Rede Neural Normalização escalonamento as redes geralmente aceitam valores entre 0/(-1) e 1 linear se os dados estão uniformemente distribuídos não-linear logarítmico, etc normalização de vetores divide o vetor pela norma (euclidiana) divide pela soma cada valor representa o % divide pela faixa de valores máxima n xi mín xi = menos processamento Máx mín subtrai do valor médio e divide pelo desvio padrão (sinal com média zero e variância unitária) Representação dos Dados Discretos deve ser transformado em uma representação que apresente um único conjunto de entradas para cada valor discreto 1 of N; binário; termômetro Contínuos Escalonamento básico 6

Representação - Discretos 1 of N # de entradas = # de categorias mais simples e mais fácil para a Rede Neural pode gerar muitas entradas piora a generalização Exemplo de 3 classes: casado 100 solteiro 010 divorciado 001 Representação - Discretos código binário N categorias representado por n bits (N=2 n ) valores próximos podem ter distância de hamming grande na representação Exemplo: 36 sintomas diferente 6 entradas (2 6 = 64) 7

Representação - Discretos termômetro quando os dados estão relacionados de forma crescente ou decrescente Exemplo - 4 classes de salários: baixo 1000 bom 1100 muito bom 1110 excelente 1111 Representação - Contínuos Escalonamento linear, se os valores estão uniformemente distribuídos na faixa de dados Ex1: variável salário [0, 100] (R$100,00) 80% dos valores estão abaixo de 50 linear por partes: 0-50 => 0 a 0.8 50-100 => 0.8 a 1.0 8

Representação - Contínuos Escalonamento linear, se os valores estão uniformemente distribuídos na faixa de dados Ex2: salários de 0 a 300.000 mas só preciso diferenciar salários até 35.000 linear por partes: 0-35.000 => 0 a 1.0 35.000-300.000 => 1.0 Validação Cruzada: Qual o melhor critério de parada do treinamento? Até que o erro de treinamento seja inferior a um certo valor especificado super treinamento ( overfitting ). 9

Precisão de generalização Validação Cruzada: super treinamento ( overfitting ): os pesos estão sendo modificados para ajustar também o ruído existente nos padrões de treinamento; quanto maior o número de pesos, maior o problema de overfitting; weight decay ajuda a reduzir esse problema; Deve-se verificar o comportamento na generalização necessita de um conjunto de validação! 10

Validação Cruzada: Deve-se dividir os padrões em três conjuntos: treinamento padrões usados para modificar os pesos; validação padrões usados para verificar o problema de overfitting; deve-se guardar duas cópias do conjunto de pesos da rede: uma cópia para o treinamento e outra com a melhor configuração na validação até o momento. teste padrões para testar o desempenho do modelo final. Precisão de generalização 11

Validação Cruzada: Qual o melhor critério de parada do treinamento? Até que o erro de treinamento seja inferior a um certo valor especificado super treinamento ( overfitting ). O treinamento deve ser interrompido quando o erro na validação começar a subir de forma consistente. Validação Cruzada: O que fazer quando o conjunto de padrões é pequeno? Particiona os m padrões disponíveis para treinamento e validação em k conjuntos disjuntos, cada um com m/k padrões; efetua-se o procedimento de cross-validation k vezes, cada vez utilizando um conjunto diferente para efetuar a validação e os outros k-1 para fazer o treinamento; determina-se para cada um o número ideal i de iterações; calcula-se a média das iterações i m nos k experimentos; Executa-se um treinamento final, com os m padrões (sem padrões para validação) por i m iterações. 12