Aprendizado do MLP por Error Back Propagation... Chegando às fórmulas das derivadas parciais, necessárias à Bússola do Gradiente

Documentos relacionados
Aprendizado em RNAs do tipo MLP Multi Layer Percetron através do algoritmo Error Back Propagation

Aprendizado em RNAs do tipo MLP Multi Layer Percetron através do algoritmo Error Back Propagation

Um tema importante no curso: Sobreapredizado / Sobreajuste. Conceito, entendimento da sua origem e formas de limitá-lo

y rede RNA Conjunto de treino em arquiteturas supervisionadas (ex. clássico: MLP com Error Back Propagation) Sistema Físico, Econômico, Biológico...

Processo de aproximações sucessivas ao Eqm mínimo:

Disciplina PSI 3471 Profs. Emilio e Hae

Medidas de desempenho em... REGRESSORES RECONHECEDORES DETECTORES CLASSIFICADORES

Processo de aproximações sucessivas ao Eqm mínimo:

Redes Neurais a Aprendizado de Máquina 4as feiras às 9:20hs; 6as às 7:30hs Sala B2-09. Prof. Emilio Del Moral Hernandez

Redes Neurais e Sistemas Fuzzy

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

3 Redes Neurais Artificiais

Introdução às Redes Neurais Artificiais

Disciplina PSI 3471 Profs. Emilio e Hae

2. Redes Neurais Artificiais

Aprendizagem por treinamento de redes de aproximação

PSI 2533 Módulo de Redes Redes Neurais Artificiais e Aprendizado

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

2. Redes Neurais Artificiais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

JAI 6 - Deep Learning Teoria e Prática

Redes Neurais MLP: Exemplos e Características

2. Redes Neurais Artificiais

Fundamentos de Inteligência Artificial [5COP099]

Considerações de Desempenho

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Back Propagation. Dicas para o BP

INTELIGÊNCIA ARTIFICIAL

( ) Aula de Hoje. Introdução a Sistemas Inteligentes. Modelo RBF (revisão) Modelo RBF (revisão)

Aplicações da RMC. Avaliação de Algoritmos. Tratamento nos dados 27/8/2010. Roseli A F Romero SCC 5809 REDES NEURAIS

Estimativas e Erros. Propagação de erros e Ajuste de funções

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

Multi-Layer. Perceptrons. Algoritmos de Aprendizado. Perceptrons. Perceptrons

Cálculo II (Primitivas e Integral)

Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

Redes Neurais Artificiais

Redes Neurais Artificial. Prática. Inteligência Artificial

PSI 2222 Inteligência Computacional e Redes Neurais em Engenhária Elétrica

Redes neurais artificiais

Mini-projeto: Reconhecimento de Digitos com MLPs. Germano C. Vasconcelos Centro de Informática - UFPE

PERCEPTRON. Características Básicas Modelo de Neurônio Estrutura da Rede Algoritmo de Aprendizado

Regra de Hebb Perceptron Delta Rule (Least Mean Square) Multi-Layer Perceptrons (Back Propagation) Hopfield Competitive Learning Radial Basis Function

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

3 Modelos Comparativos: Teoria e Metodologia

Aula 05 - Erivaldo MATEMÁTICA BÁSICA

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Paradigmas de Aprendizagem

SUPPORT VECTOR MACHINE - SVM

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

2. Redes Neurais Artificiais

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

BANCO DE EXERCÍCIOS - 24 HORAS

( f a ) 2 +16π 2 λ 2 2

Introdução à Redes Neurais. Prof. Matheus Giovanni Pires EXA 868 Inteligência Artificial Não-Simbólica B Universidade Estadual de Feira de Santana

Aula 6. Aula de hoje. Aula passada

Rede RBF (Radial Basis Function)

Redes Neurais Artificiais

Aprendizagem por treinamento de redes de aproximação Marco Henrique Terra

UM MODELO NEURAL PARA A PREVISÃO DA DEMANDA DE ENERGIA ELÉTRICA NA CIDADE DE FRANCA

Rafael Izbicki 1 / 38

Processamento de Sinais e Inteligência Computacional. Prof. Emilio del Moral Hernandez

Física Geral (2013/1) Aula 3: Estimativas e erros em medidas diretas (I)

Inteligência Artificial Redes Neurais

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

3 3. Variáveis Aleatórias

Reconhecimento de Padrões/Objetos

Redes Neurais. Prof. Aurora Pozo. Obs: slides baseados em Prof. Marcílio Souto e Prof. Marley Vellasco

EXERCICIOS RESOLVIDOS - INT-POLIN - MMQ - INT-NUMERICA - EDO

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 05 / Detecção Binária Baseada em

Aplicação de Redes Neuronais Artificiais no Comportamento da Precipitação em Portugal Continental.

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Redes Neurais Artificiais - Introdução. Visão Computacional

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

Tópicos Especiais: Inteligência Artificial REDES NEURAIS

A fórmula da equação do 2º grau

Algoritmos de Aprendizado. Formas de Aprendizado. Aprendizado Batch x Incremental. Aprendizado Batch x Incremental

Física Geral - Laboratório. Aula 3: Estimativas e erros em medidas diretas (I)

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2018

Introdução à probabilidade e à estatística II. Prof. Alexandre G Patriota Sala: 298A Site:

Econometria em Finanças e Atuária

Projetos finais. Grupo 3

Análise Multivariada Aplicada à Contabilidade

TÓPICOS EM INTELIGÊNCIA ARTIFICIAL Redes Neurais Artificiais

Marina Andretta/Franklina Toledo. 25 de outubro de 2013

Algoritmo. Prof. Anderson Almeida Ferreira. Agradeço ao prof. Guilherme Tavares de Assis por fornecer slides que fazem parte desta apresentação

SME306 - Métodos Numéricos e Computacionais II Prof. Murilo F. Tomé. (α 1)z + 88 ]

Cap. 4- Interpolação Numérica Definições. Censos de BH. Qual o número de habitantes na cidade de Belo Horizonte em 1975?

Momentos: Esperança e Variância. Introdução

Resolução da Prova 1 SCC Redes Neurais 2o. Semestre de Prof. João Luís

Aula 1. Objetivo: Mostrar o papel fundamental da distribuição de Poisson no comportamento de grandes populações.

Aula 1. Objetivo: Mostrar o papel fundamental da distribuição de Poisson no comportamento de grandes populações.

Investigação Operacional 2º Semestre 2002/2003 Problema Resolvido

Vetor de Variáveis Aleatórias

Transcrição:

Aprendizado do MLP por Error Back Propagation... W. Eqm_ Gradiente de Eqm no espaço de pesos = ( Eqm(W)/ w, Eqm(W)/ w 2, Eqm(W)/ w 3,... ) Chegando às fórmulas das derivadas parciais, necessárias à Bússola do Gradiente 76 Relembrando o que está por trás de um desenho como o que segue... 77

x f A y A () x 2 f C y rede () y B () x 3 f B 79 x f A y A (,W) x 2 f C y rede (,W) y B (,W) x 3 f B 80 2

x f A y A (,W) x 2 f C y rede (,W) y B (,W) x 3 f B y rede (,W) = f C (w AC. y A (,W) + w BC. y B (,W) + w 0C ) y rede (,W) = f C (w AC. f A (w A.x + w 2A.x 2 +... + w 0A ) + w BC. f B (w B.x + w 2B.x 2 +... + w 0B ) + w 0C ) 83 x f A y A (,W) x 2 f C y rede (,W) x 3 y B (,W) f B - (.) 2 y alvo () Eq (,W) = [y rede (,W) - y alvo ()] 2 Eq(,W) 84 3

Grafo de cálculos detalhado 85 Para um MLP 3-3- Chamada oral sobre a lição de casa: estudar / reestudar os conceitos e a parte operacional de derivadas parciais, do vetor Gradiente... Derivadas parciais (que são as componentes do gradiente): ex: http://en.wikipedia.org/wiki/partial_derivative f(a,b,c)/ a f(a,b,c)/ b f(a,b,c)/ c Vetor Gradiente, útil ao método do máximo declive: ex: http://en.wikipedia.org/wiki/gradient ( Eqm(W)/ w, Eqm(W)/ w 2, Eqm(W)/ w 3,... ) W. Eqm_ 86 4

Invertamos o operador gradiente e a somatória... afinal, gradiente é uma derivada, e a derivada de um soma de várias funções é igual à soma das derivadas individuais de cada componente da soma: Grad(Eqm) = Grad( Σ Eq μ ) / M Σ Grad (Eq μ ) / M 87 Note que a inversão do gradiente com a somatória nada mais é que usar de forma repetida e em separado para cada dimensão do vetor Grad( Σ Eq μ ) a seguinte propriedade simples e sua velha conhecida... d(f (x)+f 2 (x)) / dx = df (x)/dx + df 2 (x)/dx 88 5

x f A y A (,W -,w A ) P/ obtermos a derivada parcial com relação a w A, apenas ele variará; os demais pesos w passam a ser contantes (fixos) x 2 f C y rede (,W -,w A ) x 3 y B (,W - ) f B - (.) 2 y alvo () Eq(,W -,w A ) 89 x x 2 x 3 f A f B y A (,W -,w A ) y B (,W - ) em verde, a única variável w A ; em preto, os elementos constantes f C y rede (,W -,w A ) - (.) 2 y alvo () Eq(,W -,w A ) 90 6

a cadeia de cálculos desde w A... até... Eq x f A y A (,W -,w A ) x 2 f C y rede (,W -,w A ) x 3 y B (,W - ) f B - (.) 2 y alvo () Eq(,W -,w A ) 9 a cadeia de cálculos desde w A... até... Eq x f A y A (,W -,w A ) x 2 f C y rede (,W -,w A ) x 3 y B (,W - ) f B - (.) 2 y alvo () w A produto por x soma com (w 2A x 2 + w 3A x 3 + w 0A ) função f A produto por w AC Eq(,W -,w A ) soma com (w BC y B + w 0C ) função f C diferença com y alvo () quadrado Eq 93 7

Note que aqui temos uma cadeia com muitos estágios que levam da váriável w A, à variável Eq μ, e para a qual podemos calcular a derivada da saída (Eq μ ) com relação à entrada (w A ) aplicando de forma repetida a seguinte propriedade simples e sua velha conhecida... d(f (f 2 (x)) / dx = df (x)/df 2. df 2 (x)/dx..., ou seja, calculando isoladamente o valor da derivada para cada estágio da cadeia, e finalizando o cálculo de derivada de ponta a ponta nessa cadeia toda através do produto dos diversos valores de cada estágio. 94 e o valor de Eq / w A =??? x f A y A (,W -,w A ) x 2 f C y rede (,W -,w A ) x 3 y B (,W - ) f B - (.) 2 y alvo () w A ( x ) ( f A ) ( w AC ) produto por x soma com (w 2A x 2 + w 3A x 3 + w 0A ) função f A produto por w AC Eq(,W -,w A ) soma com (w BC y B + w 0C ) função f C diferença com y alvo () quadrado Eq 95 ( f C ) ( 2 vezes erro ) 8

e o valor de Eq / w A =??? x f A y A (,W -,w A ) x 2 f C y rede (,W -,w A ) x 3 y B (,W - ) f B - (.) 2 y alvo () w A ( x ) ( f A ) ( w AC ) produto por x soma com (w 2A x 2 + w 3A x 3 + w 0A ) função f A produto por w AC Eq(,W,w A ) Eq / w A = soma com (w BC y B + w 0C ) função f C diferença com y alvo () quadrado Eq ( x ). ( f A ). ( w AC ) 96. ( f C ) ( 2 vezes erro ). ( f Prof. Emilio Del C ). ( 2 vezes erro) Moral EPUSP Avisos que detalhei na aula de 02 de abril A nossa P ocorrerá no horário de aula de PSI347 e na semana de P (de E&S), como no calendário divulgado no início do semestre; mais precisamente, ocorrerá no dia 6 de abril, 2ª feira às 7:30 (com duração prevista de 90 mins). 98 9

Avisos que comentei na aula de 02 de abril 99 Lembretes... Na maioria dos slides anteriores, onde aparece, leia-se, não incluído para não complicar demais os desenhos... similarmente, onde aparece y alvo, leia-se y alvo. Idem para os Eq, leia-se Eq Nos itens de cadeia de derivadas ( f A ) e ( f C ), atenção para os valores dos argumentos, que devem ser os mesmos de f A e f C na cadeia original que leva w A a Eq.... lembrando... na cadeia original tinhamos... para f C : f C (w AC. f A (w A.x + w 2A.x 2 +...+ w 0A ) + w BC. f B (w B.x + w 2B.x 2 +...+w 0B ) + w 0C ) para f A : f A (w A.x + w 2A.x 2 +... +w 0A ) Similarmente, para o bloco quadrado, cuja derivada é a função 2 vezes erro, o argumento é [y rede (,W) - y alvo ()] 0 0

Lembretes... O mesmo que foi feito para w A deve ser feito agora para os demais 0 pesos: w, 2A w, 3A w, 0A w, B w, 2B w, 3B w, 0B w, AC w BC, e w 0C! Assim compomos um gradiente de dimensões, com as derivadas de Eq com relação aos diferentes pesos w: Grad W (Eq ) Essas fórmulas devem ser aplicadas repetidamente aos M exemplares numéricos de e y alvo, calculando M gradientes! Com eles, se obtém o gradiente médio dos M pares empíricos: Grad W (Eqm) = [Σ Grad W (Eq )] / M Esse gradiente médio é a Bussola do Gradiente! 02 Método do Gradiente Aplicado aos nossos MLPs: a partir de um W#0, temos aproximações sucessivas ao Eqm mínimo, por repetidos pequenos passos DeltaW, sempre contrários ao gradiente... Chute um W inicial para o Wcorrente, ou W melhor até agora Em loop até obter Eqm zero, ou baixo o suficiente, ou estável: Determine o vetor gradiente do Eqm, nesse espaço de Ws Em loop varrendo todos os M exemplos ( μ ;y μ ), Calcule o gradiente de Eq μ associado a um exemplo μ, e vá varrendo μ e somando os gradientes de cada Eq μ, para compor o vetor gradiente de Eqm, assim que sair deste loop em μ ; Cada cálculo como esse, envolve primeiro calcular os argumentos de cada tangente hiperbólica e depois usar esses argumentos na regra da cadeia das derivadas necessárias Dê um passo Delta W nesse espaço, com direção e magnitude dados por *vetor gradiente médio para os M Exemplos ( μ ;y μ ) de treino 03

O que devemos mirar quando exploramos o espaço de pesos W buscando que a RNA seja um bom modelo? Devemos mirar Maximização da aderência = Minimo Eqm possível As Setas Verdes Será que temos Indicam Situações que apenas um mínimo?? Devem ser Procuradas Eqm(W) Aderência do modelo aos pares (,y) empíricos 00% aderente W Atacando a possibilidade de múltiplos mínimos locais: baixa aderência... Executamos o gradiente descendente repetidamente, com a mesma arquitetura neural e os mesmos dados empíricos de treino, mas com os pesos iniciais randômicos valor do sendo Eqmdistintos em cada rodada; 04 anotamos todos os pesos otimizados e valores de Eqm final de todas as rodadas; mantemos os w s do melhor dos resultados de treino entre eles (aquele ensaio com menor Prof. valor Emilio do Eqm)! Del Moral EPUSP O Ciclo completo da modelagem: 0) Formalização do problema, mapeamento quantitativo em um modelo neural inicial e... 0b) coleta de pares empíricos (,y) ) Fase de TREINO da RNA (MLP): com conhecimento dos e dos y, que são ambos usados na calibração do modelo 2) Fase de TESTE / Caracterização da qualidade da RNA para generalizar: temos novos pares e y, com y guardado na gaveta, usado apenas para avaliação, não para re-calibração. É como um ensaio de uso final do modelo, com possibilidade de medir a sua qualidade com o y que foi guardado na gaveta. [Fase de refinamentos da RNA, dados e modelo, em ciclos, desde 0] 3) Fase de USO FINAL da RNA, com y efetivamente não conhecido, e estimado com conhecimento dos + uso do modelo calibrado.... Diferenças e semelhanças entre, 2 e 3 07 2

Raiz do Erro Quadrático Médio (RMS) p/ conjuntos de treino e teste... RMS teste > RMS treino Treino Teste 0.09 0.0 08 Prof. Emilio Del Moral Hernandez Amostras empíricas do Universo ( ; y) 09 Prof. Emilio Del Moral Hernandez 3

Conjunto total de observações empíricas 0 Prof. Emilio Del Moral Hernandez Cross validation / Validação cruzada... e teremos muitos mais ensaios, se tivermos mudança na partição de observações 2 fold cross validation: 50% treino e 50% teste Prof. Emilio Del Moral Hernandez 4

k-fold Cross Validation: O conjunto total é retalhado em k partes, e uma delas apenas é usada para teste, com k ensaios distintos 2 Prof. Emilio Del Moral Hernandez Conceito geral que engloba as discussões anteriores... Reamostragem / Data Resampling Pergunta... Que impacto isto tem nas medidas de qualidade de regressores? Que impacto isto tem nas medidas de classificadores? Que informação ao cliente / usuário podemos fornecer com base neste conceito? 3 Prof. Emilio Del Moral Hernandez 5

4 Lembrete... Para que queremos a rede neural com pesos otimizados? Prof. Emilio Del Moral Hernandez 4 Modelagem de um sistema por função de mapeamento -> y (a RNA como regressor contínuo não linear multivariável) sistema a modelar y... do mundo analógico (contínuo) y Assumimos que a variável y do sistema a modelar é uma função (normalmente desconhecida e possivelmente não linear) de diversas outras variáveis desse mesmo sistema RNA y rede A RNA, para ser um bom modelo do sistema, deve reproduzir essa relação entre e y, tão bem quanto possível 5 6

Um hipotético universo de variáveis interdependentes, passível de modelagem/ens Anos de vida ( y contínuo) Grau de periculosidade da atividade (x ) Anos de educação formal (x 3 ) Frequência em eventos sociais Volume de bens familiares (x 2 ) Número de filhos Dias de Férias / ano Frequência em eventos artísticos 6 +.0 0.0 -.0 A função y() a descobrir, num caso geral de função contínua y()... y comportamento do sistema a modelar (ou então, comportamento padrão ouro ) x o xi - ESTIMADOR ; - MODELAGEM POR MAPEAMENTO y S S: sistema regido por função F genérica, y=f() (ou y=f() + erro pequeno ) y (... VALORES CONTÍNUOS!!!) 7 7

RNAs como reconhecedor / detetor de padrões... sistema a modelar y... responde à seguinte pergunta: é padrão notável? Sim ( ) Não ( ) y... é do universo discreto / binário (SIM versus NÃO), y não é analógico RNA y rede... + ( ) versus - ( )... ou alternativamente: y rede... 0.5 ( ) versus - 0.5 ( )... ou alternativamente:... y rede > 0 ( ) versus y rede < 0 ( ) 8 Um hipotético universo de variáveis interdependentes, passível de modelagem/ens Saldo Bancário médio (x ) Contribuinte significativo de impostos Consumidor que honra(rá) crédito solicitado ( y binário ) Medida de confiabilidade de crédito do indivíduo segundo agência YZ (x 2 ) Salário Médio (x 4 ) Microempreendedor de sucesso Consumidor Influenciável por propaganda 9 8

Caso de classificação binária / reconhecimento de padrões, será do tipo... +.0 0.0 -.0 y (classe A) A B A B A comportamento do sistema a modelar (decisor perfeito ou decisor padrão ouro ) x o xi (classe B) sistema a modelar CLASSIFICADOR; RECONHECEDOR DE PADRÕES NOTÁVEIS y (... restrita a valores + e ) 20 2 E será que conseguiremos que a RNA calcule essas duas funções de complicadas representadas nos slides anteriores (uma com y contínuo e a outra com y binário)? Prof. Emilio Del Moral Hernandez 2 9

22 recordando De onde vem o grande poder do MLP? Prof. Emilio Del Moral Hernandez 22 recordando 23 Prof. Emilio Del Moral Hernandez 23 20

Cybenko Enunciado da Prova... (premissas + resultado) recordando 24 y rede () número de nós escondidos sigmoidal viés i : viés do nó escondido i W i : vetor de pesos do nó escondido i elementos do vetor de pesos do nó linear de saída W s Prof. Emilio Del Moral Hernandez 24 recordando 25 y rede () Fescondida_sistema() Limite de erro Prof. Emilio Del Moral Hernandez 25 2

Questões intrigantes, p/ esta aula e p/ pensar em casa... 26 - No que impacta escolhermos o epslon de Cybenko de alto valor? O que muda na estrutura de Cybenko com isso? - No que impacta escolhermos o epslon de Cybenko de baixo valor? - Como definimos o número de nós da primeira camada do MLP? Isto pode ser definido a priori, antes de testar o seu desempenho? (por exemplo com base no número de entradas da rede e/ou com base no número de exemplares de treino M?) - O que ganhamos e o que perdemos se escolhermos usar POUCOS nós na construção rede neural? - O que ganhamos e o que perdemos se escolhermos usar MUITOS nós na construção da rede neural? Prof. Emilio Del Moral Hernandez 26... Um parênteses em lousa para discutirmos um pouco a aproximação universal com sigmoides / funções em formato de S, num caso simples e bem particular... aproximação de uma função y de uma única variável x : y(x ) Métodos Numéricos e Reconhecimento de Padrões 27 22

O que conseguimos fazer com um único neurônio sigmoidal y(w.x ), c/ escalamento de x via w w = w << w >> x Métodos Numéricos e Reconhecimento de Padrões 30 O que conseguimos fazer com um único neurônio sigmoidal y(w.x + w 0.), c/ escalamento de x via w... e também com o viés, via viés w 0 w = w 0 = - 3 w << w 0 = - 2 w >> w 0 = + x Métodos Numéricos e Reconhecimento de Padrões 3 23

O que conseguimos fazer com um único neurônio sigmoidal, no caso de regressões ( y(x ) contínuo )? x x x y = tgh (w.x + viés) Métodos Numéricos e Reconhecimento de Padrões 32 O que conseguimos fazer com um único neurônio sigmoidal, no caso de regressões ( y contínuo )? Métodos Numéricos e Reconhecimento de Padrões 33 24

Que tipo de dados empíricos modelamos com um único neurônio sigmoidal em regressões ( y(x ) contínuo )? x x Os pontos pretos são pares empíricos (x μ,y μ ); As curvas coloridas, são regressões sigmoidais aderentes a tais pares. x Métodos Numéricos e Reconhecimento de Padrões 34 Equivalente em txt Para uso do MBP Métodos Numéricos e Reconhecimento de Padrões 35 25

Regressão univariada com Cybenko café com leite de 3 nós na primeira camada... Métodos Numéricos e Reconhecimento de Padrões 36 Cybenko café com leite (regressão genérica univariada), para aproximação universal de funções de variável x apenas?... superposição de várias sigmóides deslocadas e escaladas x Vocês enxergam acima 3 nós tgh na primeira camada, com com 3 viéses distintos e 3 escaladores de x distintos, e mais um 4o nó combinador (somatória simples de 3 entradas) na camada de saída? 37 Métodos Numéricos e Reconhecimento de Padrões 26

Cybenko café com leite (regressão genérica univariada), para aproximação universal de funções de variável x apenas?... várias sigmóides deslocadas e escaladas x Acima... Comportamento individual dos 3 nós tgh na primeira camada, com com 3 viéses distintos e 3 escaladores de x distintos. Métodos Numéricos e Reconhecimento de Padrões 38 Questões intrigantes, p/ esta aula e p/ pensar em casa... 39 - No que impacta escolhermos o epslon de Cybenko de alto valor? O que muda na estrutura de Cybenko com isso? - No que impacta escolhermos o epslon de Cybenko de baixo valor? - Como definimos o número de nós da primeira camada do MLP? Isto pode ser definido a priori, antes de testar o seu desempenho? (por exemplo com base no número de entradas da rede e/ou com base no número de exemplares de treino M?) - O que ganhamos e o que perdemos se escolhermos usar POUCOS nós na construção rede neural? - O que ganhamos e o que perdemos se escolhermos usar MUITOS nós na construção da rede neural? recordando Prof. Emilio Del Moral Hernandez 39 27

Aumento de aderência aos dados de treino com o aumento de nós da RNA... Erro (treino) modelos pobres, por ter menos neurônios que o necessário modelos com aderência perfeita aos pares (,y) de treino Complexidade crescente do modelo 40 28