Sistemas Inteligentes de Inferência

Documentos relacionados
Aprendizagem de Dados Simbólicos e/ou Numéricos. Francisco Carvalho

out II - Algoritmo Back-Propagation II - Algoritmo BackPropagation II - Algoritmo Back-Propagation Modelo de Rede Neural com Multiplas Camadas

1ª PROVA ICIN 1º/2015

Rememorando. Situação-problema 5. Teorema do Limite Central. Estatística II. Aula II

AA-220 AERODINÂMICA NÃO ESTACIONÁRIA

CC-226 Aula 07 - Estimação de Parâmetros

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Cap. 6. Definição e métodos de resolução do problema de valores de fronteira

Outras Técnicas que Utilizam o Escore de Propensão

Processamento de Imagens CPS755

Segunda aula de fenômenos de transporte para engenharia civil. Estática dos Fluidos capítulo 2 do livro do professor Franco Brunetti

p( y θ ) depende de um parâmetro desconhecido θ.

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos

Redes Neurais e Sistemas Fuzzy

Noções de Testes de Hipóteses

Um catalisador heterogêneo é aquele que está em uma fase diferente da do sistema reacional. Focaremos nossa aula em sistemas de gás e sólido.

PROTOCOLO PARA ESTIMAR ERROS DE DISCRETIZAÇÃO EM CFD: VERSÃO 1.1. Carlos Henrique Marchi. Curitiba, UFPR, setembro de 2005.

ESCOAMENTO ANUAL 1 DISTRIBUIÇÃO ESTATÍSTICA

Transformação dos dados. Analise de Componentes Principais - PCA

Identidades Termodinâmicas

Aprendizado Bayesiano

Anexo 1 - Revisões de Teoria das Probabilidades e Processos Estocásticos

Vetor de Variáveis Aleatórias

CLASSIFICADORES BAEYSIANOS

Solução dos exercícios do capítulo 2, pp (a) Expansão isotérmica de um gás ideal. Trabalho: pdv = NRT 1

3. ANÁLISE DE DADOS EXPERIMENTAIS

Projecto de Filtros Digitais IIR

1 3? Assinale esses pontos no gráfico.

LCG-COPPE-UFRJ (SIGGRAPH 2000) Leif Kobbelt. Max-Planck Institute for Computer Sciences. Apresentado por: Alvaro Ernesto Cuno Parari.

Teoria dos Jogos. Prof. Maurício Bugarin Eco/UnB 2015-II. Aula 4 Teoria dos Jogos Maurício Bugarin. Roteiro

Controle Ótimo - Aula 6 Exemplos e Exercícios

Por outras palavras, iremos desenvolver a operação inversa da derivação conhecida por primitivação.

Fundamentos de Telecomunicações 2004/05

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Distribuição de uma proporção amostral

UNIVERSIDADE DO ALGARVE FACULDADE DE CIÊNCIAS E TECNOLOGIA. Trabalho nº 1 Modulação de Amplitude

A figura 5.1 ilustra a densidade da curva normal, que é simétrica em torno da média (µ).

Teste de hipóteses para médias e proporções amostrais

EST 55 - AEROELASTICIDADE. Aerodinâmica Não Estacionária Introdução e conceitos básicos da teoria

Fundamentos da Teoria da Probabilidade

( ) Aula de Hoje. Introdução a Sistemas Inteligentes. Modelo RBF (revisão) Modelo RBF (revisão)

Redes Neurais. Redes Neurais Recorrentes A Rede de Hopfield. Prof. Paulo Martins Engel. Memória associativa recorrente

Teste de hipóteses para médias e proporções amostrais

RESOLUÇÃO - 1ª PROVA ICIN 2º/2012

Inteligência Artificial. Prof. Tiago A. E. Ferreira Aula 20 - Backpropagation

ESTATÍSTICA COMPUTACIONAL

Reconhecimento de Padrões. Reconhecimento de Padrões

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 9 de Janeiro, 2017 PRIMEIRO EXAME Uma resolução possível

CC-226 Aula 05 - Teoria da Decisão Bayesiana

O que é um Modelo Matemático?

INFERÊNCIA ESTATÍSTICA: ESTIMAÇÂO PONTUAL E INTERVALOS DE CONFIANÇA

Capítulo VI Interferência Intersimbólica e Equalização de Canal

Estática dos Fluidos. Prof. Dr. Marco Donisete de Campos

Redes de Funções de Base Radial Radial Basis Functions (RBFs)

Comunicaçõ. ções Digitais II. Texto original por Prof. Dr. Ivan Roberto Santana Casella

Conjunto de Valores. A Função de Probabilidade (fp)

Passeio aleatório: jogo da roleta e apostas esportivas

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

Funções Discriminantes Lineares

Teoria dos Jogos. Prof. Maurício Bugarin Eco/UnB 2014-I. Aula 5 Teoria dos Jogos Maurício Bugarin. Roteiro. Horário da disciplina: 12h15 a 12h45

3 Propagação em ambientes abertos na faixa GHz

Segunda aula de mecânica dos fluidos básica. Estática dos Fluidos capítulo 2 do livro do professor Franco Brunetti

FICHA de AVALIAÇÃO de MATEMÁTICA A 12.º Ano Versão 4

Processo adiabático e o ciclo de Carnot

Cap. 6. Definição e métodos de resolução do problema de valores de fronteira

Modelos Contínuos. nuos

0,8 0,8 A B C 0,1 0,1

Modelos para Regressão. Modelos lineares. Exemplo. Método de regressão linear

PROCEDIMENTOS NÃO SUPERVISIONADOS E TÉCNICAS DE AGRUPAMENTO (parte 1)

AE-249- AEROELASTICIDADE

Um Modelo Híbrido para Previsão de Produção de Petróleo

5 Teoria de opções reais 5.1. Avaliação de projetos via FCD vs. ROV

ALGUNS MODELOS DE VARIÁVEIS ALEATÓRIAS UNIDIMENSIONAIS. Prof.: Idemauro Antonio Rodrigues de Lara

Séries Temporais e Modelos Dinâmicos. Econometria. Marcelo C. Medeiros. Aula 12

FAMÍLIA EXPONENCIAL DE DISTRIBUIÇÕES

Ambiente MATLAB. Redes Neurais. Tela Principal do MATLAB MATLAB 6.5. MATLAB MATrix LABoratory. Programação baseada em Matrizes

FICHA de AVALIAÇÃO de MATEMÁTICA A 12.º Ano de escolaridade Versão.1

Introdução ao Processamento Estatístico de Sinais

1 LIMITES FUNDAMENTAIS NA TEORIA DA INFORMAÇÃO

Exame de Aprendizagem Automática

MATEMÁTICA Professores: Adriano, Andrey, Aurélio e Rodrigo Comentário Geral Prova bem abrangente como todos os anos, mas com dois detalhes que

Análise de dados em Geociências

EXAME NACIONAL DO ENSINO SECUNDÁRIO

Probabilidades e Estatística

5. PRINCIPAIS MODELOS CONTÍNUOS

Conjunto de Valores. A Função de Probabilidade (fp)

Técnicas computacionais em probabilidade e estatística II

Probabilidades e Estatística

Vetor de Variáveis Aleatórias

Modelos básicos de distribuição de probabilidade

Aluno (a): Data: / / Professor (a): ESTEFÂNIO FRANCO MACIEL Série: 2º Turma:

Colégio Politécnico da UFSM DPADP0024 : Processamento Digital de Imagens (Prof. Dr. Elódio Sebem)

Cap. 7. Princípio dos trabalhos virtuais

c. De quantas formas diferentes podemos ir de A até C, passando por B, e depois voltar para A sem repetir estradas e novamente passando por B?

Probabilidades e Estatística

CONHECIMENTOS ESPECÍFICOS

P4 de Álgebra Linear I

Transcrição:

istemas Inteligentes de Inferência enominação correta: Redes eurais com Treinamento Baesiano Carlos Hall ois tios de statística: statística Clássica: lida com freqüências de ocorrência statística Baesiana: lida com densidades de robabilidade Teorema de Baes Considere dois eventos A e B: P (A v B P(A + P(B P(A^B P (A^B P(A B P(B P (A^B P(B A P(A P ( B A P ( A B P( B P( A Teorema de Baes Considere dois eventos A e B: P (A v B P(A + P(B P(A^B P (A^B P(A B P(B P (A^B P(B A P(A P ( B A ( x P ( A B P( B P( A ( x ( x ( Arendizado de Redes eurais Arendizado de Redes eurais Considera-se: ados {(x, t, (x, t,, (x, t } Parâmetros {,,, m } aídas do modelo: g(, x rros e {e, e,, e }, e t - Objetivo do Arendizado: Memorizar os ados de Treinamento: Modelar o rocesso gerador desses dados: escrição comleta do rocesso: densidade de robabilidade conjunta (x, t ÃO IM

Arendizado de Redes eurais Cálculo de (x, t Pode-se escrever: (x, t (t x (x Logo, é necessário calcular (t x (t x, ste modelo é ajustado aos dados de treinamento : Por meio dos arâmetros Minimizando alguma função de erro, deduzida a artir de algum rincíio, ara extrair a maior quantidade de informação ossível. statística Clássica Princíio Fundamental: Função de Verossimilhança L( ( Fornece a distribuição de robabilidades dos dados em função dos arâmetros Cálculo de é baseado na maximização da função L( quivalente à minimização de uma função de erro Redes eurais e Verossimilhança Considera-se: ados {(x, t, (x, t,, (x, t } Parâmetros {,,, m } Verossimilhança L( ( (x, t uondo que as observações (x, t, são indeendentes entre si, tem-se que: ( ( x, t ( x t, L Redes eurais e Verossimilhança ecomondo: L ( ( x, t ( t x, ( x Mas os dados de entrada são indeendentes das observações! ( x ( x L( ( t x, ( x Redes eurais e Verossimilhança Valor mais aroriado ara : Aquele que maximiza a função L( quivalente a minimizar a função ( -ln L( Redes eurais e Verossimilhança Função de rro ( L ( ( t x, ( x ( ln L( ln ( t x, ln ( x

Redes eurais e Verossimilhança Função de rro ( L ( ( t x, ( x ( ln L( ln ( t x, ln ( x Indeende de Redes eurais e Verossimilhança Função de rro ( ( ln ( t x, Cada termo do somatório: erro referente a um dos adrões de treinamento iferentes tios de erro são obtidos de acordo com a forma assumida ara a densidade condicional t x (, Redes eurais e Verossimilhança Função de rro ( ados {(x, t, (x, t,, (x, t } aídas do modelo: g(, x Por exemlo, ode-se suor que t + e e : (0, σ e ( e ex πσ σ Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( t x, ex πσ ( t ( x, σ ( ( ( t ( x, ln t x, ln ex σ πσ Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( ( t ( x, ln ln ex σ πσ Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( ( t ( x, ln ln ex σ πσ Indeende de ln(ex(x x 3

Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( ( t ( x, σ O rincíio da máxima verossimilhança imlica na minimização de uma função de erro ssa função nada mais é que o rro Quadrático É a mesma função minimizada elo algoritmo de bacroagation. Logo, o treinamento tradicional de redes neurais é baseado no rincíio da máxima verossimilhança Treinamento Baesiano: Insirado na statística Baesiana Assume um modelo em articular (distribuição a riori ara a densidade de robabilidade dos arâmetros do modelo ( xressa o grau de credibilidade de cada um dos valores que o vetor de arâmetros ode assumir. Teorema de Baes: infere, a artir dos dados disoníveis, o melhor conjunto de arâmetros Método que auxilia a definir o melhor conjunto de arâmetros do modelo a artir dos dados disoníveis: ados: Variável aleatória Parâmetros:Variável aleatória Método que auxilia a definir o melhor conjunto de arâmetros do modelo a artir dos dados disoníveis: ados: Variável aleatória Parâmetros:Variável aleatória ( ( + a riori a riori Método que auxilia a definir o melhor conjunto de arâmetros do modelo a artir dos dados disoníveis: ados: Variável aleatória Parâmetros:Variável aleatória ( ( ( ( ( a osteriori 4

Priori Verossimilhança Priori ( ( ( ( ( ( ( ( Priori: informação sobre derivada do conhecimento révio (bacground nowledge Priori: informação sobre derivada do conhecimento révio (bacground nowledge Verossimilhança: informação sobre derivada dos dados Verossimilhança ( ( ( ( Priori Priori: informação sobre derivada do conhecimento révio (bacground nowledge Verossimilhança: informação sobre derivada dos dados Posteriori: combina as duas fontes de informação Para facilitar o cálculo da osteriori ( : Priori ( Verossimilhança ( ( ( ( ( Para facilitar o cálculo da osteriori ( : Priori ( Forma exonencial Verossimilhança ( e z e x e e x ( ( ( ( e ensidade a riori (: m geral: ( ex ( ( (: fator de normalização ara garantir Para favorecer arâmetros equenos, ode-se fazer: m i i ( d 5

ensidade a riori (: hier-arâmetro m geral: ( ex( ( (: fator de normalização ara garantir Para favorecer arâmetros equenos, ode-se fazer: m i i ( d ensidade a riori (: ntão fica: Ou seja quando é grande, ( é equeno, o que enaliza valores grandes dos arâmetros ormalização: ( ex ( π i d i ( ex( d ex m m ensidade a riori (: Verossimilhança ( ntão fica: ( ex ( m geral: ( ex ( ( Ou seja quando é grande, ( Regularized é equeno, o que enaliza valores grandes dos arâmetros Weight eca ormalização: π i d i ( ex( d ex m m Verossimilhança ( m geral: ( hier-arâmetro ex( ( (: fator de normalização ( ex( d Verossimilhança ( ados {(x, t, (x, t,, (x, t } aídas do modelo: g(, x eduzido anteriormente: ( ( t x, ( x ( t x, ex πσ ( t ( x, σ 6

Verossimilhança ( : ntão fica: Ou seja: ( ex πσ ( t ( x, σ ( ex { ( } t x, πσ σ Verossimilhança ( : ( ex ( ( ( ex { ( } t x, π σ ( ex { ( } t x, π Verossimilhança ( : ( ex ( ( ( ex { ( } t x, π Posteriori ( : ( ( ( ( { ( x, t } um squared rror! ( π ex( ex( ( ( ( ( ( ( d ( Posteriori ( : Posteriori ( : ( ( ( ( ( ( ( ( ( ex ( ( ex -( ( 7

Função de rro ( ( ln ( ( ln ex( ( Função de rro ( ( ln ( ( ln ex( ( ( ln{ } ln{ ex( ( } ( ln{ } ln{ ex( ( } Indeende de Função de rro ( ( ln ( ( ln ex( ( Posteriori ( : ( ex ( ( ( { ( x, t } m i i ( + quadráticas em Posteriori ( : ( ex ( Posteriori ( : ( ex ( ( Gaussiana! ( Gaussiana! 8

Máxima a Posteriori : Reresenta o valor mais rovável ara o vetor de arâmetros Maximizar ( equivale a minimizar ( ( Máxima a Posteriori : m ( { ( x, t } + i i ( Gaussiana! ( Gaussiana! Máxima a Posteriori : m ( { ( x, t } + i i grande: muitos dados de treinamento, rimeiro termo domina o erro, e máxima verossimilhança dá uma boa aroximação equeno: termo de weight deca assa a ser imortante Analiticamente Cálculo da ensidade a Posteriori Aroximação Gaussiana MCMC Cálculo da ensidade a Posteriori - xemlo uonha um rocesso bastante simles: ω 0 x t ω 0 x + η ω 0.57 η (0,0. 0 observações: {(x, t, (x, t,, (x 0, t 0 } Analiticamente Aroximação Gaussiana MCMC 9

- xemlo Cálculo da função (: Modelo x m { } m ( { ( x, t } + i i - xemlo Cálculo da função (: Modelo x m { } ( { x + t x t } + eseja-se encontrar que minimize ( ( { x t } + - xemlo Mínimo da função (: - xemlo Mínimo da função (: ( { x xt } + 0 + x xt 0 x t σ + x - xemlo - xemlo Mínimo da função (: 0 x t x Mínimos Quadrados o exemlo: σ 0. 00 0 00 0 x t 0 + 00 x 0

- xemlo Posteriori ( : ( ex ex( ( ( ( ( { x + t x t } + d - xemlo Posteriori ( : d + (, ex { x + t xt} + t d ex x + x t - xemlo Posteriori ( : - xemlo Posteriori ( : + ex{ a b c} d π b ex c a 4 a x + a b x t c t x + a b x t c t - xemlo Priori ( : - xemlo Posteriori ( : 0.5

- xemlo Modelo x: Cálculo da ensidade a Posteriori.56 ω 0.57 Analiticamente Aroximação Gaussiana MCMC ( ( ( ( ( ex ( ( ( ex ( ( ex ( + ( ( Cálculo analítico é comlicado! Aroximação Gaussiana (Maca Aroximação Gaussiana Primeiro asso: exansão em série de Talor de ( em torno de um onto qualquer ^ :! T T ( ( ˆ + ( ˆ ( ˆ + ( ˆ ( ˆ ( ˆ + K Fazendo ^ mínimo de ( Aroximação Gaussiana Primeiro asso: exansão em série de Talor de ( em torno de um onto qualquer ^ :! T T ( ( ˆ + ( ˆ ( ˆ + ( ˆ ( ˆ ( ˆ + K Fazendo ^ mínimo de (

Aroximação Gaussiana Primeiro asso: exansão em série de Talor de ( em torno de um onto qualquer ^ :! T T ( ( ˆ + ( ˆ ( ˆ + ( ˆ ( ˆ ( ˆ + K Fazendo ^ mínimo de (! T ( ( + ( ( ( + K Aroximação Gaussiana Considerando somente a exansão linear: T ( ( + ( H (! ( H Matriz Hessiana Aroximação Gaussiana Considerando somente a exansão linear: T ( ( + ( H (! ( H Matriz Hessiana Aroximação Gaussiana Considerando somente a exansão linear:! T ( ( + H ( + H ( I + Aroximação Gaussiana Considerando somente a exansão linear:! T ( ( + H Aroximação Gaussiana T H d ex ( ( ( T ex H 3

Aroximação Gaussiana T H d ex ( Aroximação Gaussiana ( e ( e π H T ex H ( ( m Cálculo analítico é fácil m ( (, e ( π H ( ex H ( m π H T Aroximação Gaussiana ( ( π T ( H ( ex m H Aroximação Gaussiana ( ( π T ( H ( ex m H istribuição gaussiana multivariável em d dimensões; T ( x ex ( x µ ( x µ d ( π µ: média Σ: matriz de covariância Ou seja: A distribuição a osteriori ( tem a forma de uma gaussiana em m dimensões é a média da distribuição a osteriori é equivalente a (máxima a osteriori ode ser encontrado minimizando a função ( or meio de algum rocesso de otimização não-linear: Algoritmos Genéticos Gradiente descendente Levenberg-Marquardt Cálculo dos Hier-arâmetros Até o momento, considerou-se os hier-arâmetros e como constantes conhecidas. a abordagem Baesiana ermite inferir os valores mais aroriados ara estes hier-arâmetros a artir dos dados de treinamento. Tais valores devem maximizar a distribuição a osteriori ( 4

Cálculo dos Hier-arâmetros Pode-se escrever: ( (,, d d Cálculo dos Hier-arâmetros Pode-se escrever: ( (,, d d ( (,, d d Cálculo dos Hier-arâmetros Pode-se escrever: ( (,, d d Cálculo dos Hier-arâmetros olução aroximada (evidence aroximation Maca ( (,, d d ( (,, d d olução analítica muito difícil! Cálculo dos Hier-arâmetros olução aroximada (evidence aroximation Maca ( (,, d d Cálculo dos Hier-arâmetros olução aroximada (evidence aroximation Maca ( (,, Onde e são os valores que maximizam a distribuição a osteriori (, (, é similar a (, sendo dada or (Baes: (, ( 5

Cálculo dos Hier-arâmetros Assim, deseja-se maximizar (, ( Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, ( indeende de e (, distribuição a riori dos hier-arâmetros, suõe-se uniforme Logo, maximizar (, equivale a maximizar (, Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, (,, (, d (, (,, (, d Indeende de ( ex { ( } t x, π Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, (, (, d (, (, (, d Indeende de ( ex ( 6

Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, ( d Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, ( d Onde (já deduzido: (, ex( ( ( π ( ( ex ( π m ( Cálculo dos Hier-arâmetros Logo, tem-se: ( ( (, ex ex d ( ( Cálculo dos Hier-arâmetros Logo, tem-se: ( ( (, ex ex d ( ( π ( ( π m π ( ( π m Indeendem de! Cálculo dos Hier-arâmetros Logo, tem-se: (, ex( d ( ( Cálculo dos Hier-arâmetros Logo, tem-se: (, ex( d ( ( ( 7

Cálculo dos Hier-arâmetros Logo, tem-se: (, ( ( ex{ ( } d Cálculo dos Hier-arâmetros Logo, tem-se: (, ( ( ex{ ( } d Aroximação Gaussiana: ( ( m, e ( H π ( + Cálculo dos Hier-arâmetros Finalmente: (, π e m ( π ( ( ( ( H π m Cálculo dos Hier-arâmetros Ou seja: m (, ( e e π H Agora, deseja-se maximizar (, em relação a e, ou seja, encontrar e tais que (, (, 0 e 0 Cálculo dos Hier-arâmetros Ou seja: m (, ( e e π H Cálculo dos Hier-arâmetros Inicialmente, calcula-se: ln m (, ln + ln ln( π ln H Agora, deseja-se maximizar (, em relação a e, ou seja, encontrar e tais que (, (, 0 e 0 O que é equivalente a: ln (, ln (, 0 e 0 8

Cálculo dos Hier-arâmetros Agora, tem-se: ln (, m d ln H 0 d Cálculo dos Hier-arâmetros Agora, tem-se: ln (, m d ln H 0 d d H m ln d ln H m d d Cálculo dos Hier-arâmetros Matriz Hessiana: ( + I G I H + Cálculo dos Hier-arâmetros Logo, tem-se: m λ m m i i λi + i λi + Pode-se mostrar que: d ln H d m i λi + λ i : autovalores da matriz G γ m λi γ λ i i + Cálculo dos Hier-arâmetros Agora ara : ln (, d ln H 0 d Cálculo dos Hier-arâmetros Agora ara : ln (, d ln H 0 d d ln H d ln H d d d ln H d ln H d d Pode-se mostrar que: d ln H d λ m i i λi + 9

Cálculo dos Hier-arâmetros Logo, tem-se: λ m i i λi + - xemlo o exemlo: Modelo x m { } ( { x t} G ( ( γ m λi γ λ i i + G x λ x λ γ λ + - xemlo - xemlo o exemlo: Agora, não é necessário definir recisamente os valores de e efine-se inicialmente: 0 0 alica-se iterativamente os assos abaixo: Inferir a artir de ( Inferir e a artir de (, Priori ( :.0 - xemlo Posteriori ( : - xemlo Modelo x:.4.4 ω 0.57 ω 0.57 0

- xemlo Inferência dos hier-arâmetros: λ λ λ x 3. 85 γ 0. 79 λ + λ +.0 - xemlo Posteriori ( :.55 γ 0.5 γ 0. 0 ω 0.57 0.77 0. 6 - xemlo Modelo x: - xemlo Inferência dos hier-arâmetros: λ λ λ x 3. 85 γ 0. 88 λ + λ + 0.5.55 ω 0.57 γ 0.37 γ 89. 85.0 0. 056 - xemlo Posteriori ( : - xemlo Modelo x:.56.56 ω 0.57 ω 0.57

Função ensidade de Probabilidade da aída O treinamento Baesiano baseia-se na função densidade de robabilidade dos arâmetros do modelo. Para uma nova entrada, a saída do modelo também é descrita or uma f.d.. definida or: ( t x, ( t x, ( d Função ensidade de Probabilidade da aída O treinamento Baesiano baseia-se na função densidade de robabilidade dos arâmetros do modelo. Para uma nova entrada, a saída do modelo também é descrita or uma f.d.. definida or: ( t x, ( t x, ( d ( t x, ex ( t ( x, ( T ex H Função ensidade de Probabilidade da aída ntão fica: ( t x, ex ( t ( x, T ex H d Função ensidade de Probabilidade da aída ntão fica: ( x, T ( t x, ex ( t g T ex H d Mas (x, ode ser aroximada ela exansão de Talor: T ( x ( x, + g w g, Função ensidade de Probabilidade da aída ntão fica: ( x, T ( t x, ex ( t g T ex H d - xemlo o exemlo: Modelo x m { } g x Calculando esta integral, vem: ( t x, ex πσ t ( t σ t σ g T t + H g ( { x t} H x + ( I H + σ t + x x +

- xemlo eterminação Automática de Relevância Modelo x:.56 ω 0.57 ub-roduto do rocesso de treinamento Baesiana de redes neurais MLP. Baseada nos hier-arâmetros, que definem os esalhamentos das densidades de robabilidade dos esos da rede ( ex ( eterminação Automática de Relevância eterminação Automática de Relevância Pesos relativos a cada variável de entrada j têm um hier-arâmetro j distinto. Pesos associados com grandes j têm maior tendência a decair a zero, indicando baixa relevância ara a inferência. A técnica aumenta a robustez da rede treinada Pode-se estender o método AR, efetivamente removendo as variáveis de entrada com menores relevâncias. Relevância da variável de entrada j : i (% 00 r i j j oma das relevância é igual a 00%. eterminação Automática de Relevância Redes Baesianas na Prática Procedimento ara seleção de variáveis or AR: Treinar uma rede neural Baesiana com todas as variáveis de entrada Ordenar as variáveis de entrada or suas relevâncias Remover as variáveis cujas relevâncias sejam menores que % Retreinar a rede neural O rocesso é reetido recursivamente até que mais nenhuma variável seja eliminada Matlab: função de treinamento trainbr: Alica a regularização Baesiana ao treinamento de redes MLP, utilizando o algoritmo de Levenberg-Marquardt ão estima os melhores hier-arâmetros! 3

Redes Baesianas na Prática Redes Baesianas na Prática etlab (htt://www.ncrg.aston.ac.u/netlab/: Funções: mlrior ml netot evidence mlfwd % et u networ arameters. aw 0.0ones(, x; % First-laer AR herarameters. ab 0.0; % Herarameter for hidden unit biases. aw 0.0; % Herarameter for nd-laer weights. ab 0.0; % Herarameter for outut unit biases. beta 65.0; % Coefficient of data error. % Create and initialize networ. rior mlrior( x, h,, aw, ab, aw, ab ; net ml( x, h,, 'linear', rior, beta; % et u vector of otions for the otimiser. nouter eoch; % umber of outer loos ninner 400; % umber of inner loos Redes Baesianas na Prática MLP Padrões de Treinamento % Treinamento Baesiano for :eoch net netot( net, otions, Ptrain, Ttrain, 'scg' ; [net, gamma ] evidence( net, Ptrain, Ttrain, ninner ; alhas net.alha(:6; sigmas./alhas; ercent 00sigmas/sum(sigmas; Ctrain mlfwd( net, Ptrain ; Cvalid mlfwd( net, Pvalid ; Ctest mlfwd( net, Ptest ; 3.5 3.5 AM30 AM60 AM90 WM30 WM60 WM90 mae_train 00mean(abs((Ttrain-Ctrain./Ttrain; mae_test 00mean(abs((Ttest-Ctest./Ttest; mae_valid 00mean(abs((Tvalid-Cvalid./Tvalid; end.5 0 4 6 8 0 Baesiana Padrões de Treinamento MLP Padrões de Validação 3.5 3.5.5 AM30 AM60 AM90 WM30 WM60 WM90 0 4 6 8 0 4

Baesiano Padrões de Validação MLP Oeração On-line 50 00 istillation nd Point ( C 50 00 50 0 0 0.5.5.5 3 Outut value # x 0 4 Baesiano Oeração On-line 5