istemas Inteligentes de Inferência enominação correta: Redes eurais com Treinamento Baesiano Carlos Hall ois tios de statística: statística Clássica: lida com freqüências de ocorrência statística Baesiana: lida com densidades de robabilidade Teorema de Baes Considere dois eventos A e B: P (A v B P(A + P(B P(A^B P (A^B P(A B P(B P (A^B P(B A P(A P ( B A P ( A B P( B P( A Teorema de Baes Considere dois eventos A e B: P (A v B P(A + P(B P(A^B P (A^B P(A B P(B P (A^B P(B A P(A P ( B A ( x P ( A B P( B P( A ( x ( x ( Arendizado de Redes eurais Arendizado de Redes eurais Considera-se: ados {(x, t, (x, t,, (x, t } Parâmetros {,,, m } aídas do modelo: g(, x rros e {e, e,, e }, e t - Objetivo do Arendizado: Memorizar os ados de Treinamento: Modelar o rocesso gerador desses dados: escrição comleta do rocesso: densidade de robabilidade conjunta (x, t ÃO IM
Arendizado de Redes eurais Cálculo de (x, t Pode-se escrever: (x, t (t x (x Logo, é necessário calcular (t x (t x, ste modelo é ajustado aos dados de treinamento : Por meio dos arâmetros Minimizando alguma função de erro, deduzida a artir de algum rincíio, ara extrair a maior quantidade de informação ossível. statística Clássica Princíio Fundamental: Função de Verossimilhança L( ( Fornece a distribuição de robabilidades dos dados em função dos arâmetros Cálculo de é baseado na maximização da função L( quivalente à minimização de uma função de erro Redes eurais e Verossimilhança Considera-se: ados {(x, t, (x, t,, (x, t } Parâmetros {,,, m } Verossimilhança L( ( (x, t uondo que as observações (x, t, são indeendentes entre si, tem-se que: ( ( x, t ( x t, L Redes eurais e Verossimilhança ecomondo: L ( ( x, t ( t x, ( x Mas os dados de entrada são indeendentes das observações! ( x ( x L( ( t x, ( x Redes eurais e Verossimilhança Valor mais aroriado ara : Aquele que maximiza a função L( quivalente a minimizar a função ( -ln L( Redes eurais e Verossimilhança Função de rro ( L ( ( t x, ( x ( ln L( ln ( t x, ln ( x
Redes eurais e Verossimilhança Função de rro ( L ( ( t x, ( x ( ln L( ln ( t x, ln ( x Indeende de Redes eurais e Verossimilhança Função de rro ( ( ln ( t x, Cada termo do somatório: erro referente a um dos adrões de treinamento iferentes tios de erro são obtidos de acordo com a forma assumida ara a densidade condicional t x (, Redes eurais e Verossimilhança Função de rro ( ados {(x, t, (x, t,, (x, t } aídas do modelo: g(, x Por exemlo, ode-se suor que t + e e : (0, σ e ( e ex πσ σ Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( t x, ex πσ ( t ( x, σ ( ( ( t ( x, ln t x, ln ex σ πσ Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( ( t ( x, ln ln ex σ πσ Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( ( t ( x, ln ln ex σ πσ Indeende de ln(ex(x x 3
Redes eurais e Verossimilhança Função de rro ( Logo, tem-se: ( ( t ( x, σ O rincíio da máxima verossimilhança imlica na minimização de uma função de erro ssa função nada mais é que o rro Quadrático É a mesma função minimizada elo algoritmo de bacroagation. Logo, o treinamento tradicional de redes neurais é baseado no rincíio da máxima verossimilhança Treinamento Baesiano: Insirado na statística Baesiana Assume um modelo em articular (distribuição a riori ara a densidade de robabilidade dos arâmetros do modelo ( xressa o grau de credibilidade de cada um dos valores que o vetor de arâmetros ode assumir. Teorema de Baes: infere, a artir dos dados disoníveis, o melhor conjunto de arâmetros Método que auxilia a definir o melhor conjunto de arâmetros do modelo a artir dos dados disoníveis: ados: Variável aleatória Parâmetros:Variável aleatória Método que auxilia a definir o melhor conjunto de arâmetros do modelo a artir dos dados disoníveis: ados: Variável aleatória Parâmetros:Variável aleatória ( ( + a riori a riori Método que auxilia a definir o melhor conjunto de arâmetros do modelo a artir dos dados disoníveis: ados: Variável aleatória Parâmetros:Variável aleatória ( ( ( ( ( a osteriori 4
Priori Verossimilhança Priori ( ( ( ( ( ( ( ( Priori: informação sobre derivada do conhecimento révio (bacground nowledge Priori: informação sobre derivada do conhecimento révio (bacground nowledge Verossimilhança: informação sobre derivada dos dados Verossimilhança ( ( ( ( Priori Priori: informação sobre derivada do conhecimento révio (bacground nowledge Verossimilhança: informação sobre derivada dos dados Posteriori: combina as duas fontes de informação Para facilitar o cálculo da osteriori ( : Priori ( Verossimilhança ( ( ( ( ( Para facilitar o cálculo da osteriori ( : Priori ( Forma exonencial Verossimilhança ( e z e x e e x ( ( ( ( e ensidade a riori (: m geral: ( ex ( ( (: fator de normalização ara garantir Para favorecer arâmetros equenos, ode-se fazer: m i i ( d 5
ensidade a riori (: hier-arâmetro m geral: ( ex( ( (: fator de normalização ara garantir Para favorecer arâmetros equenos, ode-se fazer: m i i ( d ensidade a riori (: ntão fica: Ou seja quando é grande, ( é equeno, o que enaliza valores grandes dos arâmetros ormalização: ( ex ( π i d i ( ex( d ex m m ensidade a riori (: Verossimilhança ( ntão fica: ( ex ( m geral: ( ex ( ( Ou seja quando é grande, ( Regularized é equeno, o que enaliza valores grandes dos arâmetros Weight eca ormalização: π i d i ( ex( d ex m m Verossimilhança ( m geral: ( hier-arâmetro ex( ( (: fator de normalização ( ex( d Verossimilhança ( ados {(x, t, (x, t,, (x, t } aídas do modelo: g(, x eduzido anteriormente: ( ( t x, ( x ( t x, ex πσ ( t ( x, σ 6
Verossimilhança ( : ntão fica: Ou seja: ( ex πσ ( t ( x, σ ( ex { ( } t x, πσ σ Verossimilhança ( : ( ex ( ( ( ex { ( } t x, π σ ( ex { ( } t x, π Verossimilhança ( : ( ex ( ( ( ex { ( } t x, π Posteriori ( : ( ( ( ( { ( x, t } um squared rror! ( π ex( ex( ( ( ( ( ( ( d ( Posteriori ( : Posteriori ( : ( ( ( ( ( ( ( ( ( ex ( ( ex -( ( 7
Função de rro ( ( ln ( ( ln ex( ( Função de rro ( ( ln ( ( ln ex( ( ( ln{ } ln{ ex( ( } ( ln{ } ln{ ex( ( } Indeende de Função de rro ( ( ln ( ( ln ex( ( Posteriori ( : ( ex ( ( ( { ( x, t } m i i ( + quadráticas em Posteriori ( : ( ex ( Posteriori ( : ( ex ( ( Gaussiana! ( Gaussiana! 8
Máxima a Posteriori : Reresenta o valor mais rovável ara o vetor de arâmetros Maximizar ( equivale a minimizar ( ( Máxima a Posteriori : m ( { ( x, t } + i i ( Gaussiana! ( Gaussiana! Máxima a Posteriori : m ( { ( x, t } + i i grande: muitos dados de treinamento, rimeiro termo domina o erro, e máxima verossimilhança dá uma boa aroximação equeno: termo de weight deca assa a ser imortante Analiticamente Cálculo da ensidade a Posteriori Aroximação Gaussiana MCMC Cálculo da ensidade a Posteriori - xemlo uonha um rocesso bastante simles: ω 0 x t ω 0 x + η ω 0.57 η (0,0. 0 observações: {(x, t, (x, t,, (x 0, t 0 } Analiticamente Aroximação Gaussiana MCMC 9
- xemlo Cálculo da função (: Modelo x m { } m ( { ( x, t } + i i - xemlo Cálculo da função (: Modelo x m { } ( { x + t x t } + eseja-se encontrar que minimize ( ( { x t } + - xemlo Mínimo da função (: - xemlo Mínimo da função (: ( { x xt } + 0 + x xt 0 x t σ + x - xemlo - xemlo Mínimo da função (: 0 x t x Mínimos Quadrados o exemlo: σ 0. 00 0 00 0 x t 0 + 00 x 0
- xemlo Posteriori ( : ( ex ex( ( ( ( ( { x + t x t } + d - xemlo Posteriori ( : d + (, ex { x + t xt} + t d ex x + x t - xemlo Posteriori ( : - xemlo Posteriori ( : + ex{ a b c} d π b ex c a 4 a x + a b x t c t x + a b x t c t - xemlo Priori ( : - xemlo Posteriori ( : 0.5
- xemlo Modelo x: Cálculo da ensidade a Posteriori.56 ω 0.57 Analiticamente Aroximação Gaussiana MCMC ( ( ( ( ( ex ( ( ( ex ( ( ex ( + ( ( Cálculo analítico é comlicado! Aroximação Gaussiana (Maca Aroximação Gaussiana Primeiro asso: exansão em série de Talor de ( em torno de um onto qualquer ^ :! T T ( ( ˆ + ( ˆ ( ˆ + ( ˆ ( ˆ ( ˆ + K Fazendo ^ mínimo de ( Aroximação Gaussiana Primeiro asso: exansão em série de Talor de ( em torno de um onto qualquer ^ :! T T ( ( ˆ + ( ˆ ( ˆ + ( ˆ ( ˆ ( ˆ + K Fazendo ^ mínimo de (
Aroximação Gaussiana Primeiro asso: exansão em série de Talor de ( em torno de um onto qualquer ^ :! T T ( ( ˆ + ( ˆ ( ˆ + ( ˆ ( ˆ ( ˆ + K Fazendo ^ mínimo de (! T ( ( + ( ( ( + K Aroximação Gaussiana Considerando somente a exansão linear: T ( ( + ( H (! ( H Matriz Hessiana Aroximação Gaussiana Considerando somente a exansão linear: T ( ( + ( H (! ( H Matriz Hessiana Aroximação Gaussiana Considerando somente a exansão linear:! T ( ( + H ( + H ( I + Aroximação Gaussiana Considerando somente a exansão linear:! T ( ( + H Aroximação Gaussiana T H d ex ( ( ( T ex H 3
Aroximação Gaussiana T H d ex ( Aroximação Gaussiana ( e ( e π H T ex H ( ( m Cálculo analítico é fácil m ( (, e ( π H ( ex H ( m π H T Aroximação Gaussiana ( ( π T ( H ( ex m H Aroximação Gaussiana ( ( π T ( H ( ex m H istribuição gaussiana multivariável em d dimensões; T ( x ex ( x µ ( x µ d ( π µ: média Σ: matriz de covariância Ou seja: A distribuição a osteriori ( tem a forma de uma gaussiana em m dimensões é a média da distribuição a osteriori é equivalente a (máxima a osteriori ode ser encontrado minimizando a função ( or meio de algum rocesso de otimização não-linear: Algoritmos Genéticos Gradiente descendente Levenberg-Marquardt Cálculo dos Hier-arâmetros Até o momento, considerou-se os hier-arâmetros e como constantes conhecidas. a abordagem Baesiana ermite inferir os valores mais aroriados ara estes hier-arâmetros a artir dos dados de treinamento. Tais valores devem maximizar a distribuição a osteriori ( 4
Cálculo dos Hier-arâmetros Pode-se escrever: ( (,, d d Cálculo dos Hier-arâmetros Pode-se escrever: ( (,, d d ( (,, d d Cálculo dos Hier-arâmetros Pode-se escrever: ( (,, d d Cálculo dos Hier-arâmetros olução aroximada (evidence aroximation Maca ( (,, d d ( (,, d d olução analítica muito difícil! Cálculo dos Hier-arâmetros olução aroximada (evidence aroximation Maca ( (,, d d Cálculo dos Hier-arâmetros olução aroximada (evidence aroximation Maca ( (,, Onde e são os valores que maximizam a distribuição a osteriori (, (, é similar a (, sendo dada or (Baes: (, ( 5
Cálculo dos Hier-arâmetros Assim, deseja-se maximizar (, ( Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, ( indeende de e (, distribuição a riori dos hier-arâmetros, suõe-se uniforme Logo, maximizar (, equivale a maximizar (, Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, (,, (, d (, (,, (, d Indeende de ( ex { ( } t x, π Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, (, (, d (, (, (, d Indeende de ( ex ( 6
Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, ( d Cálculo dos Hier-arâmetros Assim, deseja-se maximizar a verossimilhança dos hierarâmetros: (, (, ( d Onde (já deduzido: (, ex( ( ( π ( ( ex ( π m ( Cálculo dos Hier-arâmetros Logo, tem-se: ( ( (, ex ex d ( ( Cálculo dos Hier-arâmetros Logo, tem-se: ( ( (, ex ex d ( ( π ( ( π m π ( ( π m Indeendem de! Cálculo dos Hier-arâmetros Logo, tem-se: (, ex( d ( ( Cálculo dos Hier-arâmetros Logo, tem-se: (, ex( d ( ( ( 7
Cálculo dos Hier-arâmetros Logo, tem-se: (, ( ( ex{ ( } d Cálculo dos Hier-arâmetros Logo, tem-se: (, ( ( ex{ ( } d Aroximação Gaussiana: ( ( m, e ( H π ( + Cálculo dos Hier-arâmetros Finalmente: (, π e m ( π ( ( ( ( H π m Cálculo dos Hier-arâmetros Ou seja: m (, ( e e π H Agora, deseja-se maximizar (, em relação a e, ou seja, encontrar e tais que (, (, 0 e 0 Cálculo dos Hier-arâmetros Ou seja: m (, ( e e π H Cálculo dos Hier-arâmetros Inicialmente, calcula-se: ln m (, ln + ln ln( π ln H Agora, deseja-se maximizar (, em relação a e, ou seja, encontrar e tais que (, (, 0 e 0 O que é equivalente a: ln (, ln (, 0 e 0 8
Cálculo dos Hier-arâmetros Agora, tem-se: ln (, m d ln H 0 d Cálculo dos Hier-arâmetros Agora, tem-se: ln (, m d ln H 0 d d H m ln d ln H m d d Cálculo dos Hier-arâmetros Matriz Hessiana: ( + I G I H + Cálculo dos Hier-arâmetros Logo, tem-se: m λ m m i i λi + i λi + Pode-se mostrar que: d ln H d m i λi + λ i : autovalores da matriz G γ m λi γ λ i i + Cálculo dos Hier-arâmetros Agora ara : ln (, d ln H 0 d Cálculo dos Hier-arâmetros Agora ara : ln (, d ln H 0 d d ln H d ln H d d d ln H d ln H d d Pode-se mostrar que: d ln H d λ m i i λi + 9
Cálculo dos Hier-arâmetros Logo, tem-se: λ m i i λi + - xemlo o exemlo: Modelo x m { } ( { x t} G ( ( γ m λi γ λ i i + G x λ x λ γ λ + - xemlo - xemlo o exemlo: Agora, não é necessário definir recisamente os valores de e efine-se inicialmente: 0 0 alica-se iterativamente os assos abaixo: Inferir a artir de ( Inferir e a artir de (, Priori ( :.0 - xemlo Posteriori ( : - xemlo Modelo x:.4.4 ω 0.57 ω 0.57 0
- xemlo Inferência dos hier-arâmetros: λ λ λ x 3. 85 γ 0. 79 λ + λ +.0 - xemlo Posteriori ( :.55 γ 0.5 γ 0. 0 ω 0.57 0.77 0. 6 - xemlo Modelo x: - xemlo Inferência dos hier-arâmetros: λ λ λ x 3. 85 γ 0. 88 λ + λ + 0.5.55 ω 0.57 γ 0.37 γ 89. 85.0 0. 056 - xemlo Posteriori ( : - xemlo Modelo x:.56.56 ω 0.57 ω 0.57
Função ensidade de Probabilidade da aída O treinamento Baesiano baseia-se na função densidade de robabilidade dos arâmetros do modelo. Para uma nova entrada, a saída do modelo também é descrita or uma f.d.. definida or: ( t x, ( t x, ( d Função ensidade de Probabilidade da aída O treinamento Baesiano baseia-se na função densidade de robabilidade dos arâmetros do modelo. Para uma nova entrada, a saída do modelo também é descrita or uma f.d.. definida or: ( t x, ( t x, ( d ( t x, ex ( t ( x, ( T ex H Função ensidade de Probabilidade da aída ntão fica: ( t x, ex ( t ( x, T ex H d Função ensidade de Probabilidade da aída ntão fica: ( x, T ( t x, ex ( t g T ex H d Mas (x, ode ser aroximada ela exansão de Talor: T ( x ( x, + g w g, Função ensidade de Probabilidade da aída ntão fica: ( x, T ( t x, ex ( t g T ex H d - xemlo o exemlo: Modelo x m { } g x Calculando esta integral, vem: ( t x, ex πσ t ( t σ t σ g T t + H g ( { x t} H x + ( I H + σ t + x x +
- xemlo eterminação Automática de Relevância Modelo x:.56 ω 0.57 ub-roduto do rocesso de treinamento Baesiana de redes neurais MLP. Baseada nos hier-arâmetros, que definem os esalhamentos das densidades de robabilidade dos esos da rede ( ex ( eterminação Automática de Relevância eterminação Automática de Relevância Pesos relativos a cada variável de entrada j têm um hier-arâmetro j distinto. Pesos associados com grandes j têm maior tendência a decair a zero, indicando baixa relevância ara a inferência. A técnica aumenta a robustez da rede treinada Pode-se estender o método AR, efetivamente removendo as variáveis de entrada com menores relevâncias. Relevância da variável de entrada j : i (% 00 r i j j oma das relevância é igual a 00%. eterminação Automática de Relevância Redes Baesianas na Prática Procedimento ara seleção de variáveis or AR: Treinar uma rede neural Baesiana com todas as variáveis de entrada Ordenar as variáveis de entrada or suas relevâncias Remover as variáveis cujas relevâncias sejam menores que % Retreinar a rede neural O rocesso é reetido recursivamente até que mais nenhuma variável seja eliminada Matlab: função de treinamento trainbr: Alica a regularização Baesiana ao treinamento de redes MLP, utilizando o algoritmo de Levenberg-Marquardt ão estima os melhores hier-arâmetros! 3
Redes Baesianas na Prática Redes Baesianas na Prática etlab (htt://www.ncrg.aston.ac.u/netlab/: Funções: mlrior ml netot evidence mlfwd % et u networ arameters. aw 0.0ones(, x; % First-laer AR herarameters. ab 0.0; % Herarameter for hidden unit biases. aw 0.0; % Herarameter for nd-laer weights. ab 0.0; % Herarameter for outut unit biases. beta 65.0; % Coefficient of data error. % Create and initialize networ. rior mlrior( x, h,, aw, ab, aw, ab ; net ml( x, h,, 'linear', rior, beta; % et u vector of otions for the otimiser. nouter eoch; % umber of outer loos ninner 400; % umber of inner loos Redes Baesianas na Prática MLP Padrões de Treinamento % Treinamento Baesiano for :eoch net netot( net, otions, Ptrain, Ttrain, 'scg' ; [net, gamma ] evidence( net, Ptrain, Ttrain, ninner ; alhas net.alha(:6; sigmas./alhas; ercent 00sigmas/sum(sigmas; Ctrain mlfwd( net, Ptrain ; Cvalid mlfwd( net, Pvalid ; Ctest mlfwd( net, Ptest ; 3.5 3.5 AM30 AM60 AM90 WM30 WM60 WM90 mae_train 00mean(abs((Ttrain-Ctrain./Ttrain; mae_test 00mean(abs((Ttest-Ctest./Ttest; mae_valid 00mean(abs((Tvalid-Cvalid./Tvalid; end.5 0 4 6 8 0 Baesiana Padrões de Treinamento MLP Padrões de Validação 3.5 3.5.5 AM30 AM60 AM90 WM30 WM60 WM90 0 4 6 8 0 4
Baesiano Padrões de Validação MLP Oeração On-line 50 00 istillation nd Point ( C 50 00 50 0 0 0.5.5.5 3 Outut value # x 0 4 Baesiano Oeração On-line 5