CC-226 Aula 07 - Estimação de Parâmetros

Documentos relacionados
1.1 Exemplo da diferença da média da população para a média amostral.

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

AULA 07 Distribuições Discretas de Probabilidade

1 Método de Monte Carlo Simples

Regressão, Interpolação e Extrapolação Numéricas

Ajuste de um modelo de TRI aos dados do vestibular do curso de Administração Noturno da Universidade Federal de Uberlândia

Teste de hipótese em modelos normais lineares: ANOVA

Probabilidade e Estatística

Inferência Estatística

DISTRIBUIÇÕES ESPECIAIS DE PROBABILIDADE DISCRETAS

Pós-Graduação em Computação Distribuída e Ubíqua

UMA ANÁLISE BAYESIANA DO PERFIL COR/RAÇA DOS INDIVÍDUOS QUE TEM CURSO SUPERIOR NO BRASIL

A. Equações não lineares

Avaliação e Desempenho Aula 1 - Simulação

AULA 19 Análise de Variância

Aula de Exercícios - Teorema de Bayes

Inteligência Artificial

AULA DO CPOG. Progressão Aritmética

Universidade Federal de Goiás Campus Catalão Departamento de Matemática

Métodos Estatísticos Avançados em Epidemiologia

Entropia, Entropia Relativa

IND 1115 Inferência Estatística Aula 8

Recorrendo à nossa imaginação podemos tentar escrever números racionais de modo semelhante: 1 2 =

Distribuição Normal de Probabilidade

Modelos de Probabilidade e Inferência Estatística

Emparelhamentos Bilineares Sobre Curvas

Seu pé direito nas melhores Faculdades

Estimação por Intervalos

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

OPERAÇÕES COM FRAÇÕES

Fundamentos de Teste de Software

GUIA DE FUNCIONAMENTO DA UNIDADE CURRICULAR

4.4 Limite e continuidade

UNESP - Faculdade de Engenharia de Guaratinguetá 1

Ondas EM no Espaço Livre (Vácuo)

ActivALEA. ative e atualize a sua literacia

Curso de Análise Estatística Comparação entre variáveis contínuas: correlação e regressão Linear

Gerenciamento do Escopo do Projeto (PMBoK 5ª ed.)


Teste de Hipótese e Intervalo de Confiança. Parte 2

Longitudinais. Análise de Dados. XIX Congresso da Sociedade Portuguesa de Estatística. M. Salomé Cabral M. Helena Gonçalves

Probabilidade. Luiz Carlos Terra

Prof. Daniela Barreiro Claro

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Como rodar a regressão no gretl. Usando o Console para calcular elasticidade. Elasticidade. Usando o Console para calcular predição

Análise Qualitativa no Gerenciamento de Riscos de Projetos

Álgebra Linear I - Aula 20

Matemática 2 aula 11 COMENTÁRIOS ATIVIDADES PARA SALA COMENTÁRIOS ATIVIDADES PROPOSTAS POLINÔMIOS I. P(x) = 4x (x 1) + (x 1)

MATÉRIA TÉCNICA APTTA BRASIL SENSORES MAGNETO-RESTRITIVOS UM CRUZAMENTO DE DOIS TIPOS DE SENSORES CONHECIDOS.

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

ENG1000 Introdução à Engenharia

Métricas de Software

O cilindro deitado. Eduardo Colli

Testes de Hipóteses Estatísticas

Pressuposições à ANOVA

Jogos Bayesianos Estratégias e Equilíbrio Aplicações. Jogos Bayesianos. Prof. Leandro Chaves Rêgo

EXERCÍCIOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA (sistemas de equações lineares e outros exercícios)

Prof. Neckel FÍSICA 1 PROVA 1 TEMA 2 PARTE 1 PROF. NECKEL POSIÇÃO. Sistema de Coordenadas Nome do sistema Unidade do sistema 22/02/2016.

MOQ-14 Projeto e Análise de Experimentos

Relatório do Experimento 1 Sistema Massa - Mola. Fernando Henrique Ferraz Pereira da Rosa

Modelos Defeituosos para Dados com Fraçao de Cura Baseado em Processo de Wiener

Comecemos por relembrar as propriedades das potências: = a x c) a x a y = a x+y

Função Seno. Gráfico da Função Seno

GRADUAÇÃO TECNOLÓGICA EM GESTÃO DA PRODUÇÃO INDUSTRIAL GERENCIAMENTO ESTATÍSTICO DOS PROCESSOS PRODUTIVOS (tópicos da aula 3)

Conteúdo programático por disciplina Matemática 6 o ano

Módulo de Equações do Segundo Grau. Equações do Segundo Grau: Resultados Básicos. Nono Ano

Optimização e Algoritmos (2004/2005)

ÁLGEBRA. Aula 5 _ Função Polinomial do 1º Grau Professor Luciano Nóbrega. Maria Auxiliadora

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

Modelo Uniforme. como eu e meu colega temos 5 bilhetes, temos a mesma probabilidade de ganhar a rifa:

Métodos Estatísticos Avançados em Epidemiologia

Modelo Relacional Normalização Diagramas E-R e Tabelas Originadas

Modelo Normal. Aplicações: Parte 1. Prof. Caio Azevedo. Prof. Caio Azevedo

Análise de Regressão Linear Simples III

Exercícios de Aprofundamento Mat Polinômios e Matrizes

PESQUISA DE OPINIÃO PÚBLICA SOBRE ELEIÇÕES 2016

Método Simplex das Duas Fases

Correlação e Regressão linear simples

Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

Módulo e-rede Magento v1.0. Manual de. Instalação do Módulo. estamos todos ligados

A lei dos senos. Na Aula 42 vimos que a Lei dos co-senos é. a 2 = b 2 + c 2-2bc cos Â

Inversão de Matrizes

MATEMÁTICA II. Aula 12. 3º Bimestre. Determinantes Professor Luciano Nóbrega

Notas de aula de Lógica para Ciência da Computação. Aula 11, 2012/2

Avaliação de Empresas Profa. Patricia Maria Bortolon

Probabilidade. Evento (E) é o acontecimento que deve ser analisado.

Álgebra Linear Aplicada à Compressão de Imagens. Universidade de Lisboa Instituto Superior Técnico. Mestrado em Engenharia Aeroespacial

Cap. II EVENTOS MUTUAMENTE EXCLUSIVOS E EVENTOS NÃO- EXCLUSIVOS

FÍSICA EXPERIMENTAL 3001

UM JOGO BINOMIAL 1. INTRODUÇÃO

Função. Adição e subtração de arcos Duplicação de arcos

Semana 7 Resolução de Sistemas Lineares

Aula 8 Intervalos de confiança para proporções amostras grandes

Se inicialmente, o tanque estava com 100 litros, pode-se afirmar que ao final do dia o mesmo conterá.

Erros de Estado Estacionário. Carlos Alexandre Mello. Carlos Alexandre Mello 1

UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA DEPARTAMENTO DE ENGENHARIA QUÍMICA ENG 008 Fenômenos de Transporte I A Profª Fátima Lopes

Capítulo 4 Inferência Estatística

LINEARIZAÇÃO DE GRÁFICOS

Transcrição:

CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições de probabilidades conhecidas. Para as redes bayesianas e o método naïve bayes, haviamos utilizado apenas distribuições discretas. Agora queremos estimar uma densidade de probabilidade contínua (e eventualmente multidimensional) a partir de um conjunto de observações. Se conhecemos o tipo de variável aleatória com que estamos trabalhando, podemos conhecer a família de distribuições de probabilidades (uniforme, gaussiana, Rayleigh etc) e neste caso bastaria determinar um vetor de parâmetros que definem a forma da distribuição. Há casos em que esses parâmetros não são conhecidos e devem ser estimados a partir dos dados (adaptar um modelo paramétrico aos dados como fizemos na regressão linear). No problema da regressão linear, minimizamos uma função de erro que media a disparidade entre os dados e um modelo de predição. O que podemos utilizar como função de erro para avaliar se um conjunto de parâmetros modela adequadamente um conjunto de amostras? Amostragem X 1,..., X N formam uma amostra aleatória de tamanho N se X i são todos independentes, ou seja, P (X i, X j ) = P (X i)p (X j ), i j; Todo X i possui a mesma distribuição de probabilidades. 1

Propriedade: distribuição da média amostral Se os dados X 1,..., X N foram amostrados de uma distribuição qualquer com valor médio µ e desvio-padrão σ: E( X) = µ V ar( X) = σ2 n Se T 0 = X 1 +... + X n, então: E(T 0 ) = nµ V ar(t 0 ) = nσ 2 Propriedade: teorema do limite central Se os dados X 1,..., X N foram amostrados de uma distribuição qualquer com valor médio µ e desvio-padrão σ. Se N é suficientemente grande, a média amostral X tem aproximadamente uma distribuição normal com µ X = µ σ 2 X = σ2 n A soma T 0 = i X i é também aproximadamente normal com µ T0 = nµ σ 2 X = nσ 2 Quanto maior for n melhor a aproximação. Estimação por Máxima Verossimilhança (MLE) Na construção do classificador, assumimos conhecida a verossimilhança p(x C i ), i = 1... M de como o conjunto de treinamento se distribuía. Supomos que essa verossimilhança assume uma forma paramétrica,dependente do vetor de parâmetros θ i desconhecido e que desejamos estimar. Sejam x 1... x N, N observações com pdf p(x, θ). O conjunto D = {x k } é o conjunto de amostras com probabilidade conjunta p(d, θ). 2

Os dados do conjunto D são independentes e identicamente distribuídos, de forma que: p(d, θ) = p(x 1, x 2,..., x N ) = N p(x k, θ) O estimador de máxima verossimilhança ˆθ ML é aquele θ para qual a função de verossimilhança tem valor máximo: ˆθ ML = arg max θ N p(x k, θ) Na otimização irrestrita, a condição necessária para obter o máximo é que o gradiente da função de verossimilhança em relação ao vetor θ seja nulo. N p(x k, θ) = 0 θ O logaritmo é crescente e monotônico, podemos definir a função log-verossimilhança como Operando o gradiente do log: L(θ) θ = N L(θ) = ln ln p(x k, θ) θ N p(x k, θ) = N 1 p(x k, θ) = 0 p(x k, θ) θ 3

Propriedades da MLE Se θ 0 é o valor real, o estimador ML é assintoticamente não-viezado, isto é, para amostras grandes (n ) em média converge para o valor real. lim n E[ˆθ ML ] = θ 0 Em geral, o estimador ML pode ser viezado para amostras pequenas (lembrar do σ 2 ). Porém, é assintoticamente consistente: a probabilidade de estar arbitrariamente próximo do valor correto é alta quanto maior for N. lim P r[ ˆθ ML θ 0 < ε] = 1 n 4

O estimador ML converge na média dos quadrados, isto é, para amostras grandes, a variância do estimador ML tende a zero. lim E[ ˆθ ML θ 0 2 ] = 0 n O estimador de ML tende a ser o estimador de mínima variância e é aproximadamente não-tendencioso. A pdf do estimador ML tende a uma gaussiana. Princípio da invariância: Se ˆθ é um estimador de máxima verossimilhança para o vetor de estatísticas θ, o estimador de máxima verossimilhança das estatísticas h(θ) é h(ˆθ) qualquer que seja h. Exemplo Caso Gaussiano com µ desconhecido. Supomos Σ conhecido. ln p(x k µ) = 1 2 ln [(2π)d Σ ] 1 2 (x k µ) T Σ 1 (x k µ) µ ln p(x k µ) = Σ 1 (x k µ) Σ 1 (x k µ) = 0 ˆµ = 1 n O estimador ML da média da distribuição é a média amostral. Exemplo Caso Gausiano com µ e Σ desconhecidos. Consideramos o caso unidimensional com θ 1 = µ e θ 2 = σ 2 Com derivadas x k ln p(x k θ) = 1 2 ln 2πθ 2 1 2θ 2 (x k θ 1 ) 2 θ L = θ ln p(x k θ) = [ 1 θ 2 (x k θ 1 ) 1 2θ 2 + (x k θ 1) 2 2θ 2 2 ] 5

Igualando a zero, Assim, No caso multivariado: 1 ˆθ 2 + 1 ˆθ 2 (x k ˆθ 1 ) = 0 θ 1 = ˆµ = 1 n θ 2 = ˆσ 2 = 1 n ˆΣ = 1 n ˆµ = 1 n (x k ˆθ 1 ) 2 2 = 0 ˆθ 2 x k (x k ˆµ) 2 x k (x k ˆµ)(x k ˆµ) T Notar que o estimador ML para a variância é tendencioso (viezado). [ ] 1 E (x k x) 2 = n 1 n n σ2 σ 2 i=1 Um estimador não tendencioso seria: C = 1 n 1 (x k ˆµ)(x k ˆµ) T Estimador Máxima a posteriori (MAP) Considerando θ como uma variável aleatória, podemos acrescentar informação sobre o parâmetro theta baseado em conhecimento do problema. Essa informação é codificada como uma distribuição de probabilidade a priori p(θ). Seja D = x 1,..., x N o conjunto de amostra de tamanho N, obtido de forma i.i.d. O estimador para θ que procuramos é aquele que minimiza a probabilidade a posteriori p(θ D). 6

Expandindo a regra de Bayes: p(θ D) = p(d θ)p(θ) p(d) O estimador MAP é aquele ˆθ para o qual: ou θ p(θ D) = 0 θ (p(θ)p(d θ)) = 0 Dependendo de p(θ) a priori, o resultado diferirá do estimador ML. Podemos encontrar uma distribuição a priori que não seja informativa, de forma a obter um estimador ML. Em geral, isto é simples se o espaço de parâmetros for limitado. No caso de espaço não limitado, a regra que a integral da probabilidade é igual a 1 é ignorada, de forma que a distribuição a priori é uma distribuição imprópria. Se a verossimilhança pertence a uma família de distribuições de probabilidade, podemos encontrar uma família de distribuições de probabilidades que seja conjugada daquela, ou seja, a forma da pdf a posteriori é da mesma família da pdf a priori. No caso da distribuição de Bernoulli, a pdf conjugada é uma distribuição beta, no caso da Gaussiana, a pdf conjugada para a média é também uma Gaussiana. Para a variância da Gaussiana, a priori conjugada é uma distribuição de Wishart. Sumário Verossimilhança é a função de θ dada por p(d θ). Escolher o theta que maximiza a verossimilhança corresponde a escolher o conjunto de parâmetros que melhor explica os dados D. MLE (maximum likelihood estimator) estima pelo máximo L(θ). MAP (maximum a posteriori) estima pelo máximo L(θ) + ln p(θ). Estimação Bayesiana Estimação bayesiana não considera estimação pontual, mas considera θ como uma variável aleatória, cuja probabilidade a posteriori será convertida numa distribuição a posteriori baseado num conjunto de dados. 7

p(x) é a probabilidade do fenômeno que estamos interessados a estimar, assumimos que tem uma forma paramétrica baseada num vetor de parãmetros θ. p(x) é desconhecido, mas p(x θ) é completamente determinado (a partir da suposição acima). p(θ) é a distribuição de probabilidade a priori sobre os parâmetros, isto é, as informações que temos sobre os parâmetros antes de realizar as observações. p(θ D) é a informação posterior, esperamos que tenha um pico em torno do valor verdadeiro de θ. p(x D) é uma aproximação para p(x), baseada nos dados D. p(x D) = p(x, θ D)dθ = p(x θ)p(θ D)dθ visto que p(x θ, D) = p(x θ) Exemplo Seja σ 2 conhecido e D = {x k } um conjunto de amostra i.i.d. Estimar a probabilidade para a média µ. Temos também a informação adicional de que a média segue uma distribuição normal com média µ 0 e variância σ 2 0 conhecidas. p(µ) N (µ 0, σ 2 0) Queremos p(µ D) Aplicando a regra de Bayes, p(d µ) N (µ, σ 2 ) p(µ D) = = α p(d µ)p(µ) p(d µ)p(µ)dµ n p(x k µ)p(µ) O produto e a soma das normais resulta numa distribuição normal em µ: [ 1 p(µ D) = exp 1 ( ) ] 2 µ µn 2πσn 2 σ n 8

Com µ n = ( ) nσ 2 0 σ 2 nσ0 2 + ˆµ + σ2 nσ0 2 + µ σ2 0 Em seguida, obtemos: σ 2 n = σ2 0σ 2 nσ 2 0 + σ2 p(x D) = p(x µ)p(µ D)dµ Obtemos que p(x D) N (µ n, σ 2 + σ 2 n) Junto com probabilidades a priori sobre classes P (C j ), podemos obter as posteriores P (C j x) e construir um classificador. Basta para cada classe C j utilizar o conjunto de dados correspondente D j. Forma Geral - Estimação Bayesiana p(x θ) conhecida, θ desconhecida p(θ) conhecida Para um conjunto de amostra D = x k, k = 1... N Integrar por todo o espaço de parâmetros (usando, por exemplo, Monte Carlo - algoritmo de Gibbs) p(x D) = p(x θ)p(θ D)dθ 9

basta obter p(θ D) utilizando p(θ D) = p(d θ)p(θ) p(d θ)p(θ)dθ usando a independência das amostras: p(d θ) = n p(x k θ) O método pode ser feito on-line utilizando a forma recursiva do aprendizado Bayesiano. p(θ D 0 ) = p(θ) p(θ D n ) = p(x n θ)p(θ D n 1 ) p(xn θ)p(θ D n 1 )dθ Exemplo: População com Distribuição Uniforme p(x θ) U(0, θ) = Sabemos a priori que 0 < θ 10 Dados D = {4, 7, 2, 8}. Para o conjunto vazio de dados: { 1 θ, 0 x θ 0, caso contrário p(θ D 0 ) = p(θ) = U(0, 10) Recebendo a primeira observação da amostra: x 1 = 4 p(θ D 1 ) p(x θ)p(θ D 0 ) = { 1 θ, 4 θ 10 0, caso contrário Recebendo a segunda observação da amostra: x 2 = 7 p(θ D 2 ) p(x θ)p(θ D 1 ) = Para as demais observações: { 1 θ 2, 7 θ 10 0, caso contrário p(θ D n ) 1 θ n 10

para max x [Dn ] θ 10 Solução MLE é pontual: ˆθ = 8 então p(x D) = p(x ˆθ). Solução bayesiana é uma distribuição: 11

Estatísticas Suficientes Uma estatística é qualquer valor calculado a partir de uma amostra dada. Estatísticas suficientes consistem no vetor de estatísticas que é suficiente para determinar um conjunto de estatísticas da distribuição. Estimar a densidade (ou seus parâmetros) pode consistir basicamente em estimar esse vetor de estatísticas. Exemplo de MLE: distribuição de Bernoulli A probabilidade de x ser 0 ou 1: P (x) = p x (1 p) 1 x Onde p é o parâmetro da distribuição. Estimar p a partir de um conjunto D de amostras. = L(p D) = log N p(x k )(1 p) (1 x k) ( N x k log p + N k Derivando em p e igualando a zero, obtemos: k ˆp = x k N Regressão e MLE No modelo da regressão: r = f(x) + ε x k ) log (1 p) A função g(x θ) aproxima f(x), uma vez determinados os θ. Supomos que ε N (g(x θ), σ 2 ). p(r x) N (g(x θ), σ 2 ) Os pares D = {(x k, r k )} foram obtidos da densidade de probabilidade p(x, r). Abrindo em probabilidade condicional e probabilidade a priori, temos: p(x, r) = p(r x)p(x) Vamos estimar os parâmetros θ dados D. A função de verossimilhança é: 12

N L(θ D) = log p(x k, r k ) N N = log p(r k x k ) + log p(x k ) A segunda parcela é constante e, portanto, ignorada. Considerando o modelo de distribuição normal: = log N 1 exp [ [r k g(x k θ)] 2 ] 2πσ 2σ 2 = N log ( 2πσ) 1 2σ 2 N [r k g k θ] 2 Assim, para obter o estimador de máxima verossimilhança para os parâmetros da regressão, basta minimizar: E(θ D) = 1 2 N [r k g(x k θ)] 2 Ou seja, é a própria estimação pelo critério dos mínimos quadrados. No caso da regressão polinomial, se considerarmos uma probabilidade a priori sobre os valores de θ, com média zero e dada variância, limitamos o crescimento dos parâmetros do polinômio. Assim, uma dist. a priori da forma ( p(θ) = exp α ) 2 θt θ torna-se uma parcela na função a ser minimizada: + α 2 θt θ que é a parcela de regularização e α é a constante de regularização (o λ da aula sobre regressão). 13