Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Documentos relacionados
Rafael Izbicki 1 / 38

Aula 8: Árvores. Rafael Izbicki 1 / 33

AULA 7 - Inferência em MQO: ICs e Testes de

CC-226 Aula 07 - Estimação de Parâmetros

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Disciplina de Modelos Lineares Professora Ariane Ferreira

Modelos de Regressão

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

ESTATÍSTICA COMPUTACIONAL

Aula 3: Manipulando Textos e Imagens

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Amostra Aleatória Simples

Modelo de Regressão Múltipla

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Universidade Federal de Lavras

AULA 4 - MQO Simples: Propriedades algébricas e Estatísticas

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Métodos para Classificação: - Naïve Bayes.

Ralph S. Silva

Inferência para CS Tópico 10 - Princípios de Estimação Pontual

Técnicas computacionais em probabilidade e estatística II

Análise de Dados Longitudinais Aula

Estimação: (A) Propriedades e Distribuições Amostrais

Distribuições Amostrais e Estimação Pontual de Parâmetros

Modelos Lineares Generalizados - Componentes do Modelo

Modelos Lineares Generalizados - Métodos de Estimação

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

p( y θ ) depende de um parâmetro desconhecido θ.

Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Modelos Lineares Generalizados

Distribuições Amostrais e Estimação Pontual de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros

Métodos Quantitativos para Avaliação de Políticas Públicas

Aula 6. Aula de hoje. Aula passada

Modelos de Regressão Linear Simples - parte I

Introdução à Probabilidade e à Estatística II

Aula 3 - Revisão de Probabilidade e Estatística: Esclarecimento de Dúvidas

Fernando de Pol Mayer

Análise Multivariada Aplicada à Contabilidade

Modelos de Regressão Linear Simples - parte III

Inferência Estatistica

Noções de Simulação. Ciências Contábeis - FEA - Noturno. 2 o Semestre MAE0219 (IME-USP) Noções de Simulação 2 o Semestre / 23

1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27

Estatística II Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Prof.: Eduardo Vargas Ferreira

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Modelo de Variáveis discretas. Regressão com uma variável dependente Binária. Variáveis dependentes Binárias. Modelo de Probabilidade Linear

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

CONHECIMENTOS ESPECÍFICOS

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

Inferência Estatística

RESOLUÇÃO Nº 01/2016

Testes de Hipótese para uma única Amostra - parte II

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Gabarito - Lista 5 - Questões de Revisão

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Grupo I. (a) A função de probabilidade marginal de X, P (X = x), é dada por

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

Bioestatística INFERÊNCIA ESTATÍSTICA. Silvia Shimakura

Amostragem e distribuições por amostragem

Aprendizado Bayesiano Anteriormente...

2. podemos solucionar problemas não somente probabilisticas, mas tambem qualquer

Intervalos Estatísticos para uma única Amostra - parte I

Análise de Regressão - parte I

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

CONHECIMENTOS ESPECÍFICOS

3. Estimação pontual USP-ICMC-SME. USP-ICMC-SME () 3. Estimação pontual / 25

Testes de Hipótese para uma única Amostra - parte II

Probabilidades e Estatística MEEC, LEIC-A, LEGM

Distribuições por Amostragem

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

Distribuição Amostral e Estimação Pontual de Parâmetros

IND 1115 Inferência Estatística Aula 6

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Markov Switching Models. Profa. Airlane Alencar. Depto de Estatística - IME-USP. lane. Ref: Kim e Nelson (1999) e Hamilton (1990)

Princípios de Bioestatística Inferência e Intervalo de Confiança

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

AGA Análise de Dados em Astronomia I 8. Inferência Bayesiana e MCMC

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

Aprendizado Bayesiano

MAE0229 Introdução à Probabilidade e Estatística II

ESTATÍSTICA COMPUTACIONAL

Lucas Santana da Cunha 27 de setembro de 2017

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

CONHECIMENTOS ESPECÍFICOS

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Intervalos de Confiança

Par de Variáveis Aleatórias

Transcrição:

Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33

Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto de teste, não utilizado nem para o treinamento, nem para a validação do modelo. Um estimador não viesado para o risco de g (que foi estimada com base nos conjuntos de treinamento e validação) é dado por R(g) = 1 s s 2 (Ỹk g( X k )). }{{} W k k=1 Como trata-se de uma média de variáveis i.i.d., sabemos pelo Teorema do Limite Central que ( R(g) Normal R(g), 1 ) s V [W 1] 2 / 33

( R(g) Normal R(g), 1 ) s V [W 1] Como W 1,..., W s são i.i.d. s, podemos estimar V[W 1 ] com Ŝ 2 = 1 s s ( Wk W ) 2, k=1 onde W = 1 s s W k. k=1 Assim, um IC aproximado para R(g) (confiança 95%) é dado por 1 R(g) ± 2 Ŝ s 2 3 / 33

Até agora, vimos como prever uma variável quantitativa Y dado o valor de um vetor x. Para tanto, estudamos métodos para encontrar uma função g(x) tal que o risco R(g) = E[(Y g(x)) 2 ] fosse baixo. Em particular, vimos que g que minimiza R(g) é dada pela função de regressão r(x) = E[Y X = x], e assim os métodos vistos basearam-se em estimadores para tal função. 4 / 33

Em muitos problemas, a variável Y é uma variável qualitativa, e não variável quantitativa. 5 / 33

Exemplo: Detecção de Spams X i email Y i {spam, não spam} Objetivo: prever Y i com base em X i 6 / 33

Exemplo: Reconhecimento de Dígitos X i imagem de um dígito Y i {0, 1,..., 9} 7 / 33

Exemplo: Predição de Alzheimer X i imagem da ressonância magnética Y i {com Alzheimer, sem Alzheimer} 8 / 33

Exemplo: Leitura de Pensamentos X i imagem da ressonância magnética Y i {Professor chato, Férias, Não to entendendo, É sexta!,... } 9 / 33

Quando Y é uma variável qualitativa, chamamos um problema de predição de um problema de classificação. O que muda em um problema de classificação? O risco R(g) = E[(Y g(x)) 2 ] não faz mais sentido Ao invés dele, é comum se usar R(g) := E[I(Y g(x))] = P (Y g(x)), ou seja, os risco de g é a probabilidade de erro em uma nova observação (X, Y ). 10 / 33

R(g) := E[I(Y g(x))] = P (Y g(x)). Vimos que em regressão a função que minimiza E[(Y g(x)) 2 ] é dada pela função de regressão r(x) = E[Y X = x]. Existe um análogo para classificação? Sim! 11 / 33

Para simplificar, digamos que Y assume só dois valores, digamos, c 1 e c 2 (i.e., temos um problema binário, e.g, spam/não spam). Então R(g) := E[I(Y g(x))] = P (Y g(x)) = P(Y g(x) x)f (x)dx = x [I(g(x) = c 2 )P(Y = c 1 x) + I(g(x) = c 1 )P(Y = c 2 x)] f (x)dx x Para um dado x, devemos escolher g(x) = c 1 quando P(Y = c 1 x) P(Y = c 2 x), caso contrário devemos escolher g(x) = c 2. 12 / 33

Para um dado x, devemos escolher g(x) = c 1 quando P(Y = c 1 x) P(Y = c 2 x), caso contrário devemos escolher g(x) = c 2. Em outras palavras, a melhor g é dada por g(x) = arg max d {c 1,c 2 } P(Y = d x) Tal classificador é conhecido como classificador de Bayes (não confundir com teorema de Bayes) Para o caso binário, ele pode ser reescrito como g(x) = c 1 P(Y = c 1 x) 1 2. 13 / 33

Daqui para frente, assumiremos que Y assume valores em um conjunto C (e.g, C = {Spam, não spam}) No caso com várias categorias, a melhor g é dada por g(x) = arg max P(Y = c x) c C Resultado análogo ao que diz que em um problema de predição quantitativo, a regressão é a melhor função de predição. Obs: é comum na literatura denotar os elementos de C por 0, 1, 2, etc. Em particular, para o caso binário, é comum usar as classes 0 e 1. Note que tal escolha é válida, mas arbitrária (i.e., não deve-se entender que há uma ordenação entre esses elementos). 14 / 33

Este resultado sugere um abordagem simples para resolver um problema de predição: (1) Estimamos P(Y = c x), para cada categoria c C. (2) Tomamos então g(x) = arg max c C P(Y = c x) Abordagem conhecida como plug-in classifier. Sob esta abordagem, criar um classificador resume-se a estimar P(Y = c x). Como fazer isso? 15 / 33

Regressão Logística Vamos assumir por enquanto que Y é binário. A regressão logística assume que (denotando c 1 = 1, c 2 = 0) p P(Y = 1 x) = eβ 0+ i=1 β i x i 1 + e β 0+ p i=1 β i x i Note que, como no caso de regressão, não estamos assumindo que está relação é válida (que o modelo é razoável para descrever os dados), mas sim apenas que ela nos leva a um bom classificador. Ao contrário do estimador de mínimos quadrados de uma regressão, é necessário usar algoritmos numéricos para maximizar a verossimilhança induzida pela regressão logística e, assim, chegar nas estimativas para os coeficientes β. 16 / 33

Breve Revisão sobre Regressão Logística Vamos assumir por enquanto que Y {0, 1}. A regressão logística assume que a relação entre Y e o vetor x é dada por p P(Y = 1 x, β) = eβ 0+ i=1 β i x i 1 + e β 0+ p i=1 β i x i O que significam os coeficientes β? Assim, a função de verossimilhança dada uma amostra i.i.d. (X 1, Y 1 ),..., (X n, Y n ), condicional nas covariáveis, é dada por n L(y; (x, β)) = (P(Y k = 1 x k, β)) y k (1 P(Y k = 1 x k, β)) 1 y k k=1 ( n k=1 e β 0+ p i=1 β i x i 1 + e β 0+ p i=1 β i x i ) yk ( e β 0+ p i=1 β i x i 1 + e β 0+ p i=1 β i x i ) 1 yk 17 / 33

Para encontrarmos as estimativas do coeficientes β, maximizamos L(y; (x, β)). Temos que fazer isso numericamente. No R: glm.fit = glm(formula,data = dados, family = binomial) 18 / 33

Uma alternativa: Regressão Linear Novamente denotando c 1 = 1, c 2 = 0, temos P(Y = 1 x) = E[Y x]. Assim, podemos usar uma regressão linear para estimar P(Y = 1 x), P(Y = 1 x) = E[Y x] = β 0 + β 1 x 1 +... + β p x p Nossas estimativas de P(Y = 1 x) podem ser menores que 0, e maiores que 1. Ainda assim podemos usar estimador para definir, por exemplo, g(x) = I( P(Y = 1 x) 1/2) = I( β 0 + β 1 x 1 +... + β p x p 1/2). Podemos inclusive estimar os coeficientes usando o lasso e outras abordagens vistas em aula. 19 / 33

Uma outra abordagem Outra abordagem para estimar P(Y = c x) consiste em usar o Teorema de Bayes (aqui estamos assumindo que x é contínuo): P(Y = c x) = f (x Y = c)p(y = c) f (x Y = s)p(y = s) s X Assim, pode-se obter uma estimativa de P(Y = c x) estimando-se as probabilidades P(Y = s) e as densidades f (x Y = s). P(Y = s) pode ser facilmente estimada usando-se as proporções amostrais de cada classe. Para estimar f (x Y = s), precisamos assumir algum modelo para as covariáveis. 20 / 33

Naive Bayes Uma suposição comum sobre f (x Y = s) é que ela pode ser fatorada como f (x Y = s) = f ((x 1,..., x d ) Y = s) = d f (x j Y = s), j=1 i.e., supomos que as componentes de x são independentes condicionalmente à classe Y. Apesar de tal suposição não ser razoável em muitos problemas (Naive=Ingênuo), ela é muito conveniente, e leva a bons classificadores. Porque essa suposição ajuda na estimação das probabilidades condicionais? 21 / 33

Naive Bayes f (x Y = s) = f ((x 1,..., x d ) Y = s) = d f (x j Y = s). Podemos estimar cada f (x j Y = s) assumindo, por exemplo, que j=1 X j Y =s N(µ j,s, σ 2 j,s), j = 1,..., p Em outras palavras, assumimos que cada componente do vetor x tem distribuição normal, com parâmetros que dependem da classe e da componente em questão. Os parâmetros deste modelo podem ser facilmente estimados usando-se EMV: µ j,s = 1 X j,k σ2 C s j,s = 1 (X j,k µ j,s ) 2 C s k C s k C s em que C s = {j : Y j = s} é o conjunto de todas observações de treinamento da classe s. 22 / 33

Assim, f (x Y = c) = d f (x k Y = c) = k=1 d k=1 1 2π σ 2 k,s e ( ) (x k µ k,s ) 2 2 σ 2 k,s Claro, podemos supor outras distribuições que não a distribuição normal. 23 / 33

Em particular, se X tem componentes discretas, o Teorema de Bayes diz que P(Y = c x) = P(X = x Y = c)p(y = c) P(X = x Y = s)p(y = s) s X Neste caso, é comum assumir que X j Y =c Multinomial(1, θ j,c ), onde θ j,c R q é um vetor com q dimensões, o número de categorias que X j assume. 24 / 33

Computacionalmente: para dados discretos, há a função naivebayes no pacote e1071 do R. Para dados contínuos, implementar sua própria rotina. 25 / 33

Dica: calcular produtos como d f (x j Y = c) é difícil k=1 numericamente, pois eles pequenos e o produto acaba sendo aproximado por 0. Uma alternativa é trabalhar com logaritmos: ( d ) log f (x Y = c) = log f (x j Y = c) = k=1 d k=1 ) log ( f (xj Y = c) Na hora de comparar densidades usamos somente esses logaritmos. Isto é, usamos que o classificador plugin pode ser escrito como g(x) = arg max P(Y = c x) = arg max f (x Y = c) P(Y = c) c C c C ( d ) = arg max c C = arg max c C k=1 f (x j Y = c) P(Y = c) d ) log ( f (xj Y = c) + log P(Y = c) k=1 26 / 33

Seleção de Modelos Como estimamos o novo risco R(g) := E[I(Y g(x))] = P (Y g(x))? Podemos novamente separar nossos dados em treinamento e validação, e usar R(g) := 1 m m I(Y k g(x k )), k=1 onde (X 1, Y 1),..., (X m, Y m) é o conjunto de validação. Usando estimativas do risco podemos selecionar um entre vários classificadores. Podemos também criar um IC para o risco. 27 / 33

Exemplo: Detecção de SPAMs n = 4.601 observações de emails. Alguns são SPAMs, outros não. Medimos a frequência relativa de algumas palavras: internet, free, credit, money, data, technology, direct,... Resultados: Regressão logística: Risco Estimado=0.086 Regressão linear: Risco Estimado=0.111 Naive Bayes: Risco Estimado=0.188 28 / 33

Revisão Em um problema de classificação, é comum se usar R(g) := E[I(Y g(x))] = P (Y g(x)), para medir o risco de um classificador g. A função g que minimza R(g) é dada por g(x) = arg max P(Y = c x) c C Tal classificador é conhecido como classificador de Bayes (não confundir com teorema de Bayes) Como no caso de regressão, não conhecemos tal g, mas podemos estimá-la usando ĝ(x) = arg max P(Y = c x) c C 29 / 33

Como no caso de regressão, não conhecemos tal g, mas podemos estimá-la usando ĝ(x) = arg max P(Y = c x) c C A estimativa P(Y = c x) pode ser obtida usando-se, por exemplo, regressão logística ou regressão linear. Como no problema de regressão, não assumimos que esta relação (logística ou linear) é válida, mas apenas que ela criar bons classificadores. 30 / 33

Vimos também uma outra abordagem. Esta consiste em usar o Teorema de Bayes: P(Y = c x) = f (x Y = c)p(y = c) f (x Y = s)p(y = s) s X Estimamos então tanto f (x Y = c) quanto P(Y = c). A probabilidade P(Y = c) pode ser facilmente estimada utilizando-se as proporções amostrais de cada categoria de Y. Já para estimar f (x Y = c), é comum fazermos alguma suposição sobre esta distribuição. Aqui vimos o Naive Bayes, que assume independência condicional das covariáveis: d f (x Y = s) = f (x 1,..., x p Y = s) = f (x j Y = s), j=1 31 / 33

Finalmente, vimos que podemos selecionar modelos utilizando-se validação cruzada. Para tanto, podemos utilizar o seguinte estimador do risco: R(g) := 1 m m I(Y k g(x k )), k=1 32 / 33

Próxima Aula: 33 / 33