Rafael Izbicki 1 / 38

Documentos relacionados
Aula 8: Árvores. Rafael Izbicki 1 / 33

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

CC-226 Aula 07 - Estimação de Parâmetros

Aprendizado de Máquina

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

AULA 7 - Inferência em MQO: ICs e Testes de

Modelos de Regressão

CC-226 Aula 05 - Teoria da Decisão Bayesiana

Disciplina de Modelos Lineares Professora Ariane Ferreira

Distribuições Amostrais e Estimação Pontual de Parâmetros

Inferência para CS Tópico 10 - Princípios de Estimação Pontual

Testes de Hipótese para uma única Amostra - parte II

Ajuste e validação de modelos preditivos

Métodos Quantitativos para Avaliação de Políticas Públicas

Uma estatística é uma característica da amostra. Ou seja, se

CLASSIFICADORES BAEYSIANOS

Testes de Hipótese para uma única Amostra - parte II

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Aprendizado Bayesiano

Ralph S. Silva

Intervalos Estatísticos para uma única Amostra - parte I

Modelos de Regressão Linear Simples - parte I

Combinação de Classificadores (fusão)

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 05 / Detecção Binária Baseada em

Análise de Dados Longitudinais Aula

Análise de Imagens. Aula 20: Sistemas com Múltiplos Classificadores. Prof. Alexandre Xavier Falcão.

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

Estatística e Modelos Probabilísticos - COE241

Técnicas computacionais em probabilidade e estatística II

variável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Análise Multivariada Aplicada à Contabilidade

Inferência Estatistica

Aprendizado Bayesiano Anteriormente...

Modelos Lineares Generalizados - Regressão Logística

Jogos de soma zero com dois jogadores

Probabilidade e Estatística

Aula 9 Intervalo de confiança para a média da N(μ; σ 2 ), σ 2 desconhecida

Inferência Estatística: Conceitos Básicos II

CONHECIMENTOS ESPECÍFICOS

3.33pt. AIC Introdução

Métodos para Classificação: - Naïve Bayes.

Aprendizagem de Máquina

Vetor de Variáveis Aleatórias

Testes de Hipóteses. Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Distribuições Amostrais e Estimação Pontual de Parâmetros

03/06/2014. Tratamento de Incertezas TIC Aula 18. Conteúdo Inferência Estatística Clássica

COS767 - Modelagem e Análise Aula 3 - Simulação

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais

HP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.

Modelos de Regressão Linear Simples parte I

Distribuição Amostral e Estimação Pontual de Parâmetros

Aula 9: Introdução à Inferência Estatística

Lucas Santana da Cunha 12 de julho de 2017

Testes de hipóteses. Wagner H. Bonat Fernando P. Mayer Elias T. Krainski

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

Lucas Santana da Cunha de junho de 2018 Londrina

Econometria para Avaliação de Políticas Públicas

Distribuições Amostrais e Estimação Pontual de Parâmetros

LEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%

TESTE DE HIPÓTESE. Introdução

Professora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.

Implementação de um sistema de validação estatística configurável de dados

ME613 - Análise de Regressão

AGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Análise de Regressão EST036

Modelos de Regressão Linear Simples - Análise de Resíduos

Estatística II Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Introdução ao modelo de Regressão Linear

Estimação: (A) Propriedades e Distribuições Amostrais

Análise de Regressão Linear Simples e

Distribuições Amostrais e Estimação Pontual de Parâmetros

Modelos de Regressão Linear Simples - Análise de Resíduos

Mineração de Dados em Biologia Molecular

Análise de Regressão - parte I

AULA 8 - MQO em regressão múltipla:

Estatística Aplicada II. } Revisão: Probabilidade } Propriedades da Média Amostral

5 TORIA ELEMENTAR DA AMOSTRAGEM

APRENDIZAGEM DE MÁQUINA

1 o Teste de Aprendizagem Automática

Coeficiente de determinação R 2 no modelo de regressão linear normal

Fabrício Olivetti de França. Universidade Federal do ABC

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Solução dos Exercícios - Capítulos 1 a 3

Amostragem e distribuições por amostragem

MIEEC Probabilidades e Estatística 1 a Chamada 10/01/2008. Parte Prática

ESTATÍSTICA COMPUTACIONAL

Inferência Estatística

VARIÁVEIS ALEATÓRIAS E DISTRIBUIÇÕES DE PROBABILIDADE

Inferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza

Modelo de Regressão Múltipla

Probabilidade e Estatística

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Exame de Aprendizagem Automática

Transcrição:

Mineração de Dados Aula 7: Classificação Rafael Izbicki 1 / 38

Revisão Um problema de classificação é um problema de predição em que Y é qualitativo. Em um problema de classificação, é comum se usar R(g) := E[I(Y g(x))] = P (Y g(x)), para medir o risco de um classificador g. A função g que minimza R(g) é dada por g(x) = arg max P(Y = c x) c C Tal classificador é conhecido como classificador de Bayes (não confundir com teorema de Bayes) Como no caso de regressão, não conhecemos tal g, mas podemos estimá-la usando ĝ(x) = arg max P(Y = c x) c C 2 / 38

Como no caso de regressão, não conhecemos tal g, mas podemos estimá-la usando ĝ(x) = arg max P(Y = c x) c C A estimativa P(Y = c x) pode ser obtida usando-se, por exemplo, regressão logística ou regressão linear. Como no problema de regressão, não assumimos que esta relação (logística ou linear) é válida, mas apenas que ela criar bons classificadores. 3 / 38

Vimos também uma outra abordagem. Esta consiste em usar o Teorema de Bayes: P(Y = c x) = f (x Y = c)p(y = c) f (x Y = s)p(y = s) s X Estimamos então tanto f (x Y = c) quanto P(Y = c). A probabilidade P(Y = c) pode ser facilmente estimada utilizando-se as proporções amostrais de cada categoria de Y. Já para estimar f (x Y = c), é comum fazermos alguma suposição sobre esta distribuição. Aqui vimos o Naive Bayes, que assume independência condicional das covariáveis: d f (x Y = s) = f (x 1,..., x p Y = s) = f (x j Y = s), j=1 4 / 38

Finalmente, vimos que podemos selecionar modelos utilizando-se validação cruzada. Para tanto, podemos utilizar o seguinte estimador do risco: R(g) := 1 m m I(Y k g(x k )), k=1 Na aula de hoje vamos estudar dois novos métodos para estimar g. Veremos também outras formas de avaliar o quão razoável uma função g é. Antes disso... 5 / 38

O que muda quando há várias categorias? Quando temos várias categorias, g(x) ótimo é dado por g(x) = arg max P(Y = c x) c C Para cada c, podemos estimar P(Y = c x) usando, e.g, uma regressão logística. Para tanto, basta estimar P(Z = 1 x), onde Z = I(Y = c) Assim, fazemos C regressões logísticas, e então definimos g(x) = arg max P(Y = c x) c C Claro, podemos usar outro método que não um regressão logística para estimar cada uma dessas probabilidades. 6 / 38

Como avaliar quão bom g é? Vimos que a função de risco é dada por R(g) := E[I(Y g(x))] = P (Y g(x)), Nem sempre tal função nos traz toda informação sobre g. Um exemplo: suponha que Y indica se uma pessoa tem uma certa doença rara, e que, portanto, na nossa amostra i.i.d., temos poucos pacientes com Y = 1. O classificador g(x) 0 terá erro baixo, mas sua performance deixa a desejar. 7 / 38

Na prática, para evitar esse tipo de situação, é comum considerar matrizes de confusão. Ex: V: Verdadeiro / F: Falso P: Positivo / N: Negativo Com base nessa tabela, define-se Examplo de matriz de confusão Valor verdadeiro Valor Predito Y=0 Y=1 Y=0 VN FN Y=1 FP VP Sensibilidade: VP/(VP+FN) (dos pacientes doentes, quantos foram corretamente identificados?) Especificidade: VN/(VN+FP) (dos pacientes não doentes, quantos foram corretamente identificados?) 8 / 38

V: Verdadeiro / F: Falso P: Positivo / N: Negativo Valor verdadeiro Valor Predito Y=0 Y=1 Y=0 VN FN Y=1 FP VP Sensibilidade: VP/(VP+FN) (dos pacientes doentes, quantos foram corretamente identificados?) Especificidade: VN/(VN+FP) (dos pacientes não doentes, quantos foram corretamente identificados?) Para o classificador g(x) 0, temos Sensibilidade=0; Especificidade=1 Apesar da especificidade ser alta, a sensibilidade é muito baixa. Isso indica que o classificador na realidade é ruim. (obs: a soma dessas duas quantidades não é necessariamente 1). 9 / 38

Assim, na prática é recomendável olhar para sensibilidade e especificidade simultaneamente ao risco estimado. Atenção: é importante calcular os valores de VP, FN, VN e FP usando-se uma amostra de teste ou validação. Um outro problema relacionado a isso: se Y = 1 é raro, em geral teremos P(Y = 1 x) baixo. Assim, usar um corte de 1/2 pode não ajudar: a regra g(x) = I(P(Y = 1 x) 1/2) nos levará a sempre decidir por Y = 0, mesmo se essas probabilidades estiverem bem estimadas. Na prática, para evitar isso é comum buscar cortes diferentes de 1/2, i.e., buscam-se regras do tipo para diferentes cortes K g(x) = I(P(Y = 1 x) K) 10 / 38

Curva ROC Gráfico da Sensibilidade vs 1-Especificidade para diferentes K s. É comum escolher K que maximize Sensibilidade+Especificidade AUC: Area Under the Curve. Critério comum para escolher classificador sem estabelecer um corte pré-fixado. 11 / 38

Análise Discriminante Vamos lembrar o Teorema de Bayes mais uma vez: P(Y = c x) = f (x Y = c)p(y = c) f (x Y = s)p(y = s) s X Vimos que o Naive Bayes criar um classificador com base neste teorema, e assumindo-se independência condicional: d f (x Y = s) = f (x 1,..., x p Y = s) = f (x j Y = s) j=1 Que outras suposições podem ser feitas? 12 / 38

Análise Discriminante Na análise discriminante, supomos que o vetor X, dado Y, tem distribuição normal multivariada. Existem duas formas de análise discriminante mais comuns: Análise Discriminante Linear Análise Discriminante Quadrática 13 / 38

Análise Discriminante Linear Assumimos que X = (X 1,..., X d ) Y = c Normal(µ c, Σ), i.e., f (x Y = c) = 1 (2π) d Σ e (x µc) Σ 1 (x µ c) Podemos estimar esses parâmetros pelo método da máxima verossimilhança: µ c = 1 C c 1 X k ; Σ = n k C c onde C c = {j = 1,..., n : Y j = c} c C k C c (x k µ c )(x k µ c ) 14 / 38

Para o caso binário, g(x) = 1 se, e só se, P(Y = 1 x) P(Y = 0 x) K f (x Y = 1) P(Y = 1) f (x Y = 0) P(Y = 0) K log f (x Y = 1) log f (x Y = 0) log K + log P(Y = 0) log P(Y = 1) (x µ 1 ) Σ 1 (x µ 1 ) + (x µ 0 ) Σ 1 (x µ 0 ) K +2x Σ 1 µ 1 µ 1 Σ 1 µ 1 2x Σ 1 µ 0 + µ 0 Σ 1 µ 0 K Trata-se da equação de um hiperplano, por isso o nome Análise Discriminante Linear 15 / 38

Exemplo Conjunto de Treinamento x 2 1 0 1 2 3 4 4 2 0 2 x 1 16 / 38

Exemplo Conjunto de Teste x 2 1 0 1 2 3 4 4 2 0 2 x 1 17 / 38

Exemplo Predito (Corte: 0.02) Real x 2 1 0 1 2 3 4 x 2 1 0 1 2 3 4 4 2 0 2 x 1 4 2 0 2 x 1 18 / 38

Exemplo Predito (Corte: 0.2) Real x 2 1 0 1 2 3 4 x 2 1 0 1 2 3 4 4 2 0 2 x 1 4 2 0 2 x 1 19 / 38

Exemplo Predito (Corte: 0.92) Real x 2 1 0 1 2 3 4 x 2 1 0 1 2 3 4 4 2 0 2 x 1 4 2 0 2 x 1 20 / 38

Exemplo Sensibilidade 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 Especificidade 21 / 38

No R: Análise Discriminante Linear: > library (MASS) > lda.fit = lda(x=xtreino, grouping=ytreino) > lda.pred = predict(lda.fit, newdata=xnovo) > lda.pred$posterior Note que não necessariamente acreditamos na suposição de normalidade 22 / 38

Análise Discriminante Quadrática Assumimos que X = (X 1,..., X d ) Y = c Normal(µ c, Σ c ), i.e., f (x Y = c) = 1 (2π) d Σ c e (x µc) Σ 1 c (x µ c) Mesma suposição que a Linear, mas com variâncias diferentes em cada grupo. Podemos estimar esses parâmetros pelo método da máxima verossimilhança: µ c = 1 C c X k ; Σc = 1 C c k C c onde C c = {j = 1,..., n : Y j = c} k C c (x k µ c )(x k µ c ) 23 / 38

Para o caso binário, g(x) = 1 se, e só se, P(Y = 1 x) P(Y = 0 x) K f (x Y = 1) P(Y = 1) f (x Y = 0) P(Y = 0) K log f (x Y = 1) log f (x Y = 0) log K + log P(Y = 0) log P(Y = 1) (x µ 1 ) Σ1 1 (x µ1 ) + (x µ 0 ) Σ0 1 (x µ0 ) K Trata-se da equação quadrática, por isso o nome Análise Discriminante Quadrática 24 / 38

Exemplo Conjunto de Treinamento x 2 1 0 1 2 3 4 4 2 0 2 x 1 25 / 38

Exemplo Conjunto de Teste x 2 1 0 1 2 3 4 4 2 0 2 x 1 26 / 38

Exemplo Predito (Corte: 0.03) Real x 2 1 0 1 2 3 4 x 2 1 0 1 2 3 4 4 2 0 2 x 1 4 2 0 2 x 1 27 / 38

Exemplo Predito (Corte: 0.3) Real x 2 1 0 1 2 3 4 x 2 1 0 1 2 3 4 4 2 0 2 x 1 4 2 0 2 x 1 28 / 38

Exemplo Predito (Corte: 0.92) Real x 2 1 0 1 2 3 4 x 2 1 0 1 2 3 4 4 2 0 2 x 1 4 2 0 2 x 1 29 / 38

Exemplo Sensibilidade 0.0 0.2 0.4 0.6 0.8 1.0 Linear Quadrática 0.0 0.2 0.4 0.6 0.8 1.0 1 Especificidade 30 / 38

No R Análise Discriminante Quadrática: Igual à linear, mas usar qda ao invés de lda: > library (MASS) > qda.fit = qda(x=xtreino, grouping=ytreino) > qda.pred = predict(qda.fit, newdata=xnovo) > qda.pred$posterior 31 / 38

Revisão Vimos que a função de risco é dada por R(g) := E[I(Y g(x))] = P (Y g(x)), Nem sempre tal função nos traz toda informação sobre g. É comum considerar matrizes de confusão. 32 / 38

V: Verdadeiro / F: Falso P: Positivo / N: Negativo Com base nessa tabela, define-se Examplo de matriz de confusão Valor verdadeiro Valor Predito Y=0 Y=1 Y=0 VN FN Y=1 FP VP Sensibilidade: VP/(VP+FN) (dos pacientes doentes, quantos foram corretamente identificados?) Especificidade: VN/(VN+FP) (dos pacientes não doentes, quantos foram corretamente identificados?) 33 / 38

Um outro problema relacionado a isso: se Y = 1 é raro, em geral teremos P(Y = 1 x) baixo. Assim, usar um corte de 1/2 pode não ajudar: a regra g(x) = I(P(Y = 1 x) 1/2) nos levará a sempre decidir por Y = 0, mesmo se essas probabilidades estiverem bem estimadas. Na prática, para evitar isso é comum buscar cortes diferentes de 1/2, i.e., buscam-se regras do tipo para diferentes cortes K g(x) = I(P(Y = 1 x) K) 34 / 38

Curva ROC Gráfico da Sensibilidade vs 1-Especificidade para diferentes K s. É comum escolher K que maximize Sensibilidade+Especificidade 35 / 38

Análise Discriminante Vamos lembrar o Teorema de Bayes mais uma vez: P(Y = c x) = f (x Y = c)p(y = c) f (x Y = s)p(y = s) s X Na análise discriminante, supomos que o vetor X, dado Y, tem distribuição normal multivariada. Existem duas formas de análise discriminante mais comuns: Análise Discriminante Linear Análise Discriminante Quadrática 36 / 38

Análise Discriminante Linear Assumimos que X = (X 1,..., X d ) Y = c Normal(µ c, Σ), i.e., f (x Y = c) = 1 (2π) d Σ e (x µc) Σ 1 (x µ c) Regra de decisao: 2x Σ 1 µ 1 2x Σ 1 µ 0 K 37 / 38

Análise Discriminante Quadrática Assumimos que X = (X 1,..., X d ) Y = c Normal(µ c, Σ c ), i.e., f (x Y = c) = 1 (2π) d Σ c e (x µc) Σ 1 c (x µ c) Mesma suposição que a Linear, mas com variâncias diferentes em cada grupo. Regra de decisao: (x µ 1 ) Σ1 1 (x µ1 ) + (x µ 0 ) Σ0 1 (x µ0 ) K 38 / 38