Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

Documentos relacionados
Eduardo Vargas Ferreira

Métodos de reamostragem

Métodos de reamostragem

Support Vector Machines

TÉCNICAS NÃO-PARAMÉTRICAS

COMPARAÇÃO DE CURVAS DE SOBREVIVÊNCIA

Gradiente descendente

a) No total são 10 meninas e cada uma delas tem 10 opções de garotos para formar um par. Logo, o número total de casais possíveis é = 100.

Aprendizado Simbólico: Regras

Indução de Regras. Indução de Regras. Regra. Regra de Classificação. Complexo. Uma regra de classificação assume a forma restrita de uma regra

Classificações ECTS. - Resultados da aplicação experimental às disciplinas do IST - Carla Patrocínio

Questão 2. Questão 1. Questão 3. alternativa C. alternativa D

Serviço Social

Avaliação Imobiliária e Manutenção das Construções

MATEMÁTICA APLICADA RESOLUÇÃO

2 Modelagem da previsão de atenuação por chuvas em enlaces GEO

o contraste é significativo ao nível

CLASSIFICAÇÃO DE IMAGENS

XXXIII OLIMPÍADA BRASILEIRA DE MATEMÁTICA PRIMEIRA FASE NÍVEL 3 (Ensino Médio) GABARITO

Aula 8. Transformadas de Fourier

CIRCUITO SÉRIE/PARALELO Prof. Antonio Sergio-D.E.E-CEAR-UFPB.

O resultado dessa derivada é então f (2) = lim = lim

Matemática E Extensivo V. 2

MODELAGEM DA VARIABILIDADE EM MODELOS LINEARES GENERALIZADOS

Environment. Agent. Cap. 18, Russell: Aprendendo através de observações Performance standard. Critic. feedback. changes.

4 MÉTODO DE CONTROLE DE CUSTOS

Bias de AM. Bias e Variância Estatísticos

Escola Secundária com 3º ciclo D. Dinis 12º Ano de Matemática A Tema II Introdução ao Cálculo Diferencial II. TPC nº 8 entregar em

e a susceptibilidade estão relacionadas por:

TIPO DE PROVA: A. Questão 1. Questão 3. Questão 4. Questão 2. alternativa B. alternativa A. alternativa D. alternativa C

4 Extensão do modelo de Misme e Fimbel para a determinação da distribuição cumulativa da atenuação diferencial entre dois enlaces convergentes

Nome dos membros do grupo: Data de realização do trabalho:

Observadores de Estado

Modelos GAMLSS - Associações entre marcadores e QTL

O uso de amostras. Desvantagens: Perda no nível de confiança; Diminuição da precisão dos resultados. POPULAÇÃO (N) AMOSTRA(n)

Comunicado Cetip n 091/ de setembro de 2013

Questão 13. Questão 14. Resposta. Resposta

UTLIZAÇÃO DOS TESTES DE HIPÓTESES PARA A MÉDIA NA TOMADA DE DECISÃO RESUMO. Palavras-chave: Testes de Hipótese. Decisão. Estatística.

Matemática B Extensivo v. 3

Caixas Ativas e Passivas. SKY 3000, SKY 2200, SKY 700, SKY 600 e NASH Áreas de Cobertura e Quantidade de Público

CÁLCULO I. Aula n o 02: Funções. Denir função e conhecer os seus elementos; Listar as principais funções e seus grácos.

ESPECIFICAÇÃO DO TEMPO DE SOBREVIVÊNCIA

Métodos baseados em árvores

Vamos estudar as características e determinações do potencial da pilha e dos potenciais padrões do eletrodo e da pilha.

Rafael Izbicki 1 / 38

UFSC. Matemática (Amarela)

LÓGICA FORMAL parte 2 QUANTIFICADORES, PREDICADOS E VALIDADE

Cálculo do Valor Acrescentado (VA) no Aves

EFEITO DA ROTAÇÃO DE CULTURAS SOBRE O TRIGO, EM SISTEMA PLANTIO DIRETO, EM GUARAPUAVA, PR 1. Resumo

TIPO DE PROVA: A. Questão 1. Questão 2. Questão 4. Questão 3. alternativa A. alternativa B. alternativa C

Cœlum Australe. Jornal Pessoal de Astronomia, Física e Matemática - Produzido por Irineu Gomes Varella

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

PPGEP Comentários Iniciais CAPÍTULO 7 TESTE DE HIPÓTESE UFRGS. Testes de Hipótese

Indução de Árvores de Decisão

MATEMÁTICA. Capítulo 1 LIVRO 1. I. Introdução à Geometria II. Ângulo III. Paralelismo. Páginas: 145 à 156

MATEMÁTICA 1 o Ano Duds

Redes Neurais Artificiais ( Neural(

Ajuste Fino. Por Loud custom Shop Guitars SERIE FAÇA VOCÊ MESMO LOUD CUSTOM SHOP GUITARS

MATEMÁTICA. Capítulo 1 LIVRO 1. I. Introdução àgeometria II. Ângulo III. Paralelismo. Páginas: 145 à156

III Olimpíada de Matemática do Grande ABC Primeira Fase Nível 3 (1ª ou 2ª Séries EM)

Proposta de teste de avaliação 4 Matemática 9

UFSC. Matemática (Amarela) 21) Resposta: 14. Comentário e resolução. 01. Incorreta. Como 1 rd 57 o, então 10 rd 570 o. f(x) = sen x.

Deseja-se mostrar que, se o Método de Newton-Raphson converge, esta convergência se dá para a raiz (zero da função). lim

Em geometria, são usados símbolos e termos que devemos nos familiarizar:

Exame 1/Teste 2. ε 1 ε o

I, determine a matriz inversa de A. Como A 3 3 A = 2 I; fatorando o membro esquerdo dessa igualdade por A, temos a expressão

Como Z constitui-se claramente a hipotenusa de um triângulo retângulo, tem-se

Diagramas líquido-vapor

Matemática B Extensivo V. 1

Os critérios de correcção são os seguintes:

UML. Diagrama de Classes de Projeto e Diagrama de Objetos Análise e Projeto de Software. Profª. Cibele da Rosa Christ

Matemática D Extensivo V. 1

5 Flutuação intrínseca chuveiro a chuveiro

Introdução às Redes e Serviços de Telecomunicações

Matemática B Extensivo V. 2

Normalização de banco de dados

Auditoria às Reclamações e Pedidos de Informação dos CTT Correios de Portugal, S.A. 2017

XXVIII OLIMPÍADA BRASILEIRA DE MATEMÁTICA PRIMEIRA FASE NÍVEL 2 (7 a. e 8 a. Ensino Fundamental) GABARITO

BRDE AOCP Complete o elemento faltante, considerando a sequência a seguir: ? (A) 26 (B) 12 (C) 20 (D) 16 (E) 34.

VALORES ÓTIMOS DO PASSO DA RECONSTRUÇÃO PARA O CÁLCULO DA DIMENSÃO DE CORRELAÇÃO EM SISTEMAS CAÓTICOS INTRODUÇÃO

1ª Avaliação. 2) Qual dos gráficos seguintes representa uma função de

Estudo do efeito de sistemas de forças concorrentes.

UDESC 2013/2 MATEMÁTICA. 01) Resposta: A. Comentário. x 2x. Como x 1, dividimos ambos os lados por (x 1) e obtemos: xx 6 2 = 120 6

AL 1.1 Movimento num plano inclinado: variação da energia cinética e distância percorrida. Nome dos membros do grupo: Data de realização do trabalho:

Administração AULA- 7. Economia Mercados [3] Oferta & Procura

TIPO DE PROVA: A. Questão 1. Questão 3. Questão 2. Questão 4. alternativa E. alternativa A. ver comentário. alternativa E

MATRIZES E SISTEMAS DE EQUAÇÕES

QUESTÕES DISCURSIVAS

SUPERFÍCIE E CURVA. F(x, y, z) = 0

A) O volume de cada bloco é igual à área da base multiplicada pela altura, isto é, 4 1

Cursinho Triu. Aula 2 - Cinemática. 1 o semestre de Pedro Simoni Pasquini

TESTES DE SOFTWARE.

Física. Atenção: Sempre que necessário, utilize g =

CAPÍTULO - 6 CICLOCONVERSORES

Transição escola mercado de trabalho: duração da procura do 1º emprego

Aula 3 Expressões. 1. Introdução. 2. Operadores. Operador Tipo Operação Prioridade

Procedimento do U.S.HCM/6thEd (2016)

Relembrando: Simpsons

Transcrição:

Universidade Federal d Paraná Labratóri de Estatística e Geinfrmaçã - LEG Classificaçã Prfs.: Eduard Vargas Ferreira Walmes Marques Zeviani

Intrduçã Em muits prblemas, a variável Y assume valres em um cnjunt nã rdenad C, pr exempl: E-mail {spam, ham}; Dígit {0, 1,..., 9}; Alzheimer {cm Alzheimer, sem Alzheimer}; Nestes cass, estams diante de um prblema de classificaçã; 2

Intrduçã Cnsidere um prblema binári, em que Y assume smente dis valres, c 1 u c 2. Para um dad x, esclherems c 1 quand P(Y = c 1 x) P(Y = c 2 x), Tal classificadr é cnhecid cm Classificadr de Bayes. Esclhems nssa funçã, tal que, h(x) = argmax P(Y = d x). d {c 1,c 2 } Nte que agra, cust basead na distância entre a respsta bservada e estimada nã faz mais sentid. A invés dele, é cmum utilizar J(h) = P[Y h(x )]. Assim, ainda que h(x) R +, ela representará a esclha pr uma classe. 3

Plug-in classifier Entretant, nã cnhecems tais prbabilidades: O classificadr de Bayes é um padrã ur inalcançável! A sluçã é entã estimar P(Y = c i x), para i C, u seja Estimams P(Y = c x) para cada categria c C; Tmams h(x) = argmax c C P(Y = c x). Essa abrdagem é cnhecida cm plug-in classifier. 4

K-Nearest Neighbrs O KNN estima a distribuiçã cndicinal de Y X de acrd cm as classes ds K vizinhs de determinada bservaçã x 0, u seja: P(Y = j X = x 0) = 1 K i N 0 I(y i = j). 5

K-Nearest Neighbrs A esclha de K tem um efeit drástic n classificadr KNN btid KNN: K=1 KNN: K=100 6

K-Nearest Neighbrs Tems que esclhê-l de acrd cm resultad d teste. A linha pntilhada representa classificadr de Bayes. Taxa de err 0.00 0.05 0.10 0.15 0.20 Err de trein Err de teste 0.01 0.02 0.05 0.10 0.20 0.50 1.00 1/K 7

Exempl: Inadimplência n cartã de crédit Neste exempl, nss bjetiv é prever se um cliente será u nã inadimplente n próxim mês; Para tant, tems três variáveis explicativas: Estudante: se cliente é u nã estudante; Rendiment: rendiment anual d cliente; Sald: valr devid n mês atual. Rendiment 0 20000 40000 60000 Sald 0 500 1000 1500 2000 2500 Rendiment 0 20000 40000 60000 0 500 1000 1500 2000 2500 Sald Nã Sim Inadimplente Nã Sim Inadimplente 8

Pdems utilizar regressã linear? Supnha que para classificaçã da variável Inadimplente cdificams da frma: { 0, se N~a, Y = 1, se Sim. Pdems simplesmente realizar uma regressã linear de Y em X e classificar cm Sim se Ŷ > 0.5? Cnsiderand fat de que E (Y X = x) = P (Y = 1 X = x), pdems pensar que regressã é ótima para ist! N cas de respsta binária, regressã linear faz um bm trabalh (equivalente à análise de discriminante linear); Entretant, ela pde prduzir prbabilidades menres d que 0 u maires d que 1. Regressã lgística é mais aprpriada. 9

Regressã lgística Dentand pr p(x ) = P(Y = 1 X ). A regressã lgística utiliza a frma p(x ) = eβ 0+β 1 X 1 + e β 0+β 1 X. Assim, nã imprta s valres de β 0 e β 1 u X, p(x ) (0, 1). 10

Regressã lgística Cm um puc de algebrism chegams em ( ) p(x ) lg = β 0 + β 1X. 1 p(x ) Que é chamada lg dds u transfrmaçã lgit em p(x ). Variável Ceficiente Desvi padrã Estatística t p-valr Intercept -10,6513 0,3612-29,5 < 0, 0001 Sald 0,0055 0,0002 24,9 < 0, 0001 Qual é a prbabilidade estimada de Inadimplente para um cliente cm Sald de $1000? e ˆβ 0 + ˆβ 1 X ˆp(X ) = 1 + e = e 10,6513+0,0055 1000 = 0, 006. ˆβ 0 + ˆβ 1 X 1 + e 10,6513+0,0055 1000 11

Regressã lgística Vams repetir prcess anterir, agra cm Estudante cm preditr; Variável Ceficiente Desvi padrã Estatística t p-valr Intercept -3,5041 0,0707-49,55 < 0, 0001 Estudante[Sim] 0,4049 0,1150 3,52 0,0004 P (Inadimplente=Sim Estudante=Sim) = e 3,5041+0,4049 1 = 0, 0431. 1 + e 3,5041+0,4049 1 P (Inadimplente=Sim Estudante=N~a) = e 3,5041+0,4049 0 = 0, 0292. 1 + e 3,5041+0,4049 0 12

Regressã lgística cm várias variáveis Agra cas de mais de um preditr, mdel geral trna-se ( ) p(x ) lg = β 0 + β 1X 1 +... + β px p. 1 p(x ) e p(x ) = eβ 0+β 1 X 1 +...+β px p 1 + e β 0+β 1 X 1 +β px p. Variável Ceficiente Desvi padrã Estatística t p-valr Intercept -10,8690 0,4923-22,08 < 0, 0001 Sald 0,0057 0,0002 24,74 < 0, 0001 Rendiment 0,0030 0,0082 0,37 0,7115 Estudante[Sim] -0,6468 0,2362-2,74 0,0062 Pr que ceficiente de Estudante é negativ agra, enquant era psitiv anterirmente? Cnfundiment. 13

Cnfundiment Os resultads sã diferentes, especialmente quand existe crrelaçã entre s preditres (veja gráfic da direita); Taxa de inadimplência 0.0 0.2 0.4 0.6 0.8 Sald d cartã de crédit 0 500 1000 1500 2000 2500 500 1000 1500 2000 Nã Sim Sald d cartã de crédit Estudante Estudantes[Sim] tendem a ter mair Sald d cartã de crédit; Assim, marginalmente a taxa de Inadimpl^encia é mair d que nã Estudantes[N~a]; Pr utr lad, para cada nível d Sald mensal, a inadimplência ds estudantes é menr (gráfic da esquerda). 14

Outra abrdagem Uma alternativa para estimar P(Y X ) cnsiste em mdelar a distribuiçã de X em cada classe separadamente; E utilizar Terema de Bayes para bter P(Y X ); P(Y = k X = x) = Que escrevend de utra frma fica P(Y = k X = x) = P(Y = k)p(x = x Y = k) P(X = x) π kf k (x) K l=1 π lf l (x) Entã tems que δ k (x) argmax π k f k (x) 15

Outra abrdagem f k (x) = P(X = x Y = k) é a densidade para X na classe k (diferentes distribuições levam a diferentes métds); π k = P(Y = k) é a prbabilidade marginal u priri para classe k. Pde ser estimada utilizand as prprções amstrais em cada classe. Para diferentes priris em cada classe, tems diferentes decisões; 16

Análise de discriminante A cnsiderarms para f k (x) a distribuiçã Nrmal em cada classe, ns leva à análise de discriminante linear u quadrática, pis δ k (x) argmax π k f k (x) { = argmax lgπ k 1 2 lg Σ k 1 } 2 x µ k, Σ 1 k (x µ k ). x µ k, Σ 1 k (x µ k ) é a Distância de Mahalanbis de x e µ k ; Pr exempl, seja µ 1 = 1.5, µ 2 = 1.5, π 1 = π 2 = 0.5 e σ 2 = 1 0 1 2 3 4 5 4 2 0 2 4 3 2 1 0 1 2 3 4 17

Análise de discriminante Quand f k (x) pssui matriz de cvariância, Σ k, diferente em cada classe, tems a análise de discriminante quadrátic (ADQ) δ k (x) argmax π k f k (x) { = argmax lgπ k 1 2 lg Σ k 1 } 2 (x µ k) t Σ 1 k (x µ k ). Nte a crrência d term quadrátic na distância de Mahalanbis; Se tdas as classes cmpartilharem mesm Σ = k diante da análise de discriminante linear (ADL) n k 1 n K ˆΣ k, estams δ k (x) argmax π k f k (x) = argmax {lgπ k 12 } µtkσ 1 µ k + x t Σ 1 µ k. Em ADL, term quadrátic é cancelad. 18

Análise de discriminante Utilizams, assim, s dads de trein para estimar tais quantidades e incrprar à regra de decisã, da seguinte frma ˆπ k = n k n ˆµ k = 1 n k ˆΣ k = i:y i =k 1 n k 1 x i (x i ˆµ k )(x i ˆµ k ) t i:y i =k 19

Regressã lgística versus ADL Regressã lgística e análise de discriminante linear diferem-se na frma de estimar s parâmetrs: Regressã lgística maximiza a verssimilhança cndicinal p(x i, y i ) = i i p(y i x i ) g(x i ) } {{ } lgistica i } {{ } ignrad ADL maximiza a verssimilhança cmpleta p(x i, y i ) = p(x i y i ) p(y i ) i i i }{{}}{{} nrmal f k bernulli π k Mas na prática, s resultads sã similares. 20

Ilustraçã: p = 2 e k = 3 classes N exempl abaix, tems π 1 = π 2 = π 3 = 1/3; X2 4 2 0 2 4 X2 4 2 0 2 4 4 2 0 2 4 X1 4 2 0 2 4 X1 A linha pntilhada é cnhecida cm frnteira de decisã de Bayes (Bayes decisin bundaries); 21

Exempl: Iris Data Cmpriment da Sépala Largura da Sépala Cmpriment da Pétala Largura da Pétala 22

Exempl: Iris Data Tems 4 variáveis, 3 espécies cm 50 bservações em cada classe; Variável discriminante 2 Variável discriminante 1 Análise de discriminante linear classifica crretamente 147/150 bservações ds dads de trein. 23

Exempl simulad: Bayes, ADL e ADQ N exempl, tems a frnteira de decisã de Bayes em rsa, ADL pntilhad e ADQ em verde, em um prblema cm 2 classes; N gráfic da esquerda Σ 1 = Σ 2 e da direita Σ 1 Σ 2; X2 4 3 2 1 0 1 2 X2 4 3 2 1 0 1 2 4 2 0 2 4 X 1 4 2 0 2 4 X 1 24

Qual classificadr esclher? Cenári 1: 20 bservações em cada classe. Tdas nã crrelacinadas e nrmalmente distribuídas; Cenári 2: Semelhante a cenári 1, mas em cada classe, s preditres têm crrelaçã de -0,5; Cenári 3: Semelhante a cenári 1, mas cm distribuiçã t de student. Cenári 1 Cenári 2 Cenári 3 0.25 0.30 0.35 0.40 0.45 0.15 0.20 0.25 0.30 0.20 0.25 0.30 0.35 0.40 0.45 KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ 25

Qual classificadr esclher? Cenári 4: Os dads sã nrmalmente distribuíds, cm crrelaçã de 0,5 em uma classe e -0,5 em utra; Cenári 5: As respstas fram geradas utilizand s preditres: X1 2, X2 2 X 1 X 2 (u seja, limite de decisã quadrátic); e Cenári 6: As respstas fram geradas utilizand funções nã lineares mais elabradas. Cenári 4 Cenári 5 Cenári 6 0.30 0.35 0.40 0.20 0.25 0.30 0.35 0.40 0.18 0.20 0.22 0.24 0.26 0.28 0.30 0.32 KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ KNN 1 KNN CV ADL Lgístic ADQ 26

Naive bayes Vims que quand f k (x) tem distribuiçã Nrmal cm mesma variância Σ tems ADL. E se tems variâncias diferentes em cada classe tems ADQ; Agra, se supuserms que as cmpnentes de x sã independentes cndicinalmente à classe Y estams diante d Naive Bayes; Naive Bayes assume distribuiçã nrmal, cm Σ k diagnal: δ k (x) lg [ π k ] p f kj (x j ) = 1 2 j=1 p (x j µ kj ) 2 + lg(π k ). Apesar de tal supsiçã nã ser razável em muits prblemas (Naive = Ingênu) ela é cnveniente, e leva a bns classificadres. j=1 σ 2 kj 27

Tips de err Vltand a exempl d cartã de crédit, tems a seguinte situaçã: Inadimpl^encia predit Inadimpl^encia bservad Nã Sim Ttal Nã 9644 252 9896 Sim 23 81 104 Ttal 9667 333 10000 Fals psitiv: fraçã de exempls negativs classificads cm psitiv; Fals negativ: fraçã de exempl psitiv classificad cm negativ; Cnstruíms esta tabela classificand a classe cm Sim se P(Inadimpl^encia = Sim Sald, Estudante) 0, 5. Será que limiar de 0,5 é a melhr pçã? 28

Variand threshld Pdems mudar as taxas de err, alterand a frnteira de decisã para algum valr [0, 1]: P(Inadimpl^encia = Sim Sald, Estudante) threshld. Abaix, em azul tems a taxa de fals negativ, em laranja fals psitiv e em pret a taxa de err ttal. Taxa de err 0.0 0.2 0.4 0.6 0.0 0.1 0.2 0.3 0.4 0.5 Threshld 29

Curva ROC A curva ROC (receiver peratr characteristic) ns ajuda nesta esclha d threshld. Ela apresenta as duas taxas de err a mesm temp. Curva ROC Sensibilidade 0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0 1 - especificidade 30

Referências James, G., Witten, D., Hastie, T. e Tibshirani, An Intrductin t Statistical Learning, 2013; Hastie, T., Tibshirani, R. e Friedman, J., The Elements f Statistical Learning, 2009; Lantz, B., Machine Learning with R, Packt Publishing, 2013; Tan, Steinbach, and Kumar, Intrductin t Data Mining, Addisn-Wesley, 2005; Sme f the figures in this presentatin are taken frm An Intrductin t Statistical Learning, with applicatins in R (Springer, 2013) with permissin frm the authrs: G. James, D. Witten, T. Hastie and R. Tibshirani 31