Técnicas de classificação Análise discriminante & Regressão logística. Abraham Laredo Sicsú
|
|
- Miguel César Chagas
- 6 Há anos
- Visualizações:
Transcrição
1 Técnicas de classificação Análise discriminante & Regressão logística Abraham Laredo Sicsú
2 Leituras (ênfase em REGRESSÃO LOGÍSTICA) erial/chapter%2024%20- %20Logistic%20regression.pdf 8/IntroLogisticRegressionPengEducResearch.pdf
3 Análise discriminante Em que grupo de risco classificar o solicitante de crédito? Alto Médio? Baixo 3
4 Discriminação entre 2 grupos Inadimplente/ adimplente Responde mala direta / não... Bom desempenho/ mau desempenho (representantes comerciais) Churning: Cancelamento voluntário/ não cancelamento (CC).exemplos Gr 1 Gr 2 X 1, X 2,...,X p 4
5 NPP Travel Agency Grupo 1: Prefere turismo ecológico Grupo 2: Prefere turismo tradicional Dados : arquivo Excel Idade e Renda renda idade grupo 40, , , , , , , Como classificar um novo cliente em função da idade e renda? veja gráfico seguinte 5
6 NPP Travel Agency IDADE G1 G RENDA 6
7 NPP Travel Agency G1 G2 IDADE Linha azul Realidade 35 Classificação Linha VERDE Classificação 30 Grupo 1 20 Grupo 2 Realidade Grupo 70 1 Grupo 802 RENDA Grupo Grupo 1 Grupo Grupo 2 7
8 Formalizando Escore Z= f( X 1, X 2,..., X p ) Z = a 0 + a 1 X 1 + a 2 X a p X p Regra de decisão (Zo : ponto de corte): Z > Z 0 classificar em G 1 Z Z 0 classificar em G 2 8
9 Análise discriminante desafios Z = a 0 + a 1 X 1 + a 2 X a p X p Que variáveis utilizar? Como selecionar a amostra? Como calcular os pesos? Como definir o ponte de corte Z 0? Que critérios utilizar? 9
10 Que variáveis utilizar? Confiáveis? Qual a fonte dos dados? Definição operacional conhecida? Quem imputou os dados? Aspectos éticos e legais Poder discriminante? Aceitáveis pelos usuários do modelo? 10
11 Discussão no Senado Americano (1979) [reprodução parcial em Capone (JM, 1982)] Senador: You feel that you should be allowed to consider race? Mr. Fair: That is correct Senador: Would the same thing be true with religion? Mr. Fair: Yes Senador: Would the same thing be true with age? Mr. Fair: Yes Senador: Ethnic origin? Mr. Fair: Yes... Concordam com Mr. Fair? 11
12 Que variáveis utilizar? Conclusão Poder preditivo Variável Relação lógica com tema (crédito)? Aceitação: Cultura da empresa Ética 12
13 Amostragem Como selecionar a amostra? Amostragem aleatória simples Amostragem aleatória estratificada Qual o tamanho da amostra? 13
14 Amostragem aleatória simples População p 1 = 2 % p 2 = 98 % n= 5000 Amostra n 1 ~ 100 n 2 ~ 4900 Pros? Cons? 14
15 Amostragem estratificada & probabilidades a priori Grupo 1 p 1 = 5 % Grupo 2 p 2 = 95% n 1 = 500 n 2 =500 Vantagens Problemas? Corrigir taxa de erro! 15
16 Cálculo dos pesos: Z = a 0 + a 1 X 1 + a 2 X a p X p Análise descriminante clássica Regressão logística 16
17 Como classificar - três grupos? GPA 3 2 É possível dividir considerando apenas uma reta? GMAT
18 Regressão Logística Prof. Abraham Laredo Sicsu
19 Dados de VENDEDORES VENDEDOR DESEMP ENTREV EXPER IDADE SEX 1 B MASC 2 B MASC 3 B FEM 4 B MASC 5 B MASC 6 B MASC M MASC 54 M FEM 55 M MASC 56 M FEM 57 M FEM 58 M FEM 59 M FEM 19
20 Regressão linear múltipla Admita que y=1 para grupo 1 y=0 para o grupo 0 Por que não utilizamos regressão linear múltipla para calcular os pesos? y = β + β X β p X p 20
21 Regressão Logística 2 grupos (G 1 ) - Bons Clientes event group ou grupo resposta (G 0 ) Maus Clientes G 1 G 0 Regressão logísticapermite estimar a probabilidade de pertencer a cada grupo Escolha do event group é arbitrária. Software seleciona automaticamente (ordem alfabética ou 1 no caso de 0-1) A escolha não afeta objetivo final. 21
22 Regressão logística Indivíduo a ser classificado : E =(X 1,...,X p ) P ( G 1 E) = probabilidade de que E G1 P ( G 0 E) = probabilidade de que E G0 P ( G 0 E) = 1 - Pr( G1 E) Odds = P(G P(G 1 2 E) E) = P(G 1 1 P(G E) 1 E) 22
23 Regressão logística ln Pr(G 1 1 Pr(G E) 1 E) =β 0 +β 1 X β p X p Z =β 0 +β 1 X β p X p Pr(G 1 E) = 1 1+ e Z β b : maximum likelihood estimation 23
24 Regressão logística Por que regressão logística (REGLOG)? Menos condições de validade que Análise Discriminante Não requer normalidade os erros Não exige homogeneidade de variância Prevê probabilidade diretamente ( entre 0 e 1!!!) Nos caso em que Analise Discriminante vale, a regressão logística funciona bem também. Tem similaridade com regressão linear múltipla 24
25 Regressão logística 1 P(G1 Z) 0.5 Esta função faz o link entre z e P. recebe o nome de linking function Z Para valores de Z muito altos, a probabilidade é praticamente 1 Para valores de Z muito baixos, a probabilidade é praticamente 0 25
26 Aplicação com R Arquivo VENDEDORES
27 Output do R DESEMP.B=ifelse(DESEMP="B",1,0) mod1=glm(desemp.b ~ ENTREV + EXPER + IDADE + SEX, family = binomial()) Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) *** ENTREV *** EXPER IDADE * SEXMASC Signif. codes: 0 *** ** 0.01 * (Dispersion parameter for binomial family taken to be 1) Null deviance: on 58 degrees of freedom Residual deviance: on 54 degrees of freedom AIC: Vamos analisar resultados a seguir
28 Testes Teste de significância da regressão Ho: β ENTREV =0, β IDADE =0, β EXPER =0, β SEXMASC =0 e Ha: pelo menos um desses coeficientes é diferente de zero. LRT= null deviance residual deviance= 80,413-52,081 =28,332 com 4 graus de liberdade O p-value, calculado a partir da distribuiçãoχ 2 com 4 gl é igual 0.00, o que nos leva a rejeitar a hipótese Ho. 28
29 Teste de ajuste do modelo Ho: modelo se ajusta aos dados (aderência) Ha: modelo não se ajusta aos dados Vamos utilizar o teste de Hosmer & Lemeshow mais utilizado, porem sujeito a críticas Adiante veremos forma mais confiável (Zoyowsky) library(resourceselection) hl = hoslem.test(mod1$y, fitted(mod1), g=10) y é um vetor no mod1 criado pelo próprio R; corresponde ao vetor com a variável resposta Hosmer and Lemeshow goodness of fit (GOF) test X-squared = , df = 8, p-value = Valor difere um pouco do calculado pelo STATA 29
30 Teste de ajuste do modelo 30 Ho: modelo se ajusta aos dados (aderência) Ha: modelo não se ajusta aos dados Vamos utilizar o teste de Zoyowsky library(arules) kp=discretize(pbom, method = 'frequency', categories=5) table(kp,desemp) kp DESEMP B M [0.0623,0.223) 2 10 [0.2233,0.493) 4 8 [0.4934,0.799) 7 5 [0.7985,0.925) 10 2 [0.9251,0.997] 11 0 Classes f P B -médio E(B) O(B) ,14 1, ,36 4, ,65 7, ,86 10, ,96 10,6 11
31 Parâmetros do modelo Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) *** ENTREV *** EXPER IDADE * SEXMASC Z = -14,335+ 1,185* ENTREV +0,026*EXPER +0,140*IDADE + 0,568*SEXMASC p i z e = 1+ e z = 1 1+ e z 31
32 Previsão Jerinelda tirou nota 8 na entrevista, tem 2 anos de experiência, 40 anos de idade e é do sexo feminino. Qual a probabilidade de que tenha um bom desempenho? Z = -14,335+ 1,185* ENTREV +0,026*EXPER +0,140*IDADE + 0,568*SEXMASC p i z e = 1+ e z = 1 1+ e z
33 Testes (marginal) dos parâmetros Ho: β i = 0 vs. Ha: β i 0 Considerar os p-values associados a cada estimativa Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) *** ENTREV *** EXPER IDADE * SEXMASC Coef (x i ) : o quanto aumenta z para um aumento unitário de x i ENTREV aumenta 1 unidade z aumenta (1.185) 33
34 Interpretação dos parâmetros odds ENTREV aumenta 1 unidade z aumenta (1.185) z = z +(1.185) e z' = e z + 1,185 = e z e 1,185 e z = e z 3,271 e z = p / (1-p) e z = p / (1-p ) Odds(p ) = 3,271 x Odds(p) Note que o valor de p depende do valor de p Suponha que p = 0,20. Se a nota da entrevista aumenta 1,0 ponto e z = [p/(1-p) ] 3,271 = 0,818 p = 0,818 / 1,818 = 0,450 34
35 Estimando as probabilidades pbom=predict(mod1, type = "response") pp é a probabilidade do evento resposta (em nosso caso B)
36 Dotplot das probabilidades library(lattice) dotplot(pbom~desemp, cex=1.1, pch=19, col='red')
37 Ponto de corte Definir valor K tal que Se P(bom) K classificamos como Bom Se P(bom) < K classificamos como Mau Matriz de classificação estimar erros Como considerar os custos? O correto é estimar erros com amostra teste
38 Ponto de corte? MAU desempenho BOM desempenho
39 Ponto de corte library(gmodels) response = as.factor(ifelse( pbom>=0.6,"b","m")) CrossTable(response,DESEMP) DESEMP response B M Row Total B M Column Total N N / Row Total N / Col Total N / Table Total Erro = (4+9)/59=0,22 Acurácia = 0,78
40 Estimação da taxa de erro Utilizando amostra original (viesado) Utilizando amostra de validação Cross validation Técnica jacknife (hold-one-out) Desenvolvimento Amostra 50 % 70% da amostra n= Validação Casos restantes 40
41 Cross validation Cross validation (k-fold) K=10 é suficiente library(boot) cv.glm(data =vend.final, glmfit = mod1, K = 10)$delta[1] [1] learn test test test test Média dos erros 41
42 Técnica jacknife (LOOCV - leave-one-out cross-validation) Deixar um indivíduo de fora Calcular os pesos sem esse indivíduo Classificar o indivíduo com a nova fórmula encontrada Repetir para os demais indivíduos Contar o número de acertos / erros ao classificar os indivíduos que ficara de fora #nao colocando o valor de K, R assume que é o LOOCV cv.glm(data = vend.final, glmfit = mod1)$delta[1] [1]
43 Como considerar custos? mc=table(response,desemp) prop.table(mc) DESEMP response B M B M C(B M)=$150 C(M B)=$200 O custo médio dos erros de classificação será dado por = + onde P(B M) é a probabilidade de mal classificar como B um indivíduo do grupo M P(M B) é a probabilidade de mal classificar como M um indivíduo do grupo B C(B M) é o custo de mal classificar um indivíduo de M C(M B) é o custo de mal classificar um indivíduo de B.
44 Como considerar probabilidades a priori? mc=table(response,desemp) prop.table(mc) DESEMP response B M B M π(b)=0,90 π(m)=0,10
45 Classes de risco library(arules arules) xx=c("0,00 a 0,25","0,25 a 0,75", "0,75 a 1,00") kpbom=discretize(pbom, method = "fixed", categories = c(0,.25,.75,1), labels = xx) class=table(kpbom,desemp) class kpbom DESEMP B M 0,00 a 0, ,25 a 0, ,75 a 1,
46 Seleção de variáveis Por que selecionar variáveis? Vamos analisar a saída do R Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) *** ENTREV *** EXPER IDADE * SEXMASC Poderíamos selecionar no braço ou utilizar o software. Diferentes algoritmos podem dar seleções diferentes
47 Seleção de variáveis com R step(mod1) Baseado no Akaike Information Criterion (AIC) Quanto menor melhor Start: AIC=62.08 DESEMP_B ~ IDADE + EXPER + ENTREV + SEX Df Deviance AIC - EXPER SEX <none> IDADE ENTREV R mostra seleção passo a passo (omitimos aqui) Coefficients: (Intercept Intercept) IDADE ENTREV
48 48 Amostragem separada Selecionamos de forma separada e independente n 1 indivíduos com y = 1 n 2 indivíduos com y = 0 Probabilidades a priori π 1 e π 2 As probabilidades estimadas devem ser corrigidas! corrigido original π1 n2 b0 = b0 + ln( ) π n Os demais parâmetros serão mantidos 2 1
49 49 Medidas de Performance
50 Kolmogorov-Smirnov (KS): A estatística KS consiste na diferença máxima entre as distribuições acumuladas entre bons e maus pagadores Obs. Quanto maior a distância, maior a diferença entre dos dois grupos e melhor o poder discriminatório do modelo. Esta é a medida de avaliação mais utilizada. Não a melhor! 50
51 Kolmogorov--Smirnov (KS): KS 51
52 % Bom ACU % MAU ACU 100 Kolmogorov--Smirnov (KS):
53 Kolmogorov--Smirnov (KS): library(hmeasure) medidah=hmeasure(vend.final$desemp_b,vend.final$pbom) summary(medidah) H Gini AUC AUCH KS MER MWL
54 Medida KS Valor de KS Para Credit Scoring para Behavioral Scoring KS < 20% Baixo Baixo 20% KS 30% Aceitável Baixo Depende da aplicação Valores ao lado são usuais em risco de crédito 30% KS 40% Boa Baixo / Aceitável 40% KS 50% Excelente Aceitável 50% KS 60% Excelente. Boa 60% KS 70% KS > 70% Excelente. Valores pouco usuais. Excelente. Valores pouco usuais. Excelente Excelente Cuidado: valores de KS dependem da qualidade das variáveis disponíveis Não há milagres... 54
55 Curva ROC: Definição A curva ROC ou (Receiver Operating Characteristic) se baseia em duas definições: sensitividade e especificidade Sensitividade pode ser entendida como a capacidade de identificar corretamente os maus clientes % maus corretamente classificados Especificidade pode ser entendido como a capacidade de identificar corretamente os bons clientes % bons corretamente classificados Nota: Em geral a característica mais importante de se classificar corretamente é denominada condição positiva. A outra é denominada condição negativa. Sensitividade = % True positive (TP) e Especificidade = % True negative (TN). Em crédito prefere-se não errar ao classificar um mau pagador com bom. 55
56 Curva ROC: Definição Mau cliente Bom cliente Escore Abaixo do ponto de corte Correto (Sensitividade) Alarme falso (1- Especificidade) Acima do ponto de corte Erro Correto Especificidade Bom modelo -Sensitividade alta -Alarme falso baixo 56
57 ROC sensitividade (classificação correta) AUROC ROC do modelo de scoring Modelo aleatório Area under ROC 1 especificidade (falso alarme) 57
58 Curva ROC: library(proc) roc1=roc(desemp_b,pbom) (argumentos nessa ordem) plot(roc1) roc.default(response = DESEMP_B, predictor = pbom) Data: pbom in 25 controls (DESEMP_B 0) < 34 cases (DESEMP_B 1). Area under the curve:
59 Curva ROC: valores de referência AUROC Nível de Discriminação Abaixo de 0.5 Não Existe Discriminação De 0.7 a 0.8 Discriminação Aceitável De 0.8 a 0.9 Acima de 0.9 Excelente Discriminação Discriminação acima do comum 59
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisest171 - Aprendizado de Máquina Departamento de Estatística Universidade Federal de Minas Gerais Lista 2 Outubro de 2016 Sumário Exercício I 2
est171 - Aprendizado de Máquina Departamento de Estatística Universidade Federal de Minas Gerais Lista 2 Henrique Aparecido Laureano Matheus Henrique Sales Outubro de 2016 Sumário Exercício I 2 1 Exercício
Leia maisGabarito Lista 2 LES0773 Estatística III. Os resultados dessa regressão são apresentados na seguinte tabela:
Gabarito Lista 2 LES0773 Estatística III Exercício 1) Utilizando a ferramenta Análise de Dados e a sua função Regressão, foi realizada uma regressão levando em consideração os gastos com PD como variável
Leia maisModelos Lineares Generalizados - Regressão Logística
Modelos Lineares Generalizados - Regressão Logística Erica Castilho Rodrigues 26 de Maio de 2014 AIC 3 Vamos ver um critério para comparação de modelos. É muito utilizado para vários tipos de modelo. Mede
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C.. L. F. de Carvalho Monitor: Valéria Carvalho lanejamento e Análise de Experimentos rincipais tópicos Estimativa do erro artição dos dados Reamostragem
Leia maisModelos Lineares Generalizados
unificação metodológica Alexandre Adalardo de Oliveira PlanECO 2017 1 of 43 03/29/2017 11:47 AM Conceitos estrutura do erro preditora linear função de ligação 2 of 43 03/29/2017 11:47 AM Função de ligação
Leia maisCurso de Data Mining
Curso de Data Mining Sandra de Amo Curvas Roc Uma curva ROC (Receiver Operating Characteristic) é um enfoque gráfico que permite visualizar os trade-offs entre as taxas de positivos verdadeiros e positivos
Leia maisTrabalho de Modelos Lineares Generalizados
Universidade Federal do Paraná Trabalho de Modelos Lineares Generalizados Ananda Bordignon 1, Brendha Lima 2, Giovanna Lazzarin 3 12 de Novembro de 2018 1 GRR20149157 2 GRR20149163 3 GRR20149088 1 SUMÁRIO
Leia maisBoas Maneiras em Aprendizado de Máquinas
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Boas Maneiras em Aprendizado de Máquinas David Menotti www.inf.ufpr.br/menotti/ci171-182 Boas Maneiras Agenda Introdução Métricas
Leia maisRegression and Clinical prediction models
Regression and Clinical prediction models Session 7 Introducing statistical modeling Part 3 (Multivariable linear regression) Pedro E A A do Brasil pedro.brasil@ini.fiocruz.br 2018 Objetivos Continuar
Leia mais3.33pt. AIC Introdução
1 3.33pt 1 Modelos Lineares Generalizados - Regressão Logística Erica Castilho Rodrigues 01 de Julho de 2016 2 3.33pt 3 Vamos ver um critério para comparação de modelos. É muito utilizado para vários tipos
Leia maisEXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO
Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística EXPLORANDO OS MODELOS LINEARES GENERALIZADOS APLICAÇÃO A DADOS DE UM PEQUENO SUPERMERCADO CE225 - Modelos Lineares Generalizados
Leia maisDCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Leia maisAnálise de dados em Geociências
Análise de dados em Geociências Regressão Susana Barbosa Mestrado em Ciências Geofísicas 2014-2015 Resumo Introdução Regressão linear dados independentes séries temporais Regressão de quantis Regressão
Leia maisAMOSTRAGEM COMPLEXA. Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R
AMOSTRAGEM COMPLEXA Bases de Dados IAN-AF Tutorial para análise ponderada recorrendo aos softwares SPSS e R 1 Conteúdo Nota introdutória... 3 1. Software SPSS... 4 2. Software R... 16 Referências [1] R
Leia maisUniversidade Católica Portuguesa Faculdade de Ciências Económicas e Empresariais. ESTATÍSTICA MULTIVARIADA 2º. Semestre 2006/07
Universidade Católica Portuguesa Faculdade de Ciências Económicas e Empresariais ESTATÍSTICA MULTIVARIADA 2º. Semestre 2006/07 28.Maio.2007 José Filipe Rafael I Um colega seu está a tentar explicar o salário
Leia mais1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL
1 AULA 5 - REGRESSÃO LOGÍSTICA BINOMIAL 1.1 Tabela de contingência A base de dados que vamos utilizar são os dados do estudo caso-controle em que os casos foram mulheres com infertilidade e os controles,
Leia maisAvaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando
Leia maisvariável dependente natureza dicotômica ou binária independentes, tanto podem ser categóricas ou não estimar a probabilidade associada à ocorrência
REGRESSÃO LOGÍSTICA É uma técnica recomendada para situações em que a variável dependente é de natureza dicotômica ou binária. Quanto às independentes, tanto podem ser categóricas ou não. A regressão logística
Leia maisINSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 EXAME: DATA 24 / 02 / NOME DO ALUNO:
INSTITUTO SUPERIOR DE CONTABILIDADE E ADMINISTRAÇÃO PORTO Ano lectivo 2009/20010 Estudos de Mercado EXAME: DATA 24 / 02 / 20010 NOME DO ALUNO: Nº INFORMÁTICO: TURMA: PÁG. 1_ PROFESSOR: ÉPOCA: Grupo I (10
Leia maisDistribuição e riqueza de espécies arbóreas no Estado de Santa Catarina: modelos atuais e futuros
Distribuição e riqueza de espécies arbóreas no Estado de Santa Catarina: modelos atuais e futuros Ernestino Guarino (Embrapa Acre) Fernando S. Rocha (UFRGS) João André Jarenkow (UFRGS) + Equipe do laboratório
Leia maisMétodos Estatísticos Avançados em Epidemiologia
Universidade Federal de Minas Gerais Instituto de Ciências Exatas Departamento de Estatística Métodos Estatísticos Avançados em Epidemiologia Aula 2-2 Regressão de Poisson: Modelando Contagens Distribuição
Leia maisCE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 13 de setembro de 2018 Examplo usando gamlssnp(): dados de cérebros de animais O tamanho do cérebro (brain) e peso corporal (body) foram registrados
Leia maisAula 9. Prof. Adilson Gonzaga
Aula 9 Prof. Adilson Gonzaga Mapeamento Atribuir uma Instância a uma classe. Cada Instância é mapeada para um elemento do conjunto de Rótulos de Classe {p,n} p positivo n negativo Atribui uma Instância
Leia maisTeste F-parcial 1 / 16
Teste F-parcial Ingredientes A hipótese nula, H 0, define o modelo restrito. A hipótese alternativa, H a : H 0 é falsa, define o modelo irrestrito. SQR r : soma de quadrado dos resíduos associada à estimação
Leia maisTeste F-parcial 1 / 16
Teste F-parcial A hipótese nula, H 0, define o modelo restrito. Ingredientes SQR r : soma de quadrado dos resíduos sob H 0. R 2 r: coeficiente de determinação sob H 0. g: número de restrições a serem testadas
Leia maisClassificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística
Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística Gilberto Rodrigues Liska 1 5 Fortunato Silva de Menezes 2 5 Marcelo Ângelo Cirillo 3 5 Mario Javier Ferrua
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisHP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.
HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)
Leia maisQuiz Econometria I versão 1
Obs: muitos itens foram retirados da ANPEC. Quiz Econometria I versão 1 V ou F? QUESTÃO 1 É dada a seguinte função de produção para determinada indústria: ln(y i )=β 0 + β 1 ln( L i )+β 2 ln( K i )+u i,
Leia maisCorrelação e Regressão
Correlação e Regressão Vamos começar com um exemplo: Temos abaixo uma amostra do tempo de serviço de 10 funcionários de uma companhia de seguros e o número de clientes que cada um possui. Será que existe
Leia maisUNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.
UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO PROJETO DE EXTENSÃO Software R: Capacitação em análise estatística de dados utilizando um software livre. Fonte: https://www.r-project.org/ Módulo
Leia maisIntrodução Regressão linear Regressão de dados independentes Regressão não linear. Regressão. Susana Barbosa
Regressão Susana Barbosa Mestrado em Ciências Geofísicas 2012-2013 Regressão linear x : variável explanatória y : variável resposta Gráfico primeiro! Gráfico primeiro! Gráfico primeiro! Modelo linear x
Leia maisRegressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC
Regressão Linear Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Overfitting 2. Treino e Validação 3. Baseline dos modelos 1 Overfitting Overfit Em muitos casos, a amostra de dados coletada
Leia maisLista 1 - Gabarito. Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados. 29 de Abril. f(y i, θ i ) = θ i exp( yiθ i ).
Lista 1 - Gabarito Prof. Erica Castilho Rodrigues Disciplina: Modelos Lineares Generalizados 29 de Abril 1. (Concurso Petrobrás - 2011) Em um modelo de regressão logística, o que indica se o modelo se
Leia maisRoteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia
Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br
Leia maisInteligência Artificial
Inteligência Artificial Aula 14 Aprendizado de Máquina Avaliação de s Preditivos (Classificação) Hold-out K-fold Leave-one-out Prof. Ricardo M. Marcacini ricardo.marcacini@ufms.br Curso: Sistemas de Informação
Leia maisCréditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores
SCC0173 Mineração de Dados Biológicos Classificação IV: Avaliação de Classificadores Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo rof. André C..
Leia mais4 Metodologia. Wt = W 0 exp{(l/k)(1-e-kt)} (8)
4 Metodologia Serão apresentadas duas formas de se estimar a persistência. A primeira é de forma mais agregada e se utiliza de dados em forma de triângulos de run-off e é conhecida como Chain Ladder, uma
Leia maisCE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 23 de outubro de 2018
CE062c José Luiz Padilha da Silva e Cesar Augusto Taconeli 23 de outubro de 2018 Exemplo 1: resposta binária com intercepto aleatório normal Considere uma coorte de 275 crianças pré-escolares indonésias
Leia maisANOVA com modelos encaixados
ANOVA com modelos encaixados Motivação 1 Testar a significância de β j ( j = 0, 1,, p na presença das demais regressoras, usando o teste t, é trabalho, pois precisa de: ^β e ^Var (^β j = ^σ 2 j c ( j+1(
Leia maisMétodos de reamostragem
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Métodos de reamostragem Eduardo Vargas Ferreira Função custo 2 Função custo Matriz de confusão: é um layout de tabela que
Leia maisRegression and Clinical prediction models
Regression and Clinical prediction models Session 6 Introducing statistical modeling Part 2 (Correlation and Linear regression) Pedro E A A do Brasil pedro.brasil@ini.fiocruz.br 2018 Objetivos Continuar
Leia maisBIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES
BIE5782 Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES ROTEIRO 1.Motivação 2. Método dos mínimos quadrados 3. Ajuste no R: função lm 4. Resultado no R: objeto lm 5. Premissas, interpretação e diagnóstico 6.
Leia maisModelo Linear Generalizado Distribuição de Poisson
Valeska Andreozzi 1 Modelo Linear Generalizado Distribuição de Poisson Problema 1 O objetivo desta aula é exemplificar a modelagem de dados de contagem. Vamos ilustrar como os modelos lineares generalizados
Leia maisRELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE
Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Estatística RELACÃO DO CRIME EM CIDADES PEQUENAS COM CUSTO, IDADE E ANOS DE ESTUDO DE ESTADOS DA AMERICA DO NORTE CE225 - Modelos
Leia maisDETERMINAÇÃO DA DL50 PARA O CONTROLE BIOLÓGICO DA C.VESTIGIALIS EM PLANTAS DO ÁLAMO. EMBRAPA Pesquisadora: EDILENE MACHADO
DETERMINAÇÃO DA DL50 PARA O CONTROLE BIOLÓGICO DA C.VESTIGIALIS EM PLANTAS DO ÁLAMO EMBRAPA Pesquisadora: EDILENE MACHADO O ÁLAMO Família: Salicaceae Gênero: Populus Características Ausência de resinas
Leia maisME613 - Análise de Regressão
ME613 - Análise de Regressão Parte 2 Propriedades dos estimadores Samara F. Kiihl - IMECC - UNICAMP Suposições do modelo de regressão linear simples Suposições do modelo de regressão linear simples Até
Leia maisEnsaio Clínico de Contraceptivos José Luiz Padilha da Silva 24 de outubro de 2018
Ensaio Clínico de Contraceptivos José Luiz Padilha da Silva 24 de outubro de 2018 Exemplo: Ensaio Clínico de Contraceptivos Introdução Este exemplo é de um estudo longitudinal de uso de contraceptivos
Leia maisAprendizado de Máquina
Aprendizado de Máquina UFMG EST171-2ª Lista de exercícios Eduardo Elias Ribeiro Junior 04 de outubro de 2016 Exercício 1 Baixe o conjunto de dados titanic.txt. Cada observação deste banco é relativa a
Leia maisCapítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação
Capítulo 3 O Modelo de Regressão Linear Simples: Especificação e Estimação Introdução Teoria Econômica Microeconomia: Estudamos modelos de oferta e demanda (quantidades demandadas e oferecidas dependem
Leia maisRafael Izbicki 1 / 38
Mineração de Dados Aula 7: Classificação Rafael Izbicki 1 / 38 Revisão Um problema de classificação é um problema de predição em que Y é qualitativo. Em um problema de classificação, é comum se usar R(g)
Leia maisSegundo Trabalho de Econometria 2009
Segundo Trabalho de Econometria 2009 1.. Estimando o modelo por Mínimos Quadrados obtemos: Date: 06/03/09 Time: 14:35 Sample: 1995Q1 2008Q4 Included observations: 56 C 0.781089 0.799772 0.97664 0.3332
Leia maisCapacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.
UFFS Universidade Federal da Fronteira Sul Campus Cerro Largo PROJETO DE EXTENSÃO Software R: capacitação em análise estatística de dados utilizando um software livre Fonte: https://www.r-project.org/
Leia maisEstatística Aplicada II. } Regressão Linear
Estatística Aplicada II } Regressão Linear 1 Aula de hoje } Tópicos } Regressão Linear } Referência } Barrow, M. Estatística para economia, contabilidade e administração. São Paulo: Ática, 007, Cap. 7
Leia maisAULA 11 Teste de Hipótese
1 AULA 11 Teste de Hipótese Ernesto F. L. Amaral 20 de setembro de 2012 Metodologia de Pesquisa (DCP 854B) Fonte: Triola, Mario F. 2008. Introdução à estatística. 10 ª ed. Rio de Janeiro: LTC. Capítulo
Leia maisTestes de raiz unitária
Testes de raiz unitária Avaliando estacionariedade em séries temporais financeiras Wilson Freitas Quant Developer Recursos index.rmd 2/20 Testes de Raiz Unitária Definição do teste de raiz unitária Existem
Leia maisPrecificação de apartamentos para o bairro Água Verde em Curitiba
Precificação de apartamentos para o bairro Água Verde em Curitiba Chuck Norris Arnold Schwarzenegger 18 de julho de 2013 O preço de imóveis depende principalmente do seu tamanho e localização. A infraestrutura
Leia maisEstimação e Testes de Hipóteses
Estimação e Testes de Hipóteses 1 Estatísticas sticas e parâmetros Valores calculados por expressões matemáticas que resumem dados relativos a uma característica mensurável: Parâmetros: medidas numéricas
Leia maisMinera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33
Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33 Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto
Leia maisEstatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE41 Aula passada Teste de hipótese duas médias (casos 1,,3) Aula de hoje Teste de hipótese: variância Goodness of fit: v.a. discreta Goodness of fit: v.a. contínua
Leia maisModelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
Leia maisGabarito Trabalho 2. Variable Coefficient Std. Error t-statistic Prob.
Gabarito Trabalho 2 1. Estimando o modelo Date: 06/10/10 Time: 04:00 Sample: 2003M01 2008M01 Included observations: 70 C -2.046423 5.356816-0.382022 0.7038 LN_IPC_BR 2.041714 1.150204 1.775089 0.0811 LN_IPC_AR
Leia maisAnálise de Carteiras usando o R - Parte 6
Análise de Carteiras usando o R - Parte 6 Bibliografia BKM, cap. 9 Claudio Lucinda FEA/USP Testando o CAPM Testando o CAPM Vamos nesta apresentação usar os dados dos fundos para repassar os testes do CAPM.
Leia maisUniversidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Regressão. David Menotti.
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Regressão David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Regressão Linear ( e Múltipla ) Não-Linear ( Exponencial / Logística
Leia maisEstatística Aplicada à Administração II
Estatística Aplicada à Administração II Tópico: Análise Discriminante (No SPSS e no Minitab) Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 1992 L.J. Corrar; E. Paulo;
Leia maisAvaliação do Risco de Crédito: Modelos de Regressão Logística com amostras de diferentes proporções
Avaliação do Risco de Crédito: Modelos de Regressão Logística com amostras de diferentes proporções Mariana Nolde Pacheco 1 Lisiane Priscila Roldão Selau 2 Resumo: O objetivo do estudo é propor um modelo
Leia maisAjuste e validação de modelos preditivos
Ajuste e validação de modelos preditivos 1 O modelo de regressão logística é frequentemente utilizado com o objetivo de predizer (classificar) indivíduos com base nos valores de suas covariáveis. Modelos
Leia maisAULA 17 - Variáveis binárias
AULA 17 - Variáveis binárias Susan Schommer Econometria I - IE/UFRJ Variáveis binárias A variável binária (ou dummy) é um simples exemplo de variável aleatória, o qual é chamada de função indicadora de
Leia maisb) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita
Exemplo 1 (continuação a Estime por intervalo de 95% de confiança, o aumento do número médio de lotes vendidos devido a 1000 pessoas a mais na população, mantendo a renda per capita fixa b Teste a hipótese
Leia maisO USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG
O USO DE MODELOS DE REGRESSÃO LOGÍSTICA PARA AVALIAÇÃO DO PROBLEMA DE EVASÃO DE ALUNOS NO CURSO DE QUÍMICA INDUSTRIAL DA UNUCET-UEG Robson de Souza Vieira 1 ; Rogério Silva Pimentel 1 ; Emerson Wruck 2
Leia maisRegressão linear múltipla - Correlação parcial
Regressão linear múltipla - Correlação parcial trigo Matriz de correlações: trigo % matéria orgânica 40 103 32 1 58 192 45 28 50 300 39 5 72 420 46 11 61 510 34 14 69 630 38 2 63 820 32 12 % matéria orgânica
Leia maisDescoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
Leia maisMais Informações sobre Itens do Relatório
Mais Informações sobre Itens do Relatório Amostra Tabela contendo os valores amostrados a serem utilizados pelo método comparativo (estatística descritiva ou inferencial) Modelos Pesquisados Tabela contendo
Leia maisINTRODUÇÃO A ECONOMETRIA
INTRODUÇÃO A ECONOMETRIA Análise de regressão e uso do Eviews Introdução O modelo de regressão linear se utiliza para estudar a relação que existe entre uma variável dependente e uma ou várias variáveis
Leia maisBoas Maneiras Aprendizado Não Supervisionado Regressão
Universidade Federal do Paraná (UFPR) Especialização em Engenharia Industrial 4.0 Boas Maneiras Aprendizado Não Supervisionado Regressão David Menotti www.inf.ufpr.br/menotti/am-18b Hoje Boas Maneiras
Leia maisMonitoria Sessão 6. Verônica Santana FEA-USP 10/05/2017
Monitoria Sessão 6 Verônica Santana FEA-USP 10/05/2017 1 Testes de Especificação Retomando o modelo anterior ADA i = β 0 + β 1 ROA i + β 2 MT B i + β 3 SIZE i + β 4 LEV i + β 5 CF O i + β 6 LOSS i + u
Leia maisINTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva
INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA Prof. Anderson Rodrigo da Silva anderson.silva@ifgoiano.edu.br Tipos de Pesquisa Censo: é o levantamento de toda população. Aqui não se faz inferência e sim uma descrição
Leia mais1 Que é Estatística?, 1. 2 Séries Estatísticas, 9. 3 Medidas Descritivas, 27
Prefácio, xiii 1 Que é Estatística?, 1 1.1 Introdução, 1 1.2 Desenvolvimento da estatística, 1 1.2.1 Estatística descritiva, 2 1.2.2 Estatística inferencial, 2 1.3 Sobre os softwares estatísticos, 2 1.4
Leia maisPARTE 3. Profª. Drª. Alessandra de Ávila Montini
PARTE 3 Profª. Drª. Alessandra de Ávila Montini Distribuições Contínuas 2 Conteúdo Principais Distribuições de Probabilidade para Variáveis Quantitativas Contínuas: Exponencial Normal T de Student Qui-quadrado
Leia maisModelo de Variáveis discretas. Regressão com uma variável dependente Binária. Variáveis dependentes Binárias. Modelo de Probabilidade Linear
Regressão com uma variável dependente Binária Capítulo 9 Stock e Watson. Econometria. Modelo de Variáveis discretas P(y = 1 x) = G(β 0 + xβ) y* = β 0 + xβ + u, y = max(0,y*) 1 2 Variáveis dependentes Binárias
Leia maisTestes de cointegração
Testes de cointegração Avaliando a existência de relação de conintegração entre séries temporais Wilson Freitas Quant Developer Recursos index.rmd 2/13 Teste de Engle & Granger (EG) Teste de Engle & Granger
Leia maisFACULDADE DE ECONOMIA DO PORTO. Licenciatura em Economia E C O N O M E T R I A II
FACULDADE DE ECONOMIA DO PORTO Licenciatura em Economia E C O N O M E T R I A II (LEC310) NOTAS PRÉVIAS: Exame Final 08 de Junho de 2005 1. A I Parte da prova tem duração de 90 minutos e é constituída
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Avaliação de Paradigmas Alessandro L. Koerich Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem
Leia maisMestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes º trimestre de 05 Inferência Multivariada MANOVA MANLY, Cap. 4 HAIR et al., Cap. 6 Exemplo Uma
Leia maisExame de Recurso de Métodos Estatísticos. Departamento de Matemática Universidade de Aveiro
Exame de Recurso de Métodos Estatísticos Departamento de Matemática Universidade de Aveiro Data: /7/6 Duração: 3 horas Nome: N.º: Curso: Regime: Declaro que desisto Classificação: As cotações deste exame
Leia maisMestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015 Análise Discriminante MANLY, Cap. 8 HAIR et al., Cap. 5 2 Objetivos o Construir
Leia maisMódulo 16- Análise de Regressão
Módulo 6 Análise de Regressão Módulo 6- Análise de Regressão Situação Problema Um grupo de investidores estrangeiros deseja aumentar suas atividades no Brasil. Considerando a conjuntura econômica de moeda
Leia mais1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.
1 1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3. Modelo de Resultados Potenciais e Aleatorização (Cap. 2 e 3
Leia maisUNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR RODOLFO PIROLO GATZKE - GRR THAYS COSTA S. SOUZA - GRR
UNIVERSIDADE FEDERAL DO PARANÁ CURSO ESTATÍSTICA CALEB SOUZA - GRR 20149072 RODOLFO PIROLO GATZKE - GRR 20149150 THAYS COSTA S. SOUZA - GRR 20159231 MODELAGEM PARA O SUCESSO DE CAMPANHA DE MARKETING CURITIBA
Leia maisME613 - Análise de Regressão
ME613 - Análise de Regressão Parte 11 Critérios para Seleção de Modelos Samara F. Kiihl - IMECC - UNICAMP file:///users/imac/documents/github/me613-unicamp/me613-unicamp.github.io/aulas/slides/parte11/parte11.html#1
Leia maisModelos Lineares Generalizados - Verificação do Ajuste do Modelo
Modelos Lineares Generalizados - Verificação do Ajuste do Modelo Erica Castilho Rodrigues 21 de Junho de 2013 3 Uma outra medida usada para verificar o ajuste do modelo. Essa estatística é dada por X
Leia maisNome: Turma: Processo
Instituto Superior de Economia e Gestão Universidade de Lisboa Licenciaturas em Economia e em Finanças Econometria Época de Recurso 01/02/2017 Duração: 2 horas Nome: Turma: Processo Espaço reservado para
Leia maisRegressão para Dados Binários - Estudo de Dengue
Universidade Federal do Paraná Departamento de Estatística Regressão para Dados Binários - Estudo de Dengue CE225 - Modelos Lineares Generalizados Francielle Przibiciem de Mattos GRR20124686 Guilherme
Leia maisdiferença não aleatória na distribuição dos fatores de risco entre os dois grupos
Confundimento erro devido a uma diferença não aleatória na distribuição dos fatores de risco entre os dois grupos. A variável de confundimento está distribuída desigualmente entre os grupos comparados.
Leia maisExame Final de Métodos Estatísticos
Exame Final de Métodos Estatísticos Data: de Junho de 26 Duração: 3h. Nome: Curso: Declaro que desisto N. Mec. Regime: As cotações deste exame encontram-se na seguinte tabela. Responda às questões utilizando
Leia maisCONHECIMENTOS ESPECÍFICOS
fonte de graus de soma de quadrado variação liberdade quadrados médio teste F regressão 1 1,4 1,4 46,2 resíduo 28 0,8 0,03 total 2,2 A tabela de análise de variância (ANOVA) ilustrada acima resulta de
Leia maisCap 7 Modelo de Cox. Outline. 2 Cap 2 O tempo. 3 Cap 3 Funções de Sobrevida. 5 Modelo de Cox. Carvalho MS (2009) Sobrevida 1 / 22
Outline Cap 7 Modelo de Cox 1 Cap 1 Introdução 2 Cap 2 O tempo 3 Cap 3 Funções de Sobrevida 4 Cap 4 Não-Paramétrica 5 Modelo de Cox Carvalho MS (2009) Sobrevida 1 / 22 Riscos Proporcionais Cap 7 Modelo
Leia mais