Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

Documentos relacionados

Análise de Regressão Linear Simples e Múltipla

Contabilometria. Aula 10 Grau de Ajustamento e Verificação das Premissas MQO

MAPEAMENTO DA INOVAÇÃO EM EMPRESAS SERGIPANAS: UMA APLICAÇÃO DE REGRESSÃO LOGÍSTICA

Análise de regressão linear simples. Departamento de Matemática Escola Superior de Tecnologia de Viseu

Regressão Logística. Propriedades

Capítulo 3 Modelos Estatísticos

Testedegeradoresde. Parte X. 38 Testes de Ajuste à Distribuição Teste Chi-Quadrado

Aula 3 OS TRANSITÒRIOS DAS REDES ELÉTRICAS

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

ITA º DIA MATEMÁTICA BERNOULLI COLÉGIO E PRÉ-VESTIBULAR

Exemplo Preferência de Automóveis

Universidade Federal de São Carlos Departamento de Matemática Curso de Cálculo Numérico - Turma E Resolução da Primeira Prova - 16/04/2008

36 a Olimpíada Brasileira de Matemática Nível Universitário Primeira Fase

AULAS 14, 15 E 16 Análise de Regressão Múltipla: Problemas Adicionais

Introdução aos Modelos Lineares em Ecologia

4 Aplicação: Modelo LOGIT para Avaliar o Risco de Crédito

EA616 - Análise Linear de Sistemas Aula 28 - Estabilidade do Estado

Aula 4 Estatística Conceitos básicos

CAP5: Amostragem e Distribuição Amostral

Probabilidades e Estatística

1. Os métodos Não-Paramétricos podem ser aplicados a uma ampla diversidade de situações, porque não exigem populações distribuídas normalmente.

Faculdade Sagrada Família

Rediscussão do BC&T. Eixo de Representação e Simulação

UNIVERSIDADE FEDERAL DE JUIZ DE FORA INSTITUTO DE CIÊNCIAS EXATAS DEPARTAMENTO DE ESTATÍSTICA Programa de Graduação em Estatística. Samuel de Oliveira

EXCEL NA ANÁLISE DE REGRESSÃO

3º Ano do Ensino Médio. Aula nº10 Prof. Daniel Szente

4 Análise dos Resultados

ESPAÇOS MUNIDOS DE PRODUTO INTERNO

XVIII CONGRESSO DE PÓS-GRADUAÇÃO DA UFLA 19 a 23 de outubro de 2009

Estatística II Antonio Roque Aula 9. Testes de Hipóteses

Equações Diferenciais Ordinárias

Processos Estocásticos

MÓDULO 1. I - Estatística Básica

AULAS 02 E 03 Modelo de Regressão Simples

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

Equações Diferenciais Ordinárias

Processos Estocásticos

Prova de Admissão para o Mestrado em Matemática IME-USP

Aula 5 Distribuição amostral da média

Modelos de Probabilidade e Inferência Estatística

Contabilometria. Aula 11 Regressão Linear Múltipla e Variáveis Dummy

Testes (Não) Paramétricos

Datas Importantes 2013/01

Fundamentos Tecnológicos

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

MATEMÁTICA A - 12o Ano Probabilidades - Triângulo de Pascal Propostas de resolução

Distribuição de probabilidades

Análise de Sobrevivência Aplicada à Saúde

3.4 O Princípio da Equipartição de Energia e a Capacidade Calorífica Molar

3 Matemática financeira e atuarial

Notas sobre a Fórmula de Taylor e o estudo de extremos

3 Previsão da demanda

Resoluções comentadas de Raciocínio Lógico e Estatística SEFAZ - Analista em Finanças Públicas Prova realizada em 04/12/2011 pelo CEPERJ

INSTRUMENTAÇÃO E CONTROLE DE PROCESSOS TRANSFORMADAS DE LAPLACE

Aritmética de Ponto Flutuante e Noções de Erro. Ana Paula

Trabalhando com Pequenas Amostras: Distribuição t de Student

Especialização em Engenharia Clínica

Karine Nayara F. Valle. Métodos Numéricos de Euler e Runge-Kutta

Resoluções comentadas de Raciocínio Lógico e Estatística - SEPLAG APO

Capítulo 8 - Testes de hipóteses. 8.1 Introdução

Análise de Arredondamento em Ponto Flutuante

Universidade Federal de São João Del Rei - UFSJ

Matemática para Engenharia

CONCURSO PETROBRAS DRAFT. Pesquisa Operacional, TI, Probabilidade e Estatística. Questões Resolvidas. Produzido por Exatas Concursos

5 A Metodologia de Estudo de Eventos

FINANÇAS EM PROJETOS DE TI

PUCGoiás Física I. Lilian R. Rios. Rotação

A finalidade dos testes de hipóteses paramétrico é avaliar afirmações sobre os valores dos parâmetros populacionais.

CSE-020 Revisão de Métodos Matemáticos para Engenharia

Exercício de Revisao 1

MARCELO RIBEIRO DA LUZ MARCOS FABIANE KUFNER

29/Abril/2015 Aula 17

Resolução de sistemas lineares

P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Exemplos de Testes de Hipóteses para Médias Populacionais

O mercado de bens CAPÍTULO 3. Olivier Blanchard Pearson Education Pearson Education Macroeconomia, 4/e Olivier Blanchard

Vetores Aleatórios, correlação e conjuntas

Um estudo sobre funções contínuas que não são diferenciáveis em nenhum ponto

EE531 - Turma S. Diodos. Laboratório de Eletrônica Básica I - Segundo Semestre de 2010

Classificação de Pesos Padrão PARTE 2. Carlos Alexandre Brero de Campos Instituto de Pesos e Medidas do Estado do Paraná

Análise Espacial da Colheita de Cana-de-açúcar no estado de São Paulo. Wagner F. Silva Daniel A. Aguiar

Capítulo IV. Medição de Grandezas Elétricas

Fernando Henrique Ferraz Pereira da Rosa Vagner Aparecido Pedro Júnior 7 de novembro de 2005

Principais tipos de resíduos utilizados na análise de diagnóstico em MLG com aplicações para os modelos: Poisson, ZIP e ZINB

Técnicas Multivariadas em Saúde. Comparações de Médias Multivariadas. Métodos Multivariados em Saúde Roteiro. Testes de Significância

M501 Probabilidade, Estatística e Processos Estocásticos

Pós-Graduação em Economia e Gestão em Saúde Módulo de Estatística Aplicada

Capítulo 5: Aplicações da Derivada

Álgebra Linear. André Arbex Hallack Frederico Sercio Feitosa

Representação de números em máquinas

Aula 2 - Cálculo Numérico

1 A Integral por Partes

INSTITUTO TECNOLÓGICO

Ferramentas da Qualidade. Professor: Leandro Zvirtes UDESC/CCT

Grupo A - 1 o semestre de 2014 Gabarito Lista de exercícios 11 - Teste Qhi-quadrado C A S A

Notas de Cálculo Numérico

Investigação Sociológica

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

2ª fase. 19 de Julho de 2010

Transcrição:

Regressão Logística Daniel Araújo Melo - dam2@cin.ufpe.br Graduação 1

Introdução Objetivo Encontrar o melhor modelo para descrever a relação entre variável de saída (variável dependente) e variáveis independentes (preditoras ou explanatórias) Variável de saída binária ou dicotômica (1 ou 0) Reflete no modelo paramétrico Segue os mesmos princípios da regressão linear 2

Exemplo 3

Scatterplot 4

Tabela de Frequência 5

Relação entre CHD e Idade S-Shaped > distribuição cumulativa 6

Função de Resposta Considerando Modelo de Regressão Simples: Valor esperado: E( Y) = β + +β X i 0 1 Considere Y uma v.a. Bernoulli com distribuição de probabilidade i (1) 7

Função de Resposta(2) Pela definição de valor esperado, obtemos:: E( Yi) = π i (2) Igualando (1) e (2) E( Y) i = 0 1 β + β X = π i i (3) A resposta média, quando a variável resposta é uma variável binária, sempre representa a probabilidade de Y = 1, para o nível da variável preditora x. 8

Função de Resposta E(Y) 1 E 0 1 ( Y) = β + β X 0 X 9

Função Resposta logística Este modelo freqüentemente não representa bem a situação em estudo. Ao invés, um modelo onde as probabilidades 0 e 1 são encontradas assintoticamente, como mostra a figura a seguir, é, de modo geral, mais apropriada. Graduação 10

Função Resposta Logística Graduação 11

Função Resposta logística Graduação 12

Modelo de Regressão Razões em utilizar distribuição logística Função de fácil utilização e extremamente flexível Interpretação razoável Transformação logit Possui parâmetros lineares; Pode ser contínua; Varia de - a + de acordo com valores de x 13

Modelo de Regressão Erros não seguem distribuição normal P/ Y=1 ε=1-π(x) com probabilidade π(x) P/ Y=0 ε=-π(x) com probabilidade 1-π(x) ε possui distribuição com média 0 e variância igual a π(x)[1-π(x)] Variância heterogênea; Variável de saída segue distribuição binomial com probabilidade dada pela média condicional π(x); Erro segue distribuição binomial 14

Adequação do Modelo Quando método dos mínimos quadrados é aplicado a um modelo com saída dicotômica os estimadores não possuem mesmas propriedades estatísticas como na Regressão Linear 15

Estimação de Parâmetros Função de vizinhança (FV) Baseada na máxima verossimilhança usada na Regressão Linear Expressa a probabilidade do dado observado como função dos parâmetros desconhecidos Para pares(x i,y i ), onde: y i =1, contribuição para FV é π(x i ); y i =0,contribuição para FV é 1-π(x i ). Contribuição de um par(x i,y i ): Como observações independentes: 16

Estimação de Parâmetros Log Verossimilhança Para encontrar valores de β que maximiza L(β) diferenciamos L(β) por β 0 e β 1 : β encontrado é chamado estimador da maximoverossimilhança ^β 17

Modelo Exemplo Z: Razão entre coeficientes estimados e erros padrão estimados 18

Significância dos Coeficientes O modelo que inclui uma determinada variável diz mais sobre sobre variável resposta do que o modelo sem a variável? Goodness-of-fit Variação não explicada: Soma dos Quadrados dos Resíduos Variação explicada 19

Significância dos Coeficientes Teste dataxa de verossimilhança (Desvio) Comparação entre valores observados e preditos; Baseada na log verossimilhança Modelo saturado Contém tantos parâmetros quanto observações. Utiliza-se 2 vezes o log para obter quantidade cuja distribuição seja conhecida e possa ser utilizada em um testes de hipóteses,onde π i =π(x i ) Mesmo papel da soma dos quadrados dos resíduos na regressão linear. 20

Significância dos Coeficientes Teste dataxa de verossimilhança (Desvio) Em modelos saturados verossimilhança =1 Logo: Para testar significância de variável: G possui mesmo papel do que numerador do teste parcial de F na regressão linear. Como a verossimilhança do modelo saturado é a mesma nos 2 modelos: 21

Significância dos Coeficientes Teste dataxa de verossimilhança (Desvio) Para caso de única variável regressora (independente), quando a variável não está no modelo: ^β 0 =ln(n 1 /n 0 ), onde n 1 =Ey i, n 0 =E(1-y i ), e valor predito é constante,n 1 /n. Na hipótese que β 1 =0, G segue chi-quadrado com 1 grau de liberdade 22

Significância dos Coeficientes Desvio do exemplo: Rejeira Hipótese que β 1 é igual a zero - há evidências que a variável AGE é significante para o modelo. 23

Significância dos Coeficientes Testes equivalentes: Teste de Wald Resultado sobre a hipótese que β 1 =0 segue distribuição normal Baixa precisão, pode falhar em rejeitar hipótese nula quando variável é significante. Teste Score Baseado na teoria de distribuição das derivadas de log verossimilhança 24

Intervalo de Confiança Baseados no Teste Wald 25

Intervalo de Confiança Exemplo: 26

Regressão Logística Regressão Logística Múltipla 27

Modelo de Regressão Logística Múltipla Considere coleção de variáveis independentes denotadas pelo vetor: x'=(x 1,x 2,...x p ) g(x)=β 0 +β 1 x 1 +β 2 x 2 +...+β p x p Se variáveis dependentes são discretas, é inadequado incluí-las no modelo como se fossem variáveis escalares. Deve-se utilizar variáveis de design (ou dummy). Se uma variável discreta possui k valores possíveis, serão necessárias k-1 variáveis dummy. 28

Modelo de Regressão Logística Múltipla 29

Adequação do Modelo Método de estimação semelhante ao caso univariado Existem p+1 equações de vizinhança obtidas pela diferenciação da função de log verossimilhança com respeito aos p+1 coeficientes. Estimadores são obtidos através da matriz das segundas derivadas parciais da função de log verossimilhança 30

Adequação do Modelo Matriz de informação observada Matriz (p+1)(p+1), denominada I(β) contendo o negativo dos termos encontrados nas equações: Variâncias e Covariâncias dos coeficientes estimados são obtidos através da matriz inversa Var(β)=I -1 (β) 31

Adequação do Modelo Matriz de informação observada 32

Modelo Exemplo 33

Significância dos Coeficientes De forma similar ao caso univariado utiliza-se a estatística de teste G Os valores adequados, ^Pi, no modelo são baseados em um vetor contendo p+1 parâmetros, ^B Sob a hiopótese nula que os p parâmetros são iguais a zero, G segue a chi-quadrado com p graus de liberdade. Para o exemplo: Rejeina hipótese nula e conclui que ao menos um dos parâmetros é significante 34

Significância dos Coeficientes Teste Wald Sob a hipótese que um coeficiente individual é zero, segue distribuição normal 35

Intervalo de Confiança Estimação para coeficientes similara ao caso univariado; 36

Intervalo de Confiança Exemplo 37

Intervalo de Confiança Exemplo 38

Interpretação do Modelo 39

Bibliografia Applied Logistic Regression Hosmes, David W. Lemeshow, Stanley Material de Aula Pinto, Rogério de M. C. www.inf.ufsc.br/~ogliari/arquivos/ 40