Disciplina de Modelos Lineares Professora Ariane Ferreira

Documentos relacionados
Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

Métodos Estatísticos Avançados em Epidemiologia

Métodos Estatísticos Avançados em Epidemiologia

Relatório do Experimento 1 Sistema Massa - Mola. Fernando Henrique Ferraz Pereira da Rosa

Módulo de Equações do Segundo Grau. Equações do Segundo Grau: Resultados Básicos. Nono Ano

Pressuposições à ANOVA

Se inicialmente, o tanque estava com 100 litros, pode-se afirmar que ao final do dia o mesmo conterá.

Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

Correlação e Regressão linear simples

Teste de hipótese em modelos normais lineares: ANOVA

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

Proposta de ajuste de modelos não lineares na descrição de germinação de sementes de café

MOQ-14 Projeto e Análise de Experimentos

UNESP - Faculdade de Engenharia de Guaratinguetá 1

AULA 19 Análise de Variância

A. Equações não lineares

Estudo sobre a dependência espacial da dengue em Salvador no ano de 2002: Uma aplicação do Índice de Moran

ANOVA. (Analysis of Variance) Prof. Dr. Guanis de Barros Vilela Junior

Estatística Analítica

Os eixo x e y dividem a circunferência em quatro partes congruentes chamadas quadrantes, numeradas de 1 a 4 conforme figura abaixo:

Probabilidade e Estatística

Teste de Hipótese e Intervalo de Confiança. Parte 2

Avaliação de Empresas Profa. Patricia Maria Bortolon

Sejam P1(x1,y1) e P2(x2,y2) pontos pertencentes ao plano. A equação da reta pode ser expressa como: ou

Gerenciamento do Escopo do Projeto (PMBoK 5ª ed.)

AULAS 13, 14 E 15 Correlação e Regressão

PESQUISA OPERACIONAL 4470E- 04

Diagnóstico da Convergência às Normas Internacionais IAS 8 Accounting Policies, Changes in Accounting Estimates and Errors

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

A dependência entre a inflação cabo-verdiana e a portuguesa: uma abordagem de copulas.

EXERCÍCIOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA (sistemas de equações lineares e outros exercícios)

Pós-Graduação em Computação Distribuída e Ubíqua

Figura 4.1: Diagrama de representação de uma função de 2 variáveis

Probabilidade. Luiz Carlos Terra

Ajuste de um modelo de TRI aos dados do vestibular do curso de Administração Noturno da Universidade Federal de Uberlândia

Capítulo 4 Inferência Estatística

Regressão, Interpolação e Extrapolação Numéricas

1331 Velocidade do som em líquidos Velocidade de fase e de grupo

Recorrendo à nossa imaginação podemos tentar escrever números racionais de modo semelhante: 1 2 =

Inteligência Artificial

ME613 - Análise de Regressão

Avaliação Econômica do Projeto de Microcrédito para a população da Zona Norte de Natal/RN

Diagrama de Impedâncias e Matriz de Admitância de um Sistema Elétrico

Contabilometria. Análise Discriminante

3º Ano do Ensino Médio. Aula nº06

Ondas EM no Espaço Livre (Vácuo)

Universidade Federal de Ouro Preto UFOP. Instituto de Ciências Exatas e Biológicas ICEB. Departamento de Computação DECOM

= Pontuação: A questão vale dez pontos, tem dois itens, sendo que o item A vale até três pontos, e o B vale até sete pontos.

AULA 07 Distribuições Discretas de Probabilidade

1 - POLÍGONOS REGULARES E CIRCUNFERÊNCIAS

LABORATÓRIO DE CONTROLE I SINTONIA DE CONTROLADOR PID

GUIA DE FUNCIONAMENTO DA UNIDADE CURRICULAR

Equação e Inequação do 2 Grau Teoria

AULA DO CPOG. Progressão Aritmética

Regressão linear múltipla. Prof. Tatiele Lacerda

Usando potências de 10

Álgebra Linear Aplicada à Compressão de Imagens. Universidade de Lisboa Instituto Superior Técnico. Mestrado em Engenharia Aeroespacial

UNIVERSIDADE ESTADUAL DE MARINGÁ CENTRO DE CIÊNCIAS EXATAS DEPARTAMENTO DE FÍSICA 1 GRÁFICOS

ESCOLA DR. ALFREDO JOSÉ BALBI UNITAU APOSTILA

P R O G R A M A TERCEIRA FASE. DISCIPLINA: Estatística Aplicada à Pesquisa Educacional Código: 3EAPE Carga Horária: 54h/a (crédito 03)


. (A verificação é imediata.)

Introdução ao determinante

Física Experimental III

Universidade Federal de Goiás Campus Catalão Departamento de Matemática

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

Entropia, Entropia Relativa

Conteúdo programático por disciplina Matemática 6 o ano

Unidade 3 Função Afim

Modelos de Probabilidade e Inferência Estatística

Análise de Regressão. Notas de Aula

ISEG - ESTATÍSTICA I - EN, Economia/Finanças - 1 de Junho de 2010 Tópicos de correcção. 1ª Parte. > 0. Justifique a igualdade: P(( A B)

Análise de Regressão Linear Simples III

ESTATÍSTICA DESCRITIVA:

Inversão de Matrizes

Avaliação do Risco Isolado

Resolução de circuitos usando Teorema de Thévenin Exercícios Resolvidos

Modelo Lógico: Tabelas, Chaves Primárias e Estrangeiras

M =C J, fórmula do montante

Matemática Discreta - 08

Introdução. Ou seja, de certo modo esperamos que haja uma certa

EXAME DE MACS 2º FASE 2014/2015 = 193

OPERAÇÕES COM FRAÇÕES

IV Regressão e correlação IV.4. (cont.) Significância Estatística e Regressão Múltipla

ActivALEA. ative e atualize a sua literacia

2.1 - Triângulo Equilátero: é todo triângulo que apresenta os três lados com a mesma medida. Nesse caso dizemos que os três lados são congruentes.

ANÁLISE DE CIRCUITOS LABORATÓRIO

DISTRIBUIÇÕES ESPECIAIS DE PROBABILIDADE DISCRETAS

Resumo: Estudo do Comportamento das Funções. 1º - Explicitar o domínio da função estudada

Aula 6 Propagação de erros

FÍSICA EXPERIMENTAL 3001

Regressão Logística. Daniel Araújo Melo - dam2@cin.ufpe.br. Graduação

FERRAMENTAS DA QUALIDADE FOLHA DE VERIFICAÇÃO

ANÁLISE ESTATÍSTICA DA INFLUÊNCIA DO ÍNDICE DE DESENVOLVIMENTO HUMANO MUNICIPAL NO ÍNDICE DE CRIMINALIDADE DO ESTADO DE MINAS GERAIS NO ANO DE 2000.

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

Planos e Retas. Equações do Plano e da Reta. Anliy Natsuyo Nashimoto Sargeant José Antônio Araújo Andrade Solange Gomes Faria Martins

Resolução da Lista de Exercício 6

Definição de determinantes de primeira e segunda ordens. Seja A uma matriz quadrada. Representa-se o determinante de A por det(a) ou A.

Transcrição:

Disciplina de Modelos Lineares 2012-2 Regressão Logística Professora Ariane Ferreira O modelo de regressão logístico é semelhante ao modelo de regressão linear. No entanto, no modelo logístico a variável resposta é binária. Uma variável binária assume dois valores, como por exemplo, e denominados "fracasso" e "sucesso", respectivamente. Neste caso, "sucesso" é o evento de interesse. No modelo linear temos Assumindo que, obtemos que A variável resposta tem distribuição Bernoulli, com probabilidade de sucesso e de fracasso Desta forma Igualando (4.2) e (4.1), temos Essa igualdade viola as suposições do modelo linear. De fato, i) Os erros não são normais, pois: Assim não faz sentido assumirmos a normalidade dos erros. ii) Não homogeneidade da variância. Temos que depende de, e consequentemente, não é constante. então a variância de 1

iii) Restrição para a resposta média Como a resposta média é obtida em probabilidades temos que. Entretanto, esta restrição é inapropiada para resposta em um modelo linear, que assume valores no intervalo Uma forma de resolver esse problema é utilizar o modelo logístico. Muitas funções foram propostas para a análise de variáveis com respostas dicotômicas. Dentre elas a mais simples é a que dá origem ao modelo logístico. Do ponto de vista estatístico este modelo é bastante flexível e de fácil interpretação. Regressão logistica Simples Modelo Estatístico Um modelo de regressão logística simples é usado para o caso de regressão com uma variável explicativa. Suponha uma amostra de observações independentes da terna, sendo que: é o valor da variável explicativa; é a quantidade de itens verificados na amostra (número de ensaios); número de ocorrência de um evento (exemplo: quantidade de peças não conforme) em ensaios; e é o tamanho da amostra. Com isso, assumimos que a variável resposta tem distribuição de probabilidade binomial, tal que Para adequarmos a resposta média ao modelo linear usamos a função de ligação que pode ser escrita como 2

As figuras a seguir ilustram a forma do modelo logístico para positivo e negativo. Figura 4.1.1.1: Modelo logístico com positivo. 3

Figura 4.1.1.2: Modelo logístico com negativo. Neste caso, utilizamos o método da máxima verossimilhança para estimarmos os parâmetros. De forma genérica, o método de máxima verossimilhança nos fornece valores para os parâmetros desconhecidos que maximizam a probabilidade de se obter determinado conjunto de dados. Assumindo que verossimilhança é da seguinte forma são independentes, a função de 4

Ignorando o termo constante que não depende de e tomando o logaritmo em ambos os lados da expressão anterior, temos Detalhando e considerando que, Assim a expressão (4.1.1.1), pode ser reescrita como: 5

Portanto, Para simplificar a notação faremos Estimação dos Parâmetros do modelo Para ajustar um modelo de regressão devemos estimar os parâmetros e do modelo. Os estimadores de máxima verossimilhança para os parâmetros e são os valores de e que maximizam o logaritmo da função de verossimilhança. A função de verossimilhança tem máximo, pois pois a função logaritmo é estritamente crescente. Para maximizar a função de verossimilhança basta derivarmos em relação aos parâmetros do modelo, da seguinte forma Igualando estas derivadas a zero e substituindo os parâmetros ( ) pelos estimadores Porém estas equações são não-lineares nos parâmetros e para resolvê-las é preciso recorrer a métodos numéricos interativos, como Newton-Raphson (Gourieroux e Monfort, 1995). Este método é definido expandindo-se a função U( ) em torno do ponto inicial, tal que 6

sendo que U( ) são as derivadas de primeira ordem do logaritmo da função de verossimilhança em relação aos parâmetros do modelo e são as derivadas de ordem 2 do logaritmo da função de verossimilhança. Se repetirmos o processo (4.1.2.1) chegaremos ao processo iterativo sendo que Como a matriz pode não ser positiva definida, e portanto não invertível, ela é substituída pela matriz de informação de Fisher. Assim A matriz de informação de Fisher, para o modelo logístico com uma variável, tem a seguinte forma: Após obter as estimativas dos parâmetros do modelo é possível calcular as probabilidades estimadas Estimação dos Parâmetros do modelo Para ajustar um modelo de regressão devemos estimar os parâmetros e do modelo. Os estimadores de máxima verossimilhança para os parâmetros e são os valores de e que maximizam o logaritmo da função de verossimilhança. A função de verossimilhança tem máximo, pois pois a função logaritmo é estritamente crescente. Para maximizar a função de verossimilhança basta derivarmos em relação aos parâmetros do modelo, da seguinte forma 7

Igualando estas derivadas a zero e substituindo os parâmetros ( ) pelos estimadores Porém estas equações são não-lineares nos parâmetros e para resolvê-las é preciso recorrer a métodos numéricos interativos, como Newton-Raphson (Gourieroux e Monfort, 1995). Este método é definido expandindo-se a função U( ) em torno do ponto inicial, tal que sendo que U( ) são as derivadas de primeira ordem do logaritmo da função de verossimilhança em relação aos parâmetros do modelo e são as derivadas de ordem 2 do logaritmo da função de verossimilhança. Se repetirmos o processo (4.1.2.1) chegaremos ao processo iterativo sendo que Como a matriz pode não ser positiva definida, e portanto não invertível, ela é substituída pela matriz de informação de Fisher. Assim A matriz de informação de Fisher, para o modelo logístico com uma variável, tem a seguinte forma: 8

Após obter as estimativas dos parâmetros do modelo é possível calcular as probabilidades estimadas Estimação dos Parâmetros do modelo Para ajustar um modelo de regressão devemos estimar os parâmetros e do modelo. Os estimadores de máxima verossimilhança para os parâmetros e são os valores de e que maximizam o logaritmo da função de verossimilhança. A função de verossimilhança tem máximo, pois pois a função logaritmo é estritamente crescente. Para maximizar a função de verossimilhança basta derivarmos em relação aos parâmetros do modelo, da seguinte forma Igualando estas derivadas a zero e substituindo os parâmetros ( ) pelos estimadores Porém estas equações são não-lineares nos parâmetros e para resolvê-las é preciso recorrer a métodos numéricos interativos, como Newton-Raphson (Gourieroux e Monfort, 1995). Este método é definido expandindo-se a função U( ) em torno do ponto inicial, tal que 9

sendo que U( ) são as derivadas de primeira ordem do logaritmo da função de verossimilhança em relação aos parâmetros do modelo e são as derivadas de ordem 2 do logaritmo da função de verossimilhança. Se repetirmos o processo (4.1.2.1) chegaremos ao processo iterativo sendo que Como a matriz pode não ser positiva definida, e portanto não invertível, ela é substituída pela matriz de informação de Fisher. Assim A matriz de informação de Fisher, para o modelo logístico com uma variável, tem a seguinte forma: Após obter as estimativas dos parâmetros do modelo é possível calcular as probabilidades estimadas Interpretação dos parâmetros do modelo A interpretação dos parâmetros de um modelo de regressão logística é obtida comparando a probabilidade de sucesso com a probabilidade de fracasso, usando a função odds ratio - OR (razão de chances). Essa função é obtida a partir da função odds. 10

Assim, ao tomarmos dois valores distintos da variável explicativa, e, obtemos Temos ainda que: Fazendo unidade, então Assim, temos o quão provável o resultado ocorrerá entre os indivíduos indivíduos, fazendo, portanto, algumas análises: em relação aos Veja "variáveis independentes categóricas" quando a variável explicativa é categórica. Estimativa dos desvios padrão No modelo de regressão logístico o desvio padrão dos estimadores é obtido a partir da matriz de informação de Fisher. Podemos ainda obter a matriz de informação de Fisher para o modelo logístico a partir dos dados, da seguinte forma, sendo que é o número de repetições para cada elemento da amostra, 11

As variâncias e covariâncias dos estimadores informação de Fisher, isto é, calculando são obtidos, invertendo a matriz de O -ésimo elemento da diagonal principal da matriz é a variância do estimador denominada Os demais elementos da matriz são as covariâncias entre Desta forma o desvio padrão é definido como: Inferência em um modelo logístico simples Após estimar os coeficientes, temos interesse em assegurar a significância das variáveis no modelo. Isto geralmente envolve formulação e teste de uma hipótese estatística para determinar se a variável independente no modelo é significativamente relacionada com a variável resposta. Para isso, temos os testes de hipóteses. Os testes de hipóteses mais utilizados são os testes da Razão da Verossimilhança, Wald e Escore. A seguir, temos a abordagem de cada um deles. Teste de Wald O teste de Wald é obtido por comparação entre a estimativa de máxima verossimilhança do parâmetro ( ) e a estimativa de seu erro padrão. A razão resultante, sob a hipótese tem distribuição normal padrão. A estatística do teste Wald para a regressão logística é O p-valor é definido como distribuição normal padrão., sendo que Z denota a variável aleatória da Hauck e Donner (1977) examinaram o desempenho do teste de Wald e discobriram que ele se comporta de maneira estranha, em determinadas situações; frequentemente não rejeitando a hipótese nula quando o coeficiente é significativo. Eles recomendam a utilização do teste da razão de verossimilhança para testar se realmente o coeficiente não é significativo quando o teste de Wald não rejeita a hipótese nula. Teste da Razão de Verossimilhança 12

Na regressão linear o interesse está no valor da SQR. Um valor alto da SQR sugere que a variável independente é importante, caso contrário, a variável independente não é útil na predição da variável resposta. Na regressão logística a ideia é a mesma: comparar os valores observados da variável resposta com os valores preditos obtidos dos modelos com e sem a variável em questão. A comparação dos observados com os valores preditos é baseado no log da verossimilhança. Para entender melhor essa comparação, é útil pensar em um valor observado da variável resposta também como sendo um valor predito resultante de um modelo saturado. Um modelo saturado é aquele que contém tantos parâmetros quanto observações. A comparação dos observados com os valores preditos usando a função de verossimilhança é baseada na seguinte expressão: Com o propósito de assegurar a significância de uma variável independente, comparamos o valor da D com e sem a variável na equação. A mudança em D devido a inclusão da variável no modelo é obtida da seguinte maneira: Podemos então escrever a estatística G como: ou ainda: em que é a verossimilhança do modelo sem a covariável e é a verossimilhança do modelo com a covariável. Queremos testar: Sob a hipótese nula, a estatística G tem distribuição chi-quadrado com 1 grau de liberdade. Exemplo 4.1.3.2.1 13

Vamos considerar o Exemplo 4.1.2.1 para verificar se a variável "horas de treinamento" é significativa para explicar o erro na montagem, através do teste da razão de verossimilhança (TRV). O valor do log da verossimilhança do modelo apenas com o intercepto ( modelo com a variável ( ) é -1035,089. ) é -1064,183 e do Assim, o valor da estatística teste é: O p-valor. Rejeitamos a hipótese nula. Assim, pelo TRV, temos que a variável horas de treinamento é significativa para o modelo. Teste Score A estatística teste para o Teste Score é: em que (proporção de sucessos na amostra). No Teste Score também temos o interesse em testar: O p-valor é definido como distribuição normal padrão., sendo que Z denota a variável aleatória da Intervalo de Confiança para os parâmetros A base da construção das estimativas do intervalo de confiança para os parâmetros é a mesma teoria estatística que usamos para os testes de significância do modelo. Em particular, um intervalo de confiança para a inclinação e intercepto são baseados em seus respectivos testes de Wald. O intervalo de confiança de % para o parâmetro é: 14

E para o intercepto: em que é o ponto da normal padrão correspondente a %. Intervalo de Confiança para Logito A logito é a parte linear do modelo de regressão logística. O estimador para logito é: O estimador da variância do estimador da logito requer a obtenção da variância da soma. No caso é: O intervalo de confiança para a logito é: em que é a raiz quadrada de 4.1.4.2.1 e é o ponto da normal padrão. Intervalo de Confiança para os valores ajustados O estimador do logito e seu intervalo de confiança fornece o estimador dos valores ajustados. O intervalo de confiança dos valores ajustados é dado por: Intervalo de Confiança para a Odds Ratio Sejam os limites do intervalo de confiança para : e O intervalo de confiança para a Odds Ratio é: 15

Bibliografia: Neter,J.; Wasserman, William; Kutner, M.H., Applied linear statistical models; Draper,N.R.; Smith,H., Applied Regression Analysis. Montgomery and Peck, Introduction to Linear Regression Analysis; Seber, G.A.F., Linear Regression Analysis. Myers and Montgomery, Generalized Linear Models. 16