Modelos de Regressão Linear Simples - parte II

Documentos relacionados
Modelos de Regressão Linear Simples - parte I

Modelos de Regressão Linear Simples - parte III

Modelos de Regressão Linear Simples parte I

Análise de Regressão - parte I

Análise Multivariada Aplicada à Contabilidade

Introdução ao modelo de Regressão Linear

Correlação e Regressão

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Análise de Regressão EST036

Modelos de Regressão Múltipla - Parte I

Prof. Lorí Viali, Dr.

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

ANÁLISE DE REGRESSÃO

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Regressão Linear Simples

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Modelos de Regressão Linear Simples - Análise de Resíduos

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Modelos de Regressão Linear Simples - Análise de Resíduos

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Análise de Regressão Linear Simples e

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Estudar a relação entre duas variáveis quantitativas.

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Análise de regressão linear simples. Diagrama de dispersão

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

AULA 8 - MQO em regressão múltipla:

Correlação e Regressão Linear

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Estatística Aplicada II. } Correlação e Regressão

Exemplo 1. Conjunto de dados de uma amostra de 12 meninas da escola: y i x i

Modelo de Regressão Múltipla

Na aula do dia 24 de outubro analisamos duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

Exercícios Selecionados de Econometria para Concursos Públicos

Modelos de Regressão Múltipla - Parte VI

CORRELAÇÃO E REGRESSÃO. Modelos Probabilísticos para a Computação Professora: Andréa Rocha. UNIVERSIDADE FEDERAL DA PARAÍBA Dezembro, 2011

Correlação e Regressão

Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Princípios em Planejamento e Análise de Dados Ecológicos. Regressão linear. Camila de Toledo Castanho

Lucas Santana da Cunha de julho de 2018 Londrina

Modelos de Regressão Múltipla - Parte VII

Homocedasticidade? Exemplo: consumo vs peso de automóveis

Ralph S. Silva

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo

Cap. 13 Correlação e Regressão

AULA 06 Correlação. Ernesto F. L. Amaral. 04 de outubro de 2013

Análise de Dados Longitudinais Aula

AULAS 14 E 15 Modelo de regressão simples

Análise da Regressão. Prof. Dr. Alberto Franke (48)

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

Estatística Aplicada ao Serviço Social

Física Geral - Laboratório. Aula 8: Estimativas e erros em medidas indiretas: Ajuste de funções

AULA 4 - MQO Simples: Propriedades algébricas e Estatísticas

AULA 11 - Normalidade e Inferência em Regressão Múltipla - Parte 1

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

Associação entre duas variáveis

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

Aula 2 Uma breve revisão sobre modelos lineares

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Métodos Empíricos de Pesquisa I. } Análise Bidimensional

CORRELAÇÃO E REGRESSÃO

Modelos de Regressão Múltipla - Parte VIII

CORRELAÇÃO E REGRESSÃO

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

Estatística CORRELAÇÃO E REGRESSÃO LINEAR. Prof. Walter Sousa

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

Regressão linear simples

Regressão Linear. Prof. Dr. Leandro Balby Marinho. Análise de Dados II. Introdução Regressão Linear Regressão Múltipla

Módulo 2 AVALIAÇÃO DA DEMANDA EM TRANSPORTES

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Prova de Estatística

Estatística Descritiva (III) Associação entre Variáveis

AULA 1 - Modelos determinísticos vs Probabiĺısticos

Introdução. São duas técnicas estreitamente relacionadas, que visa estimar uma relação que possa existir entre duas variáveis na população.

Transcrição:

Modelos de Regressão Linear Simples - parte II Erica Castilho Rodrigues 14 de Outubro de 2013

Erros Comuns que Envolvem a Análise de Correlação

3 Erros Comuns que Envolvem a Análise de Correlação

Propriedade de linearidade Se r 0 não significa que as variáveis não estão correlacionadas de forma alguma. O coeficiente de correlação mede apenas associação linear entre as variáveis. É preciso sempre fazer o diagrama de dispersão!

5 Dados agrupados em taxas ou em médias Quando agrupamos os dados, suprimimos variações entre os indivíduos. A variabilidade parece menor do que é na verdade. Isso pode inflacionar o coeficiente de correlação linear. Considere o exemplo da pobreza e criminalidade. Suponha que agrupamos os municípios em macroregiões. Tomamos a médias das variáveis em cada região.

6 Quando agrupamos os dados a varibiliade diminui e a associação parece ser mais forte. Estamos escondendo uma fonte de variabilidade.

Concluir imediatamente que a correlação implica causalidade Uma pesquisa recente concluiu que: países onde as pessoas consomem mais chocolate ganham um número maior de Prêmios Nobel.

8 Temos a seguir o gráfico de dispersão das duas variáveis. Qual conclusão você tira?

Temos a seguir o gráfico de dispersão das duas variáveis. Qual conclusão você tira? Parece existir uma associação positiva. 8

9 Existe uma terceira variável oculta que leva ao aumento das duas quantidades. Qual variável é essa?

9 Existe uma terceira variável oculta que leva ao aumento das duas quantidades. Qual variável é essa? Renda per capita. Países com maior renda per capita: investem mais em educação, logo ganham mais Prêmios Nobel; têm mais dinheiro para consumir chocolate. Portanto o consumo de chocolate não torna as pessoas mais inteligentes!

10

Na regressão linear simples temos: uma variável explicativa (x) e uma variável resposta(y). O valor esperado de Y para cada valor de x é E(Y x) =β 0 + β 1 x. A variável Y pode ser descrita pelo modelo onde ɛ é um erro aleatório e Y = β 0 + β 1 x + ɛ ɛ N(0,σ 2 ). Os erros aleatório de diferentes observações são independentes.

Suponha que temos n pares (x 1, y 1 ),...,(x n, y n ). A figura mostra o gráfico de dispersão e uma candidata a reta de regressão.

13 Encontrar valores de β 0 e β 1 que minimizem a soma dos desvios ao quadrado.

Utilizando a equação Y = β 0 + β 1 x + ɛ as n observações da amostra podem ser expressas como para i = 1,...,n. y i = β 0 + β 1 x i + ɛ i A soma dos quadrados dos desvios das observações em relação a reta é dada por L = n ɛ 2 i = n (y i β 0 β 1 x i ) 2

15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso?

15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso? Deriva e iguala a zero. ˆβ0 e ˆβ 1 devem satisfazer L β = 0 ˆβ0, ˆβ 1

15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso? Deriva e iguala a zero. ˆβ0 e ˆβ 1 devem satisfazer L n β = 2 (y i ˆβ 0 ˆβ 1 x i )=0 0 ˆβ0, ˆβ 1 L β = 1 ˆβ0, ˆβ 1

15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso? Deriva e iguala a zero. ˆβ0 e ˆβ 1 devem satisfazer L n β = 2 (y i ˆβ 0 ˆβ 1 x i )=0 0 ˆβ0, ˆβ 1 L β = 2 1 ˆβ0, ˆβ 1 n (y i ˆβ 0 ˆβ 1 x i )x i = 0

16 Simplificando essas equações temos que

16 Simplificando essas equações temos que n ˆβ 0 + ˆβ i n x i = n y i ˆβ 0 n x i + ˆβ 1 n x 2 i = n y i x i. Essas equações são chamadas equações normais. A solução dessas equações resulta nos estimadores ˆβ 0 e ˆβ 1.

A estimativa de mínimos quadrados do intersepto é dada por ˆβ 0 = y ˆβ 1 x. A estimativa da inclinação é dada por Em que ˆβ 1 = n y ix i ( n y i )( n x i ) n n x 2 i n y = y i n ( n x i) 2 n n x = x i. n.

18 A linha de regressão ajustada é dada por ŷ = ˆβ 0 + ˆβ 1 x. Cada par de observações satisfaz y i = ˆβ 0 + ˆβ 1 x i + e i, i = 1,...,n onde e i é chamado resíduo e é dado por e i = ŷ i y i. O resíduo descreve o erro no ajuste do modelo para a i-ésima observação y i. Veremos adiante: como usar os resíduos para verificar adequação do modelo.

19 Podemos usar símbolos especiais para o numerador e denominador das expressões de ˆβ 0 e ˆβ 1. Considere os dados (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ). Defina as sequintes quantidades S xx = n (x i x) 2 = n x 2 i ( n x i) 2 n = n S xy = (y i y)(x i x) ( n n x i y i x )( n i y i) n

20 Vejamos as demonstrações dos resultados: S xx = n (x i x) 2 = n (x 2 i 2xx i + x 2 ) n x 2 i = 2x i n x i + nx 2 = x 2 i nx 2 = n n n x 2 i x 2 i ( i x i) 2 n x 2 i 2nx 2 + nx 2 ( i n x i n ) 2

n S xy = (y i y)(x i x) = n (y i x i y i x yx i + yx) = i y i x i x i y i y i x i + nxy = i y i x i nxy nxy + nxy = i y i x i nxy = i i y i x i n x i i y i n 2 = i y i x i i x i i y i n

Exemplo: Considere os dados de pureza de oxigênio:

23 Exemplo: Vamos ajustar o modelo de regressão linear simples para esses dados. Temos que n = 20 20 x i = 23, 92 20 y i = 1842, 21 20 x = 1, 1960 y = 92, 1605. y 2 i = 170044, 5321 20 20 x i y i = 2214, 6566 x 2 i = 29, 2892

20 S xx = x 2 i ( 20 ) 2 x i 20 = 29, 2892 (23, 92)2 20 = 0, 68088 20 S xy = x i y i ( 20 x i)( 20 y i) (23, 92)(1843, 21) = 2214, 6566 = 10, 1 20 20 Então as estimativas de mínimos quadrados são ˆβ 1 = S xy 10, 17744 = = 19, 94748 S xx 0, 68088 ˆβ 0 = y ˆβ 1 x = 92, 1605 (14, 94748)1, 196 = 74, 28331. O modelo de regressão linear simples é: ŷ = 74, 283 14, 947x.

25 A figura a seguir mostra reta de regressão ajustada.

26 Exemplo: Vamos considerar as seguintes variáveis: número de armas automáticas registradas; taxa de criminalidade. Essas variáveis são observadas em 8 municípios americanos.

Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas?

Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas? Sim. Esta relação é linear?

Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas? Sim. Esta relação é linear? Sim. É crescente ou decrescente?

Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas? Sim. Esta relação é linear? Sim. É crescente ou decrescente? Crescente (ou positiva).

28 Erros Comuns que Envolvem a Análise de Correlação Exemplo: (continuação) Qual a intensidade?

28 Exemplo: (continuação) Qual a intensidade? Forte. Esse valor é significativo? Vamos testar as hipóteses r = 0, 885

28 Exemplo: (continuação) Qual a intensidade? Forte. Esse valor é significativo? Vamos testar as hipóteses r = 0, 885 H 0 : ρ = 0 vs H 1 : ρ 0. Vimos que a estatística de teste é dada por t = r n 2 1 r 2 =

28 Exemplo: (continuação) Qual a intensidade? Forte. Esse valor é significativo? Vamos testar as hipóteses r = 0, 885 H 0 : ρ = 0 vs H 1 : ρ 0. Vimos que a estatística de teste é dada por t = r n 2 1 r 2 = (0, 885) 8 2 1 (0, 885) 2 = 4.656 Sob H 0 temos que t t 6. Fixando α = 0, 05, t 0,025;6 =

29 Exemplo: (continuação) Fixamos o nível de significância em α = 0, 05. Temos então que t 0,025;6 =

29 Exemplo: (continuação) Fixamos o nível de significância em α = 0, 05. Temos então que t 0,025;6 = 2, 447.

30 Exemplo: (continuação) A região crítica é dada por

30 Exemplo: (continuação) A região crítica é dada por t < 2, 447 ou t > 2, 447. Qual a conclusã do teste?

30 Exemplo: (continuação) A região crítica é dada por Qual a conclusã do teste? t < 2, 447 ou t > 2, 447. Como t > 2, 447 rejeitamos H 0. Com 5% de significância pode-se dizer que existe uma associação significativa entre número de armas automáticas registradas e taxa de criminalidade.

31 Exemplo: (continuação) Vimos então que as variáveis estão linearmente associadas. Vamos agora ajustar um modelo de regressão linear simples. A variável resposta é

31 Exemplo: (continuação) Vimos então que as variáveis estão linearmente associadas. Vamos agora ajustar um modelo de regressão linear simples. A variável resposta é taxa de criminalidade. A variável explicativa é

31 Exemplo: (continuação) Vimos então que as variáveis estão linearmente associadas. Vamos agora ajustar um modelo de regressão linear simples. A variável resposta é taxa de criminalidade. A variável explicativa é número de armas automáticas registradas. O modelo de regressão é dada por onde ɛ iid N(0,σ 2 ). Y i = β 0 + β 1 x i + ɛ i

32 Exemplo: (continuação) As estimativas dos parâmetros β 0 e β 1 são dadas por ˆβ 1 = S xy S xx = 0, 85 ˆβ0 = y ˆβ 1 x = 4, 05. A reta ajustada é mostrada logo abaixo.

33 O que significa β 0 = 4, 05?

33 O que significa β 0 = 4, 05? Em um local com nenhuma arma registrada a taxa de criminalidade esperada é de 4,05 crimes por 100 mil habitantes. O que significa β 1 = 0, 85?

33 O que significa β 0 = 4, 05? Em um local com nenhuma arma registrada a taxa de criminalidade esperada é de 4,05 crimes por 100 mil habitantes. O que significa β 1 = 0, 85? Para cada aumento em uma unidade no número de armas registradas aumenta em 0,85 o número de crimes esperados por 100 mil habitantes.

34 Estimador de σ 2 Um outro parâmetro desconhecido do modelo é a variância do erro Var (ɛ) =σ 2. Podemos estimá-la usando os resíduos e i = y i ŷ i. Soma dos quadrados dos resíduos SQ E é dada por SQ E = n ei 2 = n (y i ŷ i ) 2

35 Pode-se mostrar que E(SQ E )=(n 2)σ 2 σ 2 = E(SQ E) n 2. Um estimador de σ 2 é dado por ˆ σ 2 = SQ E n 2

36 Programas computacionais são utilizados para ajustar modelos de regressão. Veremos como fazer esse ajuste usando o software R.