Modelos de Regressão Linear Simples - parte II Erica Castilho Rodrigues 14 de Outubro de 2013
Erros Comuns que Envolvem a Análise de Correlação
3 Erros Comuns que Envolvem a Análise de Correlação
Propriedade de linearidade Se r 0 não significa que as variáveis não estão correlacionadas de forma alguma. O coeficiente de correlação mede apenas associação linear entre as variáveis. É preciso sempre fazer o diagrama de dispersão!
5 Dados agrupados em taxas ou em médias Quando agrupamos os dados, suprimimos variações entre os indivíduos. A variabilidade parece menor do que é na verdade. Isso pode inflacionar o coeficiente de correlação linear. Considere o exemplo da pobreza e criminalidade. Suponha que agrupamos os municípios em macroregiões. Tomamos a médias das variáveis em cada região.
6 Quando agrupamos os dados a varibiliade diminui e a associação parece ser mais forte. Estamos escondendo uma fonte de variabilidade.
Concluir imediatamente que a correlação implica causalidade Uma pesquisa recente concluiu que: países onde as pessoas consomem mais chocolate ganham um número maior de Prêmios Nobel.
8 Temos a seguir o gráfico de dispersão das duas variáveis. Qual conclusão você tira?
Temos a seguir o gráfico de dispersão das duas variáveis. Qual conclusão você tira? Parece existir uma associação positiva. 8
9 Existe uma terceira variável oculta que leva ao aumento das duas quantidades. Qual variável é essa?
9 Existe uma terceira variável oculta que leva ao aumento das duas quantidades. Qual variável é essa? Renda per capita. Países com maior renda per capita: investem mais em educação, logo ganham mais Prêmios Nobel; têm mais dinheiro para consumir chocolate. Portanto o consumo de chocolate não torna as pessoas mais inteligentes!
10
Na regressão linear simples temos: uma variável explicativa (x) e uma variável resposta(y). O valor esperado de Y para cada valor de x é E(Y x) =β 0 + β 1 x. A variável Y pode ser descrita pelo modelo onde ɛ é um erro aleatório e Y = β 0 + β 1 x + ɛ ɛ N(0,σ 2 ). Os erros aleatório de diferentes observações são independentes.
Suponha que temos n pares (x 1, y 1 ),...,(x n, y n ). A figura mostra o gráfico de dispersão e uma candidata a reta de regressão.
13 Encontrar valores de β 0 e β 1 que minimizem a soma dos desvios ao quadrado.
Utilizando a equação Y = β 0 + β 1 x + ɛ as n observações da amostra podem ser expressas como para i = 1,...,n. y i = β 0 + β 1 x i + ɛ i A soma dos quadrados dos desvios das observações em relação a reta é dada por L = n ɛ 2 i = n (y i β 0 β 1 x i ) 2
15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso?
15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso? Deriva e iguala a zero. ˆβ0 e ˆβ 1 devem satisfazer L β = 0 ˆβ0, ˆβ 1
15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso? Deriva e iguala a zero. ˆβ0 e ˆβ 1 devem satisfazer L n β = 2 (y i ˆβ 0 ˆβ 1 x i )=0 0 ˆβ0, ˆβ 1 L β = 1 ˆβ0, ˆβ 1
15 Defina ˆβ 0 e ˆβ 1 os estimadores de mínimos quadrados de β 1 e β 2. Queremos encontrar os valores de β 0 e β 1 que minimizam o erro. Como fazemos isso? Deriva e iguala a zero. ˆβ0 e ˆβ 1 devem satisfazer L n β = 2 (y i ˆβ 0 ˆβ 1 x i )=0 0 ˆβ0, ˆβ 1 L β = 2 1 ˆβ0, ˆβ 1 n (y i ˆβ 0 ˆβ 1 x i )x i = 0
16 Simplificando essas equações temos que
16 Simplificando essas equações temos que n ˆβ 0 + ˆβ i n x i = n y i ˆβ 0 n x i + ˆβ 1 n x 2 i = n y i x i. Essas equações são chamadas equações normais. A solução dessas equações resulta nos estimadores ˆβ 0 e ˆβ 1.
A estimativa de mínimos quadrados do intersepto é dada por ˆβ 0 = y ˆβ 1 x. A estimativa da inclinação é dada por Em que ˆβ 1 = n y ix i ( n y i )( n x i ) n n x 2 i n y = y i n ( n x i) 2 n n x = x i. n.
18 A linha de regressão ajustada é dada por ŷ = ˆβ 0 + ˆβ 1 x. Cada par de observações satisfaz y i = ˆβ 0 + ˆβ 1 x i + e i, i = 1,...,n onde e i é chamado resíduo e é dado por e i = ŷ i y i. O resíduo descreve o erro no ajuste do modelo para a i-ésima observação y i. Veremos adiante: como usar os resíduos para verificar adequação do modelo.
19 Podemos usar símbolos especiais para o numerador e denominador das expressões de ˆβ 0 e ˆβ 1. Considere os dados (x 1, y 1 ), (x 2, y 2 ),...,(x n, y n ). Defina as sequintes quantidades S xx = n (x i x) 2 = n x 2 i ( n x i) 2 n = n S xy = (y i y)(x i x) ( n n x i y i x )( n i y i) n
20 Vejamos as demonstrações dos resultados: S xx = n (x i x) 2 = n (x 2 i 2xx i + x 2 ) n x 2 i = 2x i n x i + nx 2 = x 2 i nx 2 = n n n x 2 i x 2 i ( i x i) 2 n x 2 i 2nx 2 + nx 2 ( i n x i n ) 2
n S xy = (y i y)(x i x) = n (y i x i y i x yx i + yx) = i y i x i x i y i y i x i + nxy = i y i x i nxy nxy + nxy = i y i x i nxy = i i y i x i n x i i y i n 2 = i y i x i i x i i y i n
Exemplo: Considere os dados de pureza de oxigênio:
23 Exemplo: Vamos ajustar o modelo de regressão linear simples para esses dados. Temos que n = 20 20 x i = 23, 92 20 y i = 1842, 21 20 x = 1, 1960 y = 92, 1605. y 2 i = 170044, 5321 20 20 x i y i = 2214, 6566 x 2 i = 29, 2892
20 S xx = x 2 i ( 20 ) 2 x i 20 = 29, 2892 (23, 92)2 20 = 0, 68088 20 S xy = x i y i ( 20 x i)( 20 y i) (23, 92)(1843, 21) = 2214, 6566 = 10, 1 20 20 Então as estimativas de mínimos quadrados são ˆβ 1 = S xy 10, 17744 = = 19, 94748 S xx 0, 68088 ˆβ 0 = y ˆβ 1 x = 92, 1605 (14, 94748)1, 196 = 74, 28331. O modelo de regressão linear simples é: ŷ = 74, 283 14, 947x.
25 A figura a seguir mostra reta de regressão ajustada.
26 Exemplo: Vamos considerar as seguintes variáveis: número de armas automáticas registradas; taxa de criminalidade. Essas variáveis são observadas em 8 municípios americanos.
Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas?
Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas? Sim. Esta relação é linear?
Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas? Sim. Esta relação é linear? Sim. É crescente ou decrescente?
Exemplo: (continuação) O gráfico de dispersão é apresentado ao lado. Os crimes com armas de fogo parecem estar relacionados com a quantidade de armas automáticas? Sim. Esta relação é linear? Sim. É crescente ou decrescente? Crescente (ou positiva).
28 Erros Comuns que Envolvem a Análise de Correlação Exemplo: (continuação) Qual a intensidade?
28 Exemplo: (continuação) Qual a intensidade? Forte. Esse valor é significativo? Vamos testar as hipóteses r = 0, 885
28 Exemplo: (continuação) Qual a intensidade? Forte. Esse valor é significativo? Vamos testar as hipóteses r = 0, 885 H 0 : ρ = 0 vs H 1 : ρ 0. Vimos que a estatística de teste é dada por t = r n 2 1 r 2 =
28 Exemplo: (continuação) Qual a intensidade? Forte. Esse valor é significativo? Vamos testar as hipóteses r = 0, 885 H 0 : ρ = 0 vs H 1 : ρ 0. Vimos que a estatística de teste é dada por t = r n 2 1 r 2 = (0, 885) 8 2 1 (0, 885) 2 = 4.656 Sob H 0 temos que t t 6. Fixando α = 0, 05, t 0,025;6 =
29 Exemplo: (continuação) Fixamos o nível de significância em α = 0, 05. Temos então que t 0,025;6 =
29 Exemplo: (continuação) Fixamos o nível de significância em α = 0, 05. Temos então que t 0,025;6 = 2, 447.
30 Exemplo: (continuação) A região crítica é dada por
30 Exemplo: (continuação) A região crítica é dada por t < 2, 447 ou t > 2, 447. Qual a conclusã do teste?
30 Exemplo: (continuação) A região crítica é dada por Qual a conclusã do teste? t < 2, 447 ou t > 2, 447. Como t > 2, 447 rejeitamos H 0. Com 5% de significância pode-se dizer que existe uma associação significativa entre número de armas automáticas registradas e taxa de criminalidade.
31 Exemplo: (continuação) Vimos então que as variáveis estão linearmente associadas. Vamos agora ajustar um modelo de regressão linear simples. A variável resposta é
31 Exemplo: (continuação) Vimos então que as variáveis estão linearmente associadas. Vamos agora ajustar um modelo de regressão linear simples. A variável resposta é taxa de criminalidade. A variável explicativa é
31 Exemplo: (continuação) Vimos então que as variáveis estão linearmente associadas. Vamos agora ajustar um modelo de regressão linear simples. A variável resposta é taxa de criminalidade. A variável explicativa é número de armas automáticas registradas. O modelo de regressão é dada por onde ɛ iid N(0,σ 2 ). Y i = β 0 + β 1 x i + ɛ i
32 Exemplo: (continuação) As estimativas dos parâmetros β 0 e β 1 são dadas por ˆβ 1 = S xy S xx = 0, 85 ˆβ0 = y ˆβ 1 x = 4, 05. A reta ajustada é mostrada logo abaixo.
33 O que significa β 0 = 4, 05?
33 O que significa β 0 = 4, 05? Em um local com nenhuma arma registrada a taxa de criminalidade esperada é de 4,05 crimes por 100 mil habitantes. O que significa β 1 = 0, 85?
33 O que significa β 0 = 4, 05? Em um local com nenhuma arma registrada a taxa de criminalidade esperada é de 4,05 crimes por 100 mil habitantes. O que significa β 1 = 0, 85? Para cada aumento em uma unidade no número de armas registradas aumenta em 0,85 o número de crimes esperados por 100 mil habitantes.
34 Estimador de σ 2 Um outro parâmetro desconhecido do modelo é a variância do erro Var (ɛ) =σ 2. Podemos estimá-la usando os resíduos e i = y i ŷ i. Soma dos quadrados dos resíduos SQ E é dada por SQ E = n ei 2 = n (y i ŷ i ) 2
35 Pode-se mostrar que E(SQ E )=(n 2)σ 2 σ 2 = E(SQ E) n 2. Um estimador de σ 2 é dado por ˆ σ 2 = SQ E n 2
36 Programas computacionais são utilizados para ajustar modelos de regressão. Veremos como fazer esse ajuste usando o software R.