Regressão linear múltipla Prof Tatiele Lacerda
Yi = B + Bx + B3X3 + u Plano de resposta E(Y i ) = 0,00 Y i i 0 (,33;,67) Y i 0 X i Xi X p i, p i
3 Modelo de regressão linear múltipla em termos matriciais, 0 i p i p i i i X X X Y A expressão do modelo linear geral de regressão é dada por: Em termos matriciais, precisamos definir: n p p n n p p n X X X X X X Y Y Y 0 p x,,, p n x n x n x ε β X Y
4 Em termos matriciais, o modelo de regressão linear geral é dado por: ε Xβ Y é um vetor de variáveis aleatórias independentes e normalmente distribuídas com esperança (média), E()=0 e matriz de variância-covariância dada por: 0 0 0 0 0 0 ) ( ε σ Assim, o vetor das observações Y tem esperança e variância dadas por: I Y σ Xβ E Y ) ( ) ( n x n n x () = I (3)
Estimação dos coeficientes de regressão O sistema de equações normais para o modelo () é: ' X Xb ' X Y (4) E os estimadores de mínimos quadrados são dados por: b ' ( X X) ' X Y (5) Valores estimados e resíduos Os valores estimados são obtidos por: Y Xb (6) ˆ n x Os resíduos são obtidos através da expressão matricial: e nx Y Yˆ Y Xb (7) 5
Método de máxima verossimilhança Vamos considerar o modelo com erros normais A função de máxima verossimilhança é dada por: n L( β, ) n / exp ( Yi 0 X i ( ) p i X i, p Os estimadores de máxima verossimilhança são exatamente os mesmos obtidos com o método de mínimos quadrados ) Inferência sobre os parâmetros da regressão Os estimadores de mínimos quadrados ou de máxima verossimilhança são não tendenciosos, isto é: E(b)= A matriz de variância-covariância dos estimadores, (b), é dada por: σ ' ( b) ( X X) (p x p) 6
Análise de variância Três fatores que afetam a variância dos modelos: variância do erro Variação de Xij Grau de relação linear entre as variáveis explicativas Var( Bj) R² ^² SQE SQT n k ² SQT( * Ui^, onde : R² j) SQR n k Estimação da variância
Diferença entre os modelos de MQO e de MV: é apenas na variância ^² SQR n MV Ele não depende das varáveis do modelo Mas se o n for grande eles tendem a se aproximar
Coeficiente de determinação (R ) Após estimar os coeficientes de regressão, seus erros padrões e suas principais propriedades, devemos estimar o grau de ajuste a um conjunto de dados da reta de regressão ajustada, ou seja, verificar quão bem a reta de regressão da amostra se ajusta aos dados Se todas as observações se situam na linha de regressão, obteríamos um ajustamento perfeito, porém, em geral, haverá algum resíduo positivo ou negativo O ideal é que esses resíduos juntos a linha de regressão sejam tão pequenos quanto possível O coeficiente de determinação R é uma medida que diz quão bem a reta de regressão da amostra se ajusta aos dados O valor numérico do coeficiente varia entre zero e um, como segue: 0 R
COEFICIENTE DE DETERMINAÇÃO R: O cálculo para o coeficiente de determinação R é determinado como Segue, sendo derivado da equação dos desvios elevado ao quadrado e ao somatório, e depois dividido pela SQT (como vista na regressão simples): R² SQE SQT SQR SQT u^² yi² A variação total nos valores de Y observados em relação ao seu valor médio pode ser dividido em duas partes: uma atribuível à reta de regressão e outra às forças aleatórias Gráfico no quadro ou pegar do programa
O R é definido como coeficiente de determinação da amostra, e é a medida mais utilizada do grau de ajuste de uma reta de regressão Ela mede a proporção ou a porcentagem da variação total de Y explicada pelo modelo de regressão É possível destacar as seguintes propriedades do coeficiente de determinação: Trata-se de uma quantidade não negativa; Seus limites variam entre: 0 < R < Um R = significa um perfeito ajustamento, por outro lado, R = 0, significa que não há nenhuma relação entre a variável explicativa e a variável explicada, ou seja, B = 0 Neste caso, Y^ = B = Y, isto é, a melhor previsão de qualquer valor de Y é seu valor médio Neste caso, a reta de regressão será horizontal, paralela ao eixo X
COEFICIENTE DE DETERMINAÇÃO AJUSTADO ( R²a): Uma importante propriedade de R é que ele é uma função não decrescente do número de variáveis explicativas ou regressores (X) presentes no modelo Na medida em que aumenta o número de regressores, R também aumenta e nunca diminui Considere a equação que segue: R² u^² yi² Nota-se que independe da variável X Mas depende do numero de regressores, determinado pela (u^), pois se aumenta X O erro deve diminuir, mas o R² irá aumentar
Dada esta restrição, para comparar modelos compostos por diferentes números de variáveis explicativas X, podemos usar o coeficiente de determinação ajustado, representado por: Ra² u^² ( n k) yi² ( n ) Mas o que ele mede? O termo ajustado significa ajustado para os graus de liberdade associados às somas dos quadrados Os erros dependem de n-k gl, incluindo o termo de intercepto O y depende de n- gl Veja na formula acima
Relação entre o coeficiente de determinação e o coeficiente de determinação ajustado: Como R aumenta com a adição de variáveis explanatórias, sugere-se utilizar o coeficiente de determinação ajustado (corrigido) para os graus de liberdade O coeficiente de determinação ajustado é dado por: R a SQR n nk SQT n nk SQR SQT Comparando com o R² e substituindo o R² na formula acima tem-se: Ra² ( ( n ) R²) ( n k)
Coeficiente de determinação (R ) sintese: Define-se R por: R SQE SQT SQR SQT Mede a redução da variabilidade total de Y associada com o uso do conjunto de variáveis X,,X p- Como na regressão linear simples, temos: 0 R Assim, R =0 se todas as estimativas b k =0 (k=,,p-), e R = quando todas as observações Y caírem exatamente na superfície de regressão ajustada, isto é, quando: Y Yˆ para todo i i i Como R aumenta com a adição de variáveis explanatórias, sugere-se utilizar o coeficiente de determinação ajustado (corrigido) para os graus de liberdade O coeficiente de determinação ajustado é dado por: Ra² ( ( n ) R²) ( n k) 5
Um alto valor de R não necessariamente implica que o modelo ajustado se presta para se fazer inferências precisas, pois apesar de um valor alto de R O modelo pode não ser exatamente linear Qual dos dois R² se analisa para escolher o melhor modelo? Coeficiente de correlação múltipla (R) Não confundir - coeficiente de correlação múltipla (R) é de associação linear R R O coeficiente de correlação múltipla mede o relacionamento linear entre Y e Ŷ Cuidado, temos três tipos de R 6
O perigo jogo de maximizar o Ra O que se quer obter de uma estimação? Estimativas confiáveis para pode fazer inferência O pesquisador deve levar em conta, não apenas o Ra², mas dar uma relevância as variáveis explicativas com relação a explicada, para que? Nem sempre um Ra² baixo, significa modelo ruim
HIPOTESE DA NORMALIDADE DISTRIBUIÇÃO DE PROBABILIDADE DOS ERROS ui s: Uma vez que os estimadores de Mínimos Quadrados Ordinários s são funções lineares de ui (perturbações aleatórias), a distribuição de probabilidade dos estimadores dependerá da hipótese feita com relação ao comportamento da distribuição de probabilidade dos resíduos Assim, considera-se que o processo estocástico dos resíduos ui se distribui normalmente, respeitando as seguintes especificações E( ui) 0 E( ui)² ² cov( ui, uj) E( ui, uj) 0, sendoi j ui N(0, ²)
Sob a hipótese de normalidade dos resíduos ui, os estimadores de Mínimos Quadrados Ordinários s também se distribuem normalmente Apresentando as seguintes propriedades: ) São não viesados; E(B^) = B, ) Apresentam variância mínima (estimador eficiente); 3) São estimadores consistentes, ou seja, na medida em que o tamanho da amostra aumente, os estimadores convergem para os verdadeiros valores da população; 4) B`S tem variância mínima em todas as classes de estimadores não tendenciosos, seja lineares ou não Portanto, os estimadores por MQO são os Melhores Estimadores Lineares não Viesados E distribuem independentemente de variância Se admitirmos que ui se distribui normalmente com média zero e variância constante, então, Y também se distribui normalmente com média e variância constante Isso ocorre porque toda a função linear de variáveis distribuídas normalmente, também se distribuem normalmente QUADRO A FIGURA
B^ se distribui normalmente com: Média Variância COLOCAR NO QUADRO Distribuição normal Distribuição normal padronizada B^ se distribui normalmente com: Média Variância Distribuição normal Distribuição normal padronizada
ESTIMAÇÃO DE INTERVALO E TESTE DE HIPOTES Em virtude de as amostras apresentarem flutuações, uma única estimativa vai diferir do seu verdadeiro valor, porém, em amostras repetidas, o valor médio tende a convergir, ou ser igual, ao seu verdadeiro valor E(B^) = B, O grau de confiabilidade de um estimador por ponto é medido pelo seu erro padrão Assim sendo, em vez de confiar apenas na estimativa de ponto, podemos construir um intervalo em torno do estimador de ponto, de modo que este intervalo tenha uma elevada probabilidade de conter o verdadeiro valor do parâmetro O intervalo de confiança para os estimadores pode ser definido por: QUADRO Onde (- a) representa o coeficiente de confiança, e (0<a<) representa o nível de significância Os extremos do intervalo de confiança são conhecidos como limites de confiança (ou valores críticos)
PROPRIEDADES: A probabilidade dos estimadores estarem nos limites é dado por: (-a) O intervalo de confiança é um intervalo aleatório, ou seja, ele irá variar de uma amostra para outra por ser uma função dos parâmetros s, que são aleatórios Ver a formula Como o intervalo de confiança é aleatório, as declarações de probabilidades associadas a ele devem ser entendidas em termos de longo prazo, ou seja, em amostras repetidas
INTERVALO DE CONFIANÇA PARA β: Considerando a hipótese de normalidade dos resíduos ui, os estimadores de MQO dos parâmetros se distribuem normalmente Assim, os parâmetros podem ser identificados como variáveis aleatórias normalmente distribuídas, que na forma padrão pode ser determinada por: INTERVALO DE CONFIANÇA PARA β3: B^² B² t ep( B^²) t B^³ B³ ep( B^³) Em ambos os casos a amplitude do intervalo de confiança é proporcional ao erropadrão do estimador Assim, quanto maior o erro-padrão, maior a amplitude do intervalo de confiança, e maior a incerteza com relação ao verdadeiro valor do parâmetro estimado
Eles devem estar entre os seus valores críticos: veja ) ( ^² ^²) ( ² ^² ^²) ( Pr ) ( ^²) ( ² ^² Pr ) ( Pr / / / / / / B B ep t B B B ep t t B ep B B t t t t a a a a a a
TESTE DE HIPÓTESE Todo teste de hipótese deve conter: Hipótese nula Hipótese alternativa; Estatística de teste; Região de Rejeição No quadro
HIPÓTESE NULA E ALTERNATIVA H0 : B H: B B3 B3 C C MAS EXISTEM N H PARA O CASO ACIMA: QUAIS? REJEITAR H0, SIGINIFICA O QUE?
Estatística de teste; Estatística de teste é informado pelo teste t Cuidado: esta estatística é uma analise parcial, como mostrada antes t B^² B² ep( B^²) estimador parametro erropadrão( estimado ) REGIÃO DE REJEIÇÃO Corresponde ao intervalo de valores da estatística do teste que conduz a rejeição Da hipótese nula QUADRO
No quadro: Escolha do nível de significância a Teste p Relembrar o SQR, SQT, SQE Entrar no teste F significância global Relação entre R² e o F