Regressão linear múltipla. Prof. Tatiele Lacerda

Documentos relacionados
Análise de Regressão Linear Simples III

Análise de Regressão. Notas de Aula

Capítulo 5. Inferência no Modelo de Regressão Simples: Estimação de Intervalos, Teste de Hipóteses e Previsão

Correlação e Regressão linear simples

Plano da Apresentação. Correlação e Regressão linear simples. Correlação linear. Associação entre hábitos leitura e escolaridade.

Capítulo 4 Inferência Estatística

Estimação. Como definir um estimador. Como obter estimativas pontuais. Como construir intervalos de confiança

Como rodar a regressão no gretl. Usando o Console para calcular elasticidade. Elasticidade. Usando o Console para calcular predição

Método dos mínimos quadrados Wikipédia, a enciclopédia livre

IV Regressão e correlação IV.4. (cont.) Significância Estatística e Regressão Múltipla

Curso de Análise Estatística Comparação entre variáveis contínuas: correlação e regressão Linear

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA. Prof. Anderson Rodrigo da Silva

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

Regressão Linear Múltipla

Modelos de Probabilidade e Inferência Estatística

Para mais de duas variáveis independentes, em função de uma variável dependente.

Teste de Hipótese e Intervalo de Confiança. Parte 2

AULA 12 Inferência a Partir de Duas Amostras

REGRESSÃO. Análise de Correlação

Medidas de Localização

AULA 04 Estimativas e Tamanhos Amostrais

Conteúdo. 1 Introdução. Histograma do Quinto Sorteio da Nota Fiscal Paraná 065/16. Quinto Sorteio Eletrônico da Nota Fiscal Paraná

Conteúdo. 1 Introdução. Histograma do 1o Sorteio da Nota Fiscal Paraná 152/15. 1º Sorteio Eletrônico da Nota Fiscal Paraná

CAPÍTULO 8. de Variância - ANOVA ANOVA. Análise

Planejamento e Análise Estatística de Experimentos Fatoriais em blocos completos

Teorema do Limite Central e Intervalo de Confiança

ANOVA. (Analysis of Variance) Prof. Dr. Guanis de Barros Vilela Junior

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

é 4. Portanto, o desvio padrão é 2. Neste caso 100% dos valores da população estão a um desvio padrão da média.

Regressão, Interpolação e Extrapolação Numéricas

Exemplo de heterocedasticidade. Heterocedasticidade. Gráficos residuais. Gráficos residuais. Gráficos residuais. Gráficos residuais

3 Modelos de Simulação

AULAS 06, 07, 08 E 09 Análise de Regressão Múltipla: Estimação e Inferência

Contabilometria. Análise Discriminante

Intervalos Estatísticos para Uma Única Amostra

Aula 12: Correlação e Regressão

Programa de Ciências Experimentais

ME613 - Análise de Regressão

IND 1115 Inferência Estatística Aula 8

Técnicas estatísticas para análise de dados e de resultados de modelos de simulação

CONHECIMENTOS ESPECÍFICOS

SEEC UNIVERSIDADE DO ESTADO DO RIO GRANDE DO NORTE UERN FACULDADE DE CIÊNCIAS EXATAS E NATURAIS FANAT DEPARTAMENTO DE CIÊNCIAS BIOLÓGICAS DECB

Medidas de dispersão e assimetria

Testes de variância e Análise de Variância (ANOVA)

Aula Prática: Regressão Linear Simples

PLANO DE ENSINO CONTEÚDO PROGRAMÁTICO. Unidade 1: MEDIDAS E GRANDEZAS Introdução Padrões usados para avaliar grandezas físicas

MEDIDAS DE DISPERSÃO. o grau de variabilidade, ou dispersão, dos valores em torno da média.

Química Analítica IV ERRO E TRATAMENTO DE DADOS ANALÍTICOS

Linha Técnica Sessão IV Variáveis Instrumentais

Aula 8 Intervalos de confiança para proporções amostras grandes

Probabilidade III. Ulisses U. dos Anjos. Departamento de Estatística Universidade Federal da Paraíba. Período

Métodos Quantitativos Aplicados a Custos Análise Estatística como um auxiliar valioso nas decisões

Métodos Quantitativos Aplicados

AULAS 19, 20, 21 E 22 Análise de Regressão Múltipla com Informações Qualitativas

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

Análise de Regressão Múltipla com informação qualitativa: variáveis binárias (dummy)

Lição 5 Medidas Descritivas Medidas de Dispersão

Estimação da Esperança de Vida ao Nascer dos Estados Brasileiros no Ano 2008 via Modelos Aditivos Generalizados para Posição, Escala e Forma

Modelo de Regressão Múltipla

Modelos de Probabilidade e Inferência Estatística

Estatística II Aula 4. Prof.: Patricia Maria Bortolon, D. Sc.

AULAS 08 E 09 Distribuição de Probabilidade Normal

AULA 8 - MQO em regressão múltipla:

Distribuições Conjuntas (Tabelas de Contingência)

Retorno e risco de carteiras de investimento. Copyright Pereira, F. I

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Aula 11 Teste de hipótese sobre a média de uma população normal - σ 2 conhecida

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

Consumo. Revisão e Modelo Ciclo de Vida. Wilson Correa. April 26, 2016

cuja distribuição é t de Student com n 1 graus de liberdade.

Desvio Padrão ou Erro Padrão

ESCOLA SUPERIOR DE TECNOLOGIA DE SETÚBAL DEPARTAMENTO DE MATEMÁTICA PROBABILIDADES E ESTATÍSTICA Teste Final 2009/2010. Curso: 12/06/2010.

O MODELO CLÁSSICO DE REGRESSÃO LINEAR (MCRL), O TEOREMA DE GAUSS- MARKOV E A VIOLAÇÃO DOS PRESSUPOSTOS.

ANÁLISE EXPLORATÓRIA DE DADOS

A Derivada. 1.0 Conceitos. 2.0 Técnicas de Diferenciação. 2.1 Técnicas Básicas. Derivada de f em relação a x:

Consideremos os seguintes exemplos de hipóteses cuja veracidade interessa avaliar:

Probabilidade e Estatística, 2009/2

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

CÁLCULO 1 Teoria 0: Revisão Gráfico de Funções elementares Núcleo de Engenharias e Ciência da Computação. Professora: Walnice Brandão Machado

Aula 12 Teste de hipótese sobre proporções amostras grandes

21- EXERCÍCIOS FUNÇÕES DO SEGUNDO GRAU

Estatística Multivariada. Visão Panorâmica. Aplicações: Associação. Classificação. Comparação. Associação. Correlação Bivariada.

Probabilidade e Estatística - EST0003 Intervalos Estatísticos para uma única Amostra

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

Modelos de Regressão Linear Simples - parte III

Testes de Hipóteses

Aula 4 Gráficos e Distribuição de Frequências

Estatística. Slide 0. Ana M. Abreu /07

FUNÇÕES (1) FUNÇÃO DO 1º GRAU E DOMÍNIO DE UMA FUNÇÃO

MAE116 - Noções de Estatística

Relatório das Provas da 2ª. Fase - Vestibular 2016

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 3

Matemática Básica Intervalos

Prova Escrita de MATEMÁTICA A - 12o Ano Época especial

SUMÁRIO. 1. REVISÃO DE GINÁSIO Critérios de divisibilidade. 2. CONJUNTOS Introdução. Operações de conjuntos. Conjuntos numéricos

Conceitos de Produtividade Industrial. 6. Estudo de Tempos e Métodos. 6. Estudo de Tempos e Métodos 09/05/2012. Profº Spim

Profa. Luciana Rosa de Souza

Aula 8. Teste Binomial a uma proporção p

Transcrição:

Regressão linear múltipla Prof Tatiele Lacerda

Yi = B + Bx + B3X3 + u Plano de resposta E(Y i ) = 0,00 Y i i 0 (,33;,67) Y i 0 X i Xi X p i, p i

3 Modelo de regressão linear múltipla em termos matriciais, 0 i p i p i i i X X X Y A expressão do modelo linear geral de regressão é dada por: Em termos matriciais, precisamos definir: n p p n n p p n X X X X X X Y Y Y 0 p x,,, p n x n x n x ε β X Y

4 Em termos matriciais, o modelo de regressão linear geral é dado por: ε Xβ Y é um vetor de variáveis aleatórias independentes e normalmente distribuídas com esperança (média), E()=0 e matriz de variância-covariância dada por: 0 0 0 0 0 0 ) ( ε σ Assim, o vetor das observações Y tem esperança e variância dadas por: I Y σ Xβ E Y ) ( ) ( n x n n x () = I (3)

Estimação dos coeficientes de regressão O sistema de equações normais para o modelo () é: ' X Xb ' X Y (4) E os estimadores de mínimos quadrados são dados por: b ' ( X X) ' X Y (5) Valores estimados e resíduos Os valores estimados são obtidos por: Y Xb (6) ˆ n x Os resíduos são obtidos através da expressão matricial: e nx Y Yˆ Y Xb (7) 5

Método de máxima verossimilhança Vamos considerar o modelo com erros normais A função de máxima verossimilhança é dada por: n L( β, ) n / exp ( Yi 0 X i ( ) p i X i, p Os estimadores de máxima verossimilhança são exatamente os mesmos obtidos com o método de mínimos quadrados ) Inferência sobre os parâmetros da regressão Os estimadores de mínimos quadrados ou de máxima verossimilhança são não tendenciosos, isto é: E(b)= A matriz de variância-covariância dos estimadores, (b), é dada por: σ ' ( b) ( X X) (p x p) 6

Análise de variância Três fatores que afetam a variância dos modelos: variância do erro Variação de Xij Grau de relação linear entre as variáveis explicativas Var( Bj) R² ^² SQE SQT n k ² SQT( * Ui^, onde : R² j) SQR n k Estimação da variância

Diferença entre os modelos de MQO e de MV: é apenas na variância ^² SQR n MV Ele não depende das varáveis do modelo Mas se o n for grande eles tendem a se aproximar

Coeficiente de determinação (R ) Após estimar os coeficientes de regressão, seus erros padrões e suas principais propriedades, devemos estimar o grau de ajuste a um conjunto de dados da reta de regressão ajustada, ou seja, verificar quão bem a reta de regressão da amostra se ajusta aos dados Se todas as observações se situam na linha de regressão, obteríamos um ajustamento perfeito, porém, em geral, haverá algum resíduo positivo ou negativo O ideal é que esses resíduos juntos a linha de regressão sejam tão pequenos quanto possível O coeficiente de determinação R é uma medida que diz quão bem a reta de regressão da amostra se ajusta aos dados O valor numérico do coeficiente varia entre zero e um, como segue: 0 R

COEFICIENTE DE DETERMINAÇÃO R: O cálculo para o coeficiente de determinação R é determinado como Segue, sendo derivado da equação dos desvios elevado ao quadrado e ao somatório, e depois dividido pela SQT (como vista na regressão simples): R² SQE SQT SQR SQT u^² yi² A variação total nos valores de Y observados em relação ao seu valor médio pode ser dividido em duas partes: uma atribuível à reta de regressão e outra às forças aleatórias Gráfico no quadro ou pegar do programa

O R é definido como coeficiente de determinação da amostra, e é a medida mais utilizada do grau de ajuste de uma reta de regressão Ela mede a proporção ou a porcentagem da variação total de Y explicada pelo modelo de regressão É possível destacar as seguintes propriedades do coeficiente de determinação: Trata-se de uma quantidade não negativa; Seus limites variam entre: 0 < R < Um R = significa um perfeito ajustamento, por outro lado, R = 0, significa que não há nenhuma relação entre a variável explicativa e a variável explicada, ou seja, B = 0 Neste caso, Y^ = B = Y, isto é, a melhor previsão de qualquer valor de Y é seu valor médio Neste caso, a reta de regressão será horizontal, paralela ao eixo X

COEFICIENTE DE DETERMINAÇÃO AJUSTADO ( R²a): Uma importante propriedade de R é que ele é uma função não decrescente do número de variáveis explicativas ou regressores (X) presentes no modelo Na medida em que aumenta o número de regressores, R também aumenta e nunca diminui Considere a equação que segue: R² u^² yi² Nota-se que independe da variável X Mas depende do numero de regressores, determinado pela (u^), pois se aumenta X O erro deve diminuir, mas o R² irá aumentar

Dada esta restrição, para comparar modelos compostos por diferentes números de variáveis explicativas X, podemos usar o coeficiente de determinação ajustado, representado por: Ra² u^² ( n k) yi² ( n ) Mas o que ele mede? O termo ajustado significa ajustado para os graus de liberdade associados às somas dos quadrados Os erros dependem de n-k gl, incluindo o termo de intercepto O y depende de n- gl Veja na formula acima

Relação entre o coeficiente de determinação e o coeficiente de determinação ajustado: Como R aumenta com a adição de variáveis explanatórias, sugere-se utilizar o coeficiente de determinação ajustado (corrigido) para os graus de liberdade O coeficiente de determinação ajustado é dado por: R a SQR n nk SQT n nk SQR SQT Comparando com o R² e substituindo o R² na formula acima tem-se: Ra² ( ( n ) R²) ( n k)

Coeficiente de determinação (R ) sintese: Define-se R por: R SQE SQT SQR SQT Mede a redução da variabilidade total de Y associada com o uso do conjunto de variáveis X,,X p- Como na regressão linear simples, temos: 0 R Assim, R =0 se todas as estimativas b k =0 (k=,,p-), e R = quando todas as observações Y caírem exatamente na superfície de regressão ajustada, isto é, quando: Y Yˆ para todo i i i Como R aumenta com a adição de variáveis explanatórias, sugere-se utilizar o coeficiente de determinação ajustado (corrigido) para os graus de liberdade O coeficiente de determinação ajustado é dado por: Ra² ( ( n ) R²) ( n k) 5

Um alto valor de R não necessariamente implica que o modelo ajustado se presta para se fazer inferências precisas, pois apesar de um valor alto de R O modelo pode não ser exatamente linear Qual dos dois R² se analisa para escolher o melhor modelo? Coeficiente de correlação múltipla (R) Não confundir - coeficiente de correlação múltipla (R) é de associação linear R R O coeficiente de correlação múltipla mede o relacionamento linear entre Y e Ŷ Cuidado, temos três tipos de R 6

O perigo jogo de maximizar o Ra O que se quer obter de uma estimação? Estimativas confiáveis para pode fazer inferência O pesquisador deve levar em conta, não apenas o Ra², mas dar uma relevância as variáveis explicativas com relação a explicada, para que? Nem sempre um Ra² baixo, significa modelo ruim

HIPOTESE DA NORMALIDADE DISTRIBUIÇÃO DE PROBABILIDADE DOS ERROS ui s: Uma vez que os estimadores de Mínimos Quadrados Ordinários s são funções lineares de ui (perturbações aleatórias), a distribuição de probabilidade dos estimadores dependerá da hipótese feita com relação ao comportamento da distribuição de probabilidade dos resíduos Assim, considera-se que o processo estocástico dos resíduos ui se distribui normalmente, respeitando as seguintes especificações E( ui) 0 E( ui)² ² cov( ui, uj) E( ui, uj) 0, sendoi j ui N(0, ²)

Sob a hipótese de normalidade dos resíduos ui, os estimadores de Mínimos Quadrados Ordinários s também se distribuem normalmente Apresentando as seguintes propriedades: ) São não viesados; E(B^) = B, ) Apresentam variância mínima (estimador eficiente); 3) São estimadores consistentes, ou seja, na medida em que o tamanho da amostra aumente, os estimadores convergem para os verdadeiros valores da população; 4) B`S tem variância mínima em todas as classes de estimadores não tendenciosos, seja lineares ou não Portanto, os estimadores por MQO são os Melhores Estimadores Lineares não Viesados E distribuem independentemente de variância Se admitirmos que ui se distribui normalmente com média zero e variância constante, então, Y também se distribui normalmente com média e variância constante Isso ocorre porque toda a função linear de variáveis distribuídas normalmente, também se distribuem normalmente QUADRO A FIGURA

B^ se distribui normalmente com: Média Variância COLOCAR NO QUADRO Distribuição normal Distribuição normal padronizada B^ se distribui normalmente com: Média Variância Distribuição normal Distribuição normal padronizada

ESTIMAÇÃO DE INTERVALO E TESTE DE HIPOTES Em virtude de as amostras apresentarem flutuações, uma única estimativa vai diferir do seu verdadeiro valor, porém, em amostras repetidas, o valor médio tende a convergir, ou ser igual, ao seu verdadeiro valor E(B^) = B, O grau de confiabilidade de um estimador por ponto é medido pelo seu erro padrão Assim sendo, em vez de confiar apenas na estimativa de ponto, podemos construir um intervalo em torno do estimador de ponto, de modo que este intervalo tenha uma elevada probabilidade de conter o verdadeiro valor do parâmetro O intervalo de confiança para os estimadores pode ser definido por: QUADRO Onde (- a) representa o coeficiente de confiança, e (0<a<) representa o nível de significância Os extremos do intervalo de confiança são conhecidos como limites de confiança (ou valores críticos)

PROPRIEDADES: A probabilidade dos estimadores estarem nos limites é dado por: (-a) O intervalo de confiança é um intervalo aleatório, ou seja, ele irá variar de uma amostra para outra por ser uma função dos parâmetros s, que são aleatórios Ver a formula Como o intervalo de confiança é aleatório, as declarações de probabilidades associadas a ele devem ser entendidas em termos de longo prazo, ou seja, em amostras repetidas

INTERVALO DE CONFIANÇA PARA β: Considerando a hipótese de normalidade dos resíduos ui, os estimadores de MQO dos parâmetros se distribuem normalmente Assim, os parâmetros podem ser identificados como variáveis aleatórias normalmente distribuídas, que na forma padrão pode ser determinada por: INTERVALO DE CONFIANÇA PARA β3: B^² B² t ep( B^²) t B^³ B³ ep( B^³) Em ambos os casos a amplitude do intervalo de confiança é proporcional ao erropadrão do estimador Assim, quanto maior o erro-padrão, maior a amplitude do intervalo de confiança, e maior a incerteza com relação ao verdadeiro valor do parâmetro estimado

Eles devem estar entre os seus valores críticos: veja ) ( ^² ^²) ( ² ^² ^²) ( Pr ) ( ^²) ( ² ^² Pr ) ( Pr / / / / / / B B ep t B B B ep t t B ep B B t t t t a a a a a a

TESTE DE HIPÓTESE Todo teste de hipótese deve conter: Hipótese nula Hipótese alternativa; Estatística de teste; Região de Rejeição No quadro

HIPÓTESE NULA E ALTERNATIVA H0 : B H: B B3 B3 C C MAS EXISTEM N H PARA O CASO ACIMA: QUAIS? REJEITAR H0, SIGINIFICA O QUE?

Estatística de teste; Estatística de teste é informado pelo teste t Cuidado: esta estatística é uma analise parcial, como mostrada antes t B^² B² ep( B^²) estimador parametro erropadrão( estimado ) REGIÃO DE REJEIÇÃO Corresponde ao intervalo de valores da estatística do teste que conduz a rejeição Da hipótese nula QUADRO

No quadro: Escolha do nível de significância a Teste p Relembrar o SQR, SQT, SQE Entrar no teste F significância global Relação entre R² e o F