Regressão linear múltipla

Documentos relacionados
Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

BIOESTATÍSTICA. Análise de regressão

i j i i Y X X X i j i i i

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

Modelo de Regressão Múltipla

Técnicas Experimentais Aplicadas

Ralph S. Silva

ANÁLISE MULTIVARIADA APLICADA AS CIÊNCIAS AGRÁRIAS PÓS-GRADUAÇÃO EM AGRONOMIA CIÊNCIA DO SOLO: CPGA-CS

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

TÉCNICAS EXPERIMENTAIS APLICADAS EM CIÊNCIA DO SOLO

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Correlação e Regressão

Análise de Regressão Linear Simples e

ANÁLISE DE REGRESSÃO

CORRELAÇÃO E REGRESSÃO

Análise Multivariada Aplicada à Contabilidade

Predição do preço médio anual do frango por intermédio de regressão linear

Análise de Dados Longitudinais Modelos de Regressão - Perspecitva Histórica

Estatística Aplicada II. } Regressão Linear

Associação entre duas variáveis

Disciplina de Modelos Lineares Professora Ariane Ferreira

Planejamento de Experimentos

Modelos de Regressão Linear Simples - parte III

AULAS 17 E 18 Análise de regressão múltipla: estimação

Regressão linear múltipla

REGRESSÃO LINEAR SIMPLES E MÚLTIPLA

Aula 2 Uma breve revisão sobre modelos lineares

DELINEAMENTO EM BLOCOS CASUALIZADOS COM REPETIÇÕES. Profª. Sheila Regina Oro

Prof. Lorí Viali, Dr.

H 0 : m 1 = m 2 =... = m I = 0 H a : pelo menos m u m k, para algum u k (u,k=1,2,...,i)

AULA 03 Análise de regressão múltipla: estimação

EXERCÍCIO SOBRE TESTE T

Análise de Dados Longitudinais Aula

Análise de Regressão Prof. MSc. Danilo Scorzoni Ré FMU Estatística Aplicada

Instituto Federal Goiano

M l u t l i t c i oli l n i e n arid i a d de

Técnicas Multivariadas em Saúde

Regressão linear simples

Multicolinariedade e Autocorrelação

Análise de Regressão Linear Múltipla III

INTRODUÇÃO A ECONOMETRIA

Prof. Dr. Marcone Augusto Leal de Oliveira UFJF CURSO INTRODUTÓRIO DE 12 HORAS OFERECIDO PARA A PÓS-GRADUAÇÃO DA UFABC EM NOVEMBRO DE 2017

AULA 12 - Normalidade e Inferência em Regressão Múltipla - Parte 2

Delineamento inteiramente casualizado. Mario A. Lira Junior Estatística Aplicada à Agricultura UFRPE

Esquema Fatorial. Esquema Fatorial. Lucas Santana da Cunha 06 de outubro de 2018 Londrina

b) Teste a hipótese de efeito significante do tamanho da população sobre a venda do produto, na presença de renda per capita

AULAS 14 E 15 Modelo de regressão simples

INTRODUÇÃO A MODELOS MISTOS

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação

Esse material foi extraído de Barbetta (2007 cap 13)

REGRESSÃO E CORRELAÇÃO

Teste F-parcial 1 / 16

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Teste F-parcial 1 / 16

BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES

Comparando equações de regressão em dados de saúde

Estatística Experimental

Análise de regressão linear simples. Diagrama de dispersão

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

Aula Prática 02 Estatística Experimental DELINEAMENTO CASUALIZADO EM BLOCOS. *Planejamento do Experimento Delineamento Casualizado em Blocos (DBC);

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Tratamento Estatístico de Dados em Física Experimental

NOÇÕES SOBRE EXPERIMENTOS FATORIAIS

Correlação e Regressão Linear

Disciplina de Modelos Lineares

ESQUEMA FATORIAL. Lucas Santana da Cunha Universidade Estadual de Londrina Departamento de Estatística

Universidade Federal de Viçosa Departamento de Estatística

Experimentos Fatoriais

Procedimento Complementar para Validação de Métodos Analíticos e Bioanalíticos usando Análise de Regressão Linear

Modelos de Regressão Múltipla - Parte VII

Delineamento e Análise Experimental Aula 4

Modelagem do comportamento da variação do índice IBOVESPA através da metodologia de séries temporais

Estudar a relação entre duas variáveis quantitativas.

Análise da Regressão múltipla: Inferência. Aula 4 6 de maio de 2013

Pesquisador. Planejamento de Experimentos Design of Experiments - DOE NOÇÕES SOBRE EXPERIMENTOS FATORIAIS. 1 - Fixar T e variar P até > Pureza

Estatística II Licenciatura em Gestão. Parte I

Mario de Andrade Lira Junior - Reservados todos os direitos autorais.

Transcrição:

Pós-Graduação em Agronomia - CPGA-Solos Análise Multivariada Aplicada as Ciências Agrárias Regressão linear múltipla Carlos Alberto Alves Varella

Objetivo da disciplina Ensinar modelagem estatística de fenômenos naturais aos alunos de pósgraduação utilizando técnicas da estatística multivariada.

Ementa da disciplina Regressão linear múltipla Regressão linear múltipla para dados repetidos Validação da predição Correlação múltipla Análise de componentes principais Análise discriminante de Fisher Análise de variância multivariada - MANOVA Análise de variáveis canônicas

Avaliações Uma Prova Trabalhos semanais Trabalho final: Cada aluno deverá apresentar um seminário e um trabalho escrito sobre aplicações de técnicas da estatística multivariada em sua tese.

Recursos computacionais SAS: recomendado para análises estatísticas multivariadas por Revistas de nível internacional.

Local para baixar arquivos da disciplina pela Internet http://www.ufrrj.br/institutos/it/deng/varella/ multivariada.htm

Modelos Lineares (revisão) Universidade Federal Rural do Rio de Janeiro CPGA-CS

Modelos lineares Seja Y a variável que queremos predizer a partir de um conjunto de variáveis preditoras X, X,..., X p. Então podemos escrever: Y f X,X,,X, Y representa a resposta; X,X,..., X p são as variáveis estudadas; ε representa outro conjunto de variáveis não consideradas no estudo; p

Requisitos da função f Deve prestar-se ao tratamento matemático; Deve ser adequada para o conjunto de dados em estudo; Deve ser simples ou pelo menos mais simples dentre as concorrentes.

Condição para que um modelo seja linear Um modelo para as observações Y será linear se: (Y ) Vamos estudar o caso em que os erros são normalmente distribuídos, independentes e homocedásticos. Y, ~ N, Este modelo é definido como Modelo Linear de Gauss-Markov-Normal.

A superfície de resposta É a superfície gerada pelos valores da variável de resposta. O modelo linear para uma única variável de resposta Y com p variáveis preditoras é: Y i X i X i p X pi e i i,,,n. Y i = superfície de resposta n = número de observações; p = número de variáveis preditoras. O modelo linear é a chave do negócio, isto é, tem inúmeras aplicações na estatística multivariada.

Conseqüências da estimação Duas situações são encontradas na modelagem. A matriz X X de variáveis preditoras X é de posto coluna completo. Neste caso o modelo é chamado de posto completo ou modelo de regressão. É o modelo que estamos estudando;. A matriz X X de variáveis preditoras X é de posto coluna incompleto. Neste caso o modelo é chamado de posto incompleto é o modelo da ANOVA (ANalysis Of VAriance)

Conseqüências da estimação Posto ou Rank de matrizes Número de linhas ou colunas linearmente independentes de uma matriz. Em nosso caso, o posto é o número de colunas linearmente independentes da matriz X X, sendo X a matriz dos valores das variáveis preditoras ou independentes No programa computacional MATLAB o comando rank faz uma estimativa do posto de matrizes.

Conseqüências da estimação Condições para que a matriz X X seja de posto coluna completo O posto ou rank da matriz X X deve ser igual a p+, ou seja: posto X' X p p é o número de variáveis preditoras estudas no modelo.

Conseqüências da estimação Condições para que a matriz X X tenha inversa (X X) - As matrizes que possuem inversa são chamadas NÃO SINGULARES. Somente matrizes quadradas podem ser não singulares. Contudo, nem toda matriz quadrada é não singular;

Conseqüências da estimação Quando uma matriz quadrada é singular? Seu determinante é nulo; det(x X) Ao menos uma de suas raízes características é nula. As raízes características são os autovalores da matriz; eig(x X) Seu posto é menor que p; rank(x X) Não é definida positiva ou negativa.

Conseqüências da estimação Matriz definida positiva (negativa) Quando todos os autovalores são positivos (negativos).

Regressão Linear Múltipla

Introdução É uma técnica da estatística multivariada utilizada para a predição de valores de uma ou mais variáveis de resposta (dependentes) a partir de diversas variáveis preditoras ou independentes. JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis. 5th ed. Upper Saddle River, New Jersey: Prentice-Hall,, 767 p.

Introdução (Cont.) Pode também ser utilizada para estudar o efeito dos preditores sobre as variáveis de resposta. Primeiro trabalho sobre o assunto: Regression Towards Mediocrity in Heredity Stature. Journal of the Anthropological Institute, 5 (885). 46-63. Mediocridade em função da estatura hereditária Estatística UNIVARIADA. Segundo JOHNSON & WICHERN () nesse artigo o autor não percebeu a importância da técnica para análises multivariadas.

Modelagem da Regressão Linear

Pressuposições da modelagem O modelo utilizado é o de Gauss-Markov-Normal Pressupõe que a resposta apresenta uma média. Pressupõe ainda que essa média contem erros provenientes de medições aleatórias e de outras fontes não explicitadas pelo modelo. O erro, e conseqüentemente a resposta, são tratados como variáveis aleatórias, que o comportamento é caracterizado assumindo-se uma distribuição NORMAL para os dados experimentais.

Estimadores dos parâmetros pelo método dos mínimos quadrados Este método consiste em se determinar o estimador que minimiza a soma do quadrado das diferenças entre valores observados e valores preditos pelo modelo. Y X é o modelo linear Queremos determinar ˆ o estimador de

O erro do modelo na forma matricial é: X Y p pn n n p p n n, X X X X X X X X X X, Y Y Y,Y e e e O problema consiste em se ajustar um modelo de regressão. O erro da modelagem Estimadores dos parâmetros pelo método dos mínimos quadrados

Modelo de regressão O estimador de beta é chamado de beta chapéu e pode ser determinado por outros métodos de minimização do erro, como por exemplo o método da máxima verossimilhança.,n.,,,i X ˆ X ˆ X ˆ ˆ Ŷ pi p i i i p ˆ ˆ ˆ ˆ Estimadores dos parâmetros pelo método dos mínimos quadrados

Estimadores dos parâmetros pelo método dos mínimos quadrados O método dos mínimos quadrados Sabendo que o erro do modelo é: Y X Então o somatório ao quadrado das diferenças dos erros pode ser representado na forma matricial por: Z Y X De acordo com o método temos que minimizar Z

Estimadores dos parâmetros pelo método dos mínimos quadrados Minimização da função Z Z Y X Z ' Y X Y X Z Y' ' X' Y X Z Y' Y Y' X ' X' Y ' X' X As matrizes Y Xβ e β X Y uma é a transposta da outra e são de dimensão x, então as matrizes são iguais.

Estimadores dos parâmetros pelo método dos mínimos quadrados Diferenciando a função Z Z Y' Y ' X' Y ' X' X dz d' X' Y d' X' X ' X' X d As matrizes (dβ )X Xβ e β X X(dβ) uma é a transposta da outra e são de dimensão x, então as matrizes são iguais. dz dz d' X' Y d' X' d' X' X X' Y X

Estimadores dos parâmetros pelo método dos mínimos quadrados Fazendo com que a diferencial de Z seja igual a zero dz Para que a diferencial de Z seja zero d' X' X X' Y Para que dz seja zero, (X Xβ-X Y) deve ser igual a zero. X' X ˆ X' Y

Estimadores dos parâmetros pelo método dos mínimos quadrados O beta chapéu Assim é chamado o vetor estimador dos parâmetros de beta. O vetor beta chapéu é determinado resolvendo-se o sistema de equações normais: X' X ˆ X' Y

Estimadores dos parâmetros pelo método dos mínimos quadrados Solução do sistema de equações normais Multiplicando-se ambos os membros do sistema de equações por X' X ˆ X' Y X' X Temos: X' X X' X' X X' Y X ˆ X' X X' Y ˆ O modelo de regressão pressupõe um beta chapéu único não tendencioso (blue). Mas isso precisa de ser testado.

Regressão Linear Múltipla Conseqüências da estimação O modelo que estamos estudando é o Linear de Gauss-Markov-Normal. Y X, ~ N, Y X este é o erro do modelo

Conseqüências da estimação da A média do modelo linear Y população, média' X '. é a esperança matemática também conhecido como Quando trabalhos com dados experimentais assumimos que o estimador da média x barra pode representar a média μ da população. Mas depois precisamos testar se isso é verdadeiro.

Conseqüências da estimação Os valores preditos pelo modelo Ŷ em X ˆ modelo, isto é, valores obtidos função são os valores de uma combinação linear de valores de variáveis estimador de,o ˆ. preditos para Y preditoras pelo X e do Quando trabalhos com dados experimentais determinamos o beta chapéu a partir de amostras da população. Por isso é que precisamos testar se esse beta é mesmo estimador não tendencioso.

Conseqüências da estimação O erro do modelo de regressão ˆ Y Ŷ ajustado, também chamado de resíduo ou desvio. Y X ˆ é o erro do modelo Este é o erro que calculamos quando trabalhamos com dados experimentais. É um vetor que descreve a distribuição dos dados experimentais. Muitas inferências sobre nossos dados podem ser feitas analisando-se esse vetor.

Conseqüências da estimação O que queremos modelar Y Y Ŷ ˆ : é o fenômeno que queremos modelar; Ŷ : é a modelagem do ˆ : é o erro na modelagem do fenômeno estudado; fenômeno. Quando trabalhos com dados experimentais assumimos que nossas observações são capazes de modelar o fenômeno, e depois testamos.

Prática Na tabela abaixo apresentamos os valores de uma amostra de 6 observações das variáveis Y i, X i e X i. Y i X i X i,5 6,5, 4,,5 4 6,5 3 6 Fonte: Apostila de INF 664 Modelos Lineares. Adair José Regazzi,UFV, Viçosa,.

Montar do sistema de equações normais 6 3 4 4 X Quando a regressão é com intercepto adicionados uma coluna de uns na matriz de dados. X com intercepto 6 3 4 4 X X sem intercepto 6,5,5,, 6,5,5 Y Resposta Y Prática

Obtenção da matriz X X Esta matriz é obtida multiplicando-se a transposta da matriz X por ela mesma. 8 36 76 36 9 9 8 9 6 6 3 4 4 6 4 4 3 X X' Prática

Obtenção da matriz X Y Esta matriz é obtida multiplicando-se a transposta da matriz X pelo vetor Y. 57 6,5,5,, 6,5,5 6 4 4 3 Y X' Prática

Prática Sistema de equações normais Estimativa de beta pelos método dos mínimos quadrados Bˆ 6 9 8 Bˆ 9 9 36 Bˆ 8 36 76 57 3 ˆ : é o intercepto da equação de regressão; Y i e : são os regressores. 3X i X i : é a equação de regressão

Programa na linguagem MATLAB

Exemplos de comandos do Programa computacional MATLAB

Vetor de parâmetros Resultados obtidos no Programa computacional MATLAB Posto da matriz Determinante da matriz Autovalores da matriz

Análise de Variância da Regressão Linear

Análise de variância da regressão linear A análise de variância da regressão é a estatística utilizada para testar os regressores. A hipótese nula é que todos os regressores são iguais e zero. Caso isso não ocorra o resultado da análise é significativo, isto é, rejeita-se a hipótese nula. A análise de variância não testa o intercepto. H : p

Algumas Pressuposições do Modelo Beta chapéu é um estimador não tendencioso: ˆ A esperança do erro do modelo é zero e a esperança da variância dos erros é constante: e V I

Variâncias e Covariâncias do Vetor Estimador dos Parâmetros O vetor estimador dos parâmetros é beta chapéu: A covariância deste vetor é: Cov ( ˆ) [( ˆ ) ( ˆ ) ' ] (X'X) ˆ) Cov( ˆ) ( X ' X ) s ( ( ' ) Cov X X ˆ s é o Quadrado médio do resíduo.

Soma de Quadrado do Resíduo Soma dos quadrados dos desvios entre os valores observados e os estimados pela equação de regressão. SQ Re s n i Y i Ŷ i Escrito na forma matricial é: SQ Re s Y' Y ˆ' X' Y

Soma de Quadrado Total SQTotal n i Y i n i Y n i Matricialmente podemos escrever: SQTotal Y' Y c c n Y' u u' u é um vetor de s de dimensão n x. Y

Soma de Quadrado da Regressão SQ Re g n i Ŷ i Y Na forma matricial escrevemos: SQ Re g ˆ' X' Y n Y' uu' Y

Esquema da análise de variância Causa de variação da regressão GL SQ QM F Regressão p ˆ ' X ' Y c SQReg/p Resíduo n-p- Y ' Y ˆ ' X ' Y SQRes/n-p- Total n- Y ' c n =número de observações; p =número de variáveis Análise para dados não repetidos Y QM Re g QM Re s

Teste F dos parâmetros F é utilizado para testar a hipótese: H : p É o mesmo que testar se: p Se os erros e i têm distribuição normal e se o quociente F QM Re g QM Re s tem distribuição F (central) com p e n-p- graus de liberdade.

Quando o teste F é significativo? Quando F é maior que o tabelado; Quando rejeitamos a hipótese nula; Contudo não é possível concluir quais parâmetros são significativos; Exceto para o caso particular de p=.

Teste t dos parâmetros Utilizado para testar hipótese a respeito dos parâmetros da regressão. A estatística utilizada é: t ˆ i i s( ˆ ) i, associado a (n - p -) gl. O teste é significativo quando t é maior que o valor tabelado.

Hipóteses a Respeito dos Parâmetros no Modelo Linear A hipótese de nulidade pode ser construída a partir de m combinações lineares independentes H : c' c é uma matriz com m linhas e p+ colunas c' [c c c c p ]

θ é um vetor m-dimensional de constantes conhecidas. m

Estatística F usada para testar a hipótese H :c =θ Estatística de Wald Para teste F simultâneo dos parâmetros F(H ) (C' ˆ )' [C'(X' X) m ˆ C] (C' ˆ ) Sendo verdadeira a hipótese de nulidade a estatística F(H ) tem distribuição F com m e n-posto[x]=n-p- graus de liberdade.

Exemplo: testar a hipótese H : = = Posto [c ]=m= e : H : c' H 3 3 ˆ ' c 3 3 ˆ ' c

Exemplo: testar a hipótese H : = = c'(x' x) c 4 3 54 54 33 c'(x' x) c 33 6 54 6 54 6 3 6 33 6 54 6 54 6 3 6 3 3 5, 5

Exemplo: testar a hipótese H : = = ˆ s QMR y' y n ˆ' x' y p 6 3,, 5,5 F(H ) 6, 75 ** F (;3) 3, 8 (,) % Rejeita-se a hipótese H : = =

Estatística t usada para testar a hipótese H :c =θ Podemos usar t para testar hipóteses a respeito de combinações lineares dos parâmetros t c' ˆ c', Vˆ( c' ˆ) associado a (n - p -) gl. n p n posto(x) GLR

Teste Simultâneo dos Parâmetros Testa uma única hipótese; Testa um vetor de betas; Não é o mesmo que testar os betas separadamente. Isto é, testar H : e H : Não é o mesmo que testar H : ou H :

Programa SAS (reg_cap.sas) proc reg data=sas.ind_v9; /*ndvi rnir gnir arvi savi gndvi*/ model N = gndvi; output out=p p=yhat r=resid; print p; run; quit; proc reg; model yhat=n; test N=, intercept=; run; plot yhat*n; run; quit;

Output do SAS Análise de variância do modelo de regressão The SAS System 3:5 Thursday, October 7, 9 5 The REG Procedure Model: MODEL Dependent Variable: N N Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 6 7 345.59735 4.39.93 Error 8 69.4589 786.399 Corrected Total 4 7 Root MSE 8.48 R-Square.767 Dependent Mean 6. Adj R-Sq.593 Coeff Var 46.7353

Teste t dos beta-chapéu do modelo de regressão Parameter Estimates Parameter Standard Variable Label DF Estimate Error t Value Pr > t Intercept Intercept 835.59747 483.656.4.5 NDVI NDVI -58 998 -.79.454 RNIR RNIR -698.664 384.74 -.45.6679 GNIR GNIR -43.98 665.474 -.6.884 ARVI ARVI 546.46984 83.66.93.898 SAVI SAVI 835.834 396.63.5445 GNDVI GNDVI 594.4446 98.94995..8433

Níveis de N preditos pelo modelo Dependent Predicted Obs Variable Value Residual -6.49 6.49-3.45 3.45 3 9.8-9.8 4 3. 3.997 -.997 5 3. 68.533-38.533 6 3. 47.885-7.885 7 6. 67.67-7.67 8 6. 99.6748-39.6748 9 6. 6.8 -.8 9. 68.444.5956 9. 65.65 4.8395 9. 78.66.934 3. 97.4.599 4. 6.5953 3.447 5. 99.35.9765 Sum of Residuals -3.667E- Sum of Squared Residuals 69.4589 Predicted Residual SS (PRESS) 8335

Gráfico: Predito x Observado

Conclusão O modelo de regressão multivariado proposto não pode ser utilizado para predizer níveis de N aplicados no solo.

Exemplo de regressão linear múltipla com duas vaiáveis independentes Y X X,5 6,5 4,5 4 6,5 3 6

Programa SAS

Resumo do Stepwise

Valores preditos

Regressão entre predito e observado

Validação da predição