As dificuldades na representação gráfica



Documentos relacionados
CAP. I ERROS EM CÁLCULO NUMÉRICO

ActivALEA. ative e atualize a sua literacia

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais

VII Equações Diferenciais Ordinárias de Primeira Ordem

CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

Introdução ao Estudo de Sistemas Lineares

APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA

Testes χ 2 (cont.) Testes χ 2 para k categorias (cont.)

Duas Fases da Estatística

EQUAÇÕES DIFERENCIAIS LINEARES DE ORDEM N

II.2. Regressão Linear Múltipla. A nuvem de pontos - uma perspectiva. Plano em R 3. A nuvem de pontos - outra perspectiva

MOMENTOS DE INÉRCIA. Física Aplicada à Engenharia Civil II

Definição 1.1: Uma equação diferencial ordinária é uma. y ) = 0, envolvendo uma função incógnita y = y( x) e algumas das suas derivadas em ordem a x.

1.5 Aritmética de Ponto Flutuante

INTERPOLAÇÃO. Interpolação

Séries de Potências AULA LIVRO

Teste de Hipóteses VÍCTOR HUGO LACHOS DÁVILAD

Equações Diferenciais (ED) Resumo

Equações Diferenciais Lineares de Ordem n

O oscilador harmônico

UFRGS MATEMÁTICA

PROBABILIDADES E ESTATÍSTICA

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

II.2. Regressão Linear Múltipla. A nuvem de pontos - uma perspectiva. Plano em R 3. A nuvem de pontos - outra perspectiva

Jackknife, Bootstrap e outros métodos de reamostragem

CAPÍTULO 5 CIRCUITOS SEQUENCIAIS III: CONTADORES SÍNCRONOS

Tópicos de Mecânica Quântica I. Equações de Newton e de Hamilton versus Equações de Schrödinger

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

INTRODUÇÃO A TEORIA DE CONJUNTOS

Computação Científica - Departamento de Informática Folha Prática 1

Capitulo 6 Resolução de Exercícios

DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO ESTATISTICA AVANÇADA

Lista 9 - Introdução à Probabilidade e Estatística

ANDRÉ REIS MATEMÁTICA. 1ª Edição NOV 2013

Neste capítulo, pretendemos ajustar retas ou polinômios a um conjunto de pontos experimentais.

AULA: Inferência Estatística

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo?

A TORRE DE HANÓI Carlos Yuzo Shine - Colégio Etapa

Matemática Ficha de Trabalho

Exercício 1. Quantos bytes (8 bits) existem de modo que ele contenha exatamente quatro 1 s? Exercício 2. Verifique que

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA

onde d, u, v são inteiros não nulos, com u v, mdc(u, v) = 1 e u e v de paridades distintas.

Equação Diferencial. Uma equação diferencial é uma expressão que relaciona uma função desconhecida (incógnita) y com suas derivadas.

Estatística stica para Metrologia

PROBABILIDADES E ESTATÍSTICA

Problema de Fluxo de Custo Mínimo

defi departamento de física

1.4- Técnicas de Amostragem

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu

COMPOSIÇÕES DE FUNÇÕES GERATRIZES E A FÓRMULA EXPONENCIAL

Capítulo 5 Cálculo Diferencial em IR n 5.1 Definição de função de várias variáveis: campos vetoriais e campos escalares.

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse:

PG Progressão Geométrica

Análise de Regressão Linear Simples e Múltipla

Os juros compostos são conhecidos, popularmente, como juros sobre juros.

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil

Curso MIX. Matemática Financeira. Juros compostos com testes resolvidos. 1.1 Conceito. 1.2 Período de Capitalização

Métodos Estatísticos de Previsão MÉTODOS ESTATÍSTICOS DE PREVISÃO. Regressão Linear. Bernardo Almada-Lobo

Aplicações lineares. Capítulo Seja T: a) Quais dos seguintes vectores estão em Im( T )? 1 i) 4. 3 iii) ii)

Até que tamanho podemos brincar de esconde-esconde?

MATEMÁTICA FINANCEIRA

Matemática Alexander dos Santos Dutra Ingrid Regina Pellini Valenço

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões

1.1 Comecemos por determinar a distribuição de representantes por aplicação do método de Hondt:

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2

INF1383 -Bancos de Dados

Síntese de Transformadores de Quarto de Onda

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais

somente um valor da variável y para cada valor de variável x.

Influência do ruído aéreo gerado pela percussão de pavimentos na determinação de L n,w

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li

UNIVERSIDADE DA MADEIRA

Fundamentos de Bancos de Dados 3 a Prova

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos

III Simpósio sobre Gestão Empresarial e Sustentabilidade (SimpGES) Produtos eco-inovadores: produção e consumo"

Uma Metodologia de Busca Otimizada de Transformadores de Distribuição Eficiente para qualquer Demanda

Módulo 4 Matemática Financeira

O TESTE DOS POSTOS ORDENADOS DE GALTON: UMA ABORDAGEM GEOMÉTRICA

Modelos Conceituais de Dados. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

APLICAÇÃO DO MÉTODO DE INTEGRAÇÃO TRAPEZOIDAL EM SISTEMAS ELÉTRICOS

Capítulo 5. Misturas Simples

INFERÊNCIA ESTATÍSTICA

4. Tangentes e normais; orientabilidade

Calendário de inspecções em Manutenção Preventiva Condicionada com base na Fiabilidade

Demonstrações especiais

M = C (1 + i) n. Comparando o cálculo composto (exponencial) com o cálculo simples (linear), vemos no cálculo simples:

Unesp Universidade Estadual Paulista FACULDADE DE ENGENHARIA

SUMÁRIO 1. AMOSTRAGEM Conceitos básicos 4

Prof. Eugênio Carlos Stieler

ENGENHARIA ECONÔMICA AVANÇADA

Capítulo 8 - Testes de hipóteses. 8.1 Introdução

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

Lista 2.1 Breves Revisões de Lógica; Noção de Norma e Distância; Breves Noções Topológicas em R n

37ª OLIMPÍADA BRASILEIRA DE MATEMÁTICA PRIMEIRA FASE NÍVEL 3 (Ensino Médio) GABARITO

A soma dos perímetros dos triângulos dessa sequência infinita é a) 9 b) 12 c) 15 d) 18 e) 21

Frações Contínuas, Representações de Números e Aproximações Diofantinas

Probabilidades. José Viegas

Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Coordenação do Programa de Pós-Graduação em Física

CONTROLE DA QUALIDADE DE PADRÕES ESCALONADOS UTILIZADOS NA VERIFICAÇÃO DE MÁQUINAS DE MEDIR POR COORDENADAS

CURTOSE. Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes possibilidades:

Transcrição:

II2 A Regressão Liear Múltipla Por vezes, é ecessário mais do que uma variável preditora para modelar a variável resposta de iteresse Exemplo: Num estudo sobre uma população experimetal de cloes da casta Tita Fracisca, realizado o Tabuaço em 2003, foram medidos os valores das seguites variáveis para 24 videiras: teor de atociaas (variável atoci, em mg/dm 3 ); feóis totais (variável fetot); ph (variável ph) A uvem de potos - uma perspectiva Neste âgulo de visão, a uvem de potos em R 3 ada tem de especial Há iteresse em estudar a relação etre o teor de atociaas (variável resposta) e o teor de feóis totais e ph As = 24 observações em três variáveis descrevem agora uma uvem de 24 potos em R 3 J Cadima (ISA) Estatística e Delieameto 2012-13 166 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 167 / 446 A uvem de potos - outra perspectiva Noutro âgulo de visão percebe-se que os potos se dispersam aproximadamete em toro de um plao Plao em R 3 Qualquer plao em R 3, o sistema x0y0z, tem equação Ax + By + Cz + D = 0 No osso cotexto, e colocado: o eixo vertical (z) a variável resposta Y ; outro eixo (x) um preditor X 1 ; o terceiro eixo (y) o outro preditor X 2, A equação fica Ax 1 + Bx 2 + Cy + D = 0 y = D C A C x 1 B C x 2 y = β 0 + β 1 x 1 + β 2 x 2 Esta equação geeraliza a equação da recta, para o caso de haver dois preditores J Cadima (ISA) Estatística e Delieameto 2012-13 168 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 169 / 446 Regressão Múltipla - represetação gráfica (p = 2) y Y = β 0 + β 1 x 1 + β 2 x 2 x 1 O caso geral: p preditores Admita-se agora que se pretede modelar uma variável aleatória resposta, Y, com base em p variáveis preditoras, x 1, x 2,, x p Uma geeralização da equação de regressão liear simples admite que os valores de Y oscilam em toro duma combiação liear (afim) das p variáveis preditoras: Y = β 0 + β 1 x 1 + β 2 x 2 + + β p x p Tal como o caso da Regressão Liear Simples, vamos admitir que dispomos de cojutos de observações, {( x 1(i),x 2(i),x p(i),y i )}, para estudar a relação etre a Y e p as variáveis preditoras Y = β 0 + β 1 x 1 + β 2 x 2 é a equação dum plao em R 3 (x 1 0x 2 0y) x 2 J Cadima (ISA) Estatística e Delieameto 2012-13 170 / 446 A represetação gráfica da uvem de potos observados exige p + 1 eixos: um para Y e um para cada um dos p preditores J Cadima (ISA) Estatística e Delieameto 2012-13 171 / 446

As dificuldades a represetação gráfica Para p > 2, seriam ecessários mais de três eixos e a visualização tora-se impossível As características fudametais dessas represetações seriam: Existem p + 1 eixos um para cada variável em questão Existem potos um para cada idivíduo (uidade experimetal) observado Tem-se uma uvem de potos um espaço (p + 1)-dimesioal Na regressão liear múltipla admite-se que os potos se dispõem em toro de um hiperplao em R p+1, de equação y = β 0 + β 1 x 1 + β 2 x 2 + + β p x p Visualizações parciais da uvem de potos A impossibilidade de visualizar as uves de potos em R p+1 sugere a cosideração de visões parciais, como sejam as uves de potos defiidas por cada par de variáveis, que são as projecções ortogoais da uvem em cada plao coordeado de R p+1 Eg, para as = 150 observações de lírios em 4 variáveis: 20 25 30 35 40 05 10 15 20 25 SepalLegth 20 25 30 35 40 05 10 15 20 25 SepalWidth PetalLegth PetalWidth 45 55 65 75 1 2 3 4 5 6 7 45 55 65 75 1 2 3 4 5 6 7 J Cadima (ISA) Estatística e Delieameto 2012-13 172 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 173 / 446 Advertêcia Outra represetação gráfica A represetação gráfica de observações de Y e das variáveis preditoras atrás cosiderada ão é a úica possível A projecção da uvem de potos os plaos coordeados ão é uma solução ideal Em particular, ão permite verificar a hipótese básica de liearidade, isto é, a hipótese de que os potos se dispersam em toro de um hiperplao Tal hipótese pode ser válida, mesmo que ão se verifique liearidade em qualquer das uves de potos de y vs um preditor idividual, x j O vector de observações de Y defie coordeadas em R : y = (y 1,y 2,y 3,,y ) Da mesma forma, cada vector das observações duma variável preditora defie coordeadas em R x j = (x j(1),x j(2),x j(3),,x j() ) (j = 1,2,,p) Podemos represetar estas variáveis por vectores em R J Cadima (ISA) Estatística e Delieameto 2012-13 174 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 175 / 446 A represetação gráfica em R cada eixo correspode a um idivíduo observado; cada vector correspode a uma variável O vector de us, represetado por 1, também é útil x 1 Id 1 R 1 y x 2 Id 2 x 3 Id 3 Id Id 4 Vatages da represetação gráfica alterativa As equações (uma para cada observação) relacioado liearmete Y e os preditores correspodem a uma combiação liear dos vectores 1, x 1, x 2,, x p : β 0 1 + β 1 x 1 + β 2 x 2 + + β px p = β 0 = 1 1 1 1 + β 1 x 1(1) x 1(2) x 1(3) x 1() + + β p x p(1) x p(2) x p(3) x p() β 0 + β 1 x 1(1) + β 2 x 2(1) + + β px p(1) β 0 + β 1 x 1(2) + β 2 x 2(2) + + β px p(2) β 0 + β 1 x 1(3) + β 2 x 2(3) + + β px p(3) β 0 + β 1 x 1() + β 2 x 2() + + β px p() J Cadima (ISA) Estatística e Delieameto 2012-13 176 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 177 / 446

Vatages da represetação alterativa (cot) A represetação gráfica alterativa sugere a forma de estimar os p + 1 parâmetros do modelo, β 0, β 1,, β p Note-se que: Qualquer estimativa dos parâmetros β j do modelo, b = (b 0,b 1,b 2,,b p ), também defie uma combiação liear dos vectores 1, x 1,, x p : b 0 1 + b 1 x 1 + b 2 x 2 + + b p x p, O cojuto de todas as combiações lieares é o subespaço gerado pelos p+1 vectores 1, x 1,, x p É um subespaço de dimesão p + 1 (se os vectores forem liearmete idepedetes) Colocado os vectores 1, x 1,, x p as coluas duma matriz X (de dimesões (p + 1)) podemos chamar a este subespaço o subespaço das coluas da matriz X, C (X) R O produto matricial Xb O produto duma matrix X por um vector b é uma combiação liear das coluas de X: 1 x 1(1) x 2(1) x p(1) b 0 1 x 1(2) x 2(2) x p(2) b 1 Xb = 1 x 1(3) x 2(3) x p(3) b 2 1 x 1() x 2() x p() b p b 0 + b 1 x 1(1) + b 2 x 2(1) + + b p x p(1) b 0 + b 1 x 1(2) + b 2 x 2(2) + + b p x p(2) = b 0 + b 1 x 1(3) + b 2 x 2(3) + + b p x p(3) b 0 + b 1 x 1() + b 2 x 2() + + b p x p() = b 0 1 + b 1 x 1 + b 2 x 2 + + b p x p J Cadima (ISA) Estatística e Delieameto 2012-13 178 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 179 / 446 A camiho da estimação dos parâmetros A camiho da estimação (cot) Cada escolha possível de coeficietes b = (b 0,b 1,b 2,,b p ) correspode a um poto/vector esse subespaço Essa escolha de coeficietes é úica caso as coluas de X sejam liearmete idepedetes, isto é, se ão houver multicoliearidade etre as variáveis x 1,,x p,1 Um dos potos/vectores do subespaço é a combiação liear dada pelo vector de coeficietes β = (β 0,β 1,,β p ) É a combiação liear que desejamos estimar Como estimar esse poto/vector? Dispomos de um vector de observações de y que está em R mas, em geral, ão está o subespaço C (X) Queremos aproximar esse vector por outro vector, ŷ = b 0 1 + b 1 x 1 + + b p x p, que está o subespaço C (X) Vamos aproximar o vector de observações y pelo vector ŷ do subespaço C (X) que está mais próximo de y SOLUÇÃO: Tomar a projecção ortogoal de y sobre C (X) : ŷ = Hy J Cadima (ISA) Estatística e Delieameto 2012-13 180 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 181 / 446 O coceito geométrico subjacete à estimação de β O critério miimiza SQRE R y ŷ = Hy C (X) O critério de escolher ŷ de tal maeira a miimizar a distâcia ao vector de observações y sigifica que miimizamos o quadrado dessa distâcia, que é dado por: y ŷ 2 = (y i ŷ i ) 2, ou seja, que miimizamos a soma de quadrados dos resíduos Trata-se do critério que foi usado a Regressão Liear Simples O vector de C (X) R mais próximo dum vector y R é o vector ŷ que resulta de projectar ortogoalmete y sobre C (X) J Cadima (ISA) Estatística e Delieameto 2012-13 182 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 183 / 446

O coceito geométrico subjacete à estimação de β R y ŷ = Hy SQRE = y ŷ C (X) O quadrado da distâcia de y a ŷ é SQRE, a soma dos quadrados dos resíduos A projecção ortogoal A projecção ortogoal de um vector y R sobre o subespaço C (X) gerado pelas coluas (liearmete idepedetes) de X faz-se pré-multiplicado y pela matriz de projecção ortogoal sobre C (X): Logo, temos: H = X ( X t X ) 1 X t ŷ = Hy ŷ = X(X t X) 1 X t y } {{ } = b A combiação liear dos vectores 1,x 1,,x p que gera o vector mais próximo de y tem coeficietes dados pelos elemetos do vector b: Estimativas dos parâmetros b = (X t X) 1 X t y J Cadima (ISA) Estatística e Delieameto 2012-13 184 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 185 / 446 As três Somas de Quadrados Na Regressão Liear Múltipla defiem-se três Somas de Quadrados, de forma idêtica ao que se fez a Regressão Liear Simples: SQRE A Soma de Quadrados dos Resíduos já foi defiida: SQRE = SQT A Soma de Quadrados Total: SQT = (y i y) 2 = (y i ŷ i ) 2 y 2 i y 2 SQR A Soma de Quadrados associada à Regressão: Pitágoras e a Regressão O Teorema de Pitágoras aplica-se em qualquer espaço euclideao R Aplicado ao triâgulo rectâgulo do acetato 184 produz a seguite relação: y 2 = ŷ 2 + y ŷ 2 y 2 i = y 2 i y 2 = ŷ 2 i + (y i ŷ i ) 2 } {{ } = SQRE ŷ 2 i y 2 + SQRE SQT = SQR + SQRE SQR = (ŷ i y) 2 = ŷ 2 i y 2 J Cadima (ISA) Estatística e Delieameto 2012-13 186 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 187 / 446 Revisitado Pitágoras Vimos que a relação fudametal da Regressão Liear (SQT = SQR + SQRE) resulta duma aplicação do Teorema de Pitágoras Mas foi ecessário itroduzir a subtracção de y 2 Um outro triâgulo rectâgulo é estatisticamete mais iteressate Cosidere-se o vector cetrado das observações da variável resposta, isto é, o vector cujo elemeto geérico é y i y Este vector, que será desigado y c, obtém-se subtraído a y o vector que repete vezes y: y c = y (y) 1 = (y 1 y,y 2 y,,y y) A orma deste vector é SQT = y c = (y i y) 2 Revisitado Pitágoras (cot) A projecção ortogoal do vector y c sobre o subespaço C (X) gera o vector: Hy c = H(y (y) 1 ) Hy c = Hy (y) H1 Hy c = ŷ (y) 1 já que H1 = 1, pois o vector 1 já pertece ao subespaço C (X), logo fica ivariate quado projectado esse mesmo subespaço O vector Hy c tem elemeto geérico ŷ i y, e a sua orma é SQR = Hy c = (ŷ i y) 2 J Cadima (ISA) Estatística e Delieameto 2012-13 188 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 189 / 446

Revisitado Pitágoras (cot) Pitágoras e o Coeficiete de Determiação R C (X) SQT = y c Hy c SQR = Hy c y c SQRE = y c Hy c = y Hy A fórmula fudametal da Regressão Liear, SQT = SQR + SQRE, é uma aplicação do Teorema de Pitágoras O acetato 190 tora evidete outra relação importate etre a geometria e a estatística da Regressão Liear: o cosseo ao quadrado do âgulo etre o vector cetrado das observações da variável resposta, y c, e a sua projecção ortogoal sobre o subespaço C (X) gerado pelas variáveis preditoras, é o Coeficiete de Determiação associado à regressão: cos 2 (θ) = SQR SQT = R2, ode θ é o âgulo etre os vectores y c e Hy c J Cadima (ISA) Estatística e Delieameto 2012-13 190 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 191 / 446 Pitágoras e o Coeficiete de Determiação (cot) Propriedades do Coeficiete de Determiação SQT = y c θ Hy c C (X) SQR = Hy c y c R SQRE = y Hy A abordagem geométrica cofirma que, também a Regressão Liear Múltipla, são válidas as propriedades (já cohecidas da Regressão Liear Simples) do Coeficiete de Determiação: R 2 toma valores etre 0 e 1 Quato mais próximo de 1 estiver R 2, meor o âgulo θ, e portato melhor será a correspodêcia etre o vector (cetrado) das observações, y c e o seu ajustameto em C (X) Se R 2 0, o vector y c é quase perpedicular ao subespaço C (X) ode se pretede aproximá-lo, e o resultado será de má qualidade O Coeficiete de Determiação a Regressão Liear, R 2 = SQR SQT, é o cosseo ao quadrado do âgulo etre y c e Hy c J Cadima (ISA) Estatística e Delieameto 2012-13 192 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 193 / 446 A Regressão Múltipla o Uma Regressão Múltipla o estuda-se através do mesmo comado lm usado para a regressão liear simples A idicação de qual a variável resposta y e quais as variáveis preditoras x 1,,x p faz-se através do argumeto formula Por exemplo, se a variável resposta se chama y e existirem três variáveis de omes x1, x2 e x3, a fórmula que idica a relação será: y x1 + x2 + x3 Assim, o comado para pedir uma regressão liear da variável y sobre as variáveis x1, x2, x3 será: > lm ( y x1 + x2 + x3, data=dados) O resultado produzido por este comado será o vector das estimativas dos p + 1 parâmetros do modelo, β 0, β 1,, β p O cotexto iferecial Até aqui, apeas se cosiderou o problema descritivo: dados cojutos de observações {(x 1(i),x 2(i),,x p(i),y (i) )}, determiar os p + 1 coeficietes b = (b 0,b 1,b 2,,b p ) que miimizam a soma de quadrados de resíduos SQRE = (y i ŷ i ) 2 = [y i (b 0 + b 1 x 1(i) + b 2 x 2(i) + + b p x p(i) )] 2 SQRE miimo se b = ( X t X ) 1 X t y Mas, tal como a Regressão Liear Simples, coloca-se o problema iferecial: as observações represetam uma amostra aleatória de uma população mais vasta É a relação populacioal etre Y e as p variáveis preditoras que se pretede cohecer Para esse fim, será ecessário admitir algus pressupostos adicioais J Cadima (ISA) Estatística e Delieameto 2012-13 194 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 195 / 446

A modelação da variável resposta A otação matricial Na Regressão Liear Múltipla admite-se que as observações da variável resposta Y são aleatórias e podem ser modeladas como Y i = β 0 + β 1 x 1(i) + β 2 x 2(i) + + β p x p(i) + ε i, i = 1,, o que correspode a escrever equações: Y 1 = β 0 + β 1 x 1(1) + β 2 x 2(1) + + β p x p(1) + ε 1 Y 2 = β 0 + β 1 x 1(2) + β 2 x 2(2) + + β p x p(2) + ε 2 Y 3 = β 0 + β 1 x 1(3) + β 2 x 2(3) + + β p x p(3) + ε 3 Y = β 0 + β 1 x 1() + β 2 x 2() + + β p x p() + ε As equações correspodem a uma úica equação matricial: ode Y = Y 1 Y 2 Y 3 Y Y = Xβ + ε, 1 x 1(1) x 2(1) x p(1) 1 x 1(2) x 2(2) x p(2), X = 1 x 1(3) x 2(3) x p(3), β = 1 x 1() x 2() x p() β 0 β 1 β 2 β p ε 1 ε 2 ε 3, ε = ε J Cadima (ISA) Estatística e Delieameto 2012-13 196 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 197 / 446 A otação matricial (cot) O Modelo da Regressão Liear Múltipla Na equação matricial Y = Xβ + ε, tem-se: Y é o vector aleatório das variáveis aleatórias resposta; X é a matriz do modelo (ão aleatória) de dimesões (p + 1) cujas coluas são dadas pelas observações de cada variável preditora (e por uma colua de us, associada a costate aditiva do modelo); β é o vector (ão aleatório) de p + 1 parâmetros do modelo; ε é o vector aleatório dos erros aleatórios Represeta-se um vector de observações de Y por y Vamos admitir que as observações de Y são dadas por variáveis aleatórias Y i e que os cojutos de observações {(x 1(i),x 2(i),,x p(i),y (i) )} verificam as seguites codições Defiição (O Modelo da Regressão Liear Múltipla - RLM) 1 Y i = β 0 + β 1 x 1(i) + β 2 x 2(i) + + β p x p(i) + ε i, i = 1,, 2 ε i N (0, σ 2 ), i = 1,, 3 {ε i } va idepedetes Já vimos que é possível escrever a relação de base deste modelo em otação matricial, Y = Xβ + ε Mas precisamos de algus coceitos adicioais J Cadima (ISA) Estatística e Delieameto 2012-13 198 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 199 / 446 Ferrametas para vectores aleatórios O cojuto das observações de Y, tal como o cojuto dos erros aleatórios, ε costituem vectores aleatórios Para qualquer vector aleatório W = (W 1,W 2,,W k ), defie-se: O vector esperado de W, costituído pelos valores esperados de cada compoete: E[W 1 ] E[W 2 ] E[W] = E[W k ] Se W fôr uma matriz aleatória, também se defie E[W] como a matriz do valor esperado de cada elemeto Ferrametas para vectores aleatórios (cot) a matriz de variâcias-covariâcias de W é costituída pelas (co)variâcias de cada par de compoetes: V [W 1 ] C[W 1,W 2 ] C[W 1,W 3 ] C[W 1,W k ] C[W 2,W 1 ] V [W 2 ] C[W 2,W 3 ] C[W 2,W k ] V [W] = C[W 3,W 1 ] C[W 3,W 2 ] V [W 3 ] C[W 3,W k ] C[W k,w 1 ] C[W k,w 2 ] C[W k,w 3 ] V [W k ] J Cadima (ISA) Estatística e Delieameto 2012-13 200 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 201 / 446

z y Propriedades do vector esperado Propriedades da matriz de (co)variâcias Tal como para o caso de variáveis aleatórias, também o vector esperado de um vector aleatório W k 1 tem propriedades simples: Se b é um escalar ão aleatório, E[bW] = b E[W] Se a k 1 é um vector ão aleatório, E[W + a] = E[W] + a Se B m k é uma matriz ão aleatória, E[BW] = BE[W] Também o vector esperado da soma de dois vectors aleatórios tem uma propriedade operatória simples: Se W k 1, U k 1 são vectores aleatórios, E[W + U] = E[W] + E[U] Se b é um escalar ão aleatório, V [bw] = b 2 V [W] Se a k 1 é um vector ão aleatório, V [W + a] = V [W] Se B m k é uma matriz ão aleatória, V [BW] = BV [W]B t A matriz de variâcias-covariâcias da soma de dois vectors aleatórios tem uma propriedade operatória simples se os vectores aleatórios forem idepedetes: Se W k 1 e U k 1 forem vectores aleatórios idepedetes, V [W + U] = V [W] + V [U] J Cadima (ISA) Estatística e Delieameto 2012-13 202 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 203 / 446 A distribuição Normal Multivariada A desidade Biormal (Multiormal com = 2) Vectores aleatórios têm também distribuições (multivariadas) de probabilidades A mais frequete distribuição multivariada para vectores aleatórios é a Multiormal: Defiição (Distribuição Normal Multivariada) O vector aleatória -dimesioal W tem distribuição Multiormal, com parâmetros dados pelo vector µ e a matriz Σ se a sua fução desidade cojuta fôr: f (w) = 1 (2π) /2 det(σ) e 1 2 (w µ)t Σ 1 (w µ) Notação: W N (µ,σ), w R (3) x J Cadima (ISA) Estatística e Delieameto 2012-13 204 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 205 / 446 Algumas propriedades da distribuição Multiormal Teorema (Propriedades da Multiormal) Se W N k (µ,σ): 1 O vector esperado de W é E[W] = µ 2 A matriz de (co)variâcias de W é V [W] = Σ 3 Se duas compoetes de W têm covariâcia ula, são idepedetes: Cov(W i,w j ) = 0 W i, W j idepedetes 4 Todas as distribuições margiais de W são (multi)ormais Em particular, cada compoete W i é ormal com média µ i e variâcia Σ (i,i) : W i N (µ i,σ (i,i) ) 5 Se a um vector (ão-aleatório) k 1, etão W + a N k (µ + a,σ) 6 Combiações lieares das compoetes dum vector multiormal são Normais: a t W = a 1 W 1 + a 2 W 2 + + a k W k N (a t µ,a t Σa) 7 Se C é matriz m k (ão aleatória, de característica m k), etão CW N m (Cµ,CΣC t ) Modelo Regressão Liear Múltipla - versão matricial Defiição (O Modelo em otação matricial) 1 Y = Xβ + ε 2 ε N (0, σ 2 I ) Na seguda destas hipóteses são feitas quatro afirmações (tedo em cota as propriedades da Multiormal, referidas o acetato 206): Cada erro aleatório idividual ε i tem distribuição Normal Cada erro aleatório idividual tem média zero: E[ε i ] = 0 Cada erro aleatório idividual tem variâcia igual: V [ε i ] = σ 2 Erros aleatórios diferetes são idepedetes, porque Cov[ε i,ε j ] = 0 se i j e, uma Multiormal, isso implica a idepedêcia (acetato 206) J Cadima (ISA) Estatística e Delieameto 2012-13 206 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 207 / 446

A distribuição das observações Y da variável resposta O seguite Teorema é cosequêcia directa do acetato (206) Teorema (Primeiras Cosequêcias do Modelo) Dado o Modelo de Regressão Liear Múltipla, tem-se: Y N (Xβ, σ 2 I ) Tedo em cota as propriedades da Multiormal (acetato 206): Cada observação idividual Y i tem distribuição Normal Cada observação idividual Y i tem média E[Y i ] = β 0 + β 1 x 1(i) + β 2 x 2(i) + + β p x p(i) Cada observação idividual tem variâcia igual: V [Y i ] = σ 2 Observações diferetes são idepedetes, porque Cov[Y i,y j ] = 0 se i j e, uma Multiormal, isso implica a idepedêcia (acetato 206) O estimador dos parâmetros do Modelo Tal como a Regressão Liear Simples, os estimadores dos parâmetros β i do modelo (i = 0,1,2,,p) são as expressões resultates de miimizar SQRE (acetato 185) O vector ˆβ que estima o vector β dos parâmetros populacioais é: Defiição (Estimador dos parâmetros populacioais) ˆβ = ( X t X ) 1 X t Y, ode X e Y são a matriz e o vector defiidos o acetato 197 O vector ˆβ é de dimesão p + 1 O seu primeiro elemeto é o estimador de β 0, o seu segudo elemeto é o estimador de β 1, etc Em geral, o estimador de β i está a posição i + 1 do vector ˆβ J Cadima (ISA) Estatística e Delieameto 2012-13 208 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 209 / 446 A distribuição do vector de estimadores ˆβ Teorema (Distribuição do estimador ˆβ) Dado o Modelo de Regressão Liear Múltipla, tem-se: ˆβ N p+1 (β, σ 2 (X t X) 1 ) Tedo em cota as propriedades da Multiormal (acetato 206): E[ˆβ] = β e V [ˆβ] = σ 2 (X t X) 1 Cada estimador idividual ˆβ j tem distribuição Normal Cada estimador idividual tem média E[ ˆβ j ] = β j (logo, é cetrado) Cada estimador idividual tem variâcia V [ ˆβ j ] = σ 2 ( X t X ) 1 (j+1,j+1) (Note-se o desfasameto os ídices resultates de a cotagem dos βs começar em 0) Estimadores idividuais diferetes ão são (em geral) idepedetes, porque a matriz (X t X) 1 ão é, em geral, uma matriz diagoal Cov[ ˆβ i, ˆβ j ] = σ 2 ( X t X ) 1 (i+1,j+1) J Cadima (ISA) Estatística e Delieameto 2012-13 210 / 446 O problema de σ 2 descohecido A distribuição dum estimador idividual Como se viu o acetato aterior, tem-se, j = 0,1,,p: ˆβ j β j ˆβ j N ode = σ σˆβj 2 (X t X) 1 (j+1,j+1) σˆβj N (0,1), ( ) β j, σ 2 (X t X) 1 (j+1,j+1) Este resultado geeraliza os relativos à Regressão Liear Simples J Cadima (ISA) Estatística e Delieameto 2012-13 211 / 446 SQRE a Regressão Múltipla O resultado distribucioal idicado o acetato aterior permitiria costruir itervalos de cofiaça ou fazer testes a hipóteses sobre os parâmetros β, ão fosse a existêcia de um problema já familiar: o descohecimeto da variâcia σ 2 dos erros aleatórios Procedemos de forma aáloga ao que se fez a Regressão Liear Simples: obter um estimador para σ 2 ; e ver o que acotece à distribuição dos estimadores ˆβ, quado σ 2 é substituído pelo seu estimador Teorema (Resultados distribucioais de SQRE) Dado o Modelo de Regressão Liear Múltipla (RLM), tem-se: SQRE σ 2 χ 2 (p+1) SQRE é idepedete de ˆβ NOTA: Omite-se a demostração Corolário [ ] Dado o Modelo de RLM, E SQRE (p+1) = σ 2 J Cadima (ISA) Estatística e Delieameto 2012-13 212 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 213 / 446

O Quadrado Médio Residual a Regressão Múltipla Defiição (Quadrado Médio Residual) Defie-se o Quadrado Médio Residual (QMRE) uma Regressão Liear Múltipla como QMRE = SQRE (p + 1) O QMRE é habitualmete usado a Regressão como estimador da variâcia dos erros aleatórios, isto é, toma-se ˆσ 2 = QMRE Como se viu o acetato aterior, QMRE é um estimador cetrado Revisitado o estimador de β j Vimos (acetato 211) que cada estimador ˆβ j verifica: Temos aida: Z = ˆβ j β j N (0,1) σ 2 (X t X) 1 (j+1,j+1) W = SQRE σ 2 χ 2 (p+1) e Z,W va idepedetes Logo (ver também o acetato 110): Z W /( (p + 1)) = ˆβ j β j t (p+1) QMRE (X t X) 1 (j+1,j+1) J Cadima (ISA) Estatística e Delieameto 2012-13 214 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 215 / 446 Quatidades cetrais para a iferêcia sobre β j Itervalo de cofiaça para β j Teorema (Distribuições para a iferêcia sobre β j (j = 0,1,,p)) Dado o Modelo de Regressão Liear Múltipla, tem-se com ˆσ ˆβ = QMRE (X t X) 1 j (j+1,j+1) ˆβ j β j ˆσ ˆβj t (p+1), Este Teorema dá-os os resultados que servem de base à costrução de itervalos de cofiaça e testes de hipóteses para os parâmetros β j do modelo populacioal Teorema (Itervalo de Cofiaça a (1 α) 100% para β j ) Dado o Modelo de Regressão Liear Múltipla, um itervalo a (1 α) 100% de cofiaça para o parâmetro β j do modelo é: ] [ b j t α/2[ (p+1)] ˆσ ˆβj, b j + t α/2[ (p+1)] ˆσ ˆβj, com ˆσ ˆβ = QMRE (X t X) 1 j (j+1,j+1), e sedo t α/2[ (p+1)] o valor que a distribuição t (p+1) deixa à direita uma região de probabilidade α/2 O valor b j é o elemeto do vector das estimativas b (acetato 185) NOTA: A amplitude do IC aumeta com QMRE e o valor diagoal da matriz (X t X) 1 associado ao parâmetro β j em questão J Cadima (ISA) Estatística e Delieameto 2012-13 216 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 217 / 446 Itervalos de cofiaça para β i o A iformação básica para a costrução de itervalos de cofiaça para cada parâmetro β j obtém-se, o, a partir das tabelas produzidas ao aplicar a fução summary a uma regressão ajustada No exemplo dos lírios, pode pedir-se: > iris2lm<-lm(petalwidth ~ PetalLegth + SepalLegth + SepalWidth +, data=iris) > summary(iris2lm) obtedo-se, etre outros resultados: Coefficiets: Estimate Std Error t value Pr(> t ) (Itercept) -024031 017837-1347 018 PetalLegth 052408 002449 21399 < 2e-16 *** SepalLegth -020727 004751-4363 241e-05 *** SepalWidth 022283 004894 4553 110e-05 *** O hiperplao ajustado é: PW = 024031 + 052408PL 020727SL + 022283SW Itervalos de cofiaça para β j o (cot) Alterativamete, é possível usar a fução cofit o objecto resultate de ajustar a regressão para obter os itervalos de cofiaça para cada β j idividual: > cofit(iris2lm) 25 % 975 % (Itercept) -05928277 01122129 PetalLegth 04756798 05724865 SepalLegth -03011547-01133775 SepalWidth 01261101 03195470 > cofit(iris2lm,level=099) 05 % 995 % (Itercept) -070583864 022522386 PetalLegth 046016260 058800363 SepalLegth -033125352-008327863 SepalWidth 009510404 035055304 J Cadima (ISA) Estatística e Delieameto 2012-13 218 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 219 / 446

Testes de Hipóteses sobre os parâmetros O mesmo resultado (acetato 216) usado para costruir itervalos de cofiaça serve para costruir testes a hipóteses para cada β j idividual Dado o Modelo de Regressão Liear Múltipla, Testes de Hipóteses a β j (Regressão Liear Múltipla) Hipóteses: H 0 : β j = c vs H 1 : β j < > =c {}}{ Estatística do Teste: T = ˆβ j β j H0 t (p+1) ˆσˆβj Nível de sigificâcia do teste: α Região Crítica (Região de Rejeição): Rejeitar H 0 se T calc < t α[ (p+1)] (Uilateral esquerdo) T calc > t α/2[ (p+1)] (Bilateral) T calc > t α[ (p+1)] (Uilateral direito) c Combiações lieares dos parâmetros Seja a = (a 0,a 1,,a p ) t um vector ão aleatório em R p+1 O produto itero a t β defie uma combiação liear dos parâmetros do modelo: a t β = a 0 β 0 + a 1 β 1 + a 2 β 2 + + a p β p Casos particulares importates as aplicações são: Se a tem um úico elemeto ão-ulo, a posição j + 1, a t β = β j Se a tem apeas dois elemetos ão-ulos, 1 a posição i + 1 e ±1 a posição j + 1, a t β = β i ± β j Se a = (1,x 1,x 2,,x p ), ode x j idica uma qualquer observação da variável preditora X j, etão a t β represeta o valor esperado de Y associado aos valores idicados das variáveis preditoras: a t β = β 0 + β 1 x 1 + β 2 x 2 + + β p x p = E[Y X 1 = x 1,X 2 = x 2,,X p = x p ] J Cadima (ISA) Estatística e Delieameto 2012-13 220 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 221 / 446 Iferêcia sobre combiações lieares dos β j s Quatidades cetrais para a iferêcia sobre a t β A multiormalidade do vector de estimadores ˆβ implica a ormalidade de qualquer vector que seja combiação liear das suas compoetes (acetato 206, poto 4 do Teorema) Mais cocretamete, Sabemos que ˆβ N p+1 (β, σ 2 (X t X) 1 ) (acetato 210); Logo, a t ˆβ N (a t β, σ 2 a t (X t X) 1 a) (acetato 206, poto 4); Ou seja, Z = a t ˆβ a t β σ 2 a t (X t X) 1 a N (0,1); Por um raciocíio aálogo ao usado aquado dos βs idividuais, tem-se etão a t ˆβ a t β QMRE a t (X t X) 1 a t (p+1) Teorema (Distribuições para combiações lieares dos β s) Dado o Modelo de Regressão Liear Múltipla, tem-se a t ˆβ a t β ˆσ a t ˆβ com ˆσ a t ˆβ = QMRE a t (X t X) 1 a t (p+1), Este Teorema dá-os os resultados que servem de base à costrução de itervalos de cofiaça e testes de hipóteses para quaisquer combiações lieares dos parâmetros β j do modelo J Cadima (ISA) Estatística e Delieameto 2012-13 222 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 223 / 446 Itervalo de cofiaça para a t β Testes de Hipóteses sobre os parâmetros Dado o Modelo de Regressão Liear Múltipla, Teorema (Itervalo de Cofiaça a (1 α) 100% para a t β) Dado o Modelo de Regressão Liear Múltipla, um itervalo a (1 α) 100% de cofiaça para a combiação liear dos parâmetros, a t β = a 0 β 0 + a 1 β 1 + + a p β p, é: ] a t b t α/2[ (p+1)] ˆσ a t ˆβ, a t b + t α/2[ (p+1)] ˆσ a t ˆβ [, com ˆσ a t ˆβ = QMRE a t (X t X) 1 a e a t b = a 0 b 0 + a 1 b 1 + + a p b p Testes de Hipóteses a a t β (Regressão Liear Múltipla) Hipóteses: H 0 : a t β = c vs H 1 : a t β =c { }} { Estatística do Teste: T = at ˆβ a β H0 t (p+1) ˆσ a t ˆβ Nível de sigificâcia do teste: α < > Região Crítica (Região de Rejeição): Rejeitar H 0 se T calc < t α[ (p+1)] (Uilateral esquerdo) T calc > t α/2[ (p+1)] (Bilateral) T calc > t α[ (p+1)] (Uilateral direito) c J Cadima (ISA) Estatística e Delieameto 2012-13 224 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 225 / 446

De ovo os casos particulares No acetato (221) viram-se três casos particulares importates de combiações lieares dos parâmetros No caso de a t β = β j, os itervalos e testes acabados de ver são idêticos aos dados os acetatos (217) e (220) No caso de a t β = β j ± β j, tem-se ˆσ a t ˆβ = ˆσˆβi ± ˆβ j, com: ˆσˆβi ± ˆβ j = ˆV [ ˆβ i ± ˆβ j ] = = ˆV[ˆβ i ] + ˆV[ˆβ j ] ± 2 Cov[ ˆ ˆβ i, ˆβ j ] [ QMRE (X t X) 1 (i+1,i+1) +(Xt X) 1 (j+1,j+1) ±2(Xt X) 1 ] (i+1,j+1) No caso de a coter os valores das variáveis preditoras usados a i-ésima observação, a será a liha i da matrix X Nesse caso, ˆσ a t ˆβ = QMRE a t (X t X) 1 a = QMRE h ii, ode h ii idica o i-ésimo elemeto diagoal da matriz de projecções ortogoal H = X(X t X) 1 X t J Cadima (ISA) Estatística e Delieameto 2012-13 226 / 446 ICs para combiações lieares o Para costruir um itervalo de cofiaça para a t β, será ecessário cohecer a matriz (X t X) 1, ou a matriz das (co)variâcias estimadas dos estimadores ˆβ, ˆV [ˆβ] = QMRE (X t X) 1 No, esta última matriz obtém-se através da fução vcov Eg, a matriz das (co)variâcias estimadas o exemplo dos lírios é: > vcov(iris2lm) (Itercept) PetalLegth SepalLegth SepalWidth (Itercept) 0031815766 00015144174-0005075942 -0002486105 PetalLegth 0001514417 00005998259-0001065046 0000802941 SepalLegth -0005075942-00010650465 0002256837-0001344002 SepalWidth -0002486105 00008029410-0001344002 0002394932 O erro padrão estimado de ˆβ 2 + ˆβ 3 é: ˆσ ˆβ2 + ˆβ 3 = 0002256837 + 0002394932 + 2( 0001344002) = 004431439 J Cadima (ISA) Estatística e Delieameto 2012-13 227 / 446 Itervalos de cofiaça para E[Y ] o Se a combiação liear dos βs que se deseja correspode ao valor esperado de Y, dado um cojuto de valores X 1 = x 1,,X p = x p das variáveis preditoras, é possível obter o itervalo de cofiaça referido o acetato 224 através do comado predict, tal como a RLS No exemplo dos lírios, um IC a 95% para a largura esperada de pétalas de flores com PetalLegth=2, SepalLegth=5 e SepalWidth=31 é pedido assim: > predict(iris2lm, dataframe(petallegth=c(2), SepalLegth=c(5), + SepalWidth=c(31)), it="cof") fit lwr upr [1,] 0462297 04169203 05076736 O IC para E[Y X 1 = 2,X 2 = 5,X 3 = 31] é: ] 04169, 05077 [ J Cadima (ISA) Estatística e Delieameto 2012-13 228 / 446 Itervalos de predição para Y o Podem também obter-se, de forma aáloga ao que foi visto a RLS, itervalos de predição para uma observação idividual de Y, associada aos valores X 1 = x 1,,X p = x p das variáveis preditoras Estes itervalos diferem dos ateriores pelo facto de a estimativa da variâcia associada a uma observação idividual de Y ser acrescida em QMRE uidades No, é possível obter o itervalo de predição através do comado predict, tal como a RLS > predict(iris2lm, dataframe(petallegth=c(2), SepalLegth=c(5), + SepalWidth=c(31)), it="pred") fit lwr upr [1,] 0462297 008019972 08443942 O itervalo de predição pedido é: ] 00802, 08444 [ J Cadima (ISA) Estatística e Delieameto 2012-13 229 / 446 Avaliado a qualidade do ajustameto global Numa Regressão Liear Simples, se β 1 = 0, a equação do modelo é apeas Y = β 0 + ε Neste caso, o cohecimeto do preditor X em ada cotribui para o cohecimeto de Y (o modelo é iútil para prever Y ) Numa Regressão Liear Múltipla, o modelo é iútil se Y i = β 0 + ε i, ie, se todas as variáveis preditoras têm coeficiete ulo Assim, as hipóteses que queremos cofrotar são: H 0 : β 1 = β 2 = = β p = 0 [MODELO INÚTIL] vs H 1 : j = 1,,p tq β j 0 [MODELO NÃO INÚTIL] Distribuição associada a SQR De ovo, o poto de partida para uma estatística de teste será a Soma de Quadrados associada à Regressão, SQR = (Ŷi Y ) 2 Tem-se (sem demostração): Teorema Dado o Modelo de Regressão Liear Múltipla, SQR σ 2 χ 2 p, se β 1 = β 2 = = β p = 0 SQR e SQRE são variáveis aleatórias idepedetes NOTA: repare que β 0 ão itervém as hipóteses J Cadima (ISA) Estatística e Delieameto 2012-13 230 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 231 / 446

A estatística do teste de ajustameto global O Teste F de ajustameto global do Modelo Sedo válido o Modelo RLM, pode efectuar-se o seguite Temos (veja também o acetato 138), se β j = 0, i = 1 : p W = SQR χ 2 σ 2 p V = SQRE χ 2 W /p σ 2 (p+1) V = QMR / (p+1) QMRE F p, (p+1) W, V idepedetes Teste F de ajustameto global do modelo RLM Hipóteses: H 0 : β 1 = β 2 = = β p = 0 vs H 1 : j = 1,,p tal que β j 0 Estatística do Teste: F = QMR QMRE F p, (p+1) se H 0 Nível de sigificâcia do teste: α Região Crítica (Região de Rejeição): Uilateral direita sedo QMR = SQR/p e QMRE = SQRE/[ (p + 1)] Rejeitar H 0 se F calc > f α[p, (p+1)] df(x, 4, 16) 00 01 02 03 04 05 06 07 0 1 2 3 4 x J Cadima (ISA) Estatística e Delieameto 2012-13 232 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 233 / 446 Expressão alterativa para a estatística do teste F A estatística do teste F de ajustameto global do modelo uma Regressão Liear Múltipla pode ser escrita a forma alterativa: F = (p + 1) p R 2 1 R 2 Tal como a Regressão Liear Simples, a estatística F é uma fução crescete do Coeficiete de Determiação, R 2 As hipóteses do teste também se podem escrever como H 0 : R 2 = 0 vs H 1 : R 2 > 0 A hipótese H 0 : R 2 = 0 idica ausêcia de relação liear etre Y e o cojuto dos preditores Correspode a um ajustameto péssimo do modelo A sua rejeição ão garate um bom ajustameto Outra formulação do Teste F de ajustameto global a RLM Teste F de ajustameto global do modelo RLM (alterativa) Hipóteses: H 0 : R 2 = 0 vs H 1 : R 2 > 0 Estatística do Teste: F = (p+1) R p 2 1 R 2 F (p, (p+1)) se H 0 Nível de sigificâcia do teste: α Região Crítica (Região de Rejeição): Uilateral direita Rejeitar H 0 se F calc > f α(p, (p+1)) A estatística F é uma fução crescete do coeficiete de determiação amostral, R 2 A hipótese ula H 0 : R 2 = 0 afirma que, a população, o coeficiete de determiação é ulo J Cadima (ISA) Estatística e Delieameto 2012-13 234 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 235 / 446 O Quadro-resumo do ajustameto global O pricípio da parcimóia a RLM Frequetemete, sitetiza-se a iformação usada um teste de ajustameto global um quadro-resumo da regressão: Fote gl SQ QM f calc Regressão p (ŷ i ȳ) 2 SQR p Resíduos (p + 1) (y i ŷ i ) 2 SQRE p 1 QMR QMRE Total 1 (y i ȳ) 2 Recordemos o pricípio da parcimóia a modelação: queremos um modelo que descreva adequadamete a relação etre as variáveis, mas que seja o mais simples (parcimoioso) possível Caso se dispoha de um modelo de Regressão Liear Múltipla com um ajustameto cosiderado adequado, a aplicação deste pricípio traduz-se em saber se será possível obter um modelo com meos variáveis preditoras, sem perder sigificativamete em termos de qualidade de ajustameto J Cadima (ISA) Estatística e Delieameto 2012-13 236 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 237 / 446

0 1 2 3 4 x 0 1 2 3 4 x Modelo e Submodelos Se dispomos de um modelo de Regressão Liear Múltipla, com relação de base Y = β 0 + β 1 x 1 + β 2 x 2 + β 3 x 3 + β 4 x 4 + β 5 x 5, chamamos submodelo a um modelo de regressão liear múltipla cotedo apeas algumas das variáveis preditoras, eg, Y = β 0 + β 2 x 2 + β 5 x 5, Podemos idetificar o submodelo pelo cojuto S das variáveis preditoras que pertecem ao submodelo No exemplo, S = {2, 5} O modelo e o submodelo são idêticos se β j = 0 para qualquer variável x j cujo ídice ão perteça a S Comparado modelo e submodelos Para avaliar se um dado modelo difere sigificativamete dum seu submodelo (idetificado pelo cojuto S dos ídices das suas variáveis), precisamos de optar etre as hipóteses: H 0 : β j = 0, j / S vs H 1 : j / S tal que β j 0 [SUBMODELO OK] [SUBMODELO PIOR] NOTA: Esta discussão só evolve coeficietes β j de variáveis preditoras O coeficiete β 0 faz sempre parte dos submodelos Este coeficiete β 0 ão é relevate do poto de vista da parcimóia: a sua preseça ão implica trabalho adicioal de recolha de dados, em de iterpretação do modelo J Cadima (ISA) Estatística e Delieameto 2012-13 238 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 239 / 446 Uma estatística de teste para a comparação modelo/submodelo A estatística de teste evolve a comparação das Somas de Quadrados Residuais do: modelo completo (refereciado pelo ídice C); e do submodelo (refereciado pelo ídice S) Vamos admitir que o submodelo tem k preditores (k + 1 parâmetros): F = (SQRE S SQRE C )/(p k) SQRE C /[ (p + 1)] F p k, (p+1), caso β j = 0, para todas as variáveis x j que ão perteçam ao submodelo O teste a um submodelo (teste F parcial) Teste F de comparação dum modelo com um seu submodelo Dado o Modelo de Regressão Liear Múltipla, Hipóteses: H 0 : β j = 0, j / S vs H 1 : j / S tal que β j 0 Estatística do Teste: F = (SQRE S SQRE C )/(p k) SQRE C /[ (p+1)] F p k, (p+1), sob H 0 Nível de sigificâcia do teste: α Região Crítica (Região de Rejeição): Uilateral direita Rejeitar H 0 se F calc > f α[p k, (p+1)] df(x, 4, 16) 00 01 02 03 04 05 06 07 J Cadima (ISA) Estatística e Delieameto 2012-13 240 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 241 / 446 Expressão alterativa para a estatística do teste A estatística do teste F de comparação de um modelo completo com p preditores, e um seu submodelo com apeas k preditores pode ser escrita a forma alterativa: F = (p + 1) R2 C R2 S p k 1 RC 2 As hipóteses do teste também se podem escrever como H 0 : R 2 C = R2 S vs H 1 : R 2 C > R2 S, A hipótese H 0 idica que o grau de relacioameto liear etre Y e o cojuto dos preditores é idêtico o modelo e o submodelo Caso ão se rejeite H 0, opta-se pelo submodelo (mais parcimoioso) Caso se rejeite H 0, opta-se pelo modelo completo (ajusta-se sigificativamete melhor) Teste F parcial: formulação alterativa Teste F de comparação dum modelo com um seu submodelo Dado o Modelo de Regressão Liear Múltipla, Hipóteses: H 0 : RC 2 = R2 S vs H 1 : RC 2 > R2 S Estatística do Teste: F = (p+1) p k R2 C R2 S 1 R 2 C Nível de sigificâcia do teste: α F p k, (p+1), sob H 0 Região Crítica (Região de Rejeição): Uilateral direita Rejeitar H 0 se F calc > f α[p k, (p+1)] df(x, 4, 16) 00 01 02 03 04 05 06 07 J Cadima (ISA) Estatística e Delieameto 2012-13 242 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 243 / 446

O teste a submodelos o A iformação ecessária para um teste F parcial obtem-se o, através da fução aova, com dois argumetos: os objectos lm resultates de ajustar o modelo completo e o submodelo sob comparação Nos exemplos dos lírios (acetatos 122 e 218), temos: > irislm<-lm(petalwidth ~ PetalLegth, data=iris) > iris2lm<-lm(petalwidth ~ PetalLegth + SepalLegth + SepalWidth +, data=iris) > aova(irislm, iris2lm) Aalysis of Variace Table Model 1: PetalWidth ~ PetalLegth Model 2: PetalWidth ~ PetalLegth + SepalLegth + SepalWidth ResDf RSS Df Sum of Sq F Pr(>F) 1 148 63101 2 146 53803 2 09298 12616 8836e-06 *** --- Sigif codes: 0 *** 0001 ** 001 * 005 01 1 Relação etre os testes-t e o teste F parcial Caso o modelo e submodelo difiram uma úica variável, x j, o teste F parcial descrito os acetatos ateriores é equivalete ao teste t (acetato 220) com as hipóteses H 0 : β j = 0 vs H 1 : β j 0 Nesse caso, ão apeas as hipóteses dos dois testes são iguais, como a estatística do teste F parcial é o quadrado da estatística do teste t referido Tem-se p k = 1, e como é sabido (ver os apotametos da disciplia de Estatística dos primeiros ciclos do ISA), se uma variável aleatória T tem distribuição t ν, etão o seu quadrado, T 2 tem distribuição F 1,ν J Cadima (ISA) Estatística e Delieameto 2012-13 244 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 245 / 446 Como escolher um submodelo? O teste F parcial (teste aos modelos ecaixados) permite-os optar etre um modelo e um seu submodelo Por vezes, um submodelo pode ser sugerido por: razões de ídole teórica, sugerido que determiadas variáveis preditoras ão sejam, a realidade, importates para iflueciar os valores de Y razões de ídole prática, como a dificuldade, custo ou volume de trabalho associado à recolha de observações para determiadas variáveis preditoras Nestes casos, pode ser claro que submodelo(s) se deseja testar Como escolher um submodelo? (cot) Mas em muitas situações ão é, à partida, evidete qual o subcojuto de variáveis preditoras que se deseja cosiderar o submodelo Pretede-se apeas ver se o modelo é simplificável Nestes casos, a opção por um submodelo ão é um problema fácil Dadas p variáveis preditoras, o úmero de subcojutos, de qualquer cardialidade, excepto 0 (cojuto vazio) e p (o modelo completo) que é possível escolher é dado por 2 p 2 A tabela seguite idica o úmero desses subcojutos para p = 5, 10, 15, 20 p 2 p 2 5 30 10 1 022 15 32 766 20 1 048 574 J Cadima (ISA) Estatística e Delieameto 2012-13 246 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 247 / 446 Algoritmos de selecção de submodelos Para valores de p pequeos, é possível aalisar todos os possíveis subcojutos Mas para p médio ou grade, essa aálise completa é iviável Também ão é legítimo olhar para o ajustameto do modelo completo e, com base os testes t à sigificâcia de cada coeficiete β j, optar pela exclusão de várias variáveis preditoras em simultâeo: os testes t aos coeficietes β j são feitos partido do pricípio que todas as restates variáveis pertecem ao modelo Um exemplo Nos dados relativos ao Exercício 2 (RLM) das aulas práticas, a tabela associada à regressão da variável Brix sobre todas as restates é: Estimate Std Error t value Pr(> t ) (Itercept) 608878 100252 6073 0000298 *** Diametro 127093 051219 2481 0038030 * Altura -070967 041098-1727 0122478 Peso -020453 014096-1451 0184841 ph 051557 033733 1528 0164942 Acucar 008971 003611 2484 0037866 * Mas ão é legítimo cocluir que Altura, Peso e ph são dispesáveis > aova(brix2lm,brixlm) Aalysis of Variace Table Model 1: Brix ~ Diametro + Acucar Model 2: Brix ~ Diametro + Altura + Peso + ph + Acucar ResDf RSS Df Sum of Sq F Pr(>F) 1 11 042743 2 8 014925 3 027818 497 003104 * J Cadima (ISA) Estatística e Delieameto 2012-13 248 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 249 / 446

Algoritmos de pesquisa sequeciais O algoritmo de exclusão sequecial A fim de procurar simplificar um modelo de regressão liear múltipla, sem precisar de aalisar todo os possíveis submodelos, vamos cosiderar uma classe de algoritmos de pesquisa Em particular, vamos cosiderar um algoritmo que, em cada passo, exclui uma variável preditora, até alcaçar uma codição de paragem cosiderada adequada Trata-se do algoritmo de exclusão sequecial (backward elimiatio) Existem variates deste algoritmo ão estudados aqui: algoritmo de iclusão sequecial (forward selectio) algoritmos de exclusão/iclusão alterada (stepwise selectio) 1 ajustar o modelo completo, com os p preditores; 2 existem variáveis para as quais ão se rejeita a hipótese β j = 0? Em caso egativo, passar ao poto seguite Em caso afirmativo, qualquer dessas variáveis é cadidata a sair do modelo 1 se apeas existe uma cadidata a sair, excluir essa variável; 2 se existir mais do que uma variável cadidata a sair, excluir a variável associada ao maior p-value (isto é, ao valor da estatística t mais próxima de zero) Em qualquer caso, reajustar o modelo após a exclusão da variável e repetir este poto 3 Quado ão existirem variáveis cadidatas a sair, ou quado sobrar um úico preditor, o algoritmo pára Tem-se etão o modelo fial J Cadima (ISA) Estatística e Delieameto 2012-13 250 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 251 / 446 Um exemplo Exercício 2 (RLM) Algoritmos sequeciais com base o AIC > summary(lm(brix ~ Diametro + Altura + Peso + ph + Acucar, data=brix)) Estimate Std Error t value Pr(> t ) (Itercept) 608878 100252 6073 0000298 *** Diametro 127093 051219 2481 0038030 * Altura -070967 041098-1727 0122478 Peso -020453 014096-1451 0184841 ph 051557 033733 1528 0164942 Acucar 008971 003611 2484 0037866 * > summary(lm(brix ~ Diametro + Altura + ph + Acucar, data=brix)) Estimate Std Error t value Pr(> t ) (Itercept) 625964 105494 5934 0000220 *** Diametro 140573 053373 2634 0027189 * Altura -106413 035021-3039 0014050 * ph 033844 033322 1016 0336316 Acucar 008481 003810 2226 0053031 > summary(lm(brix ~ Diametro + Altura + Acucar, data=brix)) Estimate Std Error t value Pr(> t ) (Itercept) 697183 078941 8832 49e-06 *** Diametro 157932 050642 3119 001090 * Altura -111589 034702-3216 000924 ** Acucar 009039 003776 2394 003771 * Pode-se comparar o submodelo fial com o modelo completo, através dum teste F parcial O dispoibiliza fuções para automatizar pesquisas sequeciais de submodelos, semelhates à que aqui foi euciada, mas em que critério de exclusão duma variável em cada passo se baseia o Critério de Iformação de Akaike (AIC) O AIC é uma medida geral da qualidade de ajustameto de modelos No cotexto duma Regressão Liear Múltipla com k variáveis preditoras, pode defiir-se como ( ) SQREk AIC = l + 2(k + 1) Um modelo para a variável resposta Y é cosiderado melhor que outro se tiver um AIC mais baixo (o que favorece modelos com SQRE meor, mas também com meos parâmetros) J Cadima (ISA) Estatística e Delieameto 2012-13 252 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 253 / 446 Algoritmos sequeciais com base o AIC (cot) Algoritmos sequeciais com base o AIC (cot) No algoritmo de exclusão sequecial, cada passo pode ser efectuado com base o critério AIC: ajustar o modelo completo e calcular o respectivo AIC ajustar cada modelo com meos uma variável e calcular o respectivo AIC Se ehum dos AICs obtidos excluido uma variável fôr iferior ao AIC do modelo aterior, o algoritmo termia sedo o modelo aterior o modelo fial Caso alguma das exclusões reduza o AIC, efectua-se a exclusão que maior redução o AIC provoca e regressa-se ao poto aterior Em cada passo de exclusão, o submodelo com meor AIC será aquele que tiver excluído a variável cujo teste a β j = 0 tem meor sigificâcia (maior p-value), ou seja, aquele que provocar meor aumeto o SQRE Assim, o procedimeto de exclusão sequecial baseado os testes t ou o AIC coicidem a ordem das variáveis a excluir, podedo diferir apeas o critério de paragem Em geral, as difereças etre os dois critérios evolvem a cosideração de submodelos com úmero diferete de variáveis, como por exemplo, quado se podera se ficar com o modelo actual é preferível a efectuar uma exclusão J Cadima (ISA) Estatística e Delieameto 2012-13 254 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 255 / 446

y Algoritmos de exclusão sequecial o Uma palavra fial sobre algoritmos de pesquisa A fução step corre o algoritmo de exclusão sequecial, com base o AIC Cosidere aida o exemplo dos dados brix (Exercício 2 RLM): > brixlm <- lm(brix ~ Diametro+Altura+Peso+pH+Acucar, data = brix) > step(brixlm, dir="backward") Start: AIC=-5158 Brix ~ Diametro + Altura + Peso + ph + Acucar Df Sum of Sq RSS AIC <oe> 014925-51576 - Peso 1 0039279 018853-50306 - ph 1 0043581 019284-49990 - Altura 1 0055631 020489-49141 - Diametro 1 0114874 026413-45585 - Acucar 1 0115132 026439-45572 O algoritmo de exclusão sequecial ão garate a idetificação do melhor submodelo com um dado úmero de preditores Apeas idetifica, de forma que ão é computacioalmete muito pesada, submodelos que se presume serem bos Deve ser usado com bom seso e o submodelo obtido cruzado com outras cosiderações (como por exemplo, o custo ou dificuldade de obteção de cada variável, ou o papel que a teoria relativa ao problema em questão reserva a cada preditor) Neste caso, ão se exclui qualquer variável: O AIC do modelo iicial é iferior ao de qualquer submodelo resultate de excluir uma variável O submodelo fial é o modelo iicial J Cadima (ISA) Estatística e Delieameto 2012-13 256 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 257 / 446 Regressão Poliomial Um caso particular de relação ão-liear, mesmo que evolvedo apeas uma variável preditora e a variável resposta, pode ser facilmete tratada o âmbito duma regressão liear múltipla: o caso de relações poliomiais etre Y e um ou mais preditores Cosidere-se, por exemplo, que a relação de fudo etre uma variável resposta Y e uma úica variável preditora X ão é dada por uma recta, mas sim por uma parábola: 0 20 40 60 80 Regressão Poliomial - Exemplo Cosidere os dados do Exercício 6 da Regressão Liear Múltipla, relativos a medições sobre = 600 folhas de videira Eis o gráfico das áreas vs comprimetos de ervuras pricipais, com sobreposta a recta de regressão: videiras$area 100 200 300 400 4 6 8 10 12 14 16 videiras$np 0 2 4 6 8 10 x J Cadima (ISA) Estatística e Delieameto 2012-13 258 / 446 Há uma tedêcia para curvatura Talvez um poliómio de 2o grau? J Cadima (ISA) Estatística e Delieameto 2012-13 259 / 446 Regressão Poliomial - Exemplo (cot) Qualquer parábola, com equação Regressão Poliomial - Exemplo (cot) Y = β 0 + β 1 x + β 2 x 2, pode ser ajustada e estudada como se se tratasse duma regressão liear etre Y e as variáveis X 1 = X e X 2 = X 2 : > summary(lm(area ~ NP + I(NP^2), data=videiras)) Coefficiets: Estimate Std Error t value Pr(> t ) (Itercept) 75961 220431 0345 0731 NP -02172 40125-0054 0957 I(NP^2) 12941 01801 7187 198e-12 *** --- Residual stadard error: 2886 o 597 degrees of freedom Multiple R-squared: 08162, Adjusted R-squared: 08155 F-statistic: 1325 o 2 ad 597 DF, p-value: < 22e-16 A rejeição da hipótese β 2 = 0 idica que há ajustameto sigificativamete melhor da parábola Eis a parábola ajustada: videiras$area 100 200 300 400 R 2 = 08003 R 2 = 08162 y = 75951 02172x + 12941x 2 4 6 8 10 12 14 16 videiras$np J Cadima (ISA) Estatística e Delieameto 2012-13 260 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 261 / 446

Regressões Poliomiais (cot) O argumeto é extesível a qualquer poliómio de qualquer grau, e em qualquer úmero de variáveis Dois exemplos: Poliómio de grau p uma variável Y = β 0 + β 1 }{{} x +β 2 }{{} x 2 +β 3 }{{} x 3 + + β p }{{} x p =x 1 =x 2 =x 3 Poliómio de grau 2 em 2 variáveis =x p Y = β 0 + β 1 }{{} x +β 2 }{{} x 2 +β 3 }{{} z +β 4 }{{} z 2 +β 5 }{{} xz =x 1 =x 2 =x 3 =x 4 =x 5 A aálise de Resíduos e outros diagósticos Uma aálise de regressão liear ão fica completa sem o estudo dos resíduos e de algus outros diagósticos Grade parte do que se disse sobre resíduos a Regressão Liear Simples matém-se válido uma Regressão Liear Múltipla Relembrar três coceitos relacioados, mas diferetes: Erros aleatórios ε i = Y i (β 0 + β 1 x 1(i) + β 2 x 2(i) + + β p x p(i) ) Resíduos (variáveis aleatórias) E i = Y i ( ˆβ 0 + ˆβ 1 x 1(i) + ˆβ 2 x 2(i) + + ˆβ p x p(i) ) Resíduos (observados) e i = y i (b 0 + b 1 x 1(i) + b 2 x 2(i) + + b p x p(i) ) J Cadima (ISA) Estatística e Delieameto 2012-13 262 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 263 / 446 Propriedades dos Resíduos sob o Modelo RLM O modelo de Regressão Liear Múltipla admite que ε i N (0, σ 2 ) i = 1,, Sob o modelo RLM, os resíduos têm a seguite distribuição: ( ) E i N 0, σ 2 (1 h ii ) i = 1,,, ode h ii é o i-ésimo elemeto diagoal da matriz H = X(X t X) 1 X t de projecção ortogoal sobre o subespaço C (X), gerado pelas coluas da matriz X Em otação vectorial: E = Y Ŷ = Y HY = (I H)Y, Propriedades dos Resíduos sob o Modelo RLM (cot) Teorema (Distribuição dos Resíduos o MRLM) Dado o Modelo de Regressão Liear Múltipla, tem-se: ) E N (0, σ 2 (I H) sedo E = (I H)Y O vector dos resíduos E = Y Ŷ = Y HY = (I H)Y, tem distribuição Multiormal pelo último poto do Teorema do acetato 206 O vector esperado de E resulta das propriedades do acetato 202: E[E] = E[(I H)Y] = (I H)E[Y] = (I H)Xβ = 0, pois o vector Xβ C (X), logo permaece ivariate sob a acção da matriz de projecções H: HXβ = Xβ J Cadima (ISA) Estatística e Delieameto 2012-13 264 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 265 / 446 Propriedades dos Resíduos sob o Modelo RLM (cot) Propriedades dos Resíduos sob o Modelo RLM (cot) A matriz de covariâcias de E calcula-se a partir do facto de a matriz de projecção ortogoal ser: simétrica, isto é H t = H; idempotete, isto é, H 2 = HH = H Tedo também presetes as propriedades do acetato 203, vem: V [E] = V [(I H)Y] = (I H)V [Y](I H) t = σ 2 (I H) Embora o modelo RLM os erros aleatórios sejam idepedetes, os resíduos ão são variáveis aleatórias idepedetes, pois as covariâcias etre resíduos diferetes são (em geral), ão ulas: cov(e i,e j ) = σ 2 h ij, se i j, ode h ij idica o elemeto da liha i e colua j da matriz H J Cadima (ISA) Estatística e Delieameto 2012-13 266 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 267 / 446

Vários tipos de resíduos Tal como a RLS, defiem-se diferetes tipos de resíduos (como resultado do facto de as variâcias dos resíduos clássicos (E i ) ão serem costates, mesmo sob o modelo de RLM): Resíduos habituais : E i = Y i Ŷi; Resíduos (iteramete) estadardizados : R i = E i QMRE (1 hii ) Resíduos Studetizados (ou exteramete estadardizados): T i = E i QMRE [ i] (1 h ii ) sedo QMRE [ i] o valor de QMRE resultate de um ajustameto da Regressão excluído a i-ésima observação (associada ao resíduo E i ) Aálise dos resíduos Tal como para a RLS, também em regressões múltiplas se avalia a validade dos pressupostos do modelo através de gráficos de resíduos Os gráficos mais usuais são os já cosiderados a RLS; e a sua leitura faz-se de forma aáloga: gráfico de E i s vs Ŷis: os potos devem-se dispor uma bada horizotal, cetrada o valor zero, sem outro padrão especial qq-plot dos resíduos estadardizados vs distribuição Normal: a Normalidade dos erros aleatórios correspode à liearidade este gráfico gráfico de resíduos vs ordem de observação: para ivestigar evetuais faltas de idepedêcia dos erros aleatórios J Cadima (ISA) Estatística e Delieameto 2012-13 268 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 269 / 446 O efeito alavaca Outras ferrametas de diagóstico visam idetificar observações idividuais que merecem ulterior aálise, tal como a RLS Mas importa adaptar as defiições ao cotexto de Regressão Múltipla Numa RLM o valor de efeito alavaca (leverage) é o valor h ii do elemeto diagoal da matriz de projecção ortogoal H, correspodete à observação i O valor médio das observações alavaca uma RLM é h = p + 1 ou seja, a razão etre o úmero de parâmetros e o úmero de observações, Gráficos de diagóstico A distâcia de Cook para avaliar a ifluêcia da observação i defie-se agora como: D i = ŷ ŷ ( i) 2 (p + 1) QMRE, ode ŷ ( i) = Xˆβ ( i) é o vector dos valores ajustados de Y obtido estimado os βs sem a observação i Expressão equivalete é (sedo R i o correspodete resíduo estadardizado): ( ) D i = Ri 2 hii 1 1 h ii p + 1 Os restates aspectos da discussão são aálogos aos duma RLS J Cadima (ISA) Estatística e Delieameto 2012-13 270 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 271 / 446 Um exemplo de gráficos de diagóstico Um exemplo destes gráficos de diagósticos, para os dados do Exercício 2 da RLM (Brix) é: Cook s distace 00 05 10 15 1 Cook s distace 2 4 6 8 10 12 14 Obs umber 13 14 Stadardized residuals 2 1 0 1 2 Residuals vs Leverage Cook s distace 00 02 04 06 Leverage Os valores bastate elevados de distâcia de Cook e h ii este exemplo reflectem o reduzido úmero de observações ( = 14) usado para ajustar um modelo com muitos parâmetros (p + 1 = 6) J Cadima (ISA) Estatística e Delieameto 2012-13 272 / 446 1 13 14 1 05 05 1 O R 2 modificado Como foi visto o cotexto da RLS (acetato 143), defie-se uma variate do Coeficiete de Determiação: o R 2 modificado O Coeficiete de Determiação usual: R 2 = SQR SQT = 1 SQRE SQT O R 2 modificado (sedo QMT = SQT /( 1)): R 2 mod = 1 QMRE QMT = 1 SQRE SQT 1 (p + 1) Quado p + 1 (isto é, quado há muito mais observações que parâmetros o modelo) tem-se R 2 R 2 mod Se é pouco maior que o úmero de variáveis preditoras, R 2 mod é bastate iferior a R 2, excepto se R 2 fôr muito próximo de 1 J Cadima (ISA) Estatística e Delieameto 2012-13 273 / 446

Três advertêcias fiais 1 Podem surgir problemas associados à multicoliearidade das variáveis preditoras, ou seja, ao facto das coluas da matriz X serem (quase) liearmete depedetes Nesse caso, podem: existir problemas uméricos o cálculo de (X t X) 1, logo o ajustameto do modelo e a estimação dos parâmetros; existir variâcias muito grades de algus ˆβ i s, o que sigifica muita istabilidade a iferêcia Multicoliearidade reflecte redudâcia de iformação os preditores É possível elimiá-la excluído da aálise uma ou várias variáveis preditoras que sejam resposáveis pela (quase) depedêcia liear dos preditores Três advertêcias fiais (cot) 2 Tal como a Regressão Liear Simples, podem ser ecaradas trasformações, quer da variável resposta, quer de uma ou várias das variáveis preditoras Em particular, podem ser úteis trasformações que liearizem a relação etre Y e X 1, X 2,, X p Tais trasformações liearizates podem permitir estudar relações de tipo ão-liear através de relações lieares etre as variáveis trasformadas Eg, a relação ão liear etre Y, x 1 e x 2, Y = β 0 x β 1 1 x β 2 2 tora-se, após uma logaritmização, uma relação liear etre l(y ), l(x 1 ) e l(x 2 ) (com β 0 = l(β 0)): l(y) = β 0 + β 1 l(x 1 ) + β 2 l(x 2 ) J Cadima (ISA) Estatística e Delieameto 2012-13 274 / 446 J Cadima (ISA) Estatística e Delieameto 2012-13 275 / 446 Três advertêcias fiais (cot) 3 Não se deve cofudir a existêcia de uma relação liear etre preditores X 1, X 2,, X p e uma variável resposta Y, com uma relação de causa e efeito Pode existir uma relação de causa e efeito Mas pode também verificar-se: Uma relação de variação cojuta, mas ão de tipo causal (como por exemplo, em muitos cojutos de dados morfométricos) Por vezes, preditores e variável resposta são todos efeito de causas comus subjacetes Uma relação espúria, de coicidêcia umérica Uma relação causal só pode ser afirmada com base em teoria própria do feómeo sob estudo, e ão com base a relação liear estabelecida estatisticamete J Cadima (ISA) Estatística e Delieameto 2012-13 276 / 446