Diagnóstico em Regressão. Rejane Sobrino Pinheiro Tania Guillén de Torres

Documentos relacionados
Análise dos resíduos e Outlier, Alavancagem e Influência

Probabilidade e Estatística. Correlação e Regressão Linear

Análise de Variância. Introdução. Rejane Sobrino Pinheiro Tania Guillén de Torres

b. As medidas de posição mais importantes são as medidas de tendência central. Dentre elas, destacamos: média aritmética, mediana, moda.

Variáveis Indicadoras. Roteiro. Introdução

ESTATÍSTICA. na Contabilidade Revisão - Parte 2. Medidas Estatísticas

O que heterocedasticidade? Heterocedasticidade. Por que se preocupar com heterocedasticidade? Exemplo de heterocedasticidade.

Medidas de tendência central. Média Aritmética. 4ª aula 2012

Y = AN α, 0 < α < 1 (1) Π = RT CT = P Y W N (2) Π/ N = α N α -1 AP W = 0. W = α P AN α -1. P = W/α AN α -1

ESTATÍSTICA APLICADA

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

Análise de Regressão

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

Tabela 1. Porcentagem de crianças imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 países, 1992.

Prof. Lorí Viali, Dr.

CORRELAÇÃO E REGRESSÃO

LEIS DE KIRCHHOFF EM CIRCUITOS DE CORRENTE CONTÍNUA

A esse tipo de tabela, cujos elementos não foram numericamente organizados, denominamos tabela primitiva.

CÁLCULO DA DIRECTRIZ

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Análise de influência

2 PROPRIEDADES ÓPTICAS

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Medidas de Localização

x Ex: A tabela abaixo refere-se às notas finais de três turmas de estudantes. Calcular a média de cada turma:

Análise Exploratória de Dados

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Casos de estimação do modelo de ajustamento da dívida com o xtabond2 do Stata

O problema da superdispersão na análise de dados de contagens

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Probabilidade: Diagramas de Árvore

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

4 Critérios para Avaliação dos Cenários

Em muitas aplicações, estamos interessados em subgrafos especiais de um determinado grafo.

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

Covariância na Propagação de Erros

TABELAS E GRÁFICOS PARA VARIÁVEIS ALEATÓRIAS QUANTITATIVAS CONTÍNUAS

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

4.1. Medidas de Posição da amostra: média, mediana e moda

O problema da superdispersão na análise de dados de contagens

Gráficos de Controle para Processos Autocorrelacionados

Prof. Lorí Viali, Dr.

Redução dos Dados. Júlio Osório. Medidas Características da Distribuição. Tendência Central (Localização) Variação (Dispersão) Forma

Incerteza e propagação de Erros em sistemas de medição. Prof. Valner Material desenvolvido com notas de aulas e

Escola Secundária de Lousada Ficha de trabalho de Matemática do 7º ano nº Data: / / 2011 Assunto: Tratamento de dados I Lições nº, e,

Cap. 11 Correlação e Regressão

Prof. Lorí Viali, Dr.

Estatística II Antonio Roque Aula 18. Regressão Linear

2 Incerteza de medição

Incerteza na Medição da Largura de Cordões de Solda

Introdução e Organização de Dados Estatísticos

Comprimento de Arco. Comprimento de Arco

67 das 88 vagas no AFRF no PR/SC 150 das 190 vagas no TRF no PR/SC 150 das 190 vagas no TRF Conquiste sua vitória ao nosso lado

Análise de Variância. Comparação de duas ou mais médias

Métodos Avançados em Epidemiologia

2. VARIÁVEIS ALEATÓRIAS

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Termo-Estatística Licenciatura: 4ª Aula (08/03/2013)

CAPÍTULO 9 REGRESSÃO LINEAR PPGEP REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES UFRGS. Regressão Linear Simples

Uma estimativa bayesiana aplicada aos casos notificados de hantavirose no estado do Pará via regressão logística

Controle de Processo de Produção do Alto Forno por meio de Técnicas Estatísticas Multivariadas em Tempo Real

Regressão linear múltipla. Prof. Tatiele Lacerda

Regressão e Correlação Linear

Regressão Linear - Introdução

Tipo tratamento idade Tipo tratamento sexo

CURSO SOBRE MEDIDAS DESCRITIVA Adriano Mendonça Souza Departamento de Estatística - UFSM -

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

Proposta de resolução da Prova de Matemática A (código 635) 21 de Junho de 2010

(c) 0,5; 9,5; -10,5; -0,5; 12,3; 2,3; etc. Ocorre desvio alto para o indivíduo 19 (-19,5) X (idade da casa)

REGRESSÃO NÃO LINEAR 27/06/2017

8 - Medidas Descritivas

AULA 4. Segundo Quartil ( Q observações são menores que ele e 50% são maiores.

Algarismos Significativos Propagação de Erros ou Desvios

Associação entre duas variáveis quantitativas

CAPÍTULO 2 - Estatística Descritiva

Análise Exploratória de Dados

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

Análise de Regressão. Notas de Aula

Análise de Regressão Linear Múltipla IV

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

Variável discreta: X = número de divórcios por indivíduo

Análise Descritiva com Dados Agrupados

Lei dos transformadores e seu princípio de funcionamento. Os transformadores operam segundo a lei de Faraday ou primeira lei do eletromagnetismo.

Medidas de Dispersão e Assimetria Desvio Médio Variância Desvio Padrão Medidas de Assimetria Coeficiente de Assimetria Exemplos.

Capítulo 1 Variáveis Elétricas

Cap. IV Análise estatística de incertezas aleatórias

Análise de Regressão Linear Simples III

Programação de Computadores II TCC /Turma A 1

ANÁLISE ESTATÍSTICA APLICADA A MODELAGEM DE MISTURAS EXPERIMENTAIS DE ARGAMASSAS PARA ASSENTAMENTO DE BLOCOS DE CONCRETO

Identidade dos parâmetros de modelos segmentados

CURVAS CARACTERÍSTICAS DE RESISTORES

Controle Estatístico de Qualidade. Capítulo 8 (montgomery)

3. Estatística descritiva bidimensional

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Experiência V (aulas 08 e 09) Curvas características

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Transcrição:

Dagnóstco em Regressão Rejane Sobrno Pnhero Tana Gullén de Torres

Dagnóstcos em Regressão Introdução Conjunto de ferramentas para análse dos resíduos, detecção de valores extremos (outlers), de pontos nfluentes (alavanca) e para avalação de colneardade. Análses ncas Importante conhecer algumas característcas báscas dos dados: O tpo de undade de análse (homens dosos, lâmnas etc.) O procedmento de coleta dos dados A undade de medda de cada varável O ntervalo razoável e o valor típco de cada varável Estas nformações, juntamente com a análse exploratóra e com as estatístcas correspondentes, podem ser usadas para detecção de erros nos dados e de potencas volações dos pressupostos.

Análses ncas (cont...) Estatístca descrtva - depende do tpo de varável (proporção, médas, medanas e outros percents, etc.). Nas varáves quanttatvas, recomenda-se lstar os 5 maores e 5 menores valores de cada varável. Embora smples, juntamente com o conhecmento dos 4 tens do prmero parágrafo, favorece a detecção de erros nos dados ou da presença de outlers. Pode-se calcular também as estatístcas para alguns grupos mportantes (ex: homens e mulheres) de dados de nteresse. Interessante comparar os resultados obtdos com o que é esperado, dado o conhecmento centífco sobre as dferentes varáves. Estatístcas mas elaboradas também são útes nesta etapa, nclundo correlação entre pares de varáves e entre a varável resposta e as varáves ndependentes. Exame de colneardade.

Análses ncas - Estatístca descrtva Varáves Contnuas. sum SO- days, detal SO ------------------------------------------------------------- Percentles Smallest % 8 8 5% 9 9 0% 0 9 Obs 4 5% 3 0 Sum of Wgt. 4 50% 6 Mean 30.04878 Largest Std. Dev. 3.477 75% 35 65 90% 6 69 Varance 550.9476 95% 69 94 Skewness.643887 99% 0 0 Kurtoss 5.5466. graph SO, xlab(0,0,40,60,80,00,0) ylab bn(6) 0 SO.4 00 80 Fracton. 60 40 0 0 0 0 40 60 80 00 0 SO 0

Análse exploratóra de dados Dagramas de espalhamento entre varável resposta (dependente) e as ndependentes. Por exemplo Peso vs. Altura. PESO vs. ALTURA A afastado da nuvem com relação ao peso, mas no ntervalo de plausbldade de altura potencal outler

PESO vs. IDADE

Análse exploratóra de dados cont. Dagrama de dspersão das varáves ndependentes, para avalar colneardade (forte assocação entre as varáves ndependentes). ALTURA vs. IDADE A afastado da nuvem potencal outler ou pq está afastado, se não for outler?

Nos 3 gráfcos aparece uma observação destoante. Duas nterpretações possíves para ela: Erro de medda ou dgtação Valor está correto e o seu efeto na relação deve ser analsado. Não quer dzer que deva ser retrada (a prncípo, mas deve-se fcar de olho nela).

Análse dos resíduos Resíduo: dferença entre o valor observado (Y ) e o valor predto pela regressão ( Yˆ ˆ ˆ ) β + β X 0 dscrepânca que permanece após os dados terem sdo ajustados pelo modelo de mínmos quadrados. ε Y Yˆ,,,..., n Posção dos Pontos em torno da reta vs. Resíduos O ponto 6 está mas afastado do modelo ajustado (reta) o resíduo é maor para este ponto.

Análse dos resíduos pode ser usada para estudar a adequação do modelo lnear, verfcando se: A função de regressão é lnear A dstrbução de Y possu varânca constante para todos os valores de X (homocedastcdade) Dstrbução de Y é normal ε é normal Os termos de erro ε são ndependentes.

Os pressupostos para o erro (resíduo) são: Dstrbução normal (necessára para a execução de testes de hpóteses paramétrcos) Méda zero Varânca σ constante n k n S ε ε n n _ 0 ε ε ), ( ~ 0 σ ε ε N

Padronzação dos resíduos Resíduo padronzado tem varânca e méda 0. S e e z n n n k n S S k n k n Z ε ε z ~N(0,) Resíduo orgnal Desvo padrão dos resíduos Qtos DP está afastado Não subtras µ, pos é 0 S e e z µ

Resíduos studentzados r S e h z h 0 h h alavanca - medda da mportânca da -ésma observação em determnar o ajuste do modelo. À medda que h, denomnador 0 e r Observação nfluente méda Se elmnarmos o ponto, qto que alteram os parâmetros?

Resíduo Jackknfe r ( ) r S S ( ) S e Varânca usando todos os pontos r ( n k ) ( h ) ( n k ) r ( ) Varânca trando ponto se a dferença dos modelos, das varâncas (razão grande), o ponto é nfluente Valores altos de h ressaltam r (-) r segue aproxmadamente uma dstrbução de Student r (-) segue uma dstrbução de Student Se tro, afeta a reta nfluenca a estmatva dos parâmetros a medda da nfluênca é leverage alavanca Se tro, não afeta a reta A fórmula para h obtda da matrz de dados das varáves ndependentes transposta

Análse Unvarada dos Resíduos Padronzados, studentzados ou do tpo jacknfe : Análse Descrtva: Utlzando os resíduos padronzados, espera-se que, caso sgam uma dstrbução normal: Metade deve ser negatva e metade postva. A méda, medana e a moda sejam 0. A varânca é aproxmadamente? Aproxmadamente 68% deles caam entre os valores - e +. Aproxmadamente 95% deles caam entre os valores - e +. Aproxmadamente 99% deles caam entre os valores -3 e +3. Comparar os maores valores com os percents p 95 valores com os percents p ou p 5. ou p 99 e os menores Valores absolutos maores do que,5 ou 3 ndcaram a presença de um possível outler.

Coefcente de assmetra: O coefcente de assmetra (skewness) descreve o alongamento horzontal da dstrbução de freqüênca para um lado ou outro, de modo que uma cauda de observações é maor e tem mas observações do que a outra. Se uma dstrbução é assmétrca, a méda se desloca em dreção da cauda alongada, mas do que a medana, porque a méda é mas fortemente nfluencada por valores extremos. O coefcente de assmetra assume o valor zero quando a dstrbução é smétrca, por exemplo a normal. Valores negatvos para dstrbuções que apresentam uma cauda mas prolongada no lado esquerdo da dstrbução, e valores postvos quando a dstrbução apresenta uma cauda mas prolongada no lado dreto da dstrbução.

Coefcente de assmetra (skewness) Desvos médos ao cubo (em relação à méda) Mede o grau de assmetra Dstrbução smétrca skewness 0 < + > assmetra smétrco assmtra e sk e n n n e sk n S e e 0 0 0 ) (, ) ( 3

Kurtose: A kurtose é caracterzada por um alongamento vertcal da dstrbução de freqüênca. Quanto menor for o coefcente de kurtose, mas achatada será a dstrbução. A dstrbução normal tem um coefcente de kurtose gual a 3. kurt( e) n n( n + ) e e ( n )( n 3) n S e 4,.8.6 norm0 norm norm.4 kurt( e) > 3 3 < 3 caudas pequenas dstrb. normal caudas longas. 0-4 -3 - - 0 3 4 abs Em curvas bem achatadas, semelhança com a normal é mas problemátca. Provavelmente, entre +/- desvos há < 95% das observações. > 5% além destes lmtes.

Análse dos Resíduos Padronzados, studentzados ou do tpo jacknfe : Avalar a smetra através de meddas que descrevem a forma de uma dstrbução, como é o caso do coefcente de assmetra (skewness)e do coefcente de kurtose.. sum respad, detal Standardzed resduals ------------------------------------------------------------- Percentles Smallest % -.790 -.790 5% -.790 -.08339 0% -.08339 -.655674 Obs 5% -.57993 -.5847 Sum of Wgt. 50%.09536 Mean -.03459 Largest Std. Dev..998075 75%.369959.350306 90%.484856.4356 Varance.99648 95%.338388.484856 Skewness.6704 99%.338388.338388 Kurtoss 4.09408 Méda um pouco negatva Não esperado para dstr smétrcas (0) Mas concentrado de um lado que de outro Referênca para dstr normal 3 Pequenos desvos da dstrbução normal não produzem efetos mportantes no modelo de regressão. Porém, as assmetras muto acentuadas nfluencam na estmação dos ntervalos de confança e nos testes de hpóteses.

Análse gráfca dos resíduos Dos tpos de gráfcos são báscos: Análse undmensonal dos resíduos Hstogramas, box plot etc. Análse bdmensonal dos resíduos em relação à varável resposta. em relação às varáves ndependentes. em relação ao tempo. Se tvermos anotados data, hora da coleta, pode ser que exstam erros sstemátcos com relação ao horáro da coleta, data em que fo feta etc.

Gráfcos Undmensonas dos Resíduos Hstograma Podemos fazer um hstograma para avalar smetra do gráfco. Podemos comparar os resíduos observados com os valores que seram esperados no caso de normaldade, calculando alguns pontos onde deveram ser encontrados os percents 5%, 5%, 95% etc., usando a dstrbução t(percentl; n- graus de lberdade). nserr fg.. pg. 43 - neter

Boxplot dos resíduos Jacknfe O gráfco mostra uma dstrbução "quase smétrca". Não são apresentados valores muto afastados (3σ).

Normaldade dos resíduos Podemos fazer esta análse utlzando o gráfco Q-Q plot Gráfco dos resíduos padronzados contra os percents de uma dstrbução normal. Se os resíduos tverem uma dstrbução normal, o gráfco Q-Qplot terá os pontos cando sobre uma reta de 45 o > nserr gráfco do Ponce observado esperado

Gráfcos bdmensonas O deal sera uma reta no zero, ou uma nuvem de pontos em torno dela Das respostas observadas vs. as respostas predtas. Resíduos vs. as respostas predtas. Normaldade, varânca cte, outlers Resíduos vs. as varáves ndependentes X. Outlers - pontos de alavanca Resíduos vs. o tempo. Resíduos vs. varáves não ncluídas no modelo. Desvos sstemátcos no tempo Se houver tendênca, a nova varável deve ser ncluída. Ex: PAS dade + sexo Resíduos x IMC se apresentar tendênca, nclur

Gráfcos bdmensonas Gráfco da varável dependente (Y ) vs. os valores predtos ( ) permte avalar a qualdade do ajuste e a força da assocação. Gráfco dos erros (ε) com os valores predtos ( ) Permte avalar a hpótese de varânca constante, de lneardade, deal que o gráfco apresente uma dstrbução aleatóra, nuvem de pontos sem qualquer padrão sstemátco. Gráfco dos erros (ε) com cada uma das varáves regressoras ou ndependentes (X): o ajuste será bom se o dagrama tver um padrão aleatóro em torno de zero, no exo das ordenadas. Ideal que a nuvem seja bem próxma à dagonal Modelos nadequados mostrarão algum padrão sstemátco. A nãolneardade se tornará evdente quando estes gráfcos sugerrem a necessdade de nclur no modelo termos de maor ordem. Yˆ Yˆ

Gráfcos bdmensonas cont. Gráfco dos erros com o tempo: para avalar ndependênca das observações. Ideal que não apresente tendênca. Se o gráfco dos resíduos vs. varáves não ncluídas no modelo apresentarem algum padrão sstemátco quer dzer que devem ser adconadas ao modelo.

Valores observados vs. valores predtos Gráfco da varável dependente (Y ) vs os valores predtos ( ) permte avalar a qualdade do ajuste e a força da assocação. Yˆ Melhor ajuste y_pred 0 30 40 50 60 70 0 30 40 50 60 70 y y_pred 00 0 40 60 80 Pas β 0 + β Idade + e 0 30 40 50 60 70 y Menor varânca dos erros em relação ao pora à medda que avança p/ 4 y_pred 00 0 40 60 80 0 30 40 50 60 70 y 3 4 Fonte: Dados smulados com σ, 5, 0 e 0 quanto maor σ, menor a precsão de Yˆ y_pred 50 00 50 00 0 30 40 50 60 70 y Qualdade por

Resíduos vs valor predto ( ) Elpse em torno de zero a c a Padrão esperado quando todos os pressupostos são atenddos (faxa de pontos em torno do zero) - ausênca de tendêncas. b Padrão típco de quando os dados se afastam do padrão lnear. c Varânca não homogênea (cresce com o aumento de Y ) Yˆ d b x + x Usar modelos que ncluem estrutura de dependênca. Ex: entrevstas ou meddas cujos resultaos são dependentes no tempo. Pode ser que os ndvíduos sejam da mesma famíla entrevstados em tempos dferentes d mutas vezes, os dados são coletados em função do tempo; neste exemplo, talvez nclur mostra-se uma clara correlação dos resíduos ao longo do tempo, ou seja, termo no tempo t 0, se um resíduo é postvo, no tempo t 0 + o resíduo também é quadrátco postvo e assm por dante. (olhando o gráfco b)

Resíduos vs. valores predtos cont. Exemplo de Modelo não lnear Relação não lnear. Pode ser nvestgada também com o dagrama de espalhamento. Se a relação fosse lnear, os resíduos formaram uma faxa em torno do valor zero.

Resíduos vs. valores predtos cont. Lneardade: O gráfco dos resíduos vs. valores predtos [letura nstrumento ^ f(poluente)] Y 5.39 + 3. 79X Não lneardade Volação do poressuposto de lneardade Incorporar termo quadrátco para melhorar ajuste? O padrão semelhante ao da fgura b. Sugestão que a ntrodução de um termo quadrátco no modelo ra melhorá-lo.

Resíduos vs. valores predtos cont. Lneardade: O gráfco dos resíduos vs. ^ valores predtos - nclusão termo quadrátco [letura nstrumento f(poluente)] Y 0.00 + 8.0X 0.54X Embora haja grande espalhamento dos pontos (em parte em função do tamanho da amostra), a fgura mostra um padrão de faxa horzontal em torno do zero. Podemos também admtr que o padrão se assemelha ao da fgura c (heterocedastcdade).

Resíduos vs. valores predtos cont. Homogenedade das varâncas Varânca não homogênea Pensar em transformação da varável, como termo de maor potênca Ex: Inclur x?

Resíduos vs. varáves ndependentes X O º. gráfco mostra que os resíduos estão aleatoramente dstrbuídos não há qualquer tendênca aparente. O º. gráfco mostra que maores resíduos estão ocorrendo para maores valores de X o pressuposto de varânca constante não fo obedecdo. Transformar a varável O 3º. gráfco mostra que o modelo não é lnear. Incorporar termo quadrátco?

Correlação entre os erros Quando os dados são ordenados no tempo Construr gráfco dos resíduos ordenados no tempo também auxla na vsualzação de correlação entre estes erros.

Detecção de outlers Um outler de um conjunto de resíduos é um valor atípco. Pode car acma de,5 a 3 desvos padrão além da méda do conjunto de resíduos padronzados A presença de tal valor pode afetar o ajuste pelos mínmos quadrados Outlers podem causar um mpacto mportante nas conclusões de um estudo. É de nteresse saber em que medda este ponto afeta o ajuste. Não se recomenda excluí-lo, somente nos casos de certeza de ser um valor errado. No mínmo, realzar análses com e sem a presença dos outlers.

Detecção de outlers cont. Cálculo DSE (Desvo Studentzado Extremo): Exstem dversas formas de analsar se uma observação é um outler. Iremos apresentar um modo smples Padronzam-se os valores, para saber a quantos desvos padrões da méda eles estão. Estatístca DSE máx,,...n X - _ X / S Os que se afastam muto, podem ser consderados outlers. O que é "muto"?

Detecção de outlers Arredondado do,58 que equvale a 99% da normal ( da de Student g.l.?); (,96) 95% Está acma de, mas muto próxmo. Há outra de 3,44 (não aparece no gráfco) que sera a mas mportante para nos preocuparmos.

Observações nfluentes (Leverage ou alavanca) Uma observação nfluente é defnda como aquela que, por alguma razão, causa grandes mudanças em alguns ou em todos os parâmetros do modelo, quando ela é omtda do conjunto de dados. h medda da mportânca da -ésma observação no ajuste do modelo h -ésmo elemento da matrz H X(X X) - X Dagonal do produto da matrz das varáves ndependentes 0 h e h > (k+)/n ndcara a presença de uma observação nfluente. No. de parâmetros

Dstânca de Cook: Ajuda a descobrr possíves outlers Ela quantfca o peso da observação no modelo É uma medda da mudança dos coefcentes de regressão, quando se retra do modelo essa observação. Pontos com valores acma de são valores suspetos. Os maores que snalzam séros problemas. ( ) ( ) + + h S k h e h h r k d Resíduo Jacknfe Resíduo

DFbeta: Permte avalar o efeto de cada observação nas estmatvas de cada um dos parâmetros do modelo ajustado. São calculados os coefcentes Dfbeta para cada varável. Uma observação é consderada nfluente se: Dfbeta k > se n< 30 Dfbeta k > /sqrt(n) se n > 30

Colneardade Colneardade Forte relação entre varáves ndependentes Pode gerar problemas numércos de modo a gerar estmatvas nacuradas dos coefcentes da regressão, varabldade e no valor-p. Supondo a regressão com varáves ndependentes X e X. Y + β X + 0 β X Pode-se demonstrar que para j ou j β + ε ˆ β j c j r ( X, X c j valor que depende dos dados. r (X,X ) é ao quadrado da correlação entre X e X. ) Β depende das observações (c j ), mas tb da correlação

Colneardade

Colneardade Então: são proporconas a (VIF) Se r (X,X ) então : [ - r (X,X )] 0 e Superestma os coefcentes, a varânca (que também é proporconal à parcela) e os testes que têm por base o valor do coefcente e a varânca (p-valor) 0 ˆ ˆ ˆ X X Y β β β + + ), ( ) ( ˆ ˆ ˆ 0 X X r X c X c X X Y β β β 0 ˆ e ˆ, ˆ β β β Y ), ( X X r ), ( X X r

Colneardade r > 0.90 merece atenção exste uma medda que verfca se a correlação pode causar problema de colneardade VIF - Varance nflaton factor Se não detectou colneardade na exploratóra, O VIF ajuda depos do ajuste, na fase de dagnóstco VIF r ( X, X ) VIF 0 0,8 e 0,85 por ex. tb afetam as estmatvas. O ponto de corte é controverso Regra prátca: VIF 0 r > 0.90 ou r > 0.95

Estratégas alternatvas Algumas estratégas podem ser adotadas quando os pressupostos báscos não são atenddos. Transformações Exstem 3 razões báscas pra usar transformações matemátcas dos dados:. Establzar a varânca no caso de heterocedastcdade. Normalzar a varável depedente Y. Ou varável resposta ou a ndependente 3. Lnearzar o modelo de regressão caso os dados não sugram uma relação lnear. Mas que normalzar Y, normalzar a dstrbução dos resíduos A dstr Y normaldade de Y é condconada à X (dstr Y para dade0, para dade30 etc.)

As transformações mas usadas são: Log (Y' log Y) Para establzar varânca, quando ela cresce acentuadamene com o aumento de Y Normalzar a dstrbução da varável dependente Y (caso a dstrbução dos resíduos seja marcadamente assmétrca à dreta) Para lnearzar a relação de Y e X, caso a relação sugra uma nclnação consstentemente crescente. 0 0 0 0 log log undade log X X Y Y X X X Y X Y β β β β β β β β + + + 0 0 log log log ) ( log log Y Y Y Y Y Y Y Y X X Y Y β β β β β Cauda à dreta

As transformações mas usadas são: Raz quadrada (Y' Y): Establza a varânca nos casos em que a varânca é proporconal à méda de Y. Em especal se a varável dependente tem uma dstrução de Posson.

As transformações mas usadas são: Inverso (Y' /Y) Establza a varânca nos casos em que a varânca é proporcnal à 4a. potênca da méda de Y (var Y 4 ). Indca que um aumento abrupto ocorre a partr de um determnado lmar de Y. Esta transformação mnmza o efeto de valores elevados de Y, uma vez que a transformação os trará para próxmo de zero. Aumentos grandes em Y ocasonarão aumentos pequenos em Y (Y transformada)

As transformações mas usadas são: Quadrado (Y' Y ) Establza a varânca quando a varânca dmnu com a méda de Y Para normalzar a varável dependente Y, se a dstrbução dos resíduos é assmétrca à esquerda Lnearzar o modelo se a relação orgnal for curvlína para baxo (se a nclnação consstentemente decresce com o aumento de X).

As transformações podem ser realzadas também na varável ndependente X /x