Diagnóstico do Modelo e Tratamento. Frases. Roteiro

Documentos relacionados
Modelos de Regressão Linear Simples - Análise de Resíduos

Modelos de Regressão Linear Simples - Análise de Resíduos

Transformações e Ponderação para corrigir violações do modelo

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE SÃO PAULO FEA - FACULDADE DE ECONOMIA E ADMINISTRAÇÃO PROGRAMA DE ESTUDOS PÓS-GRADUADOS EM ADMINISTRAÇÃO

Correlação e Regressão

Métodos Quantitativos para Avaliação de Políticas Públicas

Aula 2 Uma breve revisão sobre modelos lineares

Modelos de Análise de Variância

Análise de Regressão EST036

Análise de Resíduos. investiga características que comprometem a validade do MRLS:

UM ESTUDO COMPARATIVO DO USO DO MINITAB, SPSS E XL-STAT EM REGRESSÕES UTILZIANDO DADOS SOBRE LIBERDADE ECONÔMICA DE 157 PAÍSES NO CENÁRIO MUNDIAL

Verificando as pressuposições do modelo estatístico

UNIVERSIDADE FEDERAL DA FRONTEIRA SUL Campus CERRO LARGO. PROJETO DE EXTENSÃO Software R: de dados utilizando um software livre.

Modelo de Regressão Múltipla

Análise de Resíduos. investigar características que comprometem a validade do MRLS:

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Regression and Clinical prediction models

Correlação e Regressão Linear

Seção 2.6 Duas Variáveis Quantitativas: Regressão Linear

ANOVA - Etapas de Análise

TESTES DE NORMALIDADE E SIGNIFICÂNCIA. Profª. Sheila Regina Oro

Capacitação em R e RStudio PROJETO DE EXTENSÃO. Software R: capacitação em análise estatística de dados utilizando um software livre.

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Multicolinariedade e Autocorrelação

Seleção de Variáveis e Construindo o Modelo

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Mais Informações sobre Itens do Relatório

Capítulo 3. O Modelo de Regressão Linear Simples: Especificação e Estimação

Análise de regressão linear simples. Diagrama de dispersão

Planejamento de Experimentos

Associação entre duas variáveis

Curso de MINITAB Universidade Federal de Ouro Preto. Planejamento de Experimentos (DOE)

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Análise de Regressão Linear Simples e

Homocedasticidade? Exemplo: consumo vs peso de automóveis

UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE CIÊNCIAS CONTÁBEIS PROGRAMA DE PÓS GRADUAÇÃO EM CIÊNCIAS CONTÁBEIS - PPGCC FICHA DE DISCIPLINA

Correlação e Regressão

Nome: Turma: Processo

Análise Multivariada Aplicada à Contabilidade

Métodos Quantitativos Aplicados

Regressões: Simples e MúltiplaM. Prof. Dr. Luiz Paulo Fávero 1

Modelos de regressão para dados correlacionados. Cibele Russo

REGRESSÃO LINEAR Parte II. Flávia F. Feitosa

Correlação Serial e Heterocedasticidade em Regressões de Séries Temporais. Wooldridge, Cap. 12

ANÁLISE ESTATÍSTICA DOS ÍNDICES DE DESENVOLVIMENTO DAS AMÉRICAS, BASEADA NO HDR Fátima Alexandre

Regressão Linear Simples

Capítulo 9 - Regressão Linear Simples (RLS): Notas breves

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

Teste F-parcial 1 / 16

UMA PESQUISA EXPLORATORIA DOS INDICADORES DO IRBEM-2011 DA REDE NOSSA SÃO PAULO

Teste F-parcial 1 / 16

Regressão. PRE-01 Probabilidade e Estatística Prof. Marcelo P. Corrêa IRN/Unifei

Especialização em Engenharia de Processos e de Sistemas de Produção

REGRESSÃO E CORRELAÇÃO

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

Estatística Aplicada II. } Regressão Linear

INTRODUÇÃO A ECONOMETRIA

Introdução aos Modelos Lineares em Ecologia

BIE5782. Unidade 7: INTRODUÇÃO AOS MODELOS LINEARES

VERIFICAÇÃO DA ADEQUAÇÃO DO MODELO DE ANÁLISE DE VARIÂNCIA ANÁLISE DE RESÍDUOS

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

Violação dos pressupostos básicos do modelo clássico de regressão linear

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Exemplo Regressão Robusta

Modelos de Regressão Múltipla - Parte VI

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Ralph S. Silva

Na aula do dia 24 de outubro analisamos duas variáveis quantitativas conjuntamente com o objetivo de verificar se existe alguma relação entre elas.

Análise da Regressão múltipla: MQO Assintótico y = β 0 + β 1 x 1 + β x +... β k x k + u 3. Propriedades assintóticas Antes, propriedades sobre amostra

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

MAE Planejamento e Pesquisa II

AULAS 14 E 15 Modelo de regressão simples

Exemplo Vida Útil de Ferramentas

Pesquisa Quantitativa Regressão e Correlação Roteiro Geral Roteiro do Módulo Regressão e correlação

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

Modelos de Regressão Linear Simples - parte II

AULA 03 Análise de regressão múltipla: estimação

Small Caps Ou Ações De Segunda Linha Análise De Retorno De Portfólios De Ações Dos Setores De Metalurgia, Alimentos E Papel E Celulose

Exercícios Selecionados de Econometria para Concursos Públicos

AULAS 17 E 18 Análise de regressão múltipla: estimação

ENADE Exame Nacional de Desempenho de Estudantes. Instituições do Ensino Superior do Município de São Paulo

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

ANÁLISE ESTATÍSTICA DOS PRINCIPAIS INDICADORES DO MUNICÍPIO DE SÃO PAULO 2004

Modelos Lineares Generalizados - Introdução

UNIVERSIDADE FEDERAL DO PARANÁ CURSO DE ESTATÍSTICA. Jayme Gomes dos Santos Junior Luciana Helena Kowalski

Regressão linear simples

Módulo 16- Análise de Regressão

Modelos de Regressão Linear Simples - parte III

Variável dependente Variável independente Coeficiente de regressão Relação causa-efeito

AULA 07 Regressão. Ernesto F. L. Amaral. 05 de outubro de 2013

Cap. 13 Correlação e Regressão

4.1 Análise da Correlação entre PIB e os Níveis de Lucro dos Setores

INSTRUÇÕES. O tempo disponível para a realização das duas provas e o preenchimento da Folha de Respostas é de 5 (cinco) horas no total.

AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)

MAE 317 Planejamento de Experimentos I. Profa. Júlia Maria Pavan Soler IME/USP

AULA 10 - MQO em regressão múltipla: Propriedades Estatísticas (Variância)

CONHECIMENTOS ESPECÍFICOS

(a) Teste e IC para Duas Variâncias. (b) Teste para médias. Duas Amostras de Teste T e IC

Transcrição:

Diagnóstico do Modelo e Tratamento Frases Por serem mais precisos que as palavras, os números são particularmente adequados para transmitir conclusões científicas Pagano e Gauvre, 4 Roteiro. Suposições do Modelo. Análise de Resíduos 3. Aplicação 4. Tratamento de Outliers 5. Transformações Estabilizadoras de Variância 6. Omissão de Variáveis 7. Referências

Suposições do Modelo i = + βx i Y β + ε i os termos de erro (e, e,..., e n ) são variáveis aleatórias independentes; E{e i } = ; Var{e i } = s ; e e i ~ N, y E{Y}=β +β x x Verificação da Adequação do Modelo () O modelo é adequado? A relação entre a resposta e o regressor é linear, pelo menos aproximadamente? Os erros têm distribuição normal? Os erros são independentes (nãocorrelacionados)? Verificação da Adequação do Modelo () Os erros têm variância constante (homocedasticidade)? Existem valores discrepantes (outliers)? Foram omitidas variáveis importantes do modelo?

Verificação da Adequação do Modelo (3) Considerar a validade das hipóteses no exame da adequação do modelo As violações às hipóteses podem levar a: modelos instáveis estimação imprecisa Análise de Resíduos Análise dos Resíduos Um diagnóstico das suposições do modelo Valor ajustado ˆ = β + β yi x i y i e i y ˆ i = β + β x i ŷ i Resíduo eˆ = y yˆ i i i x i

Gráficos Utilizados no Diagnóstico Resíduos versus variáveis preditoras; Resíduos versus valores ajustados; Resíduos versus tempo (ou outro tipo de seqüência). Gráfico de normalidade dos resíduos. Histograma dos resíduos Gráficos Complementares Gráfico dos resíduos absolutos ou quadráticos versus variáveis explicativas. Gráfico dos resíduos versus variáveis preditoras omitidas do modelo. Box-plot dos resíduos. Verificação de Normalidade Muitos procedimentos estatístico adotam a hipótese de normalidade dos dados Assim, é freqüente a necessidade de verificação de normalidade dos dados No Minitab, uma das maneiras de verificar a adequação do modelo (normal e outros) é através do Probability Plot

Verificação de Normalidade Para verificação de normalidade, há três testes disponíveis: Ryan-Joiner Kolmogorov-Smirnov, Anderson-Darling (é default do Minitab) Para acessá-los Stat > Basic Statistics > Normality Teste Variável a ser verificada Normalidade de Amostra N Probability Plot of N - Anderson Darling Normal Probability Plot of N Ryan-Jones Normal 99 95 9 Mean 86,87 StDev 4,35 N 9 AD,49 P-Value,959 99 95 9 Mean 86,87 StDev 4,35 N 9 RJ,995 P-Value >, 8 8 7 7 Percent 6 5 4 3 Percent 6 5 4 3 5 5 75 8 85 N 9 95 75 8 85 N 9 95 Probability Plot of N - Kolmogorov-Smirnov Percent 99 95 9 8 7 6 5 4 3 Normal Mean 86,87 StDev 4,35 N 9 KS,83 P-Value >,5 Há evidências de normalidade através de todas as estatísticas de teste. 5 75 8 85 N 9 95

Normalidade dos Resíduos A normalidade é uma hipótese importante para as inferências envolvendo o modelo de regressão linear (teste de hipóteses, intervalo de confiança, etc.) A falta de normalidade pode ser uma indicação de heterocedasticidade ou falta de ajuste do modelo Resíduos vs Valores Ajustados e e ŷ i ŷ i Não há defeitos óbvios no modelo A variância é crescente de y. função Resíduos vs Valores Ajustados ê ê ŷ i ŷ i Ocorre freqüentemente quando y é uma proporção entre e. Modelo não linear. Pode indicar necessidade de outros regressores.

Resíduos vs. Regressor e ŷ i Exibem os mesmos padrões anteriores. No caso de regressão linear simples é necessários plotar apenas um dos gráficos (ou com valor ajustado ou com regressor). Não Linearidade A verificação de adequação da função de regressão aos dados Uma verificação empírica pode ser efetuada através do gráfico dos resíduos vs. valores ajustados (ou vs. explicativas). Resíduos vs. preditoras com padrão sistemático: positivos para valores baixo; negativos para valores médios positivos para valores altos. Nos casos em que houver um comportamento sistemático, devem-se incluir termos adicionais ou alternativos.

Heterocedasticidade Em geral, sua presença é verificada pelo gráfico dos resíduos vs variáveis explicativas (ou valores ajustados). Heterocedasticidade tende a produzir um gráfico com forma de funil. Heterocedasticidade Situações em que pode ocorrer: Lucro vs. Tamanho da empresa: empresas maiores tendem a ter maior dispersão nos seus lucros. Consumo de um Bem vs. Renda: pessoas ricas podem escolher melhor a proporção da renda consumida em determinado bem. Autocorrelação Serial Os resíduos estão correlacionados e o valor de um resíduo passa a influenciar os resultados dos valores ajustados da resposta. A idéia da autocorrelação serial é que os resíduos contém mais informação sobre a variável dependente do que aquilo que foi filtrado pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado.

Fontes de autocorrelação serial: Omissão de variável relevante; Má especificação da forma funcional Em geral, autocorrelação é encontrada em séries de tempo. Resíduos vs. Seqüência ê i tempo ê i Necessário para dados obtidos em seqüência (tempo, etc) Se os resíduos são independentes, distribuem-se aleatoriamente em torno de zero Pode indicar omissão de variável Análise dos Resíduos y e x Gráfico dos dados: (x i, y i ) x Gráfico dos resíduos: (x i, e i ) As suposições do modelo parecem satisfeitas?

Padronização dos Resíduos Útil para detectar valores extremos (discrepantes) Resíduos padronizados: d ˆ = i eˆ i σˆ Resíduos potencialmente outliers: dˆ i > 3 Resíduo Studentizado Melhora a escala do resíduo, utilizando o desvio-padrão exato. Var ( x i x) ( eˆ ) = σ + i n Pontos próximos ao valor médio de x terão pior ajuste de mínimos quadrados (maior variância) Permitem a detecção de violações em pontos remotos (mais prováveis) S xx Outliers São valores extremos (atípicos), ou seja, são observações que não são bem ajustadas pelo modelo. Podem ser identificados a partir de um gráfico dos resíduos vs a variável preditora (ou valores ajustados). O uso de resíduos padronizados (ou studentizados) são úteis para identificar resíduos que estão muito afastados de zero, (em escala de desvios-padrão)

Outliers podem influenciar fortemente o ajuste de mínimos quadrados; Não devem ser desprezados, admitindo-se seu descarte se representam um erro de registro, erro de medida, falha de equipamento ou algum problema similar. Gráfico de resíduos padronizados, sem outliers. Aplicação

Um Modelo Econômico Objetivo: Estudar a relação entre renda familiar e despesas com alimentação. Experimento: Amostra aleatória de residências, com renda familiar semanal maior que $48 Característica de interesse: Despesa semanal da residência com alimentação Quanto foi gasto com alimentação na semana passada? Modelo Proposto Y i = ß + ß x i + e i Variáveis: Resposta (Y i ) : Despesa com alimentação Explicativa(x i ): Renda Familiar Semanal Erro (e i ): Todos os fatores que afetam Y, exceto renda Dados: alimentacao 3 Despesa com Alimentação 5 Alimentação 5 5 4 6 8 Renda Semanal MTB > correlation c c3 Correlations: Alimentação; Renda Semanal Pearson correlation of Alimentação and Renda Semanal =,546 P-Value =, Há indícios de associação linear entre renda e despesas com alimentação

Ajuste de Mínimos Quadrados Stat > Regression > Regression Saída Minitab Regression Analysis: Alimentação versus Renda Semanal The regression equation is Alimentação = 4,8 +,8 Renda Semanal Predictor Coef SE Coef T P Constant 4,77,4,84,73 Renda Semanal,89,354 4,, S = 37,854 R-Sq = 3,7% R-Sq(adj) = 9,9% Analysis of Variance Source DF SS MS F P Regression 5 5 7,65, Residual Error 38 543 49 Total 39 79533 Unusual Observations Renda Obs Semanal Alimentação Fit SE Fit Residual St Resid 73,9 4,7 -,65 -,6 58 5,5 X 3 833 7, 47,67 7,7 79,44,4R 39 4 5,43 87,8 4,8-7,75 -,6RX 4 55 69,3 88,89 5,7 8,4,3RX R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence. Reta de Regressão Stat > Regression > Fitted Line Plot

3 Alimentação = 4,77 +,83 Renda Semanal 5 Alimentação 5 S 37,854 R-Sq 3,7% R-Sq(adj) 9,9% 5 4 6 8 Renda Semanal Análise dos Resíduos Residual Plots for Alimentação Percent Normal Probability Plot of the Residuals 99 9 5 - - - - Residuals Versus the Fitted Values 5 Fitted Value Histogram of the Residuals Residuals Versus the Order of the Data Frequency, 7,5 5,,5, - - - - 5 5 5 3 35 4 Observation Order Teste de Normalidade Obtenção dos resíduos: Stat > Regression > Regression

Teste de Normalidade Stat > Basic Statistics > Normality Teste Resíduos Armazenados Teste de Normalidade dos Resíduos Probability Plot of SRES Normal Percent 99 95 9 8 7 6 5 4 3 Mean -,6 StDev,3 N 4 AD,496 P-Value, 5-3 - - SRES 3 Não há evidências para se rejeitar a normalidade dos resíduos Conclusões Não há evidências para se rejeitar a hipótese de normalidade dos resíduos; Os resíduos aparentam estar correlacionados O gráfico de resíduos vs. valores ajustados apresentam padrão indicador de heterocedasticidade ou omissão de variável relevante.

Conclusões Neste caso, provavelmente a renda não é suficiente para explicar o consumo (R é baixo) Sugere-se o uso de mais variáveis explicativas para verificar se é possível o ajuste de modelo mais adequado. Conseqüências das Violações das Hipóteses Heteroscedasticidade: Sua presença tende a não viesar as estimativas dos parâmetros. As variâncias estimadas não serão as corretas. Logo, as inferências sobre os parâmetros estarão má especificadas. Conseqüências das Violações das Hipóteses Autocorrelação serial: As variâncias estimadas não serão as corretas, Há possibilidade de viés nas estimativas se o problema for devido à omissão de variáveis relevantes no modelo.

Tratamento de Outliers Outliers Pontos situados fora do padrão global das demais observações; Esses pontos discrepantes podem trazer problemas sérios no ajuste do modelo e na estimação dos parâmetros. Outliers e Observações Influentes Uma observação é influente se sua remoção modifica substancialmente o resultado Os ouliers na direção de y têm grandes resíduos de regressão Os outliers na direção de x em geral são inlfuente para a reta de regressão, sem apresentar necessariamente grande resíduos.

Exemplo Telefones vs ICMS Dados sobre número de telefones e arrecadação do ICMS em 3 sub-regiões administrativas do estado de São Paulo. Observações padronizadas em relação ao número de habitantes de cada sub-região # telefones telefone = x. # habitantes Planilha: telefones Fonte: Bussab et al. (988) Total de ICMS( em $.) arrecadacao = # habitantes Dados Sub-região Qte. Telefones Arrecadação ICMS Região Dracena 4,95 Interior Adamantina 44,39 Interior Avaré 48,5 Interior Catanduva 53 3, Interior Araçatuba 56 3,63 Interior Lins 58 3,54 Interior Assis 58 3,65 Interior Franca 65 4,49 Interior S. Carlos 68 5,78 Interior Bauru 7 5,4 Interior S. Sebastião 77,4 Litoral S. J. Campos 86 3,94 Vale do Paraíba S. Paulo 38,66 Capital Caso Apenas Interior Regression Analysis: arrecadacao versus telefones The regression equation is arrecadacao = - 3,48 +,7 telefones Predictor Coef SE Coef T P Constant -3,4768,67-5,79, telefones,69,55,3, Regressão significante S =,365 R-Sq = 94,8% R-Sq(adj) = 94,% Analysis of Variance Source DF SS MS F P Regression 3,553 3,553 44,7, Residual Error 8,749,94 Total 9 4,3 Unusual Observations S. Carlos Obs telefones arrecadacao Fit SE Fit Residual St Resid 9 68, 5,78 5,54,577,676,39R R denotes an observation with a large standardized residual.

Caso Reta Ajustada Caso - Apenas Interior 6 5 arrecadacao = - 3,477 +,69 telefones S. Carlos Arrecadação 4 3 4 45 5 55 Qte. telefones 6 65 7 Caso Análise Gráfica de Resíduos Residual Plots for arrecadacao Percent Normal Probability Plot of the Residuals 99 9 5 - - - Residuals Versus the Fitted Values 3 4 5 Fitted Value Frequency 3 Histogram of the Residuals -, -,5,,5,,5,,5 Residuals Versus the Order of the Data - 3 4 5 6 7 8 9 Observation Order Caso Interior e Litoral Regression Analysis: arrecadacao versus telefones The regression equation is arrecadacao =,64 +,48 telefones Predictor Coef SE Coef T P Constant,64,34,8,789 telefones,4797,3935,,54 Regressão não significante S =,3884 R-Sq = 4,% R-Sq(adj) = 4,6% Analysis of Variance Source DF SS MS F P Regression,84,84,49,54 Residual Error 9 7,,9 Total,5 Unusual Observations S. Sebastião Obs telefones arrecadacao Fit SE Fit Residual St Resid 77,,4 4,334,853-3,94 -,93R R denotes an observation with a large standardized residual.

Caso Reta Ajustada Caso - Interior e Litoral 6 5 arrecadacao =,64 +,4797 telefones Arrecadação ICMS 4 3 S. Sebastião 4 5 6 7 8 Qte. de telefones Alta taxa de telefones instalados e baixa arrecadação Caso Análise Gráfica de Resíduos Percent Normal Probability Plot of the Residuals 99 9 5-3, -,5,,5 3, Residual Plots for arrecadacao Residuals Versus the Fitted Values - - -3,5 3, 3,5 4, 4,5 Fitted Value Frequency 6, 4,5 3,,5, Histogram of the Residuals -3 - - Residuals Versus the Order of the Data - - -3 3 4 5 6 7 8 9 Observation Order Caso 3 Interior e Interior Industrializado Regression Analysis: arrecadacao versus telefones The regression equation is arrecadacao = - 9,8 +,34 telefones Predictor Coef SE Coef T P Constant -9,8,9-4,,3 telefones,3375,375 6,3, Regressão significante S =,5456 R-Sq = 8,6% R-Sq(adj) = 79,5% Analysis of Variance Source DF SS MS F P Regression 9,94 9,94 39,8, Residual Error 9,373,64 Total,467 Unusual Observations S. J. Campos Obs telefones arrecadacao Fit SE Fit Residual St Resid 86, 3,94,9, 3,8,94R R denotes an observation with a large standardized residual.

Caso 3 Reta Ajustada Caso 3 - Interior e Interior Industrializado 4 arrecadacao = - 9,8 +,337 telefones S. J. Campos Arrecadação ICMS 8 6 4 4 5 6 7 8 9 Qte. de telefones Alta arrecadação; telefones instalados fora do padrão geral Caso 3 Análise Gráfica de Resíduos Percent Normal Probability Plot of the Residuals 99 9 5-3, -,5,,5 3, Residual Plots for arrecadacao Residuals Versus the Fitted Values 3 -,,5 5, 7,5, Fitted Value Frequency 3 Histogram of the Residuals -, -,6,,6,,8,4 3, Residuals Versus the Order of the Data 3-3 4 5 6 7 8 9 Observation Order Caso 4 Interior e Capital Regression Analysis: arrecadacao versus telefones The regression equation is arrecadacao = -,66 +, telefones Predictor Coef SE Coef T P Constant -,669,68-9,9, telefones,9,39 8,6, Regressão significante S =,363 R-Sq = 98,9% R-Sq(adj) = 98,8% Analysis of Variance Source DF SS MS F P Regression 87,6 87,6 87,69, Residual Error 9,958,6 Total 88, Unusual Observations Capital Obs telefones arrecadacao Fit SE Fit Residual St Resid 4,969,999,87,63R 9 68 5,78 38,66,8,377 -,5 -,4 X R denotes an observation with a large standardized residual. X denotes an observation whose X value gives it large influence.

Caso 4 Reta Ajustada Caso 4 - Interior e Capital Aarrecadação de ICMS 4 8 6 4 arrecadacao = -,66 +, telefones Capital 5 75 Qte. de telefones 5 5 Taxa de telefones instalados muito afastada Caso 4 Análise Gráfica de Resíduos Residual Plots for arrecadacao Percent Normal Probability Plot of the Residuals 99 9 5 - - 3 - Residuals Versus the Fitted Values 3 6 9 Fitted Value Frequency 4,8 3,6,4,, Histogram of the Residuals - 3 Residuals Versus the Order of the Data 3-3 4 5 6 7 8 9 Observation Order Comparação dos Casos Caso - Apenas Interior Caso - Interior e Litoral 6 6 5 arrecadacao = - 3,477 +,69 telefones arrecadacao =,64 +,4797 telefones Arrecadação 4 3 Arrecadação ICMS 4 4 5 6 7 4 5 6 7 8 Qte. telefones Qte. de telefones Caso 3 - Interior e Interior Industrializado Caso 4 - Interior e Capital 5 arrecadacao = - 9,8 +,337 telefones Arrecadação ICMS 5 Aarrecadação de ICMS 9 6 arrecadacao = -,66 +, telefones 3 4 5 6 7 8 5 75 5 5 Qte. de telefones Qte. de telefones

Comparação dos Casos Caso Caso Caso 3 Caso 4 Inclinação ep βˆ ) (,69,55,4797,3935,3375,375,9,39 Estatística T,3, 6,3 8,6 R 94,8% 4,% 8,6% 98,9% σˆ,94,9,64,6 Intercepto -3,4768,64-9,8 -,669 Modelo : Modelo significante; Comentários Análise gráfica de resíduos não fornece evidências de as suposições terem sido violadas O modelo parece ser adequado para explicar o aumento da arrecadação Modelo : Comentários () Observação acrescentada é litorânea, com muitas residências temporárias (alta taxa de telefones e baixa arrecadação) A regressão não é significante É razoável adotar o modelo sem esta observação

Modelo 3: Comentários (3) A observação acrescentada tem arrecadação alta, mas nem tanto o nível de telefones instalados. É razoável adotar o modelo, com ressalva desta situação (esperam-se poucas situações com o mesmo comportamento) Modelo 4: Comentários (4) A observação acrescentada não afeta as estimativas do modelo ; É um ponto que pode ser eliminado, pois, é praticamente caso único (valor exagerado da variável preditora x) Tratamento de outliers Outlier é um problema sério na construção de modelos de regressão: Etapas para detecção e tratamento: Identificação de possíveis pontos discrepantes; Avaliação dos efeitos sobre as estimativas e previsões Análise criteriosa para eliminação ou não da observação

Tratamento de Outliers () Pontos discrepantes resultados claramente de erro de mensuração devem ser corrigidos ou removidos do conjunto de dados; Outro tipo de outlier: Usa-se a análise de resíduos para detectar o ponto que apresenta resíduo muito grande (observações desajustadas) Exemplo 3 Desemprego Juvenil Taxas de desemprego de adolescentes e seguro desemprego, na Austrália, de 96 a 98 Variáveis: y : taxa de desemprego adolescentes homens y : taxa de desemprego adolescentes mulheres x: seguro desemprego (dólares constantes 98) Fonte: Maddala Planilha: desemprego_adol_australia Regression Analysis: Homens versus Dólares ctes 98 Homens The regression equation is Homens =,48 +, Dólares ctes 98 Predictor Coef SE Coef T P Constant,478,7,,6 Dólares ctes 98,83,343 6,7, S =,98987 R-Sq = 69,% R-Sq(adj) = 67,3% Analysis of Variance Source DF SS MS F P Regression 34,76 34,76 38,, Residual Error 7 5,97 8,94 Total 8 49,7 Dólares ctes Obs 98 Homens Fit SE Fit Residual St Resid 3,3 4,5 5,96,887 -,796 -,8 3, 3,4 5,75,889 -,875 -,66 3,7,5 5,69,9 -,669 -,94 4, 4,4 5,63,9 -,663 -,3 5,9 3, 4,999,98 -,899 -,67 6,6 4, 4,936,95 -,836 -,9 7,3 4,7 4,87,93 -,7 -,6 8 4, 5,8 5,465,869,335, 9 3,4 5,7 5,37,884,383,3,5 6,9 5,6,94,774,6, 8,6 6,75,76,885,65 54, 7,6 3,939,83-6,339 -,7R 3 6,7,9 5,76,35-3,86 -,44 4 63,8 4,6 5,993,357 -,393 -,5 5 55,8 3,6 4,99,9 -,699 -,5 6 5, 7, 3,33,6 3,797,35 7 47,4 6,4,59,97 3,88,36 8 43, 5,9,68,86 4,9,49 9 39,5 5,7,846,764 4,854,68 73-74 77-8 R denotes an observation with a large standardized residual.

Dólares (Base: 98) Taxa de Desemprego e Seguro Desemprego - Adolescentes Homens Homens =,478 +,8 Dólares ctes 98 8 6 Taxa de Desemprego (%) 4 8 6 4 Austrália, 96 a 98 3 4 5 Percent 6 7 Residual Plots for Homens Normal Probability Plot of the Residuals 99 9 5 - - Residuals Versus the Fitted Values - - 5, 7,5,,5 5, Fitted Value Frequency 6, 4,5 3,,5, Histogram of the Residuals - - Residuals Versus the Order of the Data - - 4 6 8 4 6 8 Observation Order Regression Analysis: Mulheres versus Dólares ctes 98 Mulheres The regression equation is Mulheres = 3,3 +,6 Dólares ctes 98 Predictor Coef SE Coef T P Constant 3,34,4,35,3 Dólares ctes 98,66,3943 5,73, S = 3,4368 R-Sq = 65,9% R-Sq(adj) = 63,9% Analysis of Variance Source DF SS MS F P Regression 388,6 388,6 3,86, Residual Error 7,74,8 Total 8 588,79 Dólares ctes Obs 98 Mulheres Fit SE Fit Residual St Resid 3,3 5,9 6,3,9 -,4 -,3 3, 4,5 6,98, -,798 -,55 3,7 4,4 6,85,34 -,785 -,54 4, 5, 6,7,47 -,97 -,3 5,9 5,5 6,4,55 -,54 -,5 6,6 5,7 5,937,63 -,37 -,7 7,3 6, 5,869,7,3,4 8 4, 6,3 6,5,999 -, -,6 9 3,4 5, 6,343,6 -,43 -,38,5 6, 6,4,39 -,4 -,, 9,3 7,835,876,465,44 54, 7,8 5,544,45-7,744 -,4R 3 6,7,3 7,488,53-5,88 -,68 4 63,8 6,7 7,737,56 -,37 -,34 5 55,8 5,6 5,98,97 -,38 -, 6 5, 8,8 4,866,56 3,934, 7 47,4 8,8 4,9,54 4,77,46 8 43, 8,9 3,57,95 5,843,77 9 39,5 7,6,44,879 5,356,6 73-74 77-8 R denotes an observation with a large standardized residual. Resumo yˆ =,478 +,x R (,7) (,343) yˆ = 3,34 +,6x R (,4) (,394) = 69,% = 65,9% As estimativas dos coeficientes de x não mudaram muito e estão mais precisas Os valores de R estão mais altos

Dólares (Base: 98) Taxa de Desemprego e Seguro Desemprego - Adolescentes Mulheres, Mulheres = 3,34 +,6 Dólares ctes 98 Taxa de desemprego (%) 7,5 5,,5, 7,5 5, Austrália, 96 a 98 3 4 5 Percent 6 7 Residual Plots for Mulheres Normal Probability Plot of the Residuals 99 9 5 - - Residuals Versus the Fitted Values - - 6 9 5 8 Fitted Value Frequency 8 6 4 Histogram of the Residuals - - Residuals Versus the Order of the Data - - 4 6 8 4 6 8 Observation Order Exclusão dos Valores Outliers Minitab Data > Copy > Columns to Columns Regression Analysis: Homens_ versus Dólares ctes 98_ The regression equation is Homens_ =,6 +,3 Dólares ctes 98_ Exclusão dos Valores Outliers Saídas Predictor Coef SE Coef T P Constant,557,63 3,53,5 Dólares ctes 98_,69,96 8,83, S =,459 R-Sq = 87,6% R-Sq(adj) = 86,5% Analysis of Variance Source DF SS MS F P Regression 54,4 54,4 77,93, Residual Error,74,98 Total 75,78 Regression Analysis: Mulheres_ versus Dólares ctes 98_ The regression equation is Mulheres_ =,8 +,5 Dólares ctes 98_ Predictor Coef SE Coef T P Constant,7985,3936 7,, Dólares ctes 98_,55,48 5,, S =,96736 R-Sq = 95,5% R-Sq(adj) = 95,% Analysis of Variance Source DF SS MS F P Regression 89,9 89,9 3,97, Residual Error 9,4,8 Total 98,94

Resumo Exclusão Valores yˆ =,56 +,3x R (,6) (,3) yˆ =,799 +,5x R (,394) (,48) = 87,6% = 95,5% Equações sugerem que aumento no seguro desemprego leva a aumento na taxa de desemprego Resíduos grandes para 973, 974 e 977 a 98. Comentários Neste exemplo não seria correto a exclusão das observações com altos resíduos Os resíduos podem ser devidos ao lapso de tempo entre o requerimento do benefício e sua concessão, que deveria ser incorporado no modelo O exemplo ilustra o fato de que nem todos os outliers devem ser excluídos Transformações Estabilizadoras

Homocedasticidade É hipótese fundamental na derivação das propriedades amostrais dos estimadores Exemplo de heterocedasticidade: Espera-se que o ganho assalariado segundo o nível de instrução não seja homogêneo : Baixo nível de instrução Salários baixos e próximos uns dos outros A ausência de homogeneidade apresenta quase sempre um padrão identificável; A variabilidade é, em geral, função da variável preditora ou de uma outra variável independente. Os EMQO, em presença de heterocedasticidade continuam nãoviciados, mas não possuem mais a propriedade de variância mínima; É importante corrigir a heterocedasticidade Correção da Heterocedasticidade Mínimos quadrados ponderados; Transformação da variável respota y ou da preditora x Transformações estabilizadoras da variância

Transformação de Estabilização Variância () Gráfico do Resíduo: e ŷ i Transformação: y Recomendada quando Var(e i ) é proporcional a x i. Transformação de Estabilização Variância () Gráfico do Resíduo: e ŷ i Transformação: log y Sugerido quando a variância cresce mais acentuadamente, isto é, proporcional a x i. Transformação de Estabilização Variância () Gráfico do Resíduo: ê Transformação: ŷ i arcsen y Sugerido quando a variável resposta é do tipo proporção, isto é, =y =.

Exemplo 4 Empresa de Eletricidade Investigar relacionamento entre demanda diária de pico (kw) e consumo total de energia elétrica (kwh) Problema: enquanto o consumidor paga pelo uso da energia, o sistema de geração deve ser grande o suficiente para atender a máxima demanda Planilha: energia_eletrica Saída Dados Originais Regression Analysis: Demand (kw) versus Usage (kwh) The regression equation is Demand (kw) = -,833 +,3683 Usage (kwh) S =,577 R-Sq = 7,5% R-Sq(adj) = 69,9% Analysis of Variance Source DF SS MS F P Regression 3,633 3,633,66, Error 5 6,866,488 Total 5 49,499 Regressão Ajustada Dados Originais 6 4 Fitted Line Plot Demand (kw) = -,833 +,3683 Usage (kwh) S,577 R-Sq 7,5% R-Sq(adj) 69,9% Demand (kw) 8 6 4 Usage (kwh) 3 4

Gráficos de Resíduos Dados Originais Heterocedasticidade Percent Normal Probability Plot of the Residuals 99 9 5 - - Residual Plots for Demand (kw) Residuals Versus the Fitted Values - - 3 6 9 Fitted Value Frequency 6 8 4 Histogram of the Residuals - - Residuals Versus the Order of the Data - - 5 5 5 3 35 4 45 5 Observation Order Saída Dados Transformados Regression Analysis: SQR(Demand)* versus Usage (kwh) The regression equation is SQR(Demand)* =,58 +,953 Usage (kwh) S =,46444 R-Sq = 64,8% R-Sq(adj) = 64,% Analysis of Variance Source DF SS MS F P Regression,585,585 94,8, Error 5,98,53 Total 5 3,47 Regressão Ajustada Dados Transformados Fitted Line Plot SQR(Demand)* =,58 +,953 Usage (kwh) 4 S,46444 R-Sq 64,8% R-Sq(adj) 64,% 3 SQR(Demand)* Usage (kwh) 3 4

Gráfico de Resíduos Dados Transformados Residual Plots for SQR(Demand)* Percent Normal Probability Plot of the Residuals 99 9 5-3, -,5,,5 3, - Residuals Versus the Fitted Values 3 4 Fitted Value Frequency 9 6 3 Histogram of the Residuals -3 - - Residuals Versus the Order of the Data - 5 5 5 3 35 4 45 5 Observation Order Comparação Gráfico de Resíduos Residuals Versus the Fitted Values (response is Demand (kw)) - - Residuals Versus the Fitted Values (response is SQR(Demand)*) -3 4 6 Fitted Value 8 - - -3,,5,,5 Fitted Value 3, 3,5 4, Transformações Estabilizadoras Relação de s a E(Y) σ σ σ constante E( Y ) E( Y σ σ σ )[ E( Y )] [ E(Y ] ) [ E(Y ] 3 [ E(Y ] 4 ) ) Transformação y ' = y ' = y y y ' = arcsen( y ) y'= log y ( ) y' = y y' = y

Comentários A força da transformação depende da quantidade de curvatura que ela induz Pode ir de moderada (vx ), `a forte (/x) Geralmente transformação moderada sobre faixa de valores estreita produz pouco efeito y y max min < ou 3 Por outro lado, transformação forte sobre faixa de valores estreito trará efeito dramático na análise Em geral, a transformaçãofornecerá estimativas mais precisas dos parâmetros do modelo Intervalos de confiança e de predição podem ser covertidos diretamente de uma métrica a outra, mas não se assegura que eles sejam os menores possíveis. Omissão de Variáveis

Referências Bibliografia Recomendada Hill, R. C., Griffiths, W. E. e Judge, G. (Saraiva) Econometria Gujarati, D. N. (Pearson) Econometria Básica Maddala, G. S. (LTC) Introdução à econometria