são os coeficientes desconhecidos e o termo ε (erro)



Documentos relacionados
NOTA II TABELAS E GRÁFICOS

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

Covariância e Correlação Linear

Introdução à Análise de Dados nas medidas de grandezas físicas

Professor Mauricio Lutz CORRELAÇÃO

Probabilidade e Estatística. Correlação e Regressão Linear

7. Resolução Numérica de Equações Diferenciais Ordinárias

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

Regressão e Correlação Linear

Introdução e Organização de Dados Estatísticos

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

PARTE Apresente as equações que descrevem o comportamento do preço de venda dos imóveis.

Despacho Econômico de. Sistemas Termoelétricos e. Hidrotérmicos

UNIVERSIDADE FEDERAL DO PARANÁ DEPARTAMENTO DE ESTATÍSTICA CE 071 ANÁLISE DE REGRESSÃO LINEAR. Cesar Augusto Taconeli

4 Critérios para Avaliação dos Cenários

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

UNIVERSIDADE DO ESTADO DA BAHIA - UNEB DEPARTAMENTO DE CIÊNCIAS EXATAS E DA TERRA COLEGIADO DO CURSO DE DESENHO INDUSTRIAL CAMPUS I - SALVADOR

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

3ª AULA: ESTATÍSTICA DESCRITIVA Medidas Numéricas

REGRESSÃO NÃO LINEAR 27/06/2017

METROLOGIA E ENSAIOS

3 A técnica de computação intensiva Bootstrap

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Cálculo do Conceito ENADE

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística

Prof. Lorí Viali, Dr.

Y X Baixo Alto Total Baixo 1 (0,025) 7 (0,175) 8 (0,20) Alto 19 (0,475) 13 (0,325) 32 (0,80) Total 20 (0,50) 20 (0,50) 40 (1,00)

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

Associação entre duas variáveis quantitativas

Universidade Salvador UNIFACS Cursos de Engenharia Cálculo IV Profa: Ilka Rebouças Freire. Integrais Múltiplas

Objetivos da aula. Essa aula objetiva fornecer algumas ferramentas descritivas úteis para

Regressão Múltipla. Parte I: Modelo Geral e Estimação

MODELOS DE REGRESSÃO PARAMÉTRICOS

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Controle Estatístico de Qualidade. Capítulo 8 (montgomery)

CURSO ON-LINE PROFESSOR: VÍTOR MENEZES

Estatística stica Descritiva

Universidade do Estado do Rio de Janeiro Instituto de Matemática e Estatística Econometria

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

INTRODUÇÃO AO CÁLCULO DE ERROS NAS MEDIDAS DE GRANDEZAS FÍSICAS


Prof. Lorí Viali, Dr.

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

Aplicando o método de mínimos quadrados ordinários, você encontrou o seguinte resultado: 1,2

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Contabilometria. Aula 8 Regressão Linear Simples

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

Análise de influência

1. CORRELAÇÃO E REGRESSÃO LINEAR

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

PLANEJAMENTO DE GRÁFICOS DE CONTROLE DE REGRESSÃO VIA SIMULAÇÃO

Prof. Lorí Viali, Dr.

Uso dos gráficos de controle da regressão no processo de poluição em uma interseção sinalizada

PRESSUPOSTOS DO MODELO DE REGRESSÃO

Ao se calcular a média, moda e mediana, temos: Quanto mais os dados variam, menos representativa é a média.

As tabelas resumem as informações obtidas da amostra ou da população. Essas tabelas podem ser construídas sem ou com perda de informações.

Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

CORRELAÇÃO E REGRESSÃO

1 Princípios da entropia e da energia

Capítulo 1. Exercício 5. Capítulo 2 Exercício

Modelo linear normal com erros heterocedásticos. O método de mínimos quadrados ponderados

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

O problema da superdispersão na análise de dados de contagens

Rastreando Algoritmos

4.1. Variáveis de Resposta

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

Trabalho e Energia. Definimos o trabalho W realizado pela força sobre uma partícula como o produto escalar da força pelo deslocamento.

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Análise de Variância. Comparação de duas ou mais médias

Análise de Regressão Linear Múltipla IV

Caderno de Exercícios Resolvidos

REGRESSÃO LOGÍSTICA. Seja Y uma variável aleatória dummy definida como:

INTRODUÇÃO À ANÁLISE DE DADOS NAS MEDIDAS DE GRANDEZAS FÍSICAS

Escolha do Consumidor sob condições de Risco e de Incerteza

1.UNIVERSIDADE FEDERAL DE VIÇOSA, VIÇOSA, MG, BRASIL; 2.UNIVERSIDADE FEDERAL DE GOIÁS, GOIANIA, GO, BRASIL.

2 Incerteza de medição

Estatística Experimental Medicina Veterinária. Faculadade de Ciências Agrárias e Veterinárias. Campus de Jaboticabal SP. Gener Tadeu Pereira

Estatística I Licenciatura MAEG 2006/07

O problema da superdispersão na análise de dados de contagens

Testes não-paramétricos

2 Máquinas de Vetor Suporte 2.1. Introdução

Análise Fatorial F 1 F 2

Nota Técnica Médias do ENEM 2009 por Escola

Cap. 11 Correlação e Regressão

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

ESTATÍSTICA APLICADA II ANO LECTIVO 2011/2012. Exame Final 26 de Julho de 2012

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

CAPÍTULO 9 REGRESSÃO LINEAR PPGEP REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES REGRESSÃO LINEAR SIMPLES UFRGS. Regressão Linear Simples

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

2 ANÁLISE ESPACIAL DE EVENTOS

Física. Física Módulo 1 Vetores, escalares e movimento em 2-D

RESOLUÇÃO NUMÉRICA DE EQUAÇÕES DIFERENCIAIS

Transcrição:

Regressão Lnear Neste capítulo apresentamos um conjunto de técncas estatístcas, denomnadas análse de regressão lnear, onde se procura estabelecer a relação entre uma varável resposta e um conjunto de varáves de regressão, ou varáves ndependentes,,,..., k,. Cabe lembrar que, no nosso conteto, a varável representa uma característca de qualdade de um processo produtvo e as varáves,,..., k, são os fatores que afetam o processo quando este está em operação. Função de Resposta Quando se afrma que a resposta depende dos fatores, sto quer dzer que este uma relação funconal entre e,,..., k, do tpo: Φ β, β, β, L, β,,, L, ) + ε ( k k onde β, β, β, L, β k são os coefcentes desconhecdos e o termo ε (erro) representa outras fontes de varabldade, que não estão contablzadas em Φ. Assm, ε acumula efetos tas como erros de medda e outras fontes de varabldade nerentes ao processo, às vezes denomnadas ruído de fundo. Geralmente não se conhece essa relação funconal, daí a utlzação de modelos lneares de regressão k β + β + β + L + β k + ε (.) nos quas os p k + parâmetros desconhecdos β, β, β, L, β k são os coefcentes do modelo de regressão lnear. Cabe regstrar que o modelo é dto lnear porque é uma função lnear dos coefcentes. Modelos que aparentemente são mas compleos podem ser representados pelo Modelo (.).

7 Por eemplo, consdere um modelo de segunda ordem com duas varáves: β + β + β + β + β + β + ε Se fzermos 3, 4, 5, β 3 β, β 4 β e β5 β, o modelo se torna 3 3 4 4 55 β + β + β + β + β + β + ε que é um modelo lnear de regressão. Os polnômos do prmero grau nas varáves de regressão são usados em epermentos fatoras em dos níves, completos ( k ) ou fraconados ( k-p ), e polnômos do segundo grau são usados em epermentos fatoras em três níves; completos (3 k ) ou os denomnados Epermentos Compostos Centrados (Central Composte Desgns). Neste capítulo apresentamos métodos de estmação dos coefcentes do modelo lnear e para testar a sgnfcânca dos coefcentes e, por consegunte, ter ndcações de quas fatores têm nfluênca no processo produtvo. Isto geralmente é denomnado ajuste do modelo. Fnalmente, apresentamos métodos para verfcar a adequação do modelo ajustado. Para leturas adconas a este capítulo e demonstrações, recomendamos: Atknson, (985), Atknson e Ran (), Cook e Wesberg (999), Mers e Montgomer () e Mers, Montgomer e Vnng ()... Estmação dos Parâmetros com Mínmos Quadrados O método dos mínmos quadrados, tradconalmente denomnado de mínmos quadrados ordnáro (MQ), é o método clássco de estmação dos parâmetros dos modelos lneares. Suponha que foram realzadas n observações da varável resposta,,, K,. Conjuntamente com cada observação de teremos uma observação, n ou nível, de cada varável de regressão. Seja j a -ésma observação da varável j. Apresentamos os dados na Tabela.. Podemos escrever a equação do Modelo (.) em termos das observações da Tabela.. β + β + β + L + β + ε,, n (.) k k K,

8 Tabela. - Dados para o Modelo de Regressão Lnear.... k... k... k..................... n n... nk n Assume-se que os dversos valores do termo do erro, ε, sejam varáves aleatóras não correlaconadas, com méda zero e varânca constante, σ ou seja: ( ) ( ) j j E E j e σ ε ε ε A equação (.) pode ser escrta na forma matrcal ε Xβ + (.3) onde k k nk n n k k n e ε ε ε β β β M M L M M M M L L M ε β X O vetor das observações tem dmensão n, X é uma matrz (n p) e o vetor dos níves das varáves ndependentes β tem dmensão (p k + ). O método dos MQ fornece o valor de β que mnmza a soma dos quadrados dos erros ε. A soma dos quadrados dos erros é ( ) ( ) ( ) β X Xβ β X β X Xβ Xβ β X Xβ Xβ ε ε β + + n S ε Os estmadores de mínmos quadrados devem, portanto, satsfazer a ˆ ˆ + X Xβ X β β S ou X Xβ X ˆ (.4)

9 A Equação (.4) é denomnada de equação normal dos mínmos quadrados na forma matrcal. Desde que X X seja postva defnda, podemos resolver a Equação (.4) multplcando ambos os seus membros por ( X ) estmadores de mínmos quadrados de β são e o modelo de regressão ajustado é Na forma escalar, o modelo é ( X X) X X. Portanto, os β ˆ (.5) ˆ Xβˆ. (.6) ˆ ˆ ˆ K ˆ β. ˆ β + β + β + + A dferença entre a observação e o valor ajustado ŷ é o resíduo k k e ˆ. O vetor, de dmensão n, dos resíduos é e ˆ. Nos modelos lneares, o método dos MQ produz estmadores não envesados dos parâmetros β. Portanto, ( β ) β E ˆ (Mers et al., pág. 5). A varânca de βˆ pode ser obtda a partr da matrz de varânca-covarânca: Cov ( βˆ ) E [ βˆ E( βˆ )][ βˆ E( βˆ )] que é uma matrz smétrca cujo -ésmo elemento da dagonal prncpal é a varânca do estmador do coefcente de regressão βˆ e o elemento (j) é covarânca entre βˆ e βˆ j. Pode-se demonstrar (Mers et al., pág. 5) que: ( ˆ ) ( X X) Covβ σ (.7) O estmador de mínmos quadrados de β é um estmador lnear não envesado e de varânca mínma, o que lhe confere o título de melhor estmador lnear não envesado. Pode-se demonstrar (Mers et al., pág. 5) que a estmatva da varânca σ do erro ε é SS ˆ σ E (.8) n p onde SS E é a soma dos quadrados dos resíduos: SS ( ) E n ˆ.

3.. Testes de Hpótese em Regressão São testes útes para verfcar quas os parâmetros sgnfcatvos do modelo. Os procedmentos aqu descrtos supõem que os erros ε têm dstrbução normal e são ndependentes com méda zero e varânca constante. Por conseqüênca, as observações têm dstrbução normal e são ndependentes com méda gual a k + j β e varânca gual a σ. β j j Para a prevsão de futuras observações de, devemos usar modelos parcmonosos, ou seja, modelos contendo apenas parâmetros sgnfcatvos. Por consegunte, devemos eecutar testes formas para determnar a sgnfcânca de cada parâmetro. Teste de Sgnfcânca para a Regressão (Mers et al., pág. 7) Este teste verfca se há uma relação lnear entre e as varáves ndependentes,,..., k,. As hpóteses são H : β... β k H : β j para ao menos um j A rejeção de H mplca que pelo menos uma das varáves ndependentes contrbu sgnfcatvamente para o modelo. A hpótese nula pode ser testada por meo de uma análse de varânca (ANOVA). O procedmento de teste começa com o parcelamento da soma total dos quadrados: SS T n n ( ) ( ŷ ) + ( ŷ ) n (.9) onde é a méda artmétca da n observações da resposta, e ajustado pelo modelo. ŷ é o valor A prmera parcela no membro dreto de (.9) mede o montante da varação de devdo à regressão; a segunda parcela é a soma dos quadrados dos resíduos, que mede o montante de varação não eplcada pela regressão. A Equação (.9) pode ser escrta da segunte forma: SS SS + SS. T R E

3 Se a hpótese nula H : β... β k for verdadera, pode-se demonstrar que SS R σ tem dstrbução qu-quadrado com k graus de lberdade χ e que k SS E σ tem dstrbução χ nk. Temos anda que SS R e SS E são ndependentes e, sendo os respectvos quadrados médos dados por MS R SS R k e MS E SS E n k, o quocente MS R MS E segue a dstrbução F k, n-k-. A estatístca de teste é então SS k MS F R R. (.) SS E ( n k ) MS E Rejetamos H se F for maor do que F α, k, n-k-. Podemos, alternatvamente, calcular o P-valor, que é a probabldade de F k, n-k- > F. Caso o P-valor seja menor do que α, rejetamos H. O coefcente de determnação múltpla R quocente de SS R e SS T : é defndo como sendo o R SS SS R T SS SS E T, (.) observando que: R. R é a proporção da varabldade eplcada pelo modelo. Qualquer varável adconada ao modelo, seja ela sgnfcatva ou não, provoca um aumento em R. Por consegunte, é possível que haja um modelo com valor de R elevado porém capacdade pobre de prevsão. Devdo a este fato, fo desenvolvdo o R ajustado: ( n p) ( n ) SS E Raju (.) SS Geralmente, o R ajustado não é ncrementado com a nclusão, no modelo, de varáves desnecessáras. Na verdade, se acrescentamos varáves desnecessáras ao modelo, o valor de R ajustado deverá dmnur. Quando R e não sgnfcatvos no modelo. T R aju dferem muto, sso é uma ndcação de que há parâmetros

3 Testes para cada Coefcente (Mers et al. (, pág. ) As hpóteses para testar a sgnfcânca do coefcente β j são H : β j H : β j Se H : β j não é rejetada, temos ndcação de que j não deve ser ncluída no modelo. A estatístca de teste para esta hpótese é onde C jj é o elemento da matrz (X X) - que corresponde a regressão t ˆ β j (.3) ˆ σ C A hpótese nula H : β j é rejetada se t > tα, n k. jj βˆ j. O denomnador da Equação (.3) é o erro padrão do coefcente de Eemplo.. βˆ j, ou seja, ( ˆ j ) σˆ C jj ep β (.4) Olvera (999) realzou um epermento para encontrar as condções de operação que mamzam a produção de polssacarídeos. Polssacarídeos são polímeros amplamente empregados nas ndústras almentíca, petrolífera, farmacêutca, cosmétca, têtl, de produtos agrícolas, de tntas, entre váras outras. Os fatores consderados mportantes foram: agtação ( ), epressa em rotações por mnuto (rpm), temperatura ( ), epressa em graus centígrados ( o C), e aeração ( 3 ), epressa em ltros de ar por mnuto (L/mn). A resposta medda fo o rendmento (), epresso em gramas por ltro (g/l), que é a medda da quantdade formada do produto. Os níves de cada fator são apresentados na Tabela.. Os valores entre parênteses são os níves codfcados como (,, -). Tabela. - Nível do Fator (Eemplo.). Nível do Fator Fator Alto Médo Bao Agtação (rpm) 8 () 65 () 5 (-) Temperatura ( o C) 36 () 8 () (-) Aeração (L/mn),5 (), (),5 (-)

33 Na Tabela.3 apresentamos os resultados correspondentes aos 6 epermentos realzados. Tabela.3 - Dados Resultantes do Epermento (Eemplo.). Agtação Temperatura Aeração Resposta 3 - - -, - - 3, - -,4-3,3 - -,3-3,3 -,5 3,7 -, 3, - 5,6 6, - 5,7 6, 5,8 5,7 O modelo de segunda ordem a ser ajustado é consttuído por k 9 varáves ndependentes: β + β + β 3 3 + β + β + β 3 3 + β + β + β 33 3 + β + ε O produto j é a varável que representa a nteração do fator com o fator j; e a varável j é o termo quadrado do fator j. Na Tabela.4, fornecda pela planlha Ecel, apresentamos a ANOVA para o modelo de segunda ordem completo. Como o P-valor é nferor a 5%, não rejetamos a hpótese de que a regressão é sgnfcatva, com pelo menos um coefcente sgnfcatvo. Tabela.4 - ANOVA do Epermento (Eemplo.). Fonte de Varação gl SS MS F P-valor Regressão 9 38, 4,4467 93,54 9,7569E-9 Resíduo 6,73,455 Total 5 38,94 3 3

34 Na Tabela.5, fornecda pela planlha Ecel, apresentamos os testes de sgnfcânca dos coefcentes para o modelo de segunda ordem completo. Tabela.5 - Testes para os Coefcentes. Coefcentes Erro-padrão t P-valor Interseção 5,755,39 78,94,6E- X,4,3 6,56,6 X,5,3 3,44 3,96E-7 X3,6,3 7,5,3 XX,7,46 4,85,8 XX -3,983,46-76,97 3,4E- X3X3,7,46,45,499 XX,5,39,,89 XX3,E-6,39 4,7E-5, XX3,5,39,5,335 Na Tabela.6, fornecda pela planlha Ecel, apresentamos os testes de sgnfcânca dos coefcentes para o modelo de segunda ordem sem as nterações, 3 e 3. Tabela.6 - Testes para os Coefcentes. Coefcentes Erro-padrão t P-valor Interseção 5,755,36 58,35 8,E-7 X,4,4 5,8,3 X,5,4,74 6,59E-9 X3,6,4 6,64 9,5E-5 XX,7,47 4,3, XX -3,983,47-68,,6E-3 X3X3,7,47,7,584 A sgnfcânca do termo quadrátco 3 mudou para cerca de 5,8%. Optamos por ecluí-la do modelo. Na Tabela.7, fornecda pela planlha Ecel, apresentamos os testes de sgnfcânca dos coefcentes para o modelo de segunda ordem sem as varáves 3,, 3 e 3. Tabela.7 - Testes para os Coefcentes Coefcentes Erro-padrão t P-valor Interseção 5,7386,43 4,3 7,5E-8 X,4,8 4,96,6 X,5,8 7,7 6,97E-9 X3,6,8 5,67, XX,34,5 4,49, XX -3,659,5-6,78 3,53E-4 Todos os termos permanecem sgnfcatvos. O modelo é então ˆ 5,7386 +,4 (.5) +,5 +,6 3 +,4 3, 659

35.3. Verfcação da Adequação do Modelo Nesta seção trataremos de verfcar se o modelo ajustado é adequado para descrever os dados. É necessáro verfcar se as suposções fetas não foram voladas, sto é, se os erros ε são normas, ndependentes e com varânca constante. As propredades de melhor estmador lnear não envesado dos estmadores de mínmos quadrados não dependem da suposção de normaldade. Entretanto, se a varânca não for constante, o estmador de mínmos quadrados, apesar de ser não envesado, não terá mínma varânca, e os erros-padrão dos estmadores dos coefcentes serão maores que no caso de varânca constante. Ademas, a volação das consderações de ndependênca e varânca constante pode tornar o modelo nstável, no sentdo que dferentes amostras podem resultar em modelos sgnfcatvamente dferentes, levando a conclusões dferentes. Na Seção 4. mostramos que o modelo lnear para o Eemplo 3. é nstável. Por consegunte, não é prudente contar com o modelo até que a valdade dessas suposções seja verfcada. A volação de qualquer uma dessas suposções, assm como a adequação do modelo, pode ser nvestgada pela nspeção dos resíduos. Ademas, é necessáro dentfcar se há observações atípcas (outlers) ou observações nfluentes. Mas adante, nesta seção, dscutremos a mportânca desses tpos de observações..3. Análse dos Resíduos A nvestgação dos resíduos é uma etapa obrgatóra de qualquer análse de regressão. Se o modelo é adequado, os resíduos devem se apresentar de forma aleatóra, sto é, eles não devem conter nenhum padrão evdente. Desta forma, a verfcação do modelo pode ser realzada pela análse de gráfcos dos resíduos e ŷ..3... Verfcação da Suposção de Normaldade Um procedmento útl para verfcação da consderação de normaldade é o gráfco de probabldade normal dos resíduos. Sua construção começa com a ordenação dos resíduos e,, e, K en na ordem crescente e ( ), e( ),, e( n) K, ou seja,

36 e ( ) é o menor resíduo e ( n) e é o maor resíduo. Os resíduos ordenados e ( j ) são então plotados versus a freqüênca cumulatva ( j, 5) n. A ordenada do gráfco é representada pelos valores da freqüênca cumulatva em uma escala de probabldade normal. Vamos lustrar este procedmento com o modelo (.5), construído para o Eemplo.. Na Tabela.8 temos os resíduos ordenados e a freqüênca cumulatva. Tabela.8 - Resíduos Ordenados e Freqüênca Cumulatva. Observação Valor Ajustado Resíduo Resíduos Freq. Cum. ŷ ( e ˆ ) Ordenados ( j, 5) n,,68,93 -,37,33 3, 3,68 -,68 -,68,938 3,4,368,73 -,77,563 4 3,3 3,368 -,68 -,77,88 5,3,868,3 -,386,83 6 3,3 3,868,3 -,68,3438 7,5,668 -,68 -,7,463 8 3,7 3,668,93 -,68,4688 9,,77 -,77,3,533 3, 3,77 -,77,3,5938 5,6 5,5786,4,4,6563 6, 5,8986,4,64,788 3 5,7 5,837 -,37,73,783 4 6, 6,7 -,7,93,8438 5 5,8 5,7386,64,93,963 6 5,7 5,7386 -,386,4,9688 Para construr o gráfco de probabldade normal dos resíduos plotamos no eo horzontal o resíduo ordenado e no eo vertcal plotamos a freqüênca cumulatva, em uma escala de probabldade normal. Na Fgura. apresentamos este gráfco, fornecdo pelo Desgn Epert. Não observamos pontos muto fora do alnhamento. Por consegunte, não há ndcação de que a consderação de normaldade deva ser rejetada. O software ARC constró este gráfco de outra manera. No eo vertcal são plotados os resíduos ordenados e no eo horzontal, em escala lnear, são plotados os valores da nversa da normal padronzada (quartl normal) da freqüênca cumulatva correspondente. Na Tabela.9 apresentamos estes valores.

37 DESIGN-EXPERT Plot Response Normal Plot of Resduals 99 Normal % Probablt 95 9 8 7 5 3 5 -.7744 -.3683.3669.4457.84488 Resdual Fgura. Gráfco de Probabldade Normal dos Resíduos Tabela.9 - Resíduo Ordenado e Quartl Normal. Resíduos Freq. Cum. Quartl j, 5 Normal -,37,33 -,867 -,68,938 -,38 -,77,563 -, -,77,88 -,7764 -,386,83 -,579 -,68,3438 -,43 -,7,463 -,37 -,68,4688 -,784,3,533,784,3,5938,37,4,6563,43,64,788,579,73,783,7764,93,8438,,93,963,38,4,9688,867 Ordenados ( ) n Na Fgura. apresentamos o gráfco de probabldade normal dos resíduos com envelope, fornecdo pelo software ARC. O procedmento para construção do envelope será descrto adante.

38 Fgura. Gráfco de Probabldade Normal com Envelope Este gráfco também pode ser feto na planlha Ecel (mas aí sem envelope), construndo um gráfco de dspersão com (no caso em eemplo) a prmera e tercera coluna da Tabela.9. Devdo ao caráter subjetvo da análse desses gráfcos, Atknson (985) desenvolveu um procedmento de smulação para a construção de lnhas em volta dos pontos do gráfco. Tas lnhas são denomnadas de envelopes. Atknson afrma que, além do caráter subjetvo da análse destes gráfcos, há o problema da super-normaldade. Eplcando: no caso de os erros não terem dstrbução normal, anda assm, os resíduos, devdo ao fato de serem uma combnação lnear de varáves aleatóras, têm a tendênca de terem uma dstrbução mas próma da normal do que os erros. Portanto, pontos apromadamente alnhados ao longo de uma lnha reta não sgnfcam necessaramente normaldade na dstrbução do erro. A construção de envelopes procura superar estes dos problemas. Wesberg (999), fundamentado em Atknson (985), descreve como o software ARC procede para construr os envelopes. Es o procedmento: Construção de envelopes em ARC.. Traçar o gráfco de probabldade normal dos resíduos versus os quarts da normal.

39. Supor que os valores dos parâmetros do modelo são os valores verdaderos, e então gerar um vetor aleatóro da resposta, baseado no modelo. Para modelos lneares normas, a -ésma resposta é smplesmente gual ao -ésmo valor ajustado mas um desvo aleatóro com dstrbução normal padronzada vezes a estmatva do desvo-padrão do erro ˆ σ MS E. 3. Com as respostas aleatóras obtdas em () ajusta-se o mesmo modelo (.e., reestmam-se os coefcentes do modelo) e calculam-se novos resíduos, que são salvos. 4. Repetr () e (3) 9 vezes. Para cada resposta, acrescentar ao gráfco de probabldade, construído em (), os valores mámo e mínmo dos resíduos gerados em (3). Atknson (985) afrma que o propósto deste procedmento não é prover uma regão de acetação ou rejeção como em um teste formal, mas prover uma orentação sobre a forma ou lnha que pode ser esperada deste gráfco. Mas do que o número de pontos fora do envelope, é mportante o afastamento dos pontos em relação ao envelope, com especal atenção para os resíduos com valores mas elevados. Resíduos Padronzados e Resíduos Studentzados O resíduo padronzado é o quocente entre o resíduo e a estmatva do seu desvo padrão. ondeσˆ MS. E d e,, K n (.6) ˆ σ, Esses resíduos têm méda zero e varânca apromadamente gual a um. A maora dos resíduos padronzados deve estar no ntervalo 3 d 3. Qualquer observação cujo resíduo esteja fora deste ntervalo é potencalmente uma observação atípca, e deve ser cudadosamente eamnada, uma vez que pode ser conseqüênca de um erro de medção ou de regstro. Entretanto, pode também corresponder a uma regão especal no espaço da varável ndependente, onde o modelo ajustado representa pobremente o modelo real. Tal regão pode ser de

4 grande nteresse caso corresponda a um mámo (ou mínmo) da resposta, caso seja este o objetvo. Ao dvdrmos os resíduos pela estmatva do desvo-padrão, estamos na verdade dvdndo-os pela méda do desvo-padrão. De fato, o desvo-padrão dos resíduos não é constante. Ele é dferente para os dversos valores da varável de resposta. Ele é maor para respostas mas prómas da méda desta varável. Na defnção do resíduo studentzado sto é levado em conta. Vmos que os valores ajustados são calculados pela fórmula A matrz H, de dmensão ˆ Xβˆ ˆ X X X ( ) X ˆ H (.7) n n, é conhecda como matrz chapéu (hat) porque ela põe um chapéu (acento crcunfleo) em. A matrz chapéu é a matrz de projeção dos valores ajustados sobre os valores observados. Suas propredades são mportantes para a análse dos resíduos, como veremos daqu por dante. Os resíduos escrtos sob forma matrcal são dmensão e ˆ H ( I H) (.8) A matrz H é uma matrz smétrca ( H H) e dempotente ( H) HH de n n. Da mesma forma, a matrz (I H) é smétrca e dempotente. A partr da Equação (.8) temos que Logo, e então var Sabe-se que var( ) σ I ( e) var[ ( I H) ] ( I H) var( )( I H) e que a matrz (I H) é smétrca e dempotente. var ( e) ( I H) var σ (.9) ( e ) σ ( ) h onde h é o -ésmo elemento da dagonal da matrz H.

4 Os resíduos studentzados são então defndos como sendo onde ˆ σ MS. E r σˆ e ( h ) (.) Temos que, quando o modelo é correto, var ( ) r qualquer que seja a localzação de. Em mutos casos a dferença entre os resíduos padronzados e studentzados será pequena, contendo ambos nformações equvalentes. Entretanto, no método dos mínmos quadrados, pontos com valores elevados de h e e são potencalmente nfluentes no cálculo dos parâmetros do modelo. Por consegunte, para dagnóstco do modelo recomenda-se o uso dos resíduos studentzados..3... Verfcação da Suposção de Independênca A suposção de ndependênca e ( ) resíduos studentzados versus valores ajustados. E e é verfcada através do gráfco dos Fgura.3 Gráfco dos Resíduos Studentzados No gráfco da Fgura.3 os resíduos apresentam-se de forma desestruturada; sto é, eles não contêm nenhum padrão evdente, apresentando-se aleatoramente dstrbuídos. A lnha resultante do amortecmento (lowess) é apromadamente

4 horzontal e próma da reta horzontal de ordenada zero, ndcando méda zero para os resíduos. A lnha de amortecmento lowess (locall weghted scaterplot smoother), ou lnha amortecda, no gráfco de dspersão, localmente ponderada, é uma técnca de estatístca não paramétrca, ndcada para vsualzar tendêncas nos dados no gráfco. Cook e Wesberg (999) descrevem na pág. como o software ARC constró esta lnha. Sejam duas varáves e.. Seleconar um parâmetro de amortecmento f, no ntervalo (, ). Geralmente são escolhdos valores entre,4 e,7. Escolhamos, por eemplo f,5.. Seleconar um ponto l e escolhemos os f n pontos mas prómos de l. No Eemplo. temos n 6 e como escolhemos f,5 temos f n 8. 3. Com os f n pontos mas prómos de l, fazer a regressão de sobre, com o método dos mínmos quadrados ponderados, com os pesos determnados de tal modo que os pontos mas prómos de l tenham maores pesos, os quas decrescem até zero, à medda que os pontos se afastam de l. Em ARC é usada uma função trangular para os pesos, que decresce lnearmente desde um valor mámo em l até zero para o ponto mas afastado. 4. Plotar o valor de ŷ l, ajustado na regressão, que corresponde a l. 5. Repetr () a (4) para todos os valores de l e unr os pontos com os valores de ŷ l plotados..3..3. Verfcação da Suposção de Varânca Constante Cook e Wesberg (999), pág. 346, propuseram um teste para verfcar se a varânca é constante. Para sso defnem o segunte modelo da varânca da resposta var ( ) σ ep( γ ) (.) onde γ é um vetor de parâmetros e a varânca de é constante quando γ.

43 Tomando o logartmo de (.) temos que ln [ var( )] ln( σ ) + γ Freqüentemente a varânca é função da méda; e nesse caso, comumente, a varânca aumenta quando a méda aumenta. Podemos então fazer γ λ β λe( ) onde [ var( ) ] ln [ var( ) ] ln( σ ) ln, resultando em + λ β ( σ ) + λe( ) ln é uma função lnear da méda de. A função de varânca é constante quando λ. Para testar se λ, Cook e Wesberg usam um teste que requer a correta determnação de E(). Para realzar o teste, ajusta-se o modelo lnear MQ. ŷ β va Os quadrados dos resíduos e contêm nformação sobre a função de varânca. Procede-se então à regressão de e sobre ŷ, por MQ. Calcula-se a soma dos quadrados devdo a esta regressão SSreg n e n e n. A estatístca de teste é calculada dvdndo-se SSreg pelo fator de escala ( e ) n. ET SSreg ( e n). Os autores asseguram que ET tem dstrbução χ com um grau de lberdade (número de termos da regressão de e sobre ŷ ), caso λ seja gual a zero. Para o Eemplo., consderando a tabela.8, fazemos a regressão de e sobre ŷ na planlha Ecel, obtendo SSreg,6. Em seguda calculamos ( ), 495 e n. Então,, 6 ET, 35,495

44 Na dstrbução qu-quadrado com um grau de lberdade, ET,35 corresponde a um P-valor de,857. Então, acetamos a hpótese de que a varânca não aumenta quando a méda aumenta. O gráfco da Fgura.4 vem confrmar a suposção de varânca constante. Nesse gráfco temos o valor absoluto dos resíduos studentzados versus o valor ajustado. A lnha resultante do amortecmento (lowess) não ndca crescmento da varânca com o aumento da méda. Fgura.4 Gráfco Valor Absoluto do Resíduo Versus Valor Ajustado.3..4. Verfcação de Observações Atípcas (Outlers) Uma observação atípca é aquela que não combna com o modelo obtdo. Essas observações suspetas podem dever-se a erros de medção da resposta, ou de transposção dos dados, ou de condução destes epermentos. Entretanto, as observações atípcas só devem ser descartadas caso se confrme erro de medda ou transcrção; a resposta obtda pode não ser fruto de um erro, mas um valor real e, caso trate-se de um etremo da resposta, pode mesmo dependendo do objetvo corresponder a um bom (senão ao melhor) ponto de operação do processo produtvo. Ademas, observações atípcas pode ser fruto de um modelo nadequado. Uma observação pode ser atípca em um modelo e não a ser em outro.

45 O resíduo studentzado (r ) é freqüentemente consderado para um dagnóstco de observações atípcas. Cabe lembrar que, para calcular os resíduos studentzados de cada dado epermental, utlza-se a méda dos quadrados do erro ˆ (MS E ) como estmatva da varânca ( σ ). A MS E fo gerada nternamente e obtda a partr do ajuste do modelo às n observações. Portanto, o resíduo studentzado representa uma escala nterna dos resíduos. Um outro procedmento é consderar a eclusão da -ésma observação e verfcar qual é o efeto na estmatva da resposta. Em partcular, verfcar se o valor observado concorda com o valor ajustado ( ), obtdo quando a -ésma observação é ecluída da regressão, ou seja, faz-se a regressão com a -ésma observação removda. Então, a estmatva de ˆ ˆ σ passa a ser S () : ( n p) MS E e /( h ) S( ) (.) n p S() é usada no lugar da MS E para gerar uma escala eterna dos resíduos studentzados. t e,, K n (.3) S ( h ), ( ) Mers et al. () afrmam que o resíduo t usualmente é denomnado R- Student, enquanto Atknson (985) denomna-o resíduo de supressão (deleton resdual), e Cook e Wesberg (999): outler-t. Já que vamos usar os gráfcos do software ARC, destes últmos, vamos adotar o nome outler-t. Em váras stuações, o valor de outler-t pouco dferrá em relação ao valor do resíduo studentzado. Entretanto, quando o valor S () da -ésma observação dferr sgnfcatvamente da MS E, sso ndcará que essa observação tem uma grande nfluênca na determnação dos coefcentes de regressão do modelo, o que torna a estatístca outler-t mas sensível a observações atípcas do que o resíduo studentzado. Quando a -ésma observação se orgna da mesma dstrbução normal das outras observações, a estatístca t tem uma dstrbução t com n - p - graus de lberdade, o que possblta um procedmento mas formal para a detecção de observações atípcas, va teste de hpóteses.

46 Para obter conclusões com relação à estênca ou não de observações atípcas, Mers et al. () ctam a abordagem de Bonferron, que consste em comparar todos os n valores de t a t / n), n p. Entretanto, do ponto de vsta ( α desses autores, essa abordagem não é usualmente necessára, e apenas valores suspetos devem ser testados. O software Desgn-Epert consdera suspeta qualquer observação cujo valor da estatístca outler-t seja superor a 3,5 ou nferor a -3,5. De fato, geralmente, a smples observação do gráfco de outler-t versus os valores ajustados é sufcente para conclusões sobre observações atípcas. Na Fgura.5 temos este gráfco. Já que todos os valores estão no ntervalo (-3,5; 3,5), não há ndcação de observações atípcas. Caso houvesse alguma observação fora deste ntervalo, procederíamos ao teste com a dstrbução t. Atknson (985) sugere utlzar para os resíduos outler-t em um gráfco de probabldade normal com envelope. O software ARC oferece esta opção. Na Fgura.6 apresentamos o gráfco de probabldade t para os resíduos outler-t. Não observamos pontos muto fora do alnhamento. Por consegunte, não temos ndcação de observações atípcas. Fgura.5 Gráfco Resíduo Outler-t Versus Valor Ajustado

47 Fgura.6 Gráfco de Probabldade Normal do Resíduo Outler-t.3..5. Verfcação de Observações Influentes Ocasonalmente algumas observações eercem grande nfluênca na determnação dos coefcentes de regressão do modelo. Tas observações são denomnadas observações nfluentes. Pode haver uma certa confusão entre observações nfluentes e observações atípcas. Para lustrar estes dos tpos de observações vamos consderar o conjunto de dados Ascomb, apresentado na Tabela., fornecdo junto com o software ARC. Tabela. - Dados Ascomb. (a) 8 3 9 4 6 4 7 5 7,46 6,77,74 7, 7,8 8,84 6,8 5,39 8,5 6,4 5,73 (b) 8 8 8 8 8 8 8 9 8 8 8 6,58 5,76 7,7 8,84 8,47 7,4 5,5,5 5,56 7,9 6,89 Na Fgura. temos os gráfcos de versus (esquerda) e de versus (dreta). As retas que aparecem nos gráfcos são as retas de regressão por mínmos quadrados. O gráfco da esquerda apresenta uma observação atípca não muto nfluente na determnação dos coefcentes (marcada com um +). O gráfco da dreta apresenta uma observação atípca de grande nfluênca na determnação dos coefcentes (marcada com um ). Por consegunte, uma observação atípca

48 pode não ser muto nfluente (gráfco da esquerda) ou muto nfluente (gráfco da dreta). Fgura.7 Gráfcos de Versus e de Versus Portanto, a detecção de observações atípcas deve ser consderada smultaneamente com a detecção das observações que eercem grande nfluênca na determnação dos coefcentes de regressão do modelo. Dstânca de Cook Como fo vsto, a dsposção dos pontos no espaço das varáves de regressão é mportante na determnação das propredades do modelo. Em partcular, as observações remotas podem, potencalmente, eercer o efeto de uma alavanca nas estmatvas dos parâmetros, nos valores prevstos e nas estatístcas utlzadas. A matrz chapéu H X( X' X) X' é útl na dentfcação dessas observações nfluentes. Os valores dos elementos h j da matrz H podem ser nterpretados como a ntensdade da alavancagem eercda pelos valores observados ( ) sobre os valores ajustados ( ŷ ). Portanto, a nspeção dos elementos da matrz H pode revelar pontos potencalmente nfluentes devdo à sua localzação no espaço das varáves ndependentes. A atenção deve ser focada nos elementos h da dagonal da matrz H. Podese demonstrar que n h dagonal da matrz H é p/n. p. Portanto, a magntude méda dos elementos h da

49 Assm, uma forma apromada, mas efcaz, de verfcar se a -ésma observação é um ponto de grande alavancagem, é verfcar se o elemento h da dagonal da matrz H é maor que p/n, ou seja, se o valor de h assocado à - ésma observação é duas vezes maor que a méda de todos os h da dagonal da matrz H. Caso seja constatado que um ou mas valores de h são maores que p/n, então podemos conclur que as observações são pontos de grande alavancagem (Mers et al. ). No epermento em questão temos n 6 e p 6. Assm, são consderadas como possíves pontos de alavancagem as observações cujos valores de h sejam superores a p/n,75. Na tabela abao apresentamos os valores de h no Eemplo.. 3 4 5 6 7 8 h,4,4,4,4,4,4,4,4 9 3 4 5 6 h,4,4,3,3,4,4,, Não há valores de h maores que,75. Portanto, não há ndcação de observações que eerçam uma grande alavancagem sobre os parâmetros estmados, valores prevstos e estatístcas empregadas. Já vmos que, com a dagonal da matrz chapéu (H) dentfcamos pontos de potencal nfluênca devdo à sua localzação no espaço das varáves ndependentes. Entretanto, é desejável consderar, na medção da nfluênca, não apenas a localzação desses pontos mas, também, o valor da observação. Cook (977) sugeru a utlzação de uma medda do quadrado da dstânca entre a estmatva dos mínmos quadrados βˆ e uma estmatva obtda eclundo-se ˆ o -ésmo ponto, β ( ). Em geral, a medda desta dstânca, denomnada dstânca de Cook, pode ser epressa como sendo: ( X X) ( βˆ ( ) βˆ)' (ˆ β ( ) βˆ) D,, K, n. (.4) pms E