SÉRIE: Estatística Básica Texto v: CORRELAÇÃO E REGRESSÃO SUMÁRIO 1. CORRELAÇÃO...2

Documentos relacionados
Jackknife, Bootstrap e outros métodos de reamostragem

Introdução ao Estudo de Sistemas Lineares

Capitulo 6 Resolução de Exercícios

Testes de Hipóteses para a Diferença Entre Duas Médias Populacionais

ActivALEA. ative e atualize a sua literacia

CAPÍTULO 5 - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA

CAPÍTULO 8 - Noções de técnicas de amostragem

INTRODUÇÃO. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

Estatística stica para Metrologia

VII Equações Diferenciais Ordinárias de Primeira Ordem

1.4- Técnicas de Amostragem

Neste capítulo, pretendemos ajustar retas ou polinômios a um conjunto de pontos experimentais.

PROBABILIDADES E ESTATÍSTICA

Carteiras de Mínimo VAR ( Value at Risk ) no Brasil

O erro da pesquisa é de 3% - o que significa isto? A Matemática das pesquisas eleitorais

somente um valor da variável y para cada valor de variável x.

PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA DE TRANSPORTES E GESTÃO TERRITORIAL PPGTG DEPARTAMENTO DE ENGENHARIA CIVIL ECV

Séries de Potências AULA LIVRO

Faculdade de Engenharia Investigação Operacional. Prof. Doutor Engº Jorge Nhambiu

CAP. I ERROS EM CÁLCULO NUMÉRICO

O QUE SÃO E QUAIS SÃO AS PRINCIPAIS MEDIDAS DE TENDÊNCIA CENTRAL EM ESTATÍSTICA PARTE li

SUMÁRIO 1. AMOSTRAGEM Conceitos básicos 4

Lista 9 - Introdução à Probabilidade e Estatística

Análise de Projectos ESAPL / IPVC. Critérios de Valorização e Selecção de Investimentos. Métodos Estáticos

Analise de Investimentos e Custos Prof. Adilson C. Bassan adilsonbassan@adilsonbassan.com

Computação Científica - Departamento de Informática Folha Prática 1

A seguir, uma demonstração do livro. Para adquirir a versão completa em papel, acesse:

Problema de Fluxo de Custo Mínimo

Probabilidades. José Viegas

Os juros compostos são conhecidos, popularmente, como juros sobre juros.

INTRODUÇÃO A TEORIA DE CONJUNTOS

5. A nota final será a soma dos pontos (negativos e positivos) de todas as questões

FACULDADE DE ADMINISTRAÇÃO E NEGÓCIOS DE SERGIPE

Capitulo 9 Resolução de Exercícios

Curso MIX. Matemática Financeira. Juros compostos com testes resolvidos. 1.1 Conceito. 1.2 Período de Capitalização

PG Progressão Geométrica

a taxa de juros i está expressa na forma unitária; o período de tempo n e a taxa de juros i devem estar na mesma unidade de tempo.

Exercícios de Matemática Polinômios

A TORRE DE HANÓI Carlos Yuzo Shine - Colégio Etapa

Prof. Eugênio Carlos Stieler

UFRGS MATEMÁTICA

JUROS COMPOSTOS. Questão 01 A aplicação de R$ 5.000, 00 à taxa de juros compostos de 20% a.m irá gerar após 4 meses, um montante de: letra b

PARECER SOBRE A PROVA DE MATEMATICA FINANCEIRA CAGE SEFAZ RS

PRESTAÇÃO = JUROS + AMORTIZAÇÃO

Módulo 4 Matemática Financeira

2.1 Dê exemplo de uma seqüência fa n g ; não constante, para ilustrar cada situação abaixo: (a) limitada e estritamente crescente;

Lista de Exercícios #4. in Noções de Probabilidade e Estatística (Marcos N. Magalhães et al, 4ª. edição), Capítulo 4, seção 4.4, páginas

Teste de Hipóteses VÍCTOR HUGO LACHOS DÁVILAD

UNIVERSIDADE DA MADEIRA

PUCRS FAMAT DEPTº DE ESTATÍSTICA Estimação e Teste de Hipótese- Prof. Sérgio Kato

Faculdade Campo Limpo Paulista Mestrado em Ciência da Computação Complexidade de Algoritmos Avaliação 2

MATEMÁTICA FINANCEIRA

Universidade Federal do Maranhão Centro de Ciências Exatas e Tecnologia Coordenação do Programa de Pós-Graduação em Física

5- CÁLCULO APROXIMADO DE INTEGRAIS 5.1- INTEGRAÇÃO NUMÉRICA

Capítulo 2 Análise Descritiva e Exploratória de Dados

M = 4320 CERTO. O montante será

Conceito 31/10/2015. Módulo VI Séries ou Fluxos de Caixas Uniformes. SÉRIES OU FLUXOS DE CAIXAS UNIFORMES Fluxo de Caixa

ANDRÉ REIS MATEMÁTICA. 1ª Edição NOV 2013

1.5 Aritmética de Ponto Flutuante

O poço de potencial infinito

Lista 2 - Introdução à Probabilidade e Estatística

Demonstrações especiais

APONTAMENTOS DE ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA

DISTRIBUIÇÃO AMOSTRAL DA MÉDIA E PROPORÇÃO ESTATISTICA AVANÇADA

O oscilador harmônico

Definição 1.1: Uma equação diferencial ordinária é uma. y ) = 0, envolvendo uma função incógnita y = y( x) e algumas das suas derivadas em ordem a x.

EQUAÇÕES DIFERENCIAIS LINEARES DE ORDEM N

CURTOSE. Teremos, portanto, no tocante às situações de Curtose de um conjunto, as seguintes possibilidades:

1.1 Comecemos por determinar a distribuição de representantes por aplicação do método de Hondt:

Portanto, os juros podem induzir o adiamento do consumo, permitindo a formação de uma poupança.

Duas Fases da Estatística

M = C (1 + i) n. Comparando o cálculo composto (exponencial) com o cálculo simples (linear), vemos no cálculo simples:

Capitulo 2 Resolução de Exercícios

INTERPOLAÇÃO. Interpolação

Resposta: L π 4 L π 8

Exercício 1. Quantos bytes (8 bits) existem de modo que ele contenha exatamente quatro 1 s? Exercício 2. Verifique que

Anexo VI Técnicas Básicas de Simulação do livro Apoio à Decisão em Manutenção na Gestão de Activos Físicos

Aplicação de geomarketing em uma cidade de médio porte

Fundamentos de Bancos de Dados 3 a Prova

defi departamento de física

APOSTILA MATEMÁTICA FINANCEIRA PARA AVALIAÇÃO DE PROJETOS

Até que tamanho podemos brincar de esconde-esconde?

CAPÍTULO 5 CIRCUITOS SEQUENCIAIS III: CONTADORES SÍNCRONOS

Equações Diferenciais (ED) Resumo

J. A. M. Felippe de Souza 9 Diagramas de Bode

Profa. Regina Maria Sigolo Bernardinelli. Estatística. Gestão Financeira / Gestão de Recursos Humanos / Logística / Marketing

AMOSTRAGEM. metodologia de estudar as populações por meio de amostras. Amostragem ou Censo?

Unidade V - Desempenho de Sistemas de Controle com Retroação

Matemática Ficha de Trabalho

Lista de Exercícios #4 Assunto: Variáveis Aleatórias Contínuas

Prova 3 Matemática ... GABARITO 1 NOME DO CANDIDATO:

Questão 11. Questão 13. Questão 12. Questão 14. alternativa B. alternativa E. alternativa A

Capitulo 3 Resolução de Exercícios

CPV seu Pé Direito no INSPER

Fundamentos de Bancos de Dados 3 a Prova

JUROS SIMPLES. 1. Calcule os juros simples referentes a um capital de mil reais, aplicado em 4 anos, a uma taxa de 17% a.a.

CURSO ON-LINE PROFESSOR GUILHERME NEVES

Capitulo 10 Resolução de Exercícios

Transcrição:

SUMÁRIO 1. CORRELAÇÃO... 1.1. Itrodução... 1.. Padrões de associação... 3 1.3. Idicadores de associação... 3 1.4. O coeficiete de correlação... 5 1.5. Hipóteses básicas... 5 1.6. Defiição... 6 1.7. Distribuição amostral de r (quado ρ 0)... 6 1.8. Distribuição amostral de r (quado ρ 0)... 7 1.9. Propriedades de r... 8. REGRESSÃO...9.1. Estimativa dos parâmetros de regressão... 11.. Estimativa da variâcia do termo erro... 1.3. Distribuições das estimativas... 15.3.1. Distribuição do estimador b... 15.3.. Distribuição do estimador a... 16.4. Decomposição da soma dos quadrados... 16.4.1. Decomposição dos desvios... 16.4.. Cálculo das variações... 17.5. Itervalos de cofiaça... 18.5.1. Itervalo para o coeficiete liear (α)... 18.5.. Itervalo para o coeficiete agular (β)... 18.5.3. Itervalo para previsões... 18.6. Testes de hipóteses... 0.6.1. Teste para a existêcia da regressão... 0.6.. Teste para o coeficiete liear... 0.7. Coeficiete de determiação ou de explicação... 1 3. EXERCÍCIOS... 4. RESPOSTAS...7 5. REFERÊNCIAS...30 Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 1

1. CORRELAÇÃO CORRELAÇÃO E REGRESSÃO 1.1. INTRODUÇÃO Ao se estudar uma variável o iteresse eram as medidas de tedêcia cetral, dispersão, assimetria, etc. Com duas ou mais variáveis além destas medidas idividuais também é de iteresse cohecer se elas tem algum relacioameto etre si, isto é, se valores altos (baixos) de uma das variáveis implicam em valores altos (ou baixos) da outra variável. Por exemplo, pode-se verificar se existe associação etre a taxa de desemprego e a taxa de crimialidade em uma grade cidade, etre verba ivestida em propagada e retoro as vedas, etc. A associação etre duas variáveis poder ser de dois tipos: correlacioal e experimetal. Numa relação experimetal os valores de uma das variáveis são cotrolados pela atribuição ao acaso do objeto sedo estudado e observado o que acotece com os valores da outra variável. Por exemplo, pode-se atribuir dosages casuais de uma certa droga e observar a resposta do orgaismo; pode-se atribuir íveis de fertilizate ao acaso e observar as difereças a produção de uma determiada cultura. No relacioameto correlacioal, por outro lado, ão se tem ehum cotrole sobre as variáveis sedo estudadas. Elas são observadas como ocorrem o ambiete atural, sem ehuma iterferêcia, isto é, as duas variáveis são aleatórias. Assim a difereça etre as duas situações é que a experimetal ós atribuímos valores ao acaso de uma forma ão tedeciosa e a outra a atribuição é feita pela atureza. Figura 1.1 - Vários tipos de relacioameto etre as variáveis X e Y Freqüetemete é ecessário estudar o relacioameto etre duas ou mais variáveis. Ao estudo do relacioameto etre duas ou mais variáveis deomiamos de correlação e regressão. Se o estudo tratar apeas de duas variáveis tem-se a correlação e a regressão simples, se evolver mais do que duas variáveis, tem-se a correlação e a regressão múltiplas. A regressão e a correlação tratam apeas do relacioameto do tipo liear etre duas variáveis. A aálise de correlação forece um úmero que resume o grau de relacioameto liear etre as duas variáveis. Já a aálise de regressão forece uma equação que descreve o comportameto de uma das variáveis em fução do comportameto da outra variável. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/

1.. PADRÕES DE ASSOCIAÇÃO Idepedete do tipo (correlacioal ou experimetal) a relação etre as variáveis pode ser resumida através de uma equação idicado o padrão de associação etre as duas variáveis. As relações mais comus ecotradas estão ilustradas a figura 1.1. Quado ão é possível perceber uma relação sistemática etre as variáveis é dito que as variáveis são ão correlacioadas, são idepedetes ou aida que são ortogoais. 1.3. INDICADORES DE ASSOCIAÇÃO Supoha-se que queiramos determiar se duas variáveis aleatórias estão de alguma forma correlacioadas. Por exemplo, supoha-se que se queira determiar se o desempeho dos empregados o trabalho está de alguma forma associado ao escore obtido um teste vocacioal. Tabela de cotigêcia x. Uma vez que a correlação etre duas variáveis aleatórias reflete o quato os altos escores de uma delas implicam em altos escores da outra e baixos escores de uma implicam em baixos escores da outra e vice-versa, o caso de uma relação egativa, pode-se começar a aálise idetificado, justamete quatos elemetos de uma das variáveis são altos e quatos são baixos. Para determiar se um escore ou valor é alto ou baixo, pode-se covecioar que qualquer valor acima da mediaa é alto e qualquer valor abaixo da mediaa é baixo. Classificado desta forma pode-se ter etão, para o exemplo, 4 possíveis resultados: Tato o desempeho o trabalho quato o teste estão acima da mediaa (+ +) O desempeho o trabalho está acima mas o do teste está abaixo da mediaa (+ ) Tato o desempeho o trabalho quato o do teste estão abaixo da mediaa ( ) O desempeho o trabalho está abaixo da mediaa mas o teste ão ( +) Estas quatro possibilidades podem ser arrajadas em uma tabela de cotigêcia x, como a mostrada abaixo: Tabela 1.1 Desempeho o trabalho e o teste Desempeho o trabalho Escore o teste vocacioal Abaixo da mediaa ( ) Acima da mediaa (+) Acima da mediaa (+) (, +) 10 empregados (+, +) 40 empregados Abaixo da mediaa ( ) (, ) 40 empregados (+, ) 10 empregados Observe se que se ão existir relação etre as duas variáveis deve se esperar úmero idêtico de empregados em cada uma das células da tabela, isto é, se a pessoa o escore da pessoa o teste vocacioal está acima ou abaixo da mediaa ão tem ada a ver com o seu escore o desempeho o trabalho estar acima ou abaixo da mediaa. O que pode ser visto a tabela acima é que parece existir uma forte correlação etre as duas variáveis, pois ao ivés de igual úmero em cada célula o que se tem é um úmero grade de ambas as variáveis acima da mediaa e um úmero grade de escores de ambas as variáveis abaixo da mediaa. Das 50 pessoas com escore acima da mediaa o teste, 40 deles (80%) apresetaram escore acima da mediaa o desempeho do trabalho. Da mesma forma dos 50 que tiverem classificações abaixo da mediaa, 40 deles apresetaram escore abaixo da mediaa o desempeho do trabalho. Se ão houvesse correlação seria de se esperar que dos 50 que tiveram escores acima da mediaa o teste 5 tivessem escores acima da mediaa o desempeho do trabalho e 5 abaixo. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 3

A tabela 1. mostra outras possíveis saídas para este tipo de esquema de classificação cruzada. Novamete 100 elemetos são classificados em 4 células de acordo com o critério aterior. A parte (a) da tabela mostra uma associação positiva, a parte (b) uma egativa e a parte (c) que ão deve existir associação etre duas variáveis X e Y. Tabela 1. - Idicativos da preseça de associação etre duas variáveis X e Y. (a) Relação positiva (b) Relação egativa (c) Sem relação Valor de Y Valor de Y Valor de Y Valor de X Acima da mediaa Abaixo da mediaa Abaixo da mediaa Acima da mediaa Valor de X 15 35 Acima da mediaa 35 15 Abaixo da mediaa Abaixo da mediaa Acima da mediaa 35 15 Acima da mediaa 15 35 Abaixo da mediaa Valor de X Abaixo Acima da da mediaa mediaa 5 5 5 5 Diagramas de dispersão. As tabelas de cotigêcia x forecem somete a idicação grosseira da relação etre duas variáveis, a ão ser o fato de que os valores estão situados acima e abaixo da mediaa, qualquer outra iformação é desperdiçada. Vamos cosiderar um exemplo, evolvedo duas variáveis cotíuas. Um comerciate de temperos está curioso sobre a grade variação as vedas de loja para loja e acha que as vedas estão associadas com o espaço as prateleiras dedicados a sua liha de produto em cada poto de veda. Dez lojas foram selecioadas ao acaso através do país e as duas seguites variáveis foram mesuradas: (1) total de espaço de frete (comprimeto x altura em cm ) dedicados a sua liha de produtos e () total das vedas dos produtos, em reais, o último mês. Os dados são apresetados a tabela 1.3. Tabela 1.3 Vedas x espaço dedicado aos produtos (em cm ). Local Espaço Vedas 1 340 71 30 65 3 405 83 4 35 74 5 80 67 6 195 56 7 65 57 8 300 78 9 350 84 10 310 65 Pela observação da tabela ão é fácil perceber o tipo de relacioameto que possa existir etre as duas variáveis. Para ter uma idéia melhor, as variáveis são colocadas o que é deomiado de diagrama de dispersão. Uma das variáveis (X) é represetada o eixo horizotal e a outra variável (Y) o eixo vertical, coforme figura 1.. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 4

Figura 1. Diagrama de dispersão das variáveis apresetadas a tabela 1.3. 100 90 80 70 60 50 150 00 50 300 350 400 450 Vedas x Áreas de prateleira Uma olhada rápida o diagrama de dispersão mostra a existêcia de um relacioameto etre as variáveis, com altos valores de uma das variáveis associados a altos valores da outra variável. Se ão houvesse relacioameto etre elas, os potos estariam distribuídos ao acaso o gráfico sem mostrarem alguma tedêcia. 1.4. O COEFICIENTE DE CORRELAÇÃO Apesar do diagrama de dispersão os forecer uma idéia do tipo e extesão do relacioameto etre duas variáveis X e Y, seria altamete desejável ter um úmero que medisse esta relação. Esta medida existe e é deomiada de coeficiete de correlação. Quado se está trabalhado com amostras o coeficiete de correlação é idicado pela letra r que é, por sua vez, uma estimativa do coeficiete de correlação populacioal: ρ (rho). O coeficiete de correlação pode variar de 1,00 a + 1,00, com um coeficiete de +1, idicado uma correlação liear positiva perfeita. Neste caso, as duas variáveis serão exatamete iguais em termos de escores padroizados z, isto é, um elemeto apresetado um escore padroizado de 1,5 em uma das variáveis vai apresetar o mesmo escore padroizado a outra variável. Um coeficiete de correlação de 1, idica correlação liear perfeita egativa, com os escores padroizados exatamete iguais em valores absolutos, diferido apeas o sial. Uma correlação de +1 ou 1 é raramete observado. O mais comum é que o coeficiete fique situado o itervalo etre estes dois valores. Um coeficiete de correlação 0, sigifica que ão existe um relacioameto liear etre as duas variáveis. 1.5. HIPÓTESES BÁSICAS A suposição básica sobre o coeficiete de correlação é que o relacioameto etre as duas variáveis seja liear. Isto é, o coeficiete de correlação é adequado para avaliar somete o relacioameto liear. As duas variáveis podem estar perfeitamete relacioadas, mas se ão for de forma liear o valor do coeficiete pode ser zero ou próximo de zero. Uma seguda hipótese é que as variáveis evolvidas sejam aleatórias e que sejam medidas o míimo em escala de itervalo. Ele ão se aplica a variáveis em escala omial ou ordial ou quado uma das variáveis é maipulada experimetalmete, pois este caso, a escolha dos valores experimetais vai iflueciar o valor de r obtido. Uma terceira hipótese é que as duas variáveis teham uma distribuição cojuta ormal bivariada. Isto é equivalete a dizer que para cada x dado a variável y é ormalmete distribuída. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 5

Supoha-se que existam apeas duas variáveis X e Y. Uma amostra da variável X, assumido os valores particulares X 1, X,..., X e uma amostra da variável Y assumido os valores particulares Y 1, Y,..., Y são obtidas e supoha-se aida que o objetivo é saber se existe algum tipo de relacioameto liear etre estas duas variáveis. Isto poderá ser medido pelo coeficiete de correlação que forece o grau de relacioameto liear etre duas variáveis. 1.6. DEFINIÇÃO Na população o coeficiete de correlação é represetado por ρ e a amostra por r. Assim dadas duas amostras, uma da variável X e outra da variável Y, o coeficiete de correlação amostral poderá ser calculado através da seguite expressão: r ( Xi X )(. Yi Y) ( X). ( Y) Xi Yi X i. Yi ( Xi)(. Yi) ( ). [ X ][ Y ( ) ] i Xi Uma população que teha duas variáveis ão correlacioadas liearmete pode produzir uma amostra com coeficiete de correlação diferete de zero. Para testar se a amostra foi ou ão retirada de uma população de coeficiete de correlação ão ulo etre duas variáveis, precisamos saber qual é a distribuição amostral da estatística r. 1.7. DISTRIBUIÇÃO AMOSTRAL DE R (QUANDO ρ 0) A distribuição amostral de r depede somete do valor de ρ (coeficiete de correlação populacioal) e do tamaho da amostra. Se for admitido que ρ 0, a distribuição amostral de r (coeficiete de correlação a amostra) será simétrica em toro de 0 com variabilidade dada por: i Yi σr 1 r Neste caso, pode-se mostrar que o quociete: graus de liberdade. Isto é: 1 r t r. 1 r r / σr r tem uma distribuição t com - Exemplo: Quer-se testar se existe ou ão correlação liear etre X toeladas de adubo orgâico por ha e Y produção da cultura A por ha. Para tato é realizado um experimeto com duração de 5 aos que mostrou os resultados da tabela 1.4. Verificar se existe relacioameto liear etre as duas variáveis. Tabela 1.4 Valores das variáveis X e Y Aos X Y 1989 48 1990 4 56 1991 5 64 199 6 60 1993 8 7 Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 6

Para saber se há ou ão correlação liear etre estas duas variáveis a população de ode foi retirada esta amostra é ecessário realizar um teste de hipóteses, ou seja, é preciso testar: H 0: ρ 0 (Não existe relacioameto liear a população) H 1: ρ 0 (Existe relacioameto liear a população) A tabela 1.5 mostra os cálculos ecessários para se obter o coeficiete de correlação para esta amostra das variáveis X e Y. Tabela 1.5 Valores das variáveis X e Y e cálculos para obter r Aos X Y XY X Y 1989 48 96 4 304 1990 4 56 4 16 3136 1991 5 64 30 5 4096 199 6 60 360 36 3600 1993 8 7 576 64 5184 Total 5 300 1576 145 1830 O valor de r será dado etão por: Xi. yi ( Xi)(. Yi) r [ X ( Xi) ]. Y ( Yi) i A estatística teste será: [ ] i 5. 1576 5. 300 ( 5. 145 5 ).( 5. 1830 300 ) 0,95 1 r t r, que este caso, tem uma distribuição t com - 3 graus de liberdade. O valor de t (calculado) é: 1 r 1 0, 95 t r 0, 95 5, 70 5 3 O valor tabelado de t com 3 g.l. e a 5% de sigificâcia, cosiderado um teste bilateral é: 3,18. Com estes valores rejeita-se H 0 e pode-se afirmar, com 5% de sigificâcia, que as duas variáveis possuem um relacioameto liear a população. Dado que há fortes evidêcias de que as duas variáveis possuem um relacioameto liear pode-se etão ajustar uma liha de regressão etre elas. 1.8. DISTRIBUIÇÃO AMOSTRAL DE R (QUANDO ρ 0) testar Para testar a existêcia de um certo grau de correlação etre duas variáveis X e Y, isto é, para H 0: ρ ρ 0 cotra H 1: ρ ρ 0 ρ > ρ 0 Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 7

ρ < ρ 0 é ecessário determiar a distribuição de r, quado ρ é diferete de zero. A distribuição de r só é simétrica quado ρ é zero, se isto ão ocorre a distribuição será assimétrica. Esta falta de ormalidade impede que se use o teste tradicioal, o teste t, este caso. Cotudo, mediate uma trasformação apropriada, r pode ser alterado para uma estatística que é aproximadamete ormal. Esta trasformação é deomiada de trasformação Z de Fischer. A expressão para realizá-la é: r' 1 1+ r l 1 r Esta quatidade tem distribuição aproximadamete ormal com média 1 1+ ρ 1 ρ µ l e variâcia σ 1 / ( - 3), quado ão for muito pequeo, ou seja, 0 Exemplo: Supoha que de experiêcias ateriores pode ser suposto que a correlação etre a idade e a pressão sagüíea sistólica é ρ 0.85. Para testar a hipótese ula, a 5% de sigificâcia, de que ρ é este valor cotra a alterativa de que ele é diferete deste valor supõem-se que foi extraída uma amostra de tamaho 30 e que foreceu um r 0,66. Etão o teste pode ser realizada através dos seguites cálculos: Solução: 1 1+ r 1 r r l 1 1+ 0,66 l 1 0,66 A distribuição de r' é dada por: 0,798 1 1+ ρ 1 ρ µ l 1 1+ 0,85 l 1 0,85 1,561 z 0, 798 1561, 1 30 3 -,41 Para um ível de sigificâcia de 5% o valor tabelado de z é -1,96. Rejeita-se, etão a hipótese ula. Isto é, pode-se afirmar que o valor da correlação populacioal é diferete de 0,85. 1.9. PROPRIEDADES DE R As propriedades mais importates do coeficiete de correlação são: 1. O itervalo de variação vai de -1 a +1.. O coeficiete de correlação é uma medida adimesioal, isto é, ele é idepedete das uidades de medida das variáveis X e Y. 3. Quato mais próximo de +1 for r, maior o grau de relacioameto liear positivo etre X e Y, ou seja, se X varia em uma direção Y variará a mesma direção. 4. Quato mais próximo de -1 for r, maior o grau de relacioameto liear egativo etre X e Y, isto é, se X varia em um setido Y variará o setido iverso. 5. Quato mais próximo de zero estiver r meor será o relacioameto liear etre X e Y. Um valor igual a zero, idicará ausêcia apeas de relacioameto liear. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 8

. REGRESSÃO Uma vez costatado que existe correlação liear etre duas variáveis, pode-se tetar prever o comportameto de uma delas em fução da variação da outra. Para tato será suposto que existem apeas duas variáveis. A variável X (deomiada variável cotrolada, explicativa ou idepedete) com valores observados X 1, X,..., X e a variável Y (deomiada variável depedete ou explicada) com valores Y 1, Y,..., Y. Os valores de Y são aleatórios, pois eles depedem ão apeas de X, mas também de outras variáveis que ão estão sedo represetadas o modelo. Estas variáveis são cosideradas o modelo através de um termo aleatório deomiado erro. A variável X pode ser aleatória ou etão cotrolada. Desta forma pode-se cosiderar que o modelo para o relacioameto liear etre as variáveis X e Y seja represetado por uma equação do tipo: Y α + βx + U, ode U é o termo erro, isto é, U represeta as outras ifluêcias a variável Y além da exercida pela variável X. Esta equação permite que Y seja maior ou meor do que α + βx, depededo de U ser positivo ou egativo. De forma ideal o termo U deve ser pequeo e idepedete de X, de modo que se possa modificar X, sem modificar U, e determiar o que ocorrerá, em média, a Y, isto é: E(Y/X) α + βx Os dados {(X i, Y i ), i 1,,..., } podem ser represetados graficamete marcado-se cada par (X i, Y i ) como um poto de um plao. Os termos U i são iguais a distâcia vertical etre os potos observados (X i, Y i ), e os potos calculados (X i, α + βx i ). Isto está ilustrado a figura.1. Figura.1 O modelo de regressão liear Y E(Y/X) α + βx Y Erro U X Um modelo de regressão cosiste em um cojuto de hipóteses sobre a distribuição dos termos erro e as relações etre as variáveis X e Y. Algumas destas hipóteses são: (i) E(U i ) 0; (ii) Var(U i ) σ Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 9

Na hipótese (i) o que se está supodo é que os U i são variáveis aleatórias idepedetes com valor esperado igual a zero e a (ii) que a variâcia de cada U i é a mesma e igual a σ, para todos os valores de X. Supõem-se aida que a variável idepedete X, permaeça fixa, em observações sucessivas e que a variável depedete Y seja fução liear de X. Os valores de Y devem ser idepedetes um do outro. Isto ocorre em geral, mas em algus casos, como, por exemplo, observações diferetes são feitas o mesmo idivíduo em diferetes potos o tempo está suposição poderá ão ocorrer. Como o valor esperado de U i é zero, o valor esperado da variável depedete Y, para um determiado valor de X, é dado pela fução de regressão α + βx ou seja: E(Y/X) E(α + βx + U) α + βx + E(U) α + βx [1] já que α + βx é costate para cada valor de X dado. O símbolo E(Y/X) é lido valor esperado de Y, dado X. A variâcia de Y, para determiado valor de X, é igual a: V(Y/X) V(α + βx + U) V(U) σ [] A hipótese de que V(Y/X) é a mesma para todos os valores de X, deomiada de homocedasticidade, é útil pois permite que se utilize cada uma das observações sobre X e Y para estimar σ. O termo homo sigifica o mesmo e cedasticidade sigifica disperso. De [1] e [] decorre que, para um dado valor de X, a variável depedete Y tem fução desidade de probabilidade (codicioal) com média α + βx e variâcia σ. A figura., ilustra a fução desidade. Na parte superior da figura é ilustrado o caso heterocedástico e a parte iferior o caso homocedástico. Figura. Fução desidade de Y dado X A posição da fução desidade f(y/x) varia em fução da variação do valor de X. Note-se que a média da fução desidade se desloca ao logo da fução de regressão α + βx. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 10

Em resumo, o modelo de regressão proposto cosiste as seguites hipóteses: 1. Y α + βx + U;. E(Y/X) α + βx; 3. V(Y/X) σ ; 4. Cov(U i, U j ) 0, para i j; 5. A variável X permaece fixa em observações sucessivas; 6. Os erros U são ormalmete distribuídos..1. ESTIMATIVA DOS PARÂMETROS DE REGRESSÃO Se fosse cohecido toda a população de valores (X i, Y i ) etão seria possível determiar os valores exatos dos parâmetros α, β e σ. Como, em geral, se trabalha com amostras se faz ecessário, etão, estimar estes parâmetros com base os valores da amostra. Existem algus métodos para ajustar uma liha etre as variáveis X e Y o mais utilizado é o deomiado método dos míimos quadrados (MMQ). A reta obtida através deste método, ão é ecessariamete, o melhor ajustameto possível, mas possui muitas propriedades estatísticas que são desejáveis. Sejam a e b estimadores de α e β e E i Y i - a - bx i o desvio observado em relação a reta ajustada, isto é, E i é um estimador do termo U i. O método dos míimos quadrados exige que os estimadores a e b sejam escolhidos de tal forma que a soma dos quadrados dos desvios dos mesmos em relação à reta de regressão ajustada seja míima, isto é: i ( ) míimo. i 1 i 1 φ E Yi a bxi Para torar míima esta soma em relação a a e b, é ecessário difereciar a expressão parcialmete em relação aos valores a e b. Após algumas simplificações vai-se obter: Y i a + bx i X i Y i ax i + b(x i ) (i) (ii) que são deomiadas de equações ormais da regressão, ode é o úmero de pares de observações. Obs.: Para simplificar a otação foram descosiderados os ídices os somatórios. Dividido-se a equação (i) por e isolado o valor de a vem: yi Xi a b( ) Y bx levado-se este resultado a equação (ii) tem-se: b ( X i X)( Y (X X) i i Y) Xi Yi XY i i Xi Xi ( ) A reta estimada de regressão será etão: Y a + bx XY i i Xi Yi X ( X ) i i Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 11

com os valores de a e b obtidos através das seguites expressões: Xi Yi Xi Y X ( Xi ) i b i e a Y Utiliza-se o valor Y, porque o valor de Y, obtido a partir da reta estimada de regressão, para um dado valor de X, é uma estimativa do valor E(Y/X), isto é, do valor esperado de Y dado X. Exemplo: São forecidos 5 pares de valores, a tabela abaixo, correspodetes as variáveis X e Y. A estimativa da reta de regressão etre X e Y, é obtida utilizado as expressões de a e b acima e usado os resultados obtidos a tabela.1. bx Tabela.1 - Valores para estimar a liha de regressão X Y X XY 1 3 1 3 3 4 6 4 7 16 8 5 6 5 30 8 1 64 96 0 31 110 163 X 0 / 5 4; Y 31/5 6, b (5.163-0.31) / (5.110-400) 1,30 a Y - b X 6,0-1,30.4 1 Etão a liha estimada será: Y 1.3X + 1 Esta reta é o melhor ajustameto para estes dados e seria diferete para cada amostra das variáveis X e Y, retiradas desta mesma população. Esta reta pode ser cosiderada uma estimativa da verdadeira liha de regressão ode 1,3 seria uma estimativa do valor β (parâmetro agular) e 1 uma estimativa do valor α (parâmetro liear), que são os verdadeiros coeficietes de regressão... ESTIMATIVA DA VARIÂNCIA DO TERMO ERRO O termo erro, U, é uma variável aleatória, supostamete com média zero e variâcia costate. Etão, ituitivamete parece plausível usar os resíduos da reta de regressão pelos método dos míimos quadrados para se estimar a variâcia σ dos termos erro. A variâcia amostral desses resíduos é igual a: σ ( E E), ode E E/. Observe-se etretato que: E Y a bx Y a b X ( ) 0, pela primeira equação ormal (i). Portato, σ pode ser escrito como: σ E /. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 1

Mas σ, este caso, é um estimador tedecioso. Pode-se obter um estimador ão tedecioso, multiplicado σ por / ( - ). O ovo estimador, ão tedecioso, será represetado S e sua raiz quadrada: S E (Y Y) (Y a bx) é deomiada de erro-padrão da estimativa ou erro-padrão amostral da regressão. Obs.: A utilização de - é coseqüêcia do fato de que se deve estimar dois parâmetros, α e β, ates de obter os resíduos E. Como resultado, há somete - graus de liberdade associados à quatidade E. A expressão acima, para o cálculo do erro amostral da regressão, apreseta o icoveiete de exigir o cálculo de cada valor previsto de Y, através da liha de regressão, torado sua obteção muito trabalhosa. Existe, etretato, uma alterativa para se obter este valor (erro padrão da estimativa) sem a ecessidade de calcular todos os valores previstos. Observe-se que:. b ( X X) E (Y Y ) (Y a bx) Fazedo: ( X) ( X X) X ( Y) ( Y Y) Y SYY XY ( X X)(Y Y) XY SXY Lembrado que: b XY i i Xi Yi X ( X ) Etão vem: E ( Y a bx) Assim: S i i X XY i i i Xi Xi ( ) Y [ Y Y+ b( X bx)] S YY - b S XX + b S XX S YY - b S XX. E ( Y a bx) SYY b i ( Y Y) b ( X X)( Y Y) +, segue que b S XY /S XX e que S XY bs XX S b S YY XY Pode-se verificar que S defiido desta maeira é um estimador ão-tedecioso de σ, isto é, E(S ) σ. O erro padrão da regressão será dado, etão, por: Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 13

s SYY b SYY b SXY Exemplo: Cosiderado as variáveis X e Y acima e a liha de regressão aterior determiar uma estimativa do erro padrão da regressão. Os cálculos ecessários estão a tabela.. Tabela. Determiação do erro padrão da regressão X Y Y c E Y - Y c E 1 3,3 0,7 0,49 3 3,6-0,6 0,36 4 7 6, 0,8 0,64 5 6 7,5-1,5,5 8 1 11,40 0,6 0,36 0 31 31 0 4,10 O erro padrão da regressão será etão: S E ( Y a bx) 410, 5 3 13667, 1,17 Este mesmo cálculo poderá ser efetuado pela expressão defiida acima, sem a ecessidade de se obter os valores estimados. Tabela.3 Determiação do erro padrão da regressão X Y X Y XY 1 3 1 9 3 3 4 9 6 4 7 16 49 8 5 6 5 36 30 8 1 64 144 96 0 31 110 47 163 Neste caso, tem-se: ( ) X X 110 0 /5 30 ( ) Y SYY Y 47-31 /5 54,80 XY SXY XY 163 (0.31)/5 39 Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 14

O valor de b será: b S XY /S XX 39/30 1,30 Portato o erro padrão da regressão será: SYY b SYY s bsxy 54,80 1,3.39 5 4,10 3 1, 3667 1,1690 1,17.3. DISTRIBUIÇÕES DAS ESTIMATIVAS Observado-se as expressões dos estimadores a e b da reta estimada, pode-se otar que ambos depedem de Y que é uma variável aleatória com distribuição supostamete ormal de média f(x) e desvio padrão σ. Como os estimadores a e b são fuções lieares de uma variável aleatória ormal, também serão variáveis aleatórias com distribuição ormal. O que precisa ser determiado, etão, é a média e a variâcia de cada um deles. Ates disso vai-se determiar uma estimativa de σ a variâcia da variável Y, que o modelo é suposta a mesma para cada valor de X (homocedasticidade)..3.1. DISTRIBUIÇÃO DO ESTIMADOR B Tem-se que: b S XY / S XX ( X X)( Y Y) YX ( X) YX ( X) Mas ( X X) 0, logo: b YX ( X) Mas Y α + βx + U, etão: b YX ( X) ( α + βx + U)( X X) α ( X X) + β X(X X ) + UX ( X) 0 Como S XX ( X X) ( X X)( X X) X(X X) X ( X X) X(X X), pois ( X X) Vem: b β + UX ( X) Logo a expectâcia de b será: E(b) E(β) + E( Etão: UX ( X) ) E(β) + ( X X) E(U). Mas E(U) 0, por hipótese. E(b) E(β) β, uma vez que a média de uma costate é a própria costate. Isto, também, mostra que b é um estimador ão-tedecioso de β. Para a variâcia, tem-se: V(b) V(β + UX ( X) UX ( X) ) V( ) ( X X) ( S XX ) V(U). Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 15

Tedo em vista que por hipótese do modelo V(U) σ e que ( X X) S XX, segue: V(b). ( ) σ σ. Portato, a distribuição da estatística b é N(β, σ S XX )..3.. DISTRIBUIÇÃO DO ESTIMADOR A Quato à distribuição da variável aleatória a, tem-se: a Y - b X. Mas Y Y /, etão: a σ X S XX σ Assim: Y ( α + βx + U) bx bx E(a) E(α) + E(β X ) + E ( U ) EbX ( ) α X U + β + bx α + β X + α + β X + EU ( ) β X U bx, pois E(b) β Etão E(a) α, pois E(U) 0. Vê-se que a é um estimador ão-tedecioso de α. Quato à variâcia, tem-se: V(a) V(α) + V(β X ) + V( + 1 σ ( + X ). S XX U + V(bX ) ) 0 + 0 + 1 Portato a distribuição de a é: N(α, σ 1 + X ). S XX V(U) + X V(b) 1.4. DECOMPOSIÇÃO DA SOMA DOS QUADRADOS σ X σ + Y Y Y Y - Y Y - Y Y - Y X X Figura.3 Desvios a regressão.4.1. DECOMPOSIÇÃO DOS DESVIOS Pelo figura.3, pode-se perceber que o desvio em relação a Y (desvio total), isto é, Y - Y pode ser decomposto em dois outros desvios: Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 16

O desvio explicado pela liha de regressão, isto é, Y - Y e O desvio ão-explicado (resíduos) pela liha de regressão, isto é, Y - Y. É fácil perceber que a variação total, (Y - Y ), é a soma da variação explicada, ( Y - Y ), e a ão-explicada, (Y - Y ), pois: Y - Y Y - Y + Y - Y, etão: Aplicado somatório a ambos os membros vem: (Y - Y ) (Y - Y ) + ( Y - Y ) Pode-se verificar também que a propriedade aditiva dos desvios é extesiva à soma dos quadrados desses desvios, ou seja: (Y - Y ) (Y - Y ) + ( Y - Y ) De fato: (Y - Y ) (Y - Y + Y - Y ) [(Y - Y ) + ( Y - Y )] (Y - Y ) + ( Y - Y ) - (Y - Y )( Y - Y ) Mas (Y - Y )( Y - Y ) (Y - Y )(a + bx - a - b X ) bx(y - Y )- b X X(Y - Y ) Pelas codições do método dos míimos quadrados, tem-se: ( Y - Y ) 0 e X(Y - Y ) 0, em coseqüêcia (Y - Y )( Y - Y ) 0, logo, segue que: (Y - Y ) (Y - Y ) + ( Y - Y ), isto é, que a soma dos quadrados dos desvios calculados em toro da média de Y (variação total VT) é igual à soma dos quadrados dos desvios em toro da liha de regressão (variação residual VR) mais a soma dos quadrados dos desvios da liha de regressão em toro da média (variação explicada VE)..4.. CÁLCULO DAS VARIAÇÕES (a) Variação Total: VT ou S Y VT (Y- Y ) S YY, ode S YY Y - (Y) / (b) Variação Explicada: VE ou S Y b S XX VE ( Y - Y ) (a + bx - Y ) ( Y - b X + bx - Y ) [(b(x - X )] b (X - X ) Logo: VE b S XX ou VE S S XY XX S XX bs XY Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 17

(c) Variação Residual: VR ou S Y / X De acordo com a propriedade aditiva das variações, pode-se calcular VR por difereça. Assim: VR (Y - Y ) VT - VE ou VR S YY - bs XY.5. INTERVALOS DE CONFIANÇA Da mesma forma que foram obtidos itervalos de cofiaça para a média, variâcia e proporção de uma população, pode-se determiar os itervalos de cofiaça para os parâmetros da regressão. Ou seja, pode-se determiar um itervalo de cofiaça para o coeficiete liear (α), um itervalo de cofiaça para o parâmetro agular (β) e pode-se aida determiar um itervalo de cofiaça para um valor previsto de Y, dado X. Este itervalo pode ser para o valor médio de Y para um dado X, isto é, E(Y/X) ou, etão, para um valor idividual de Y, isto é, Y. A estimativa potual para os dois últimos casos é a mesma. O que vai mudar é o itervalo de cofiaça correspodete. Isto se deve ao fato de que o modelo desevolvido é associado pricipalmete à média do grupo do que a uma iformação idividual..5.1. INTERVALO PARA O COEFICIENTE LINEAR (α) Cosiderado que a distribuição do coeficiete liear é dado por N(α, σ 1 + X ). Etão, fixada uma cofiaça de 1 - α, o itervalo será: S XX de σ. P(a - t -.S 1 + X α a + t -.S 1 + X ) 1 - α S XX S XX com t - sedo um valor da distribuição t com - graus de liberdade e S uma estimativa.5.. INTERVALO PARA O COEFICIENTE ANGULAR (β) Cosiderado que a distribuição do coeficiete agular é dado por N(b, uma cofiaça de 1 - α, o itervalo será: de σ. S S σ S XX ). Etão, fixada P(b - t -. β b + t -. ) 1 - α S XX S XX com t - sedo um valor da distribuição t com - graus de liberdade e S uma estimativa.5.3. INTERVALO PARA PREVISÕES (a) Itervalo para o valor médio de Y Tem-se que Y a + bx é um estimador de E(Y/X) ou f(x). Para costruir um itervalo de cofiaça para este valor é ecessário cohecer a sua distribuição. Isto é, deve-se cohecer a média e a variâcia de Y. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 18

E( Y ) E(a + bx) E(a) + E(bX) α + βe(x) α + βx f(x) E(Y/X), pois, este caso, X é costate para cada valor de Y. Tem-se: Y a + bx, mas a Y - b X, etão: Y Y - b X + bx Y + b(x - X ). A variâcia de Y, será: (X - X ) σ Y V( Y ) V[ Y - b(x - X )] V( Y ) + V[b(X - X )] V ( ) Portato: σ + (X - X ) σ σ 1 ( X X) +. S XX + (X - X ) V(b) 1 V(Y) + Y tem distribuição N(α + βx, σ 1 ( X X) + ) S XX Cohecida a distribuição de Y, etão o itervalo de cofiaça de 1 - α de probabilidade para f(x) ou E(Y/X) será: P( Y 1 ( X X) - t -. S. + ) E(Y/x) Y + t -. S. S XX distribuição t com - graus de liberdade. (b) Itervalo para um valor idividual ( Y ) 1 ( X X) + ) 1 - α, ode t - é o valor da S XX Uma estimativa do valor idividual de Y é dado pela reta de regressão Y a + bx, para um dado X e o desvio de previsão será dado por Y - Y, cujas propriedades são: Para a média: E(Y - Y ) E(Y) - E( Y ) f(x) - f(x) 0 Para a variâcia, tem-se: V(Y - Y ) V(Y) + V( Y ) σ + σ 1 ( X X) + S XX Etão: σ 1 1 ( X X) + +. S XX Y - Y tem distribuição N(0, σ 1 1 ( X X) + + ) S XX Cohecida a distribuição de Y i - Y, etão o itervalo de cofiaça de 1 - α de probabilidade para um valor idividual de Y (Y i ) para um dado X, será: Y - t -. S. 1 1 ( X X) + + ); Y + t -. S. 1 1 ( X X) + +, ode t - é o valor da distribuição t S XX S XX com - graus de liberdade. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 19

.6. TESTES DE HIPÓTESES Cohecidas as distribuições dos estimadores dos coeficietes agular e liear, pode-se realizar um teste de hipóteses..6.1. TESTE PARA A EXISTÊNCIA DA REGRESSÃO Testar a existêcia da regressão é testar se o parâmetro β é diferete de zero. Desta forma o que se quer testar é: H 0 : β 0 cotra as alterativas: H 1 : β 0; β > 0 ou β < 0 Fixado um ível de sigificâcia α a variável teste será a t de Studet com - graus de liberdade, pois sabe-se que: b tem distribuição Normal com média β e desvio padrão σ S XX, ou seja, Z b β σ tem distribuição ormal padrão. Porém como σ ão é cohecido é ecessário S XX estimá-lo através de S. Etão: t - b S β S XX.6.. TESTE PARA O COEFICIENTE LINEAR Testar o coeficiete liear da regressão α é testar o valor iicial da regressão, isto é, é testar o valor de Y quado X 0. As hipóteses são: H 0 : α 0 cotra as alterativas: H 1 : α 0; α > 0 ou α < 0 Fixado um ível de sigificâcia a variável teste será a t de Studet com - graus de liberdade, pois sabe-se que o estimador a, tem uma distribuição: N(α, 1 σ ( X ) S XX + ). Etão: Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 0

Z σ a α 1 + X estimá-lo através de S. Etão: t - tem distribuição ormal padrão. Porém como σ ão é cohecido é ecessário a α S 1 + X.7. COEFICIENTE DE DETERMINAÇÃO OU DE EXPLICAÇÃO Além dos testes de hipóteses e dos itervalos de cofiaça, outro idicador que forece elemetos para a aálise do modelo adotado é o coeficiete de determiação ou de explicação, defiido por: R VE / VT b S XY SYY O coeficiete de determiação idica quatos por ceto a variação explicada pela regressão represeta sobre a variação total. Deve-se ter: 0 R 1 Se R for igual a 1, isto sigifica que todos os potos observados se situam exatamete sobre a reta de regressão. Tedo-se, este caso, um ajuste perfeito. As variações da variável Y são 100% explicadas pelas variações da variável X, ão ocorredo desvios em toro da fução estimada. Por outro lado, se R 0, isto quer dizer que as variações de Y são exclusivamete aleatórias e explicadas pelas variações de outros fatores que ão X. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 1

3. EXERCÍCIOS (01) Para cada uma das situações abaixo, diga o que é mais adequado: a aálise de regressão ou a aálise de correlação. Por quê? (01.1) Uma equipe de pesquisadores deseja determiar se o redimeto a Uiversidade sugere êxito a profissão escolhida. (01.) Deseja-se estimar o úmero de quilômetros que um peu radial pode rodar ates de ser substituído. (01.3) Deseja-se prever quato tempo será ecessário para executar uma determiada tarefa por uma pessoa, com base o tempo de treiameto. (01.4) Deseja-se verificar se o tempo de treiameto é importate para avaliar o desempeho a execução de uma dada tarefa. (01.5) Um gerete deseja estimar as vedas semaais com base as vedas das segudas e terçasfeiras. (0) Supoha que uma cadeia de supermercados teha fiaciado um estudos dos gastos com mercadorias para famílias de 4 pessoas. O estudo se limitou a famílias com reda líquida etre 8 e 0 salários míimos. Obteve-se a seguite equação: Y -1,0 + 0,40X, ode Y despesa mesal estimada com mercadorias e X reda líquida mesal. (0.1) Estimar a despesa de uma família com reda mesal líquida de 15 s.m. (0.) Um dois diretores da empresa ficou itrigado com o fato de que a equação sugerir que uma família com reda de 3 s.m. líquidos mesais ão gaste ada em mercadorias. Qual a explicação? (0.3) Explique por que a equação acima ão poderia ser utilizada para estimar (a) As despesas com mercadorias de famílias de 5 pessoas. (b) As despesas com mercadorias de famílias com reda de 0 a 40 s.m. líquidos mesais. (03) Utilize os valores abaixo para estimar as equações de regressão: (03.1) X 00, Y 300, XY 600, X 3600 e 0 (03.) X 7,, Y 37, XY 3100, X 60 e 36 (04) Para cada uma das situações abaixo, grafe os valores em um diagrama e se uma equação liear parecer apropriada para explicar os dados, determie os seus parâmetros. (04.1) Tamaho do pedido(x) 5 0 40 45 63 70 60 55 50 30 Custo Total (Y) 000 3500 1000 800 3000 1300 1500 1100 950 900 1600 (04.) Vedas em mil (X) 01 5 305 380 560 600 685 735 510 75 450 370 150 Lucro em mil (Y) 17 0 1 3 5 4 7 7 30 1 19 15 (05) Supoha que uma população se costitua dos seis potos seguites: (1, ), (4, 6), (, 4), (, 3), (3, 5) e (5, 10) (05.1) Grafe os potos em um diagrama de dispersão. (05.) Determie a equação de regressão: Y α + βx + u. (05.3) Os termos-erro verificam a codição E(u) 0? Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/

(05.4) Selecioe uma amostra de tamaho 4, da população acima e estime a equação de regressão determiada o item 5.. Grafe o resultado o mesmo diagrama costruído em 5.1. (06) Verifique que a reta de regressão Y a + bx, sempre passa pelo poto ( X, Y ). (07) Os dados abaixo forma colhidos de cico fábricas diferetes de uma determiada idústria: Custo total (Y) 80 44 51 70 61 Produção (X) 1 4 6 11 8 (07.1) Estime uma fução liear da forma Y a + bx para o custo total dessa idústria. (07.) Qual o sigificado ecoômico das estimativas a e b? (07.3) Teste a hipótese de que o custo fixo da produção do artigo em questão seja igual a 5, cotra a alterativa de diferete do que 5, utilizado uma sigificâcia de 5%. (08) Em uma amostra aleatória de 1990, 50 homes americaos etre 35 e 54 aos de idade acusaram a seguite relação etre reda aual Y (em dólares) e a escolaridade X (em aos). Y 100 + 800X. A reda média foi de 10000 dólares e a escolaridade média foi de 11,0 aos. Sabedo, aida, que X 9000 e que o desvio padrão residual em relação à reta ajustada foi de 7300 dólares, determie: (08.1) A reda de uma pessoa que teha completado aos de educação secudária (x 10 aos). (08.) O itervalo de 95% de cofiaça para o coeficiete agular populacioal.. (08.3) Se a reda para a escolaridade é estatisticamete discerível ao ível de 5%. (08.4) Se é válida a afirmação que cada ao de escolaridade custa 800 dólares? (09) Uma pesquisa foi realizada com o objetivo de determiar os efeitos da falta de soo sobre a capacidade de as pessoas resolverem problemas simples. Foram testadas 10 pessoas, matedo-se cada grupo de pessoas sem dormir por um determiado úmero de horas. Após cada um destes períodos, cada pessoa teve de resolver um teste com adições simples, aotado-se etão os erros cometidos. Os dados resultates estão a tabela abaixo: Número de erros (Y) 6, 8 6, 10 8, 14 1, 14 1, 16 Número de horas sem dormir (X) 8 1 16 0 4 (9.1) Determie a estimativa da liha de regressão do úmero de erros em fução do úmero de horas sem dormir. (9.) Determie a dispersão dos termos erro em toro da liha de regressão. (10) Determie um itervalo de 95% de cofiaça para o coeficiete agular da reta do exercício acima. Iterprete o itervalo obtido. (11) Realizou-se uma pesquisa de mercado com o objetivo de estudar a relação etre o tempo ecessário para um cosumidor tomar uma decisão (sobre o que comprar) e o úmero de embalages alterativas do mesmo produto apresetadas a esse cosumidor. Elimiaram-se as marcas das embalages, a fim de reduzir o efeito da preferêcia por uma ou outra marca. Os cosumidores fizeram suas escolhas somete com base a descrição do produto, aotada as embalages pelos fabricates. O tempo ecessário, Y, para que cada um tomasse sua decisão foi aotado para 15 participates, resultado os seguites dados: Tempo para decisão, Y (em segudos) 5, 7, 8, 8, 9 7, 8, 9, 9, 10 9, 10, 10, 11, 1 Número de alterativas (X) 3 4 (11.1) Determie a reta dos míimos quadrados de Y em fução de X. (11.) Determie o erro padrão da estimativa, ou seja, o desvio padrão amostral da regressão. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 3

(11.3) Há evidêcia suficiete estes dados de que o tempo de decisão se relacioa liearmete ao úmero de alterativas oferecidas a esses cosumidores? (1) Na fabricação de um atibiótico, a produção depede do tempo. Os dados idicados a tabela, mostram que um processo resultou a seguite produção (em quilogramas) de atibióticos por período de tempo (dias) idicados: Tempo (X dias) 1 3 4 5 6 Produção (Y em kg.) 3 31 40 46 5 63 (1.1) Por várias razões é coveiete esquematizar a produção em ciclos de 4 dias. Estime o valor médio da produção fial de atibiótico produzido em um período de 4 dias. Cosidere um itervalo de 95% de cofiaça. (1.) Supoha que o processo de produção, o futuro, se desevolverá em 4 dias. Determie um itervalo de previsão de 95% para a produção. Compare com o itervalo para a produção média de um período de 4 dias que foi obtido em (1.1). (13) Mediu-se a altura de uma amostra de 5 meios (em polegadas) a idade de 4 aos e ovamete a idade de 18 aos. Os resultados obtidos estão abaixo: Na idade de 4 aos 40 43 40 40 4 Na idade de 18 aos 68 74 70 68 70 (13.1) Determie o coeficiete de correlação etre as duas categorias de alturas. (13.) Teste a hipótese de que existe uma relação liear etre a altura aos 4 aos de idade e a altura aos 18 aos de idade. (13.3) Se fosse feito o gráfico de toda a população de alturas, calculado-se a correspodete reta dos míimos quadrados, qual seria o seu coeficiete agular? Respoda com um itervalo suficietemete amplo que permita uma aposta de 95%. (13.4) Repita o item 13.3 só que para o coeficiete liear. (14) A equação de regressão estimada abaixo resume um estudo da relação etre o uso do fumo e a icidêcia de câcer pulmoar, relacioado o úmero X de aos que uma pessoa fumou com a percetagem Y de icidêcia de câcer pulmoar em cada grupo. Ŷ - + 1,70.X e r 0,60. (14.1) Explique o sigificado das estimativas - e 1,70 a equação de regressão. (14.) Qual a taxa de icidêcia de câcer pulmoar para as pessoas que fumam há 0 aos? (14.3) Se r fosse igual a um seria possível cocluir que o fumo é a úica causa de câcer pulmoar? (14.4) Supoha-se que a equação estimada teha sido obtida de uma amostra aleatória de 50 fumates. Teste a hipótese de que o coeficiete de correlação seja igual a zero a uma sigificâcia de 1%. (15) Explique se cocorda ou ão com as seguites afirmativas: (15.1) Um coeficiete de correlação de +1,0 etre duas variáveis X e Y idica que X causa Y, mas um coeficiete de correlação de -1,0 sigifica que X ão causa Y. (15.) Se o coeficiete de regressão é zero, o coeficiete de correlação é também zero. (15.3) Se o coeficiete agular é 1 (um), isto sigifica que existe perfeita correlação etre X e Y. (15.4) É possível que o coeficiete de correlação amostral seja positivo, quado ão existe, de fato, ehuma correlação etre as variáveis X e Y. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 4

(15.5) Não se pode utilizar a técica da regressão pelo método dos míimos quadrados quado a relação básica etre X e Y ão for liear. (16) Um estudo de duas safras foreceu as seguites iformações: Safra A: Y 00 + 0,8X, r 0,70 e S 30 Safra B: Y 50 + 1,0X, r 0,9 e S 0, ode Y é a produção por alqueire e X é a quatidade de chuva (em polegadas) o período da safra. (16.1) Se ão houvesse chuva, estas duas equações poderiam ser usadas para predizer a quatidade produzida as duas safras? Por quê? (16.) Qual das duas safras tira mais proveito do aumeto das chuvas? Por quê? (16.3) Para qual das duas safras é possível predizer a produção com melhor aproximação? Por quê? (17) Os dados abaixo foram obtidos de cico fábricas diferetes de uma determiada idústria. Custo total (Y em milhões) 80 44 51 70 61 Produção (X toeladas) 1 4 6 11 8 (17.1) Determie um itervalo de cofiaça de 90% para o custo fixo dessa idústria. (17.) Determie um itervalo de cofiaça de 95% para o custo margial dessa idústria. (17.3) Faça uma previsão, através de um itervalo, para o custo total médio dessa idústria, para uma produção de 15t, utilizado uma cofiaça de 95%. (17.4) Faça uma previsão, através de um itervalo, para o custo total dessa idústria, para uma produção de 15t, utilizado uma cofiaça de 95%. (17.5) é possível afirmar, com uma sigificâcia de 1%, que o custo total dessa idústria está liearmete relacioado ao ível de produção? (17.6) Testar se o custo fixo pode ser cosiderado meor do que 30. (17.7) Testar se o custo margial pode ser cosiderado meor do que 5. (18) Qual é o tamaho míimo da amostra ecessária para que se possa cocluir que um coeficiete de correlação de 0,3 difere sigificativamete de zero ao ível de 0,05? (19) Um coeficiete de correlação, baseado em uma amostra de tamaho 18, foi calculado como sedo 0,3. Pode-se cocluir aos íveis de sigificâcia (19.1) 0,05 e (19.) 0,01, que o coeficiete de correlação, correspodete a população é diferete de zero? (0) Se o coeficiete de correlação etre X e Y é 0,80, que percetagem da variação total permaece ão-explicada pela equação de regressão? (1) Examie os cico pares de potos dados a tabela X - -1 0 1 Y 4 1 0 1 4 (1.1) Qual é a relação matemática etre X e Y? (1.) Determie o valor de r. (1.3) Mostre que calculado-se a liha de regressão de Y em relação a X tem-se b 0. (1.4) Por que, aparetemete, ão existe relação etre X e Y como estão idicado b e r? () Os dados abaixo represetam o úmero de redas pessoais tributáveis e o registro de automóveis de passageiros, em uma determiada região. X úmero de redas tributáveis (em milhares) 19 80 16 46 310 Y Número de carros de passageiros (milhares) 3 11 13 31 91 Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 5

(.1) Verificar se existe correlação etre as duas variáveis. (.) Determie a equação de regressão de Y em fução de X, caso o coeficiete de correlação seja sigificativamete diferete de zero. (.3) Faça uma previsão do úmero de carros se o úmero de cotribuites tributáveis for de 500 mil. (.4) Determie a equação de regressão de X em fução de Y. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 6

4. RESPOSTAS (01) (01.1) Correlação (01.) Regressão (01.3) Regressão (01.4) Correlação (01.5) Regressão (0) (0.1) 4,80 s.m. (03) (03.1) Y -5 +.X (03.) Y -35 +5.X (04) (04.1) Neste caso, com base o diagrama, uma liha reta ão é adequada. 4000 3500 3000 500 000 1500 1000 500 0 Custo total X Tamaho do Pedido 0 0 40 60 80 (04.) Neste caso, uma liha é adequada e sua equação está sobre o gráfico abaixo. 35 30 5 0 15 10 5 y 0.0178x + 14.675 Vedas X Lucro 0 0 100 00 300 400 500 600 700 800 (05) (05.3) População Amostra X Y Yc Erro X Y 1 1.6 0.38 4 6 4 6 7.15-1.15 4 4 3.46 0.54 3 5 3 3.46-0.46 5 10 3 5 5.31-0.31 5 10 9.00 1.00 17 30 30.00 0.00 Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 7

(05.1), (05.) e (05.4) 1 10 y 1.846x - 0.308 y 1.9x - 0.4 8 6 4 0 0 1 3 4 5 6 7 (06) Basta mostrar que o poto ( X, Y ) satisfaz a equação de regressão Y a + bx. Se substituirmos X por X a equação o resultado deverá ser Y. Mas a + b.x a + b. X Y - b X + b. X Y. Uma vez que a Y - b X. (07) (07.1) Y 4,589 + 6,770.X (07.) a Custo fixo b Custo margial. (07.3) s 0,37. O itervalo de cofiaça de 95% para o "custo fixo" é: [3,09; 5,4] que cotém o valor "5". Portato ão se pode afirmar, a 5% de sigificâcia que o custo fixo seja diferete do que 5 uidades. (08) (08.1) Y 900 (08.) 800 ± 70,0 (08.3) t 48,009 (t c 5,95) (08.4) Não (09) (09.1) Y 3 + 0,48X (09.),4 (09.3) 17,5 ± 4,36 (10) [0,19; 0,77] (11) (11.1) Y 4,30 + 1,50X (r 0,73) (11.) S 1,4 (11.3) t 13 3,83 (1) (1.1) [44,69; 47,99] (1.1) [4,14; 50,54] (13) (13.1) r 0,87 (13.) t 3 3,00 (13.3) 1,50 ± 1,59 (13.4) 8,50 ± 65,6 (14) (14.1) - seria a taxa de icidêcia de câcer pulmoar que ão está relacioada ao hábito de fumar, ou de quem uca fumou. 1,70 é a variação a taxa de câcer pulmoar para cada ao que a pessoa fumou. (14.) Ŷ - + 1,70.0 3. (14.3) Não, pois "r" idica associação a amostra e pode ser o mesmo a população. (14.4) t 48 5,0 que é sigificativo a 1%. (15) (15.1) Tato um coeficiete de "+1" quato um de "-1" idicam correlação perfeita etre as variáveis. (15.) Coeficiete de regressão igual a zero implica em correlação também zero. (15.3) Não ecessariamete, pois este caso "1" é o valor de icliação da liha e ão grau de associação liear etre as duas variáveis. (15.4) Sim é possível. Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 8

(15.5) A técica dos míimos quadrados pode ser utilizado para ajustar vários tipos de equação. (16) (16.1) Neste caso, a iterpretação deve ser mais cuidadosa, pois tato o excesso de chuvas quato a falta vão distorcer os dados e estas equações podem ão ser mais válidas. (16.) A safra B tira mais proveito, provavelmete por ser uma cultura que precisa de mais chuvas. (16.3) Para a safra B pois existe uma melhor aderêcia dos dados a equação. (17) (17.1) 6,8 ± 7,56 (17.) 4,6 ± 1,17 (17.3) [81,46; 98,86] (17.4) [78,45; 101,87] (17.5) t 3 11,57 (17.6) t c -1,159 e t t -,353, Aceito H 0. (17.7) ) t c -,010 e t t -,353, Aceito H 0. (18) 36 (19) t c 1,35. Este valor ão é sigificativo em 5% e em a 1%. (0) ρ 64%, portato ão-explicada será: 1 - ρ 36% (1) (1.1) y x - 5x-15 4.5 4 3.5 3.5 1.5 1 0.5 0 -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5 (1.) r 0 (1.3) 4.5 4 y 3.5 3.5 1.5 1 0.5 0 -.5 - -1.5-1 -0.5 0 0.5 1 1.5.5 (1.4) Porque a correlação mostra apeas o relacioameto liear e, este caso, o relacioameto é do tipo parábola (equação do segudo grau). () (.1) r 0,8544 (.) Y -30,4980 + 0,347X (.3) Y 13 mil (.4) X 1,01 +,5.Y Prof. Lorí Viali - viali@mat.pucrs.br - http://www.mat.pucrs.br/~lori/ 9