Estatística II Antonio Roque Aula 18. Regressão Linear

Documentos relacionados
Regressão e Correlação Linear

Prof. Lorí Viali, Dr.

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr.

CORRELAÇÃO E REGRESSÃO

Análise de Regressão

Associação entre duas variáveis quantitativas

NOÇÕES SOBRE CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Contabilometria. Aula 8 Regressão Linear Simples

Algarismos Significativos Propagação de Erros ou Desvios

Análise Exploratória de Dados

1. CORRELAÇÃO E REGRESSÃO LINEAR

Regressão Múltipla. Parte I: Modelo Geral e Estimação

REGRESSÃO NÃO LINEAR 27/06/2017

Capítulo 2. APROXIMAÇÕES NUMÉRICAS 1D EM MALHAS UNIFORMES

Cap. 11 Correlação e Regressão

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional. ou experimental.

Prof. Lorí Viali, Dr.

Curso de extensão, MMQ IFUSP, fevereiro/2014. Alguns exercício básicos

UMA ABORDAGEM ALTERNATIVA PARA O ENSINO DO MÉTODO DOS MÍNIMOS QUADRADOS NO NÍVEL MÉDIO E INÍCIO DO CURSO SUPERIOR

Métodos Avançados em Epidemiologia

Gabarito da Lista de Exercícios de Econometria I

3 Metodologia de Avaliação da Relação entre o Custo Operacional e o Preço do Óleo

Estatística Aplicada II CORRELAÇÃO. AULA 21 07/11/16 Prof a Lilian M. Lima Cunha

Análise Exploratória de Dados

CAPÍTULO 2 DESCRIÇÃO DE DADOS ESTATÍSTICA DESCRITIVA

Covariância na Propagação de Erros

Regressão Linear Simples by Estevam Martins

X = 1, se ocorre : VB ou BV (vermelha e branca ou branca e vermelha)

Tabela 1. Porcentagem de crianças imunizadas contra DPT e taxa de mortalidade de menores de 5 anos para 20 países, 1992.

4 Critérios para Avaliação dos Cenários

Gráficos de Controle para Processos Autocorrelacionados

Universidade de São Paulo Escola Superior de Agricultura Luiz de Queiroz Departamento de Ciências Exatas

MOQ-14 PROJETO E ANÁLISE DE EXPERIMENTOS LISTA DE EXERCÍCIOS 1 REGRESSÃO LINEAR SIMPLES

Capítulo 1. Exercício 5. Capítulo 2 Exercício

AEP FISCAL ESTATÍSTICA

REGRESSÃO E CORRELAÇÃO

Os modelos de regressão paramétricos vistos anteriormente exigem que se suponha uma distribuição estatística para o tempo de sobrevivência.

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

D = POLINÔMIO INTERPOLADOR DE NEWTON 1) DIFERENÇAS DIVIDIDAS 1.1) DIFERENÇAS DIVIDIDAS ORDINÁRIAS (D) Sejam n+1 pontos de uma função y = f(x):

Resumos Numéricos de Distribuições

3.6. Análise descritiva com dados agrupados Dados agrupados com variáveis discretas

O problema da superdispersão na análise de dados de contagens

O problema da superdispersão na análise de dados de contagens

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

RISCO. Investimento inicial $ $ Taxa de retorno anual Pessimista 13% 7% Mais provável 15% 15% Otimista 17% 23% Faixa 4% 16%

Tipo tratamento idade Tipo tratamento sexo

Probabilidade e Estatística I Antonio Roque Aula 4. Resumos Numéricos de Distribuições

Dados ajustáveis a uma linha recta

PRESSUPOSTOS DO MODELO DE REGRESSÃO

PROVA 2 Cálculo Numérico. Q1. (2.0) (20 min)

Termo-Estatística Licenciatura: 4ª Aula (08/03/2013)

RAD1507 Estatística Aplicada à Administração I Prof. Dr. Evandro Marcos Saidel Ribeiro

Variação ao acaso. É toda variação devida a fatores não controláveis, denominadas erro.

Ajuste de Curvas Regressão. Computação 2º Semestre 2016/2017

DIAGNÓSTICO EM MODELOS LINEARES GENERALIZADOS

3. Estatística descritiva bidimensional

INSTITUTO POLITÉCNICO DE VISEU ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

4 Autovetores e autovalores de um operador hermiteano

UNIDADE IV DELINEAMENTO INTEIRAMENTE CASUALIZADO (DIC)

Escola Superior de Tecnologia de Viseu. Fundamentos de Estatística 2006/2007 Ficha nº 7

Eletrotécnica AULA Nº 1 Introdução

MODELOS DE REGRESSÃO PARAMÉTRICOS

Testes não-paramétricos

NOTA II TABELAS E GRÁFICOS

Prof. Cláudio Serra, Esp. 1. Produção de Leite x índice Pluviométrico y = 0.8x R 2 =

Modelo Logístico. Modelagem multivariável com variáveis quantitativas e qualitativas, com resposta binária.

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

5 Métodos de cálculo do limite de retenção em função da ruína e do capital inicial

Programa do Curso. Sistemas Inteligentes Aplicados. Análise e Seleção de Variáveis. Análise e Seleção de Variáveis. Carlos Hall

7 - Distribuição de Freqüências

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 1

ESTATÍSTICA APLICADA II ANO LECTIVO 2011/2012. Exame Final 26 de Julho de 2012

Cálculo Numérico BCC760 Interpolação Polinomial

Como Construir Modelos Empíricos

Cap. IV Análise estatística de incertezas aleatórias

Análise Descritiva com Dados Agrupados

CURSO A DISTÂNCIA DE GEOESTATÍSTICA

Eventos coletivamente exaustivos: A união dos eventos é o espaço amostral.

MOQ-14 PROJETO e ANÁLISE de EXPERIMENTOS. Professor: Rodrigo A. Scarpel

Cap. 6 - Energia Potencial e Conservação da Energia Mecânica

AULA 4. Segundo Quartil ( Q observações são menores que ele e 50% são maiores.

Medidas de Dispersão e Assimetria Desvio Médio Variância Desvio Padrão Medidas de Assimetria Coeficiente de Assimetria Exemplos.

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 4

Variável discreta: X = número de divórcios por indivíduo

Análise de Regressão Linear Múltipla IV

DEFINIÇÃO - MODELO LINEAR GENERALIZADO

Análise de Regressão Linear Múltipla VII

Modelo linear clássico com erros heterocedásticos. O método de mínimos quadrados ponderados

2ª Atividade Formativa UC ECS

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 3

FICHA de AVALIAÇÃO de MATEMÁTICA A 10.º Ano Versão 2

Experiência V (aulas 08 e 09) Curvas características

37 [C] Verdadeira. Veja justificativa do item [B]. Moda = 8

Curvas Horizontais e Verticais

Transcrição:

Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão relaconadas, mas são usadas para dferentes propóstos. O objetvo mas comum da análse de regressão é obter uma equação que possa ser usada para prever ou estmar o valor de uma varável em função de um dado valor de uma outra varável. A análse de correlação, por outro lado, é usada para se obter uma medda do grau ou da força da assocação entre duas varáves. Em uma análse de regressão, dadas as duas varáves que serão estudadas, deve-se defnr qual será consderada como a varável dependente e qual será a varável ndependente. A varável ndependente, que costuma ser denotada por X, é a que va determnar o comportamento da outra varável, por sto chamada de dependente, denotada por Y. A varável dependente (Y) é aquela que queremos estudar e a varável ndependente (X) é aquela que, segundo nossa hpótese, causa alguma modfcação em Y. Em textos de economa costuma-se chamar a varável ndependente de exógena, porque ela está fora do sstema em estudo, e a varável dependente de endógena, porque ela faz parte do sstema em estudo. Em mutos casos é fácl determnar, entre duas varáves, qual deve ser a ndependente e qual será a dependente. Se, por exemplo, há o nteresse em estudar o consumo de gulosemas (balas, bscotos e chocolates) por famíla em uma dada regão e se quer relaconar esse consumo com a renda famlar, vemos que a varável dependente deve ser o consumo de gulosemas por famíla e a varável ndependente deve ser a renda da famíla, pos sera absurdo supor que é o consumo de gulosemas que determna a renda de uma famíla. 1

Estatístca II Antono Roque Aula 18 Agora, em um caso em que se quer estudar as varáves vendas de jornas sensaconalstas (tpo Notícas Populares) e vendas de bebdas alcoólcas em uma dada regão fca mas dfícl decdr qual deve ser tratada como dependente e qual como ndependente. Em casos como este a decsão sobre qual varável será a dependente e qual será a ndependente depende do modelo teórco ou da nterpretação adotada pelo nvestgador, mas sto não rá nfluencar os métodos de regressão e correlação descrtos a segur. Regressão lnear smples Como exemplo ntrodutóro da análse de regressão, vamos consderar dados relaconando pressão sangüínea sstólca com nível de dosagem de uma droga ant-hpertensão. Nível de dosagem da droga Pressão sangüínea sstólca méda (mg) (mm Hg) 78 3 40 4 198 5 13 6 111 Olhando para os dados, vemos que alguma relação exste entre eles: quanto maor o nível de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no dagrama de dspersão abaxo. Observe que nem todos os pontos caem exatamente sobre uma lnha reta, mas a tendênca é que os valores de Y decresçam de uma manera aproxmadamente lnear à medda que os valores de X cresçam. Isto ndca que a relação entre Y e X pode ser lnear e pode ser descrta por uma lnha reta. Vamos tentar determnar uma equação para essa reta.

Estatístca II Antono Roque Aula 18 Pressão sangüínea sstólca 300 50 00 150 100 50 0 1 3 4 5 6 7 Nível de dosagem da droga ant-hpertensva Dagrama de dspersão para os dados da tabela acma. Qualquer lnha reta tem a forma geral: Y a+ bx, onde b dá a nclnação da lnha e a é o ponto onde a lnha cruza o exo Y. Para quasquer dos pontos, é fácl determnar a lnha reta que os une; porém, para três ou mas pontos, como no caso em questão, é em geral mpossível encontrar uma lnha reta que passe por todos os pontos. Neste caso, o que se tenta fazer é encontrar a lnha reta que melhor represente a confguração dos pontos. Uma lustração dsto é dada pelo gráfco abaxo: O chapéu sobre o Y, (Ŷ), ndca que a reta da fgura, cuja equação é Y ˆ a+ bx, é uma estmatva para a hpotétca reta verdadera. As dstâncas dos pontos para a lnha são dadas por: d ˆ Y Y, onde Y a+ bx ˆ. A reta Ŷ a+ bx tenta mnmzar as dstâncas (ou desvos, ou anda resíduos) d dos pontos para ela: pode-se perceber sto vsualmente. Para o gráfco acma, d é postva, 1 d é negatva e d é postva. Poderíamos somar as três 3 dstâncas e tentar encontrar alguma manera matemátca de mnmzar seu valor. Porém, é comum que desvos em torno de algum valor se anulem quando somados, como no caso do desvo médo. 3

Estatístca II Antono Roque Aula 18 Para se medr o grau de adequação (ou ajuste) de uma lnha reta a um conjunto de pontos, é mas convenente calcular a soma dos quadrados dos desvos. Esta é sempre uma quantdade postva e é a que se costuma usar para medr o ajuste dos pontos pela reta: ( Y Y ) d ˆ. O método usado para se encontrar a reta que mas se ajuste a um conjunto de pontos utlzando a fórmula acma é chamado de método dos mínmos quadrados e a reta calculada é chamada de reta de regressão. O método é chamado de mínmos quadrados porque o seu objetvo é encontrar a reta Ŷ que mnmze a soma dos quadrados da equação. A dscussão formal deste método não será feta aqu. Apenas os seus prncípos serão dados. Para uma dada reta como Φ Y ˆ a+ bx, a soma dos quadrados dos desvos é escrta ( Yˆ ) ( Y a bx ) Y. Esta somatóra pode ser vsta como uma função dos parâmetros a e b, pos varando-se os valores de a e de b altera-se o valor da soma dos quadrados dos desvos. Note que a forma funconal desta função é a de um parabolóde (veja a fgura abaxo), pos a dependênca de maor ordem em a e b é quadrátca, de manera que exste um par (a, b) para o qual ela tem um valor mínmo. 4

Estatístca II Antono Roque Aula 18 Pela teora dos máxmos e mínmos do Cálculo, o ponto de mínmo (a, b) é determnado pela condção de que ele seja um extremo, ou seja Φ Φ 0 e 0. a b Calculando as dervadas chega-se a um sstema de equações algébrcas com duas ncógntas, a e b. Resolvendo esse sstema de equações chega-se aos valores de a e b: ( X X )( Y Y ) ( X X ) b ; a Y b X, onde X e Y são as médas dos valores de X e Y, respectvamente. Há uma fórmula mas smples para o cálculo de b, que pode ser obtda expandndo-se os termos entre parênteses. O resultado (tente obtê-lo como exercíco) é: onde n é o número de pares de pontos. X Y X n Y b n X X, Voltando agora ao exemplo sobre pressão sangüínea sstólca, temos que a reta de regressão que melhor se ajusta à amostra de pontos ( X, Y ) é dada por Ŷ a+ onde a e b são dados pelas fórmulas acma. Para calcular a reta de regressão devemos montar uma tabela como a mostrada abaxo: bx 5

Estatístca II Antono Roque Aula 18 Dados para o cálculo da lnha de regressão para nível de dosagem da droga (X) e pressão sangüínea sstólca (Y): n X Y X Y X.Y 1 78 4 7784 556 3 40 9 57600 70 3 4 198 16 3904 79 4 5 13 5 1744 660 5 6 111 36 131 666 Soma 0 959 90038333394 A partr dos valores da tabela, calculamos: Y 959 X 0 Y 1918, ; X 4, 0 n 5 n 5 5.3394 0.959 10 b 44, ; 5.90 0 50 ( 44, ) 4, 0 368 6 a Y bx 191, 8, Ŷ 368, 6 44, X Gráfco de Ŷ368,6-44,X Ŷ368,6 44, X 6

Estatístca II Antono Roque Aula 18 Conhecendo-se a equação para a reta, ela pode ser traçada determnando-se pontos. Por exemplo, para X e X 7 a equação dá, respectvamente: Ŷ 80, e Ŷ 59,. É assm que se traçou o gráfco acma. Note que a reta traçada representa bem os pontos do gráfco de dspersão, pelo menos vsualmente. Para medrmos a força desse ajuste lnear entre as duas varáves, devemos calcular o coefcente de correlação de Pearson entre elas. A varânca em torno da lnha de regressão Assm como se pode defnr uma varânca (ou desvo padrão) de um conjunto de pontos em torno de seu valor médo Y, também se pode defnr uma varânca (ou desvo padrão) de um conjunto de pontos ordenados Y em torno da sua lnha de regressão Ŷ. Esta quantdade, denotada por S, é defnda como S ( Y Y ) ˆ, n e a sua raz quadrada, chamada de erro padrão da prevsão, é dada por S S. Esta últma quantdade é análoga ao desvo padrão vsto nas aulas de estatístca descrtva. Ela dá uma medda do desvo médo dos valores observados Y em relação ao valor predto Ŷ pela lnha de regressão. Note que a únca dferença da defnção de S para a da varânca usual é que se dvdu por n ao nvés de por n 1. Para um conjunto grande de dados a computação de cada ( Yˆ ) Y é trabalhosa quando deve ser feta manualmente. Exste, porém, uma fórmula algebrcamente equvalente par S que smplfca os cálculos: S ( Y Y ) b ( X X ). n 7

Estatístca II Antono Roque Aula 18 Com o uso da tabela para os dados de pressão sstólca temos: S ( 44,) 19904,4 10 368,0 1,7 S S 5 3 11,1 Da fórmula acma, vê-se que a varânca em relação à reta Ŷ é gual à varânca em relação à méda Y se b 0 (nclnação nula) e se n for muto grande, de manera que n n 1. Exercícos Exemplo 1. Predzer a nota méda de um estudante de uma unversdade ao fnal do seu prmero ano com base na sua nota méda do exame vestbular. Selecona-se uma amostra de nteresse (por exemplo estudantes de Bologa da USP/Rberão) e toma-se suas notas médas no vestbular e no prmero ano da unversdade. Constró-se uma tabela, um dagrama de dspersão e, caso se desconfe que haja uma relação lnear, determna-se a lnha de regressão e o coefcente de correlação. Méda do vestbular Méda do prmero ano Estudante (X) (1 C.R. 5) (Y) 1 4 1,5 61 3,5 3 30 1,7 4 48,7 5 60 3,4 6 3 1,6 7 19 1, 8 1,3 9 41, 10 46,7 8

Estatístca II Antono Roque Aula 18 Y 18, Y 18, ; X 383 X 38, 3 10 10 10 10 ( X X ) 098, 1; ( Y Y ) ( X X )( Y Y ) 116, 16 6, 54 Com o auxílo dos dados obtdos: ( X X )( Y Y ) ( X X ) 116,16 b 0,05, 098,1 ( 0,0554)( 38,3) 0, 06 a Y b X,18. Então: Y ˆ 0,06+ 0,05 X Dagrama de dspersão para os dados do exemplo Varânca em torno de Ŷ: S ( Y ) y Y b ( X X ) n ( 0,05) ( 098,1 ) 6,54 0, 01 8 9

Estatístca II Antono Roque Aula 18 Erro padrão da prevsão S S 0, 11 Coefcente de correlação: ( X X )( Y Y ) 11616, ( ) ( ) ( 0981, )( 6, 536) X X Y Y r 0, 99 (forte relação lnear postva) Um estudante com méda no vestbular 40 tera, de acordo com a análse de regressão feta, C.R. no 1º ano Ŷ 0,06+0,05 (40),7.. A tabela abaxo fornece os valores médos, antes da ª Guerra Mundal, da ngestão dára de caloras e da taxa de mortaldade nfantl para alguns países seleconados. Países Taxa de Nº de caloras por mortaldade nfantl pessoa por da (X) por 1.000 (Y) Argentna.730 98,8 Burma.080 0,1 Celão 1.90 18,8 Chle.40 40,8 Colômba 1.860 155,6 Cuba.610 116,8 Egto.450 16,9 Índa 1.970 161,6 Urugua.380 94,1 a) Faça o dagrama de dspersão para estes dados; b) Calcule a reta de regressão para os dados e desenhe-a no dagrama; c) Calcule o coefcente de correlação. X 49; 157 Y ; ( X )( Y Y ) X 67163; 10

( X X ) 78589 ; ( ) ( X X )( Y Y ) 67163 ( X X ) 78589 b 0, 0855; ( 0 0855) 49 349 Estatístca II Antono Roque Aula 18 Y Y 18740. a Y bx 157, ; Ŷ 349 0, 0855Xˆ r ( X X )( Y Y ) ( X X ) ( Y Y ) 67163 78589 18740 67163 0, 5536 11311 50 30 10 190 170 150 130 110 90 1800 000 00 400 600 800 Reta de Regressão 3. Os lucros de uma companha no período de 1990 a 1994 são dados abaxo. Obtenha a reta de regressão e o coefcente de correlação para os dados. Com base na reta obtda, estme o lucro para 1995. Ano (t) X Lucro (mlhões US$) 1990 0,3-1991 1,9-1 ( X X ) ( Y Y ) ( X X ) ( Y Y ) ( X X ) ( Y Y ) -,16-1,56 4 4,67 4,3 1,43 1,56 199 5, 0 0,74 0 0,55 0 1993 3 5,8 1 1,34 1 1,80 1,34 1994 4 6,1 1,64 4,69 3,8 11

Estatístca II Antono Roque Aula 18 Quando uma das varáves é o ano, não é convenente usá-la para fazer os cálculos (sso os tornara muto trabalhosos). É mas fácl defnr uma outra varável X a partr do tempo em anos. Por exemplo, aqu escolheu-se o ano de 1990 como o ano para o qual X 0. A partr daí, acrescenta-se 1 à varável X para cada ano. Portanto: X 10 / 5 ; Y, 3 / 5 4, 46 ( X X )( Y Y ), 50; ( X X ) 10; ( Y Y ) 10 1, 14 10, 5 b 105, ; a Y bx 4, 46 105,, 36 10 Ŷ, 36 + 1, 05X 10, 50 10, 50 r 0, 958 10 114, 110, A estmatva de lucros para 95 é: 1995 x 5 Ŷ, 36 + 105, 5 7, 61 7 Lucro (mlhões US$) 6 5 4 3 90 91 9 93 94 95 Ano 1