Estatística II Antonio Roque Aula 18. Regressão Linear

Estatístca II Antono Roque Aula 18 Regressão Lnear Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão relaconadas, mas são usadas para dferentes propóstos. O objetvo mas comum da análse de regressão é obter uma equação que possa ser usada para prever ou estmar o valor de uma varável em função de um dado valor de uma outra varável. A análse de correlação, por outro lado, é usada para se obter uma medda do grau ou da força da assocação entre duas varáves. Em uma análse de regressão, dadas as duas varáves que serão estudadas, deve-se defnr qual será consderada como a varável dependente e qual será a varável ndependente. A varável ndependente, que costuma ser denotada por X, é a que va determnar o comportamento da outra varável, por sto chamada de dependente, denotada por Y. A varável dependente (Y) é aquela que queremos estudar e a varável ndependente (X) é aquela que, segundo nossa hpótese, causa alguma modfcação em Y. Em textos de economa costuma-se chamar a varável ndependente de exógena, porque ela está fora do sstema em estudo, e a varável dependente de endógena, porque ela faz parte do sstema em estudo. Em mutos casos é fácl determnar, entre duas varáves, qual deve ser a ndependente e qual será a dependente. Se, por exemplo, há o nteresse em estudar o consumo de gulosemas (balas, bscotos e chocolates) por famíla em uma dada regão e se quer relaconar esse consumo com a renda famlar, vemos que a varável dependente deve ser o consumo de gulosemas por famíla e a varável ndependente deve ser a renda da famíla, pos sera absurdo supor que é o consumo de gulosemas que determna a renda de uma famíla. 1

Estatístca II Antono Roque Aula 18 Agora, em um caso em que se quer estudar as varáves vendas de jornas sensaconalstas (tpo Notícas Populares) e vendas de bebdas alcoólcas em uma dada regão fca mas dfícl decdr qual deve ser tratada como dependente e qual como ndependente. Em casos como este a decsão sobre qual varável será a dependente e qual será a ndependente depende do modelo teórco ou da nterpretação adotada pelo nvestgador, mas sto não rá nfluencar os métodos de regressão e correlação descrtos a segur. Regressão lnear smples Como exemplo ntrodutóro da análse de regressão, vamos consderar dados relaconando pressão sangüínea sstólca com nível de dosagem de uma droga ant-hpertensão. Nível de dosagem da droga Pressão sangüínea sstólca méda (mg) (mm Hg) 78 3 40 4 198 5 13 6 111 Olhando para os dados, vemos que alguma relação exste entre eles: quanto maor o nível de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no dagrama de dspersão abaxo. Observe que nem todos os pontos caem exatamente sobre uma lnha reta, mas a tendênca é que os valores de Y decresçam de uma manera aproxmadamente lnear à medda que os valores de X cresçam. Isto ndca que a relação entre Y e X pode ser lnear e pode ser descrta por uma lnha reta. Vamos tentar determnar uma equação para essa reta.

Estatístca II Antono Roque Aula 18 Pressão sangüínea sstólca 300 50 00 150 100 50 0 1 3 4 5 6 7 Nível de dosagem da droga ant-hpertensva Dagrama de dspersão para os dados da tabela acma. Qualquer lnha reta tem a forma geral: Y a+ bx, onde b dá a nclnação da lnha e a é o ponto onde a lnha cruza o exo Y. Para quasquer dos pontos, é fácl determnar a lnha reta que os une; porém, para três ou mas pontos, como no caso em questão, é em geral mpossível encontrar uma lnha reta que passe por todos os pontos. Neste caso, o que se tenta fazer é encontrar a lnha reta que melhor represente a confguração dos pontos. Uma lustração dsto é dada pelo gráfco abaxo: O chapéu sobre o Y, (Ŷ), ndca que a reta da fgura, cuja equação é Y ˆ a+ bx, é uma estmatva para a hpotétca reta verdadera. As dstâncas dos pontos para a lnha são dadas por: d ˆ Y Y, onde Y a+ bx ˆ. A reta Ŷ a+ bx tenta mnmzar as dstâncas (ou desvos, ou anda resíduos) d dos pontos para ela: pode-se perceber sto vsualmente. Para o gráfco acma, d é postva, 1 d é negatva e d é postva. Poderíamos somar as três 3 dstâncas e tentar encontrar alguma manera matemátca de mnmzar seu valor. Porém, é comum que desvos em torno de algum valor se anulem quando somados, como no caso do desvo médo. 3

Estatístca II Antono Roque Aula 18 Para se medr o grau de adequação (ou ajuste) de uma lnha reta a um conjunto de pontos, é mas convenente calcular a soma dos quadrados dos desvos. Esta é sempre uma quantdade postva e é a que se costuma usar para medr o ajuste dos pontos pela reta: ( Y Y ) d ˆ. O método usado para se encontrar a reta que mas se ajuste a um conjunto de pontos utlzando a fórmula acma é chamado de método dos mínmos quadrados e a reta calculada é chamada de reta de regressão. O método é chamado de mínmos quadrados porque o seu objetvo é encontrar a reta Ŷ que mnmze a soma dos quadrados da equação. A dscussão formal deste método não será feta aqu. Apenas os seus prncípos serão dados. Para uma dada reta como Φ Y ˆ a+ bx, a soma dos quadrados dos desvos é escrta ( Yˆ ) ( Y a bx ) Y. Esta somatóra pode ser vsta como uma função dos parâmetros a e b, pos varando-se os valores de a e de b altera-se o valor da soma dos quadrados dos desvos. Note que a forma funconal desta função é a de um parabolóde (veja a fgura abaxo), pos a dependênca de maor ordem em a e b é quadrátca, de manera que exste um par (a, b) para o qual ela tem um valor mínmo. 4

Estatístca II Antono Roque Aula 18 Pela teora dos máxmos e mínmos do Cálculo, o ponto de mínmo (a, b) é determnado pela condção de que ele seja um extremo, ou seja Φ Φ 0 e 0. a b Calculando as dervadas chega-se a um sstema de equações algébrcas com duas ncógntas, a e b. Resolvendo esse sstema de equações chega-se aos valores de a e b: ( X X )( Y Y ) ( X X ) b ; a Y b X, onde X e Y são as médas dos valores de X e Y, respectvamente. Há uma fórmula mas smples para o cálculo de b, que pode ser obtda expandndo-se os termos entre parênteses. O resultado (tente obtê-lo como exercíco) é: onde n é o número de pares de pontos. X Y X n Y b n X X, Voltando agora ao exemplo sobre pressão sangüínea sstólca, temos que a reta de regressão que melhor se ajusta à amostra de pontos ( X, Y ) é dada por Ŷ a+ onde a e b são dados pelas fórmulas acma. Para calcular a reta de regressão devemos montar uma tabela como a mostrada abaxo: bx 5

Estatístca II Antono Roque Aula 18 Dados para o cálculo da lnha de regressão para nível de dosagem da droga (X) e pressão sangüínea sstólca (Y): n X Y X Y X.Y 1 78 4 7784 556 3 40 9 57600 70 3 4 198 16 3904 79 4 5 13 5 1744 660 5 6 111 36 131 666 Soma 0 959 90038333394 A partr dos valores da tabela, calculamos: Y 959 X 0 Y 1918, ; X 4, 0 n 5 n 5 5.3394 0.959 10 b 44, ; 5.90 0 50 ( 44, ) 4, 0 368 6 a Y bx 191, 8, Ŷ 368, 6 44, X Gráfco de Ŷ368,6-44,X Ŷ368,6 44, X 6

Estatístca II Antono Roque Aula 18 Conhecendo-se a equação para a reta, ela pode ser traçada determnando-se pontos. Por exemplo, para X e X 7 a equação dá, respectvamente: Ŷ 80, e Ŷ 59,. É assm que se traçou o gráfco acma. Note que a reta traçada representa bem os pontos do gráfco de dspersão, pelo menos vsualmente. Para medrmos a força desse ajuste lnear entre as duas varáves, devemos calcular o coefcente de correlação de Pearson entre elas. A varânca em torno da lnha de regressão Assm como se pode defnr uma varânca (ou desvo padrão) de um conjunto de pontos em torno de seu valor médo Y, também se pode defnr uma varânca (ou desvo padrão) de um conjunto de pontos ordenados Y em torno da sua lnha de regressão Ŷ. Esta quantdade, denotada por S, é defnda como S ( Y Y ) ˆ, n e a sua raz quadrada, chamada de erro padrão da prevsão, é dada por S S. Esta últma quantdade é análoga ao desvo padrão vsto nas aulas de estatístca descrtva. Ela dá uma medda do desvo médo dos valores observados Y em relação ao valor predto Ŷ pela lnha de regressão. Note que a únca dferença da defnção de S para a da varânca usual é que se dvdu por n ao nvés de por n 1. Para um conjunto grande de dados a computação de cada ( Yˆ ) Y é trabalhosa quando deve ser feta manualmente. Exste, porém, uma fórmula algebrcamente equvalente par S que smplfca os cálculos: S ( Y Y ) b ( X X ). n 7

Estatístca II Antono Roque Aula 18 Com o uso da tabela para os dados de pressão sstólca temos: S ( 44,) 19904,4 10 368,0 1,7 S S 5 3 11,1 Da fórmula acma, vê-se que a varânca em relação à reta Ŷ é gual à varânca em relação à méda Y se b 0 (nclnação nula) e se n for muto grande, de manera que n n 1. Exercícos Exemplo 1. Predzer a nota méda de um estudante de uma unversdade ao fnal do seu prmero ano com base na sua nota méda do exame vestbular. Selecona-se uma amostra de nteresse (por exemplo estudantes de Bologa da USP/Rberão) e toma-se suas notas médas no vestbular e no prmero ano da unversdade. Constró-se uma tabela, um dagrama de dspersão e, caso se desconfe que haja uma relação lnear, determna-se a lnha de regressão e o coefcente de correlação. Méda do vestbular Méda do prmero ano Estudante (X) (1 C.R. 5) (Y) 1 4 1,5 61 3,5 3 30 1,7 4 48,7 5 60 3,4 6 3 1,6 7 19 1, 8 1,3 9 41, 10 46,7 8

Estatístca II Antono Roque Aula 18 Y 18, Y 18, ; X 383 X 38, 3 10 10 10 10 ( X X ) 098, 1; ( Y Y ) ( X X )( Y Y ) 116, 16 6, 54 Com o auxílo dos dados obtdos: ( X X )( Y Y ) ( X X ) 116,16 b 0,05, 098,1 ( 0,0554)( 38,3) 0, 06 a Y b X,18. Então: Y ˆ 0,06+ 0,05 X Dagrama de dspersão para os dados do exemplo Varânca em torno de Ŷ: S ( Y ) y Y b ( X X ) n ( 0,05) ( 098,1 ) 6,54 0, 01 8 9

Estatístca II Antono Roque Aula 18 Erro padrão da prevsão S S 0, 11 Coefcente de correlação: ( X X )( Y Y ) 11616, ( ) ( ) ( 0981, )( 6, 536) X X Y Y r 0, 99 (forte relação lnear postva) Um estudante com méda no vestbular 40 tera, de acordo com a análse de regressão feta, C.R. no 1º ano Ŷ 0,06+0,05 (40),7.. A tabela abaxo fornece os valores médos, antes da ª Guerra Mundal, da ngestão dára de caloras e da taxa de mortaldade nfantl para alguns países seleconados. Países Taxa de Nº de caloras por mortaldade nfantl pessoa por da (X) por 1.000 (Y) Argentna.730 98,8 Burma.080 0,1 Celão 1.90 18,8 Chle.40 40,8 Colômba 1.860 155,6 Cuba.610 116,8 Egto.450 16,9 Índa 1.970 161,6 Urugua.380 94,1 a) Faça o dagrama de dspersão para estes dados; b) Calcule a reta de regressão para os dados e desenhe-a no dagrama; c) Calcule o coefcente de correlação. X 49; 157 Y ; ( X )( Y Y ) X 67163; 10

( X X ) 78589 ; ( ) ( X X )( Y Y ) 67163 ( X X ) 78589 b 0, 0855; ( 0 0855) 49 349 Estatístca II Antono Roque Aula 18 Y Y 18740. a Y bx 157, ; Ŷ 349 0, 0855Xˆ r ( X X )( Y Y ) ( X X ) ( Y Y ) 67163 78589 18740 67163 0, 5536 11311 50 30 10 190 170 150 130 110 90 1800 000 00 400 600 800 Reta de Regressão 3. Os lucros de uma companha no período de 1990 a 1994 são dados abaxo. Obtenha a reta de regressão e o coefcente de correlação para os dados. Com base na reta obtda, estme o lucro para 1995. Ano (t) X Lucro (mlhões US$) 1990 0,3-1991 1,9-1 ( X X ) ( Y Y ) ( X X ) ( Y Y ) ( X X ) ( Y Y ) -,16-1,56 4 4,67 4,3 1,43 1,56 199 5, 0 0,74 0 0,55 0 1993 3 5,8 1 1,34 1 1,80 1,34 1994 4 6,1 1,64 4,69 3,8 11

Estatístca II Antono Roque Aula 18 Quando uma das varáves é o ano, não é convenente usá-la para fazer os cálculos (sso os tornara muto trabalhosos). É mas fácl defnr uma outra varável X a partr do tempo em anos. Por exemplo, aqu escolheu-se o ano de 1990 como o ano para o qual X 0. A partr daí, acrescenta-se 1 à varável X para cada ano. Portanto: X 10 / 5 ; Y, 3 / 5 4, 46 ( X X )( Y Y ), 50; ( X X ) 10; ( Y Y ) 10 1, 14 10, 5 b 105, ; a Y bx 4, 46 105,, 36 10 Ŷ, 36 + 1, 05X 10, 50 10, 50 r 0, 958 10 114, 110, A estmatva de lucros para 95 é: 1995 x 5 Ŷ, 36 + 105, 5 7, 61 7 Lucro (mlhões US$) 6 5 4 3 90 91 9 93 94 95 Ano 1