Probabldade e Estatístca I Antono Roque Aula 5 Regressão e Correlação Lnear Até o momento, vmos técncas estatístcas em que se estuda uma varável de cada vez, estabelecendo-se sua dstrbução de freqüêncas, méda, desvo padrão, etc. Em mutos casos, porém, é necessáro estudar duas ou mas varáves ao mesmo tempo. Por exemplo, pode-se obter mas nformações estudando peso e altura juntos do que estudando cada um separadamente; ou anda, renda mensal junto com gastos com lvros. Neste capítulo veremos alguns métodos usados para estudar ao mesmo tempo duas varáves. Em geral estuda-se duas varáves ao mesmo tempo com o objetvo de determnar se há alguma relação entre elas e, se houver, qual o tpo dessa relação. Pode-se, por exemplo, pesqusar uma relação entre dade e tempo de sobrevvênca em casos de crurga, ou procurar saber que tpo de relação (lnear, exponencal ou outra) exste entre tempo de permanênca de um pacente num programa de atendmento domclar e os custos do atendmento. Outras vezes estudam-se duas varáves conjuntamente na expectatva de se poder usar uma delas para prever a outra. Por exemplo, será que se pode prever o gasto de uma famíla com balas e chocolates conhecendo-se a sua renda mensal? Fundamentos Quando se consderam duas varáves aleatóras ao mesmo tempo, X e Y, as técncas estatístcas aplcadas são as de regressão e correlação. As duas técncas estão relaconadas, mas são usadas para dferentes propóstos. O objetvo mas comum da análse de regressão é obter uma equação que possa ser usada para prever ou estmar o valor de uma varável em função de um dado valor de uma outra varável. A análse de correlação, por outro lado, é usada para se obter uma medda do grau ou da força da assocação entre duas varáves. Tanto para regressão como para correlação, os dados consstem de pares de meddas seleconadas da população de nteresse. Por exemplo, um comtê elaborador de vestbular (FUVEST, p. ex.) pode querer saber se há alguma assocação entre a méda das notas 1
Probabldade e Estatístca I Antono Roque Aula 5 obtdas na escola de º grau e a méda das notas obtdas no exame vestbular. Os dados podem ser arranjados como abaxo, onde o par de números (X, Y ) dá as médas das notas do º grau e do vestbular para o -ésmo aluno da amostra. Aluno Méda do º grau Méda do vestbular 1 X 1 Y 1 X Y ξ ξ ξ n X n Y n A decsão fnal sobre se é razoável ou não assumr que exste uma relação entre Y e X será baseada na análse de regressão e correlação. Obtém-se uma equação matemátca expressando uma relação entre Y e X e usa-se testes de hpóteses para se decdr se a equação é provável ou não. Caso a equação seja provável, ela pode ser usada para predzer possíves valores de Y a partr de valores de X. Antes, porém, de se fazer uma análse de regressão para um conjunto de pares de dados é mportante escolher adequadamente quas as duas varáves que se va estudar conjuntamente. Se, por exemplo, há o nteresse em estudar o consumo de balas, bscotos e chocolates por famíla de uma dada regão, deve-se ncalmente construr alguma hpótese sobre quas varáves podem estar assocadas a ele. Por exemplo, algumas dessas varáves poderam ser renda famlar, número de cranças na famíla, número de pessoas na famíla, dade méda da famíla, etc. Uma vez determnadas as duas varáves que serão estudadas, deve-se defnr qual será consderada como a varável dependente e qual será a varável ndependente. A varável ndependente, em geral descrta por x, é a que va determnar o comportamento da outra varável, por sto chamada de dependente, em geral descrta por y. A varável dependente (y) é aquela que queremos estudar e a varável ndependente (x) é aquela que, segundo nossa hpótese, causa alguma modfcação em y. Em textos de economa costuma-
Probabldade e Estatístca I Antono Roque Aula 5 se chamar a varável ndependente de exógena, porque ela está fora do sstema em estudo, e a varável dependente de endógena, porque ela faz parte do sstema em estudo. Em mutos casos é fácl determnar, entre duas varáves, qual deve ser a ndependente e qual será a dependente. Usando de novo o exemplo do consumo famlar de balas, bscotos e chocolates, vemos que esta deve ser a varável dependente quando se escolhe a renda famlar como outra varável, a qual sera então a varável ndependente. Sera absurdo supor que é o consumo de gulosemas que determna a renda de uma famíla. Agora, em um caso em que se quer estudar as varáves vendas de jornas sensaconalstas (tpo Notícas Populares) e vendas de bebdas alcoólcas em uma dada regão fca mas dfícl decdr qual deve ser tratada como dependente e qual como ndependente. Em casos como este a decsão sobre qual varável será a dependente e qual será a ndependente depende do modelo teórco ou da nterpretação adotada pelo nvestgador, mas sto não rá nfluencar os métodos de regressão e correlação descrtos a segur. O dagrama de dspersão A técnca mas smples e provavelmente mas útl para estudar a relação entre duas varáves é o dagrama de dspersão. Em um dagrama de dspersão, cada um dos n pares de observações (X,Y ), 1,..., n, é representado grafcamente como um únco ponto. Os Xs são colocados no exo horzontal (abscssa) e os Ys são colocados no exo vertcal (ordenada). Olhando para o arranjo dos pontos no gráfco, pode-se dscernr um padrão ndcador da forma funconal subjacente aos dados. Algumas possíves formas funconas estão ndcadas a segur: Y Y Y X X X a) lnear b) não-lnear c) sem relação 3
Probabldade e Estatístca I Antono Roque Aula 5 O caso (a) é o de uma relação lnear entre Y e X, que pode ser representada por uma reta. O caso (b) é o de uma relação curvlínea, ou não-lnear, que pode ser representada por uma função não-lnear. O caso (c) é um em que não há relação entre Y e X: o valor de Y (maor ou menor) não depende de X. Nesta aula, só remos consderar relações lneares. Regressão lnear smples Como exemplo ntrodutóro da análse de regressão, vamos consderar dados relaconando pressão sangüínea sstólca com nível de dosagem de uma droga anthpertensão. Nível de dosagem da droga Pressão sangüínea sstólca méda (mg) (mm Hg) 78 3 40 4 198 5 13 6 111 Olhando para os dados, vemos que alguma relação exste entre eles: quanto maor o nível de dosagem, menor a pressão sangüínea. Estes dados estão mostrados no dagrama de dspersão abaxo. Observe que nem todos os pontos caem exatamente sobre uma lnha reta, mas a tendênca é que os valores de Y decresçam de uma manera aproxmadamente lnear à medda que os valores de X cresçam. Isto ndca que a relação entre Y e X pode ser lnear e pode ser descrta por uma lnha reta. Vamos tentar determnar uma equação para essa reta. 4
Pressão sangüínea sstólca 300 50 00 150 100 50 0 Probabldade e Estatístca I Antono Roque Aula 5 1 3 4 5 6 7 Nível de dosagem da droga ant-hpertensva Dagrama de dspersão para os dados da tabela acma. Qualquer lnha reta tem a forma geral: Y a + bx, onde b dá a nclnação da lnha e a é o ponto onde a lnha cruza o exo Y. Para quasquer dos pontos, é fácl determnar a lnha reta que os une; porém, para três ou mas pontos, como no caso em questão, é em geral mpossível encontrar uma lnha reta que passe por todos os pontos. Neste caso, o que se tenta fazer é encontrar a lnha reta que melhor represente a confguração dos pontos. Uma lustração dsto é dada pelo gráfco abaxo: O chapéu sobre o Y, (Ŷ), ndca que a reta da fgura, cuja equação é Y ˆ a + bx, é uma estmatva para a hpotétca reta verdadera. As dstâncas dos pontos para a lnha são dadas por: Para o gráfco acma, d é postva, 1 d ˆ Y Y, onde Y a + bx ˆ. A reta Ŷ a + bx tenta mnmzar as dstâncas (ou desvos, ou anda resíduos) d dos pontos para ela: pode-se perceber sto vsualmente. d é negatva e d é postva. Poderíamos somar 3 as três dstâncas e tentar encontrar alguma manera matemátca de mnmzar seu valor. Porém, é comum que desvos em torno de algum valor se anulem quando somados, como no caso do desvo médo. 5
Probabldade e Estatístca I Antono Roque Aula 5 Para se medr o grau de adequação (ou ajuste) de uma lnha reta a um conjunto de pontos, é mas convenente calcular a soma dos quadrados dos desvos. Esta é sempre uma quantdade postva e é a que se costuma usar para medr o ajuste dos pontos pela reta: ( Y Y ) d. ˆ O método usado para se encontrar a reta que mas se ajuste a um conjunto de pontos utlzando a fórmula acma é chamado de método dos mínmos quadrados e a reta calculada é chamada de reta de regressão. O método é chamado de mínmos quadrados porque o seu objetvo é encontrar a reta Yˆ que mnmze a soma dos quadrados da equação. A dscussão formal deste método não será feta aqu. Apenas os seus prncípos serão dados. Para uma dada reta como Φ Y ˆ a + bx, a soma dos quadrados dos desvos é escrta ( Yˆ ) ( Y a bx ) Y. Esta somatóra pode ser vsta como uma função dos parâmetros a e b, pos varando-se os valores de a e de b altera-se o valor da soma dos quadrados dos desvos. Note que a forma funconal desta função é a de um parabolóde (pos a dependênca de maor ordem em a e b é quadrátca), de manera que exste um par (a, b) para o qual ela tem um valor mínmo. Pela teora dos máxmos e mínmos do Cálculo, o ponto de mínmo (a, b) é determnado pela condção de que ele seja um extremo, ou seja Φ Φ 0 e 0. a b Calculando as dervadas chega-se a um sstema de equações algébrcas com duas ncógntas, a e b. Resolvendo esse sstema de equações chega-se aos valores de a e b: ( X X )( Y Y ) ( X X ) b ; a Y bx, onde X e Y são as médas dos valores de X e Y, respectvamente. Há uma fórmula mas smples para o cálculo de b, que pode ser obtda expandndo-se os termos entre parênteses. O resultado (tente obtê-lo como exercíco) é: 6
onde n é o número de pares de pontos. Probabldade e Estatístca I Antono Roque Aula 5 n X Y X Y, n X X b Voltando agora ao exemplo sobre pressão sangüínea sstólca, temos que a reta de regressão que melhor se ajusta à amostra de pontos( X, Y ) é dada por Ŷ a + onde a e b são dados pelas fórmulas acma. Para calcular a reta de regressão devemos montar uma tabela como a mostrada abaxo: bx Dados para o cálculo da lnha de regressão para nível de dosagem da droga (X) e pressão sangüínea sstólca (Y): n X Y X Y X.Y 1 78 4 7784 556 3 40 9 57600 70 3 4 198 16 3904 79 4 5 13 5 1744 660 5 6 111 36 131 666 Soma 0 959 90038333394 A partr dos valores da tabela, calculamos: Y 959 X 0 Y 1918, ; X 4, 0 n 5 n 5 5.3394 0.959 10 b 44,; 5.90 0 50 ( 44, ) 4, 0 368 6 a Y bx 191, 8, Ŷ 368, 6 44, X 7
Probabldade e Estatístca I Antono Roque Aula 5 Ŷ368,6 44, X Gráfco de Ŷ368,6-44,X Conhecendo-se a equação para a reta, ela pode ser traçada determnando-se pontos. Por exemplo, para X e X 7 a equação dá, respectvamente: Ŷ 80, e Ŷ 59,. É assm que se traçou o gráfco acma. Note que a reta traçada representa bem os pontos do gráfco de dspersão, pelo menos vsualmente. Anda nesta aula, quando tratarmos de correlação lnear, veremos como medr de manera quanttatva a força desse ajuste lnear entre os pontos e a reta. A varânca em torno da lnha de regressão Assm como se pode defnr uma varânca (ou desvo padrão) de um conjunto de pontos em torno de seu valor médo Y, também se pode defnr uma varânca (ou desvo padrão) de um conjunto de pontos ordenados Y em torno da sua lnha de regressão Ŷ. Esta quantdade, denotada por S, é defnda como S ( Y Y ) ˆ, n e a sua raz quadrada, chamada de erro padrão da prevsão, é dada por S S. Esta últma quantdade é análoga ao desvo padrão vsto nas aulas de estatístca descrtva. Ela dá uma medda do desvo médo dos valores observados Y em relação ao valor predto Ŷ pela lnha de regressão. Note que a únca dferença da defnção de S para a da varânca usual é que se dvdu por n ao nvés de por n 1. 8
Probabldade e Estatístca I Antono Roque Aula 5 Yˆ é trabalhosa Para um conjunto grande de dados a computação de cada ( ) quando deve ser feta manualmente. Exste, porém, uma fórmula algebrcamente equvalente par S que smplfca os cálculos: S ( Y Y ) b ( X X ). n Com o uso da tabela para os dados de pressão sstólca temos: S ( 44,) 19904,4 10 368,0 1,7 S S 5 3 Y 11,1 Da fórmula acma, vê-se que a varânca em relação à reta Ŷ é gual à varânca em relação à méda Y se b 0 (nclnação nula) e se n for muto grande, de manera que n n 1. O coefcente de correlação lnear Em geral, na análse de correlação, procura-se determnar a força de uma relação funconal entre duas varáves. A medda mas comumente usada para o grau de assocação lnear entre Y e X é o chamado coefcente de correlação de Pearson (ou smplesmente coefcente de correlação), denotado por r, e defndo como r ( X X )( Y Y ) ( X X ) ( Y Y ) n O termo no numerador desta fórmula é chamado de covarânca de X e Y. Note que ele se parece muto com a varânca, só que agora aparecem os desvos tanto de X como de Y em relação às suas médas. A covarânca mede a varação conjunta de X e Y em torno de suas médas. Já o termo no denomnador é o produto do desvo padrão de X pelo desvo padrão de Y. Expandndo-se os termos entre parênteses, a fórmula do coefcente de correlação pode ser reescrta em uma forma mas fácl para o cálculo, que é a segunte (tente obtê-la como exercíco): n. n 9
r Probabldade e Estatístca I Antono Roque Aula 5 n X Y [ n X ( X ) ] n Y ( Y ) [ ] Os valores de r estão sempre no ntervalo 1 r + 1. Um valor grande de r (postvo ou negatvo) ndca uma forte relação lnear entre X e Y. Um valor negatvo de r ndca que grandes valores de X estão assocados a baxos valores de Y, ou baxos valores de X estão assocados a grandes valores de Y (o produto ( X )( Y Y ) X será negatvo nos dos casos). Já um valor postvo de r ndca que grandes valores de X estão assocados a grandes valores de Y e que baxos valores de X estão assocados a baxos valores de Y (tanto ( X X ) como ( Y ) Y terão os mesmos snas nos dos casos). Os snas de r e de b (a nclnação da reta Ŷ) são os mesmos: quando a nclnação da reta é negatva, a correlação também é negatva, ndcando uma relação nversa entre Y e X. Igualmente, uma relação postva exste entre Y e X quando r e b são postvos. Uma relação postva exata ocorre quando r + 1 (todos os pontos estão exatamente sobre a reta), e uma relação negatva exata ocorre quando r 1 (todos os pontos também estão exatamente sobre a reta, só que ela tem nclnação negatva). Quando r 0, sto sgnfca que não há relação lnear entre as varáves Y e X. Note que r pode ser zero e anda assm exstr possvelmente alguma relação funconal entre as duas varáves, mas não-lnear. Dagramas de dspersão para os quas r 0 Exercícos Exemplo 10
Probabldade e Estatístca I Antono Roque Aula 5 1. Predzer a nota méda de um estudante de uma unversdade ao fnal do seu prmero ano com base na sua nota méda do exame vestbular. Selecona-se uma amostra de nteresse (por exemplo estudantes de Bologa da USP/Rberão) e toma-se suas notas médas no vestbular e no prmero ano da unversdade. Constró-se uma tabela, um dagrama de dspersão e, caso se desconfe que haja uma relação lnear, determna-se a lnha de regressão e o coefcente de correlação. Méda do vestbular Méda do prmero ano Estudante (X) (1 C.R. 5) (Y) 1 4 1,5 61 3,5 3 30 1,7 4 48,7 5 60 3,4 6 3 1,6 7 19 1, 8 1,3 9 41, 10 46,7 Y 18, Y 18, ; X 383 X 38, 3 10 10 10 10 ( X X ) 098, 1; ( Y Y ) ( X X )( Y Y ) 116, 16 6, 54 Com o auxílo dos dados obtdos: ( X X )( Y Y ) ( X X ) 116,16 b 0,05, 098,1 11
Probabldade e Estatístca I Antono Roque Aula 5 a Y b X,18 0,0554 38,3 0,. ( )( ) 06 Então: Y ˆ 0,06 + 0,05 X Dagrama de dspersão para os dados do exemplo Varânca em torno de Ŷ: S ( Y ) y Y b ( X X ) n ( 0,05) ( 098,1 ) 6,54 0, 01 8 Erro padrão da prevsão S S 0, 11 Coefcente de correlação: ( X X )( Y Y ) 11616, ( ) ( ) ( 0981, )( 6, 536) X X Y Y r 0, 99 (forte relação lnear postva) Um estudante com méda no vestbular 40 tera, de acordo com a análse de regressão feta, C.R. no 1º ano Ŷ 0,06+0,05 (40),7. 1
Probabldade e Estatístca I Antono Roque Aula 5. A tabela abaxo fornece os valores médos, antes da ª Guerra Mundal, da ngestão dára de caloras e da taxa de mortaldade nfantl para alguns países seleconados. Países Taxa de Nº de caloras por mortaldade nfantl pessoa por da (X) por 1.000 (Y) Argentna.730 98,8 Burma.080 0,1 Celão 1.90 18,8 Chle.40 40,8 Colômba 1.860 155,6 Cuba.610 116,8 Egto.450 16,9 Índa 1.970 161,6 Urugua.380 94,1 a) Faça o dagrama de dspersão para estes dados; b) Calcule a reta de regressão para os dados e desenhe-a no dagrama; c) Calcule o coefcente de correlação. X 49; 157 Y ; ( X )( Y Y ) ( X X ) 78589 ; ( Y ) ( X X )( Y Y ) 67163 ( X X ) 78589 X 67163; Y 18740. b 0, 0855; ( 0 0855) 49 349 a Y bx 157, ; Ŷ 349 0, 0855Xˆ r ( X X )( Y Y ) ( X X ) ( Y Y ) 67163 67163 0, 5536 78589 18740 11311 13
50 30 10 190 Probabldade e Estatístca I Antono Roque Aula 5 170 Reta de Regressão 150 130 110 90 1800 000 00 400 600 800 3. Os lucros de uma companha no período de 1990 a 1994 são dados abaxo. Obtenha a reta de regressão e o coefcente de correlação para os dados. Com base na reta obtda, estme o lucro para 1995. Ano (t) X Lucro (mlhões US$) 1990 0,3-1991 1,9-1 ( X X ) ( Y Y ) ( X X ) ( Y Y ) ( X X ) ( Y Y ) -,16-1,56 4 4,67 4,3 1,43 1,56 199 5, 0 0,74 0 0,55 0 1993 3 5,8 1 1,34 1 1,80 1,34 1994 4 6,1 1,64 4,69 3,8 Quando uma das varáves é o ano, não é convenente usá-la para fazer os cálculos (sso os tornara muto trabalhosos). É mas fácl defnr uma outra varável X a partr do tempo em anos. Por exemplo, aqu escolheu-se o ano de 1990 como o ano para o qual X 0. A partr daí, acrescenta-se 1 à varável X para cada ano. Portanto: X 10 / 5 ; Y 3, / 5 4, 46 ( X X )( Y Y ), 50; ( X X ) 10; ( Y Y ) 10 1, 14 14
Probabldade e Estatístca I Antono Roque Aula 5 10, 5 b 105, ; a Y bx 4, 46 105,, 36 10 Ŷ, 36 + 1, 05X 10, 50 10, 50 r 0, 958 10 1, 14 11, 0 A estmatva de lucros para 95 é: 1995 x 5 Ŷ, 36 + 105, 5 7, 61 7 Lucro (mlhões US$) 6 5 4 3 90 91 9 93 94 95 Ano 15