Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa e que passaram pelo processo de seleção que utlzou os tas testes. Para cada um dos funconáros fo regstrada a nota méda nos testes de cratvdade, racocíno mecânco, racocíno abstrato e habldade matemátca (notas de 0 a 26). Anda, após 6 meses da contratação, fo calculado um escore que ndca o seu desempenho profssonal (0 a 20). Pergunta: exste alguma relação entre o escore de desempenho dos funconáros e a nota méda nos testes?
Assocação entre duas varáves quanttatvas o Dagrama de dspersão: recurso gráfco que nos permte vsualzar o comportamento conjunto das duas varáves. o Coefcente de correlação lnear: mede a ntensdade da assocação lnear exstente entre as varáves. 2
Coefcente de Correlação Lnear Defnção: Medda de assocação lnear entre duas varáves quanttatvas (vara entre e +). Valores próxmos a +: ndcam forte relação lnear postva; Valores próxmos a -: ndcam forte relação lnear negatva; Valores próxmos a zero: ndcam ausênca de relação lnear. 3
Um breve parênteses... 4
Dferença entre correlação e causaldade A correlação não mplca necessaramente uma relação de causaldade. Ou seja, um dos eventos não necessaramente causa a ocorrênca do outro. Todava, a correlação pode ser uma psta... Não é porque (A) acontece juntamente com (B) que podemos afrmar que (A) causa (B). Por outro lado, se (A) e (B) apresentam relação de causaldade, então eles apresentarão correlação. 5
Dferença entre correlação e causaldade Assm, determnar se exste de fato uma relação de causaldade requer nvestgação adconal pos podem acontecer as seguntes stuações: (A) causa realmente (B); (B) pode ser a causa de (A); Um tercero fator (C) pode ser causa tanto de (A) quanto de (B); A correlação pode ser apenas uma concdênca, ou seja, os dos eventos não têm qualquer relação para além do fato de ocorrerem ao mesmo tempo. 6
Dferença entre correlação e causaldade Bolsa Famíla é paraquedas eletoral de Dlma no Norte/Nordeste (Estadão, /0/200) Quanto maor o peso do Bolsa Famíla no muncípo, maor a votação de Dlma Rousseff (PT). A petsta tem uma espéce de paraquedas eletoral que lhe garante um patamar mínmo de votos, especalmente nas regões onde o programa é mas mportante para a economa local. Em cerca de metade dos muncípos brasleros, o Bolsa Famíla atende pelo menos um terço das famílas (...) http://blogs.estadao.com.br/vox-publca/200/0//bolsa-famla-e-paraquedas-eletoral-de-dlma-no-nortenordeste/ 7
Dferença entre correlação e causaldade 8
Dferença entre correlação e causaldade 9
Dferença entre correlação e causaldade 0
Dferença entre correlação e causaldade Então, para você, o governo usou o Bolsa-Famíla como moeda de troca eletoral? Uma vez que o Bolsa-Famíla exste, ele gerou votos adconas para a presdente? Os gráfcos anterores são sufcentes para responder a estas perguntas?
Voltando ao Exemplo O departamento de RH de uma empresa deseja avalar a efcáca dos testes aplcados para a seleção de funconáros. Para tanto, fo sorteada uma amostra aleatóra de 50 funconáros que fazem parte da empresa e que passaram pelo processo de seleção que utlzou os tas testes. Para cada um dos funconáros fo regstrada a nota méda nos testes de cratvdade, racocíno mecânco, racocíno abstrato e habldade matemátca (notas de 0 a 26). Anda, após 6 meses da contratação, fo calculado um escore que ndca o seu desempenho profssonal (0 a 20). Pergunta: exste alguma relação entre o escore de desempenho dos funconáros e a nota méda nos testes?
Voltando ao Exemplo r XY 0,76 Desempenho vs Nota Méda 3
Voltando ao Exemplo Perguntas: a) Qual modelo estatístco você propora para estudar a relação entre o escore de desempenho dos funconáros e a nota méda nos testes? b) Qual método de estmação você utlzara para encontrar os estmadores dos parâmetros do modelo proposto? Esses estmadores apresentam boas propredades? c) A varável nota méda nos testes é relevante para explcar o escore médo de desempenho dos funconáros? d) Qual a estmatva para o escore de desempenho de funconáros que obtveram nota méda gual a 3 nos testes?
Análse de Regressão Lnear Smples I Aula 0 Gujarat e Porter Capítulos 2 e 3 Wooldrdge Seções 2.2 e 2.3
Análse de Regressão Regressão Técnca Estatístca utlzada para nvestgar e modelar a relação entre varáves. Objetvo Na stuação em que mutas varáves estão envolvdas, estudar o efeto que algumas varáves exercem nas outras. Este estudo consstra na construção e análse de uma relação matemátca entre as varáves (no geral, uma varável em função das outras). 6
Análse de Regressão Na termnologa de regressão, a varável que está sendo estudada é chamada de varável dependente ou resposta, comumente denotada por Y. Já as varáves (ou a varável) que estão sendo usadas para explcar a varável dependente são chamadas de varáves ndependentes, explcatvas ou regressores, comumente denotadas por X, X 2,..., X k. A análse de regressão consste em estudar como alterações nas varáves explcatvas nfluencam a varável resposta. 7
Análse de Regressão O tpo mas smples de análse de regressão, envolvendo uma varável explcatva (ou ndependente) e uma varável resposta (ou dependente), é chamado de regressão lnear smples. A análse de regressão envolvendo duas ou mas varáves explcatvas é chamada de análse de regressão lnear múltpla. 8
Regressão Lnear Smples Defnção A função E(Y X) é chamada regressão de Y em X. Aqu, será abordado um mportante modelo de regressão, o modelo de regressão lnear, no qual E(Y X) é uma função lnear nos parâmetros. Vale observar que a relação matemátca exstente entre Y (varável resposta) e X (varável explcatva) pode ser qualquer.
Voltando ao Exemplo Qual forma funconal você propora para estudar a relação entre o escore de desempenho dos funconáros e a nota méda nos testes? Y X x β0 β x E
Observações Duas amostras obtdas do mesmo teste de aptdão (X) não teram obrgatoramente que apresentar o mesmo resultado no que dz respeto ao desempenho (Y), mas valores em torno de um valor 0 + x (reta). Não esperamos uma relação perfeta entre as varáves nota méda nos testes e escore de desempenho dos funconáros, uma vez que outros fatores não controlados como, por exemplo, tempo de experênca na função também podem nfluencar na explcação da varável escore de desempenho. 2
Regressão Lnear Smples y Y X x β0 β x E y Modelo x ε β0 β x ε E Y X Característca comum Característca específca
Regressão Lnear Smples Observação É comum supor que os, =, 2,..., n, sejam varáves aleatóras dentcamente dstrbuídas, qualquer que seja o valor do regressor, que em mutos casos é consderado aleatóro. 23
Regressão Lnear Smples E(Y x) como uma função lnear de x, onde para todo x a dstrbução de Y é centrada sobre E(Y x) f Y x (y) y.. E(Y x) = 0 + x x x 2
Regressão Lnear Smples Observação 2 Vale salentar que o termo regressão lnear sgnfca regressão lnear nos parâmetros, ou seja, modelos da forma ou da forma y = 0 + x 2 + ln(y ) = 0 + ln(x ) + também serão consderados regressões lneares. 25
O parâmetro Regressão Lnear Smples E(Y X=x) = 0 + x, que representa a méda da v.a. Y, condconal a X = x, será estmado por Abuso de notação E(Y X x) yˆ βˆ 0 βˆ x b 0 b x em que βˆ 0 b e βˆ 0 b são estmatvas para β0 e β. 26
Regressão Lnear Smples Anda, a quantdade Abuso de notação ˆ y - ŷ y - ( ˆ 0 ˆ x ),, 2,..., n. será chamada de resíduo. Assm, o valor ˆ por prever y ( =, 2,..., n) a partr de pode ser encarado como o erro cometdo ŷ. 27
Regressão Lnear Smples y 4. 4 ˆ { ˆ ˆ ŷ 0 x y 3 y 2 ˆ 2 {.. } ˆ 3 Abuso de notação y. } ˆ x x 2 x 3 x 4 x 28
Voltando ao Exemplo Qual método de estmação você utlzara para, com base numa dada amostra, encontrar as estmatvas dos parâmetros do modelo de regressão lnear smples anterormente proposto? Y x β0 β x E 29
Estmação Qual método de estmação utlzar? Um procedmento bastante utlzado em Econometra para obter estmadores é aquele que se basea no prncípo dos mínmos quadrados ordnáros (MQO), ntroduzdo por Gauss em 794. 30
Idea! Mínmos Quadrados Ordnáros Quanto menor for o erro quadrátco total ( 2 ), melhor será a estmatva. Isso nos sugere procurar a estmatva que torne mínma essa soma de quadrados. Matematcamente, o problema passa a ser o de encontrar os valores de 0 e que mnmzem a função S n 2 0, y 0 x n 2 3
Mínmos Quadrados Ordnáros O mínmo da função é obtdo dervando-a em relação a 0 e, e gualando o resultado a zero, o que resulta ( 0; ) 0 S e ( ; ) 0 0 S 0 32
Dervando... n n x y S 2 0 2 0, n y x S 0 0 0 2, n x x y S 0 0 2, Mínmos Quadrados Ordnáros Voltando à função de nteresse: 33
Igualando a zero a dervada em relação ao parâmetro 0, 0, 0 S vem que: Mínmos Quadrados Ordnáros 0 n 2y yˆ ˆ ˆ x 0 0 Nota: va condção de prmera ordem, notamos que a soma dos resíduos, no modelo de regressão lnear com ntercepto, é sempre gual a zero.
Igualando a zero a dervada em relação ao parâmetro, vem que: Mínmos Quadrados Ordnáros S 0 0, n 2 ˆ ˆ ˆ y x x 0 0 Nota: va condção de prmera ordem, notamos que a covarânca entre os resíduos e o regressor é sempre gual a zero.
Assm, Mínmos Quadrados Ordnáros 36 n n n n n x n y x y 0 0 ˆ ˆ ˆ ˆ Abrndo o somatóro da gualdade y x 0 ˆ ˆ 0 ˆ ˆ 2 0 n x y vem que:
Substtundo na gualdade anteror, não é dfícl obter: Mínmos Quadrados Ordnáros 37 Anda, abrndo o somatóro da gualdade vem que: 0 ˆ ˆ 2 0 n x x y n n n x x y x 2 0 0 ˆ ˆ y x 0 ˆ ˆ
Mínmos Quadrados Ordnáros ˆ n x n y x 2 x y (x x)(y y) SXY SY r 2 2 2 XY x (x x) SX SX Dessa forma, a equação estmada por mínmos quadrados fca dado por Abuso de notação ˆ ˆ ˆ x 0 y,
Desempenho Voltando ao Exemplo Quas as estmatvas dos parâmetros do modelo de regressão lnear smples de nteresse? 40 20 00 80 60 40 20 00 0.00 5.00 0.00 5.00 20.00 25.00 30.00 Nota méda Abuso de notação yˆ 68,5, 8x Como tas estmatvas devem ser nterpretadas?
Regressão Lnear Smples y Parâmetros 0 é o ntercepto; coefcente angular da reta de regressão E(Y X x) x Na prátca, nem sempre 0 (ntercepto) apresenta nterpretação. x ε β0 β x ε E Y X Observação β 40
Voltando ao Exemplo Abuso de notação yˆ 68,5, 8x 68,5: valor médo do desempenho dos funconáros que traram méda gual a zero nos testes de admssão.,8: varação méda no desempenho dos funconáros, quando aumenta-se a nota méda obtda nos testes de admssão em undade. 4
Mínmos Quadrados Ordnáros Exercíco Encontre a matrz hessana e verfque sob quas condções a mesma é defnda como postva. Anda, dscuta se os estmadores encontrados geram o mínmo da função de nteresse. 42
Voltando ao Exemplo Abuso de notação yˆ 68,5, 8x O modelo de regressão proposto está bem ajustado? Como medr a qualdade de ajuste do modelo?
Objetvo Construr uma medda que ndque, mesmo que de modo mperfeto, a qualdade do ajuste do modelo de regressão. Coefcente de determnação (ou de explcação) R 2 44
Somas de Quadrados y ŷ y ˆ ˆ 0 x y - y : erro ao se prever y pela méda geral y - ŷ: erro ao se prever y pelo valor estmado para E(Y X) ŷ - y : ganho ao se prever y pelo valor estmado para E(Y X) em comparação ao se prever y pela méda geral
Somas de Quadrados y ŷ y ˆ ˆ 0 x n SST y n SSR y 2 - y 2 - ŷ n SSE ŷ 2 - y SST: soma de quadrados total SSR: soma de quadrados devdo aos resíduos SSE: soma de quadrados devdo à explcação (modelo de regressão)
Coefcente de Determnação (R 2 ) Resultado: SST = SSE + SSR Parcela da varabldade de y que é explcada pelos regressores do modelo Parcela da varabldade de y que não é explcada pelos regressores do modelo R 2 SSE SST SSR SST Proporção da varabldade total de y que é explcada pelos regressores do modelo adotado.
Desempenho Voltando ao Exemplo 40 20 00 80 60 40 R 2 SSE SST 0,5808 20 00 0,00 5,00 0,00 5,00 20,00 25,00 30,00 Nota méda SST n 2 y - y 4.593, SSR n 2 y - ŷ 925,3 SSE n 2 ŷ - y 2.667,7 SST-SSE
Desempenho Voltando ao Exemplo 40 20 00 80 60 40 R 2 SSE SST 0,5808 20 00 0,00 5,00 0,00 5,00 20,00 25,00 30,00 Nota méda Interpretação: 58% das varações no desempenho dos funconáros após 3 meses de trabalho são explcadas pela nota méda obtda nos testes de admssão.
Desempenho Voltando ao Exemplo 40 20 00 80 60 40 R 2 SSE SST 0,5808 20 00 0,00 5,00 0,00 5,00 20,00 25,00 30,00 Nota méda Conclusão: Parece que a nota méda obtda é relevante para a explcação do desempenho dos funconáros, uma vez que tal regressor explca mas da metade das varações da varável resposta.
Coefcente de Determnação (R 2 ) Exercíco Prove que, no caso do modelo de regressão lnear smples com ntercepto, o coefcente de correlação lnear de Pearson elevado ao quadrado é gual ao coefcente de explcação (ou determnação) R 2. Ou seja, R SSE S 2 2 XY ˆ 2 SST SxxSYY S S XY YY