Regressão Linear - Introdução



Documentos relacionados
É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou. experimental.

CURSO SOBRE MEDIDAS DESCRITIVA Adriano Mendonça Souza Departamento de Estatística - UFSM -

Capítulo 2 O conceito de Função de Regressão Populacional (FRP) e Função de Regressão Amostral (FRA)

Em muitas situações duas ou mais variáveis estão relacionadas e surge então a necessidade de determinar a natureza deste relacionamento.

Probabilidade e Estatística. Correlação e Regressão Linear

Estatística - exestatmeddisper.doc 25/02/09

É o quociente da divisão da soma dos valores das variáveis pelos números deles:

ANÁLISE DE REGRESSÃO E CORRELAÇÃO

Medidas de Localização

CAPÍTULO 5. Ajuste de curvas pelo Método dos Mínimos Quadrados

Econometria: 3 - Regressão Múltipla

REGESD Prolic Matemática e Realidade- Profª Suzi Samá Pinto e Profº Alessandro da Silva Saadi

CAP. V AJUSTE DE CURVAS PELO MÉTODO DOS MÍNIMOS QUADRADOS

CAPÍTULO 9 - Regressão linear e correlação

Regressão e Correlação

Professor Mauricio Lutz REGRESSÃO LINEAR SIMPLES. Vamos, então, calcular os valores dos parâmetros a e b com a ajuda das formulas: ö ; ø.

Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Análise de Regressão

PROBABILIDADE E ESTATÍSTICA APLICADA À HIDROLOGIA

MEDIDAS DE TENDÊNCIA CENTRAL I

Modelo de Regressão Simples

Licenciatura em Ciências USP/ Univesp funções polinomiais 4

REGRESSÃO LINEAR 05/10/2016 REPRESENTAÇAO MATRICIAL. Y i = X 1i + 2 X 2i k X ni + i Y = X + INTRODUÇÃO SIMPLES MÚLTIPLA

Estatística Descritiva

7 Análise de covariância (ANCOVA)

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

CAPÍTULO 3 MEDIDAS DE TENDÊNCIA CENTRAL E VARIABILIDADE PPGEP Medidas de Tendência Central Média Aritmética para Dados Agrupados

tica Professor Renato Tião

2-Geometria da Programação Linear

1) Escrever um programa que faça o calculo de transformação de horas em minuto onde às horas devem ser apenas número inteiros.

NOTAS DE AULA - ESTATÍSTICA TEORIA DA AMOSTRAGEM ESTIMAÇÃO

x n = n ESTATÍSTICA STICA DESCRITIVA Conjunto de dados: Organização; Amostra ou Resumo; Apresentação. População

MEDIDAS DE DISPERSÃO:

Modelos de regressão linear: abordagem clássica

Construção e Análise de Gráficos

ESCOLA SUPERIOR DE TECNOLOGIA E GESTÃO

MÉTODO DOS MÍNIMOS QUADRADOS

MEDIDAS DE POSIÇÃO: X = soma dos valores observados. Onde: i 72 X = 12

Centro de massa, momento linear de sistemas de partículas e colisões

Análise dos resíduos e Outlier, Alavancagem e Influência

4 Capitalização e Amortização Compostas

Interpolação. Exemplo de Interpolação Linear. Exemplo de Interpolação Polinomial de grau superior a 1.

INTRODUÇÃO ÀS PROBABILIDADES E ESTATÍSTICA

Módulo: Binômio de Newton e o Triângulo de Pascal. Binômio de Newton e o Triângulo de Pascal. 2 ano do E.M.

MODELOS DE REGRESSÃO APLICADOS EM EPIDEMIOLOGIA I, II e III. (HEP- 5743, HEP-5763 e HEP-5764)

Faculdade de Tecnologia de Catanduva CURSO SUPERIOR DE TECNOLOGIA EM AUTOMAÇÃO INDUSTRIAL

MAE116 Noções de Estatística

Universidade Federal do Rio Grande FURG. Instituto de Matemática, Estatística e Física IMEF Edital 15 CAPES INTERPOLAÇÃO

Medidas Numéricas Descritivas:

MODELOS DE REGRESSÃO APLICADOS EM EPIDEMIOLOGIA I, II e III. (HEP- 5743, HEP-5763 e HEP-5764)

Estudo das relações entre peso e altura de estudantes de estatística através da análise de regressão simples.

Vamos estudar o conceito de variabilidade absoluta considerando o conjunto de notas obtidas por cinco alunos:

Revisão de Estatística X = X n

Sumário. Mecânica. Sistemas de partículas

Luis Felipe Dias Lopes, Dr. D E - UFSM

Média. Mediana. Ponto Médio. Moda. Itabira MEDIDAS DE CENTRO. Prof. Msc. Emerson José de Paiva 1 BAC011 - ESTATÍSTICA. BAC Estatística

Derivada de uma matriz em ordem a um escalar. Derivada de um escalar em ordem a uma matriz DERIVAÇÃO COM MATRIZES. Y = y m. X = x m X = y = = b.

( ) ( ) ( ) ( ) ( ) 3 - INTRODUÇÃO À RESOLUÇÃO DE SISTEMAS NÃO LINEARES. Introdução.

Cap. 5. Testes de Hipóteses

Macroeconometria Aula 3 Revisão de estatística e teste de hipótese

É o grau de associação entre duas ou mais variáveis. Pode ser: correlacional ou experimental.

Parte 3 - Regressão linear simples

Variáveis Indicadoras. Roteiro. Introdução

A esse tipo de tabela, cujos elementos não foram numericamente organizados, denominamos tabela primitiva.

Transcrição:

Regressão Lear - Itrodução Na aálse de regressão lear pretede-se estudar e modelar a relação (lear) etre duas ou mas varáves. Na regressão lear smples relacoam-se duas varáves, x e Y, através do modelo lear À varável Y chama-se varável depedete e à varável x varável depedete ou explcatva. Exemplos: º) O úmero de horas de estudo poderá está relacoado com a ota obtda pelo aluo. As horas de estudo é a varável depedete (x) e a ota obtda será a varável depedete (Y). º) A relação etre o º de fogos florestas (Y) e a temperatura máxma mesal (x).

Regressão Lear - Itrodução Na regressão lear múltpla pretede-se relacoar uma varável depedete Y com dversas varáves depedetes x, x,, x k através do modelo lear Y = β + β x + β x +... + β 0 k x k Exemplos: º) O peso de uma pessoa depede da sua altura, mas certamete também depederá da sua dade, desdade dos ossos e perímetro da ctura. º) O cosumo de eerga depederá da temperatura mas também depede do preço da electrcdade.

Regressão Lear Smples - Correlação O poto de partda da aálse da regressão lear deve ser o estudo da exstêca (ou ão) de uma relação lear etre as varáves. Para estudar a relação etre duas varáves exstem métodos: - gráfcos: dagramas de dspersão - umércos: coefcete de correlação de pearso Método gráfco: Os dagramas de dspersão cosstem a represetação gráfca dos pares ordeados (x ;Y ) um sstema de exos cartesaos, de modo a observamos uma uvem de potos correspodetes à amostra obtda. Quato mas os potos represetados se ajustarem a uma recta, melhor será a relação lear etre as varáves. 3

Regressão Lear Smples - Correlação Exemplo: Num estudo realzado a 0 pessoas regstaram-se as suas dades e os íves de colesterol, tedo-se obtdo: Idade Colesterol 30,60 60,50 40,0 0,40 50,70 30,80 40,0 0,50 70,80 60,60 Dagrama de dspersão: colesterol,80,40,00,60 0 30 40 50 60 70 dade De uma forma tutva podemos coclur que parece exstr uma relação lear etre as varáves, que matematcamete 4 se traduzrá através de uma recta.

Regressão Lear Smples - Correlação Através dos segutes gráfcos pode-se coclur que: Y Y Y x x x Há uma forte correlação lear postva. Há uma forte correlação lear egatva. Há uma fraca correlação lear. 5

Regressão Lear Smples - Correlação Método umérco: O coefcete de correlação (amostral), ou coefcete de correlação lear de Pearso, é uma medda habtual do grau de assocação lear das varáves: ( x x)( y y) = R = = ( x x) ( y y) YY = = Y ode Y, e YY também podem ser defdos por: Y = = = = x y x y = = = YY = = x y ( ) x ( ) y = 6

Regressão Lear Smples - Correlação Iterpretação do coefcete de correlação (amostral): Este coefcete vara etre - e : R Quato maor for o valor absoluto de R, mas forte será a assocação lear etre as varáves. Se R estver próxmo de zero etão as varáves serão ão correlacoadas. Se R for postvo etão a relação lear é postva (x e Y varam o mesmo setdo) e se R for egatvo a relação lear é egatva (x e Y varam em setdos opostos). Se R for gual a ou - a relação lear será perfeta! - -0,8 0 0,8 Forte correlação lear egatva Fraca correlação lear Forte correlação lear postva 7

Regressão Lear Smples O modelo Objectvo: Quado exste uma forte correlação etre as varáves em estudo qual é a melhor relação lear etre as elas? Yˆ = ˆ β + ˆ β x ; ˆ β, ˆ β R 0 0 Método dos mímos quadrados: Um dos métodos mas utlzados para estmar a recta que melhor se ajusta aos valores observados é o método dos mímos quadrados. Este método cosste em determar os valores de e que mmzam a soma do quadrado dos erros (desvos dos valores observados Y dos valores obtdos pelo modelo ). Yˆ ˆβ 0 ˆβ 8

Regressão Lear Smples O modelo Y Ŷ Y e Yˆ = ˆ β + ˆ β x 0 ˆβ ˆβ Os valores de 0e que mmzam a soma do quadrado dos erros E = e = ( Y ˆ β β x ) = ˆ 0 = x x são dados por: ˆ β = Y e ˆ β 0 = Y ˆ β x 9

Regressão Lear Smples O modelo Exemplo: Pegado ovamete o exemplo das varáves Idade/Colesterol, verfca-se que: Idade Colesterol 30,60 60,50 40,0 0,40 50,70 30,80 40,0 0,50 70,80 60,60 0 x = 0 = x Model = = 40; 0400; (Costat) Idade 0 = y 0 = a. Depedet Varable: Colesterol = y. = Coeffcets a 47.4; 969 Ustadardzed Stadardzed Coeffcets Coeffcets B Std. Error Beta t Sg.,94,4 6,56,000,08,003,955 9,07,000 0 x = y = ^ 0 =, β 0 94 ^ =, β 0 08 ordeada a orgem declve da recta 0

Regressão Lear Smples O modelo Sedo a recta de regressão dada por: Colesterol = 0, 94 + 0, 08 * Idade

Regressão Lear Smples Avalação do modelo Estado o modelo de regressão lear estabelecdo tora-se ecessáro avalar a sua qualdade. Para sso exstem város métodos, gráfcos e umércos: Coefcete de determação Aálse de resíduos Teste ao declve da recta

Regressão Lear Smples Avalação do modelo Coefcete de determação R : É uma medda da proporção da varabldade de Y explcada pelo modelo de regressão lear, já que cosste a razão etre a soma dos quadrados dos resíduos e a soma dos quadrados total. Por defção, o coefcete de determação é: Y R = = YY ode já foram defdos aterormete e se tem: Y, e YY R T R = ( Yˆ Y ) e = ( Y Y ) = T = 3

Regressão Lear Smples Avalação do modelo O coefcete de determação é smplesmete o quadrado do coefcete de correlação amostral. R só pode assumr valores etre 0 e : 0 R Em geral, se a relação etre x e Y for fortemete lear R deve assumr um valor próxmo de (superor a 0.9). No etato, se R estver próxmo de zero deve-se ter cudado com as coclusões a trar. Pode ão sgfcar que o modelo de regressão lear esteja desajustado. 4

Regressão Lear Smples Avalação do modelo Exemplo: Cosderado ovamete o exemplo das varáves Idade/Colesterol, verfca-se que : = YY Y 769 ; =.456; = R = 0.955 e R logo. = 0.9 78.6 Model Summary No SPSS: Model Adjusted Std. Error of R R Square R Square the Estmate,955 a,9,900,6493 a. Predctors: (Costat), Idade Coefcete de correlação Coefcete de determação 5

Regressão Lear Smples Avalação do modelo Aálse dos resíduos: Este método de aálse da qualdade do modelo de regressão cosste em represetar grafcamete os valores predtos versus resíduos, Y ˆ;. ( ) e Se ajustameto for bom, os potos represetados ão devem apresetar qualquer correlação ou padrão: devem ser ormas, com varâca costate e depedetes. O dagrama de resíduos deve apresetar uma macha de potos aleatóros e com a mesma dspersão em toro do exo dos xx. 6

Regressão Lear Smples Avalação do modelo x Exemplo: No exemplo que tem sdo cosderado, efectuado as prevsões e calculado os erros correspodetes obtém-se: Y Yˆ 30,6,76-0,6 60,5,60-0,0 40,,04 0,6 0,4,48-0,08 50,7,3 0,38 30,8,76 0,04 40,,04 0,06 0,5,48 0,0 70,8,88-0,08 60,6,60 0,00 e = Y Yˆ 7

Regressão Lear Smples Avalação do modelo Teste ao declve da recta: Esta aálse da qualdade de ajustameto do modelo de regressão lear é o fudo a resposta à questão: Será que Y depede mesmo de x? Para respoder a esta perguta realza-se o teste de hpóteses: H : β = 0 vs H : β 0 0 A forma mas smples de se tomar uma decsão é usado a estatístca MQ F = MQ R E e o p-value que resultam da tabela ANOVA. Deve-se rejetar a hpótese ula, e portato assumr que x flueca Y, se o p-value for baxo (meor do que 0.05). 8

Regressão Lear Smples ANOVA ANOVA Aalyss of Varace A aálse da varâca, um modelo de regressão lear, cosste em separar a varabldade das observações em duas parcelas: varabldade devda à regressão e a varabldade resdual. = ( Y Y ) = ( Yˆ Y ) + ( Y Y ) ˆ = = = + T R E O sgfcado da regressão é tato maor quato maor for R e meor for E. Usualmete esta formação é agrupada uma tabela: tabela ANOVA. 9

Regressão Lear Smples ANOVA Tabela ANOVA Fotes de varação Varações (Somas dos desvos quadrátcos) Graus de Lberdade (Nº de varáves depedetes) Desvos Quadrátcos Médos Regressão R MQ R = R Resdual E MQ E E = Total T 0

Regressão Lear Smples ANOVA Exemplo: A tabela ANOVA do exemplo das varáves Idade/Colesterol é dada (o SPSS) por: Model Regresso Resdual Total a. Predctors: (Costat), Idade b. Depedet Varable: Colesterol ANOVA b Sum of Squares df Mea Square F Sg.,38,38 8,9,000 a,8 8,07,456 9 Coclusão: ( ) A estatístca F toma o valor 8,9,38/ 0,07 e o p-value do teste é ulo. Por assumr um valor baxo, pode-se coclur que faz setdo utlzar um modelo de regressão lear etre estas varáves.

Regressão Lear Múltpla O modelo Um modelo de regressão lear múltpla descreve a relação (lear) etre um cojuto de varáves depedetes,,,, k, e uma varável depedete Y: Y = β + β x + β x +... + β 0 k x k Para estmar coefcetes do modelo,, pode-se aplcar ovamete o método dos mímos quadrados e mmzar a soma do quadrado dos erros: β 0, β,..., β k ( Y ˆ β ˆ β x +... ˆ β x ) E = + 0 = k k

3 Regressão Lear Múltpla O modelo Após a realzação dos cálculos adequados, os estmadores dos coefcetes são dados pelas soluções das gualdades: ode. k k Y k Y k x x Y k k k k k β β β β β β β ˆ... ˆ ˆ ˆ... ˆ... ˆ... ˆ 0 = = + + = + + ( ) = = q p q p q p q p

Regressão Lear Múltpla O modelo Exemplo: Supodo agora que o ível de colesterol uma pessoa depede da sua dade e também do seu peso, regstou-se o peso das 0 pessoas aalsadas aterormete. Idade Peso Colesterol 30 57,60 60 65,50 40 78,0 0 67,40 50 7,70 30 63,80 40 84,0 0 64,50 70 59,80 60 68,60 Model (Costat) dade peso Ustadardzed Coeffcets a. Depedet Varable: colesterol Coeffcets a Stadardzed Coeffcets B Std. Error Beta t Sg.,88,4,458,66,09,003,958 0,438,000,0,006,7,878,03 Cosderado x como sedo a varável Idade e x a varável Peso, o modelo é: Y ˆ = 0.88 + 0.09x + 0. 0x 4

Regressão Lear Múltpla Avalação do modelo Novamete exstem dversos métodos para aalsar a qualdade de ajustameto do modelo de regressão lear múltpla e a sua sgfcâca: Coefcete de determação (ajustado) Aálse gráfca das prevsões e dos resíduos Teste ao sgfcado da regressão 5

Regressão Lear Múltpla Avalação do modelo Coefcete de determação (ajustado): O coefcete de determação, para a regressão múltpla, é defdo de forma aáloga ao da regressão smples: Tal como aterormete se o ajustameto do modelo for bom, R estará próxmo de. R = R T No etato: Na regressão múltpla já ão se tem o quadrado de ehum coefcete de correlação. Ao troduzrmos ovas varáves depedetes o modelo o valor de R aumeta, o que pode duzr em erro uma vez que mutas varáves pode ão sgfcar um melhor modelo. Para cotorar o problema é usual cosderar o coefcete de determação ajustado. 6

Regressão Lear Múltpla Avalação do modelo O coefcete de determação ajustado defe-se pela expressão: R a = ( ) E ( k ) T ode k represeta o º de varáves depedetes o modelo. Exemplo: No exemplo ateror tem-se R = 0.94, o que represeta boas dcações quato à qualdade do modelo. Model Model Summary b Adjusted Std. Error of R R Square R Square the Estmate,970 a,94,94,4379 a. Predctors: (Costat), peso, dade b. Depedet Varable: colesterol 7

Regressão Lear Múltpla Avalação do modelo Aálse gráfca: Como o modelo de regressão múltpla é uma hpersuperfíce, em sempre é possível verfcar smultaeamete o comportameto de Y em fução das dversas varáves depedetes. Normalmete aalsa-se a relação etre Y e cada uma das varáves x dvdualmete, através dos respectvos dagramas de dspersão. Um outro método gráfco muto utlzado cosste em represetar grafcamete as observações versus os valores prevstos. Se o modelo for adequado, os valores prevstos devem estar próxmos dos observados e portato o dagrama de dspersão deve coter todos os Y = Y potos próxmos da recta. x Yˆ 8

Regressão Lear Múltpla Avalação do modelo Exemplo: No exemplo ateror verfca-se que os potos estão próxmos da recta, o que sugere que o modelo cosderado ão será desajustado. Y = x ( Y ; ˆ ) Y Colesterol Observado Prevsto Y Yˆ,60,66,50,6,0,7,40,48,70,40,80,73,0,4,50,45,80,83,60,64 9

Regressão Lear Múltpla Avalação do modelo A aálse dos resíduos é completamete aáloga à da regressão lear smples: quato mas aleatóra for a dsposção dos potos em toro do exo das abcssas melhor será a qualdade do modelo. ( Y ˆ; ) e Exemplo: Ao lado ecotra-se represetado o dagrama dos resíduos do exemplo ateror. 30

Regressão Lear Múltpla Avalação do modelo Teste ao sgfcado da regressão: Pretede-se com esta aálse testar se tem sgfcado cosderar o modelo de regressão todas as varáves depedetes x,,x k. As hpóteses a cosderar são: H : β =... = β = 0 vs H : Algumβ 0 k j 0 MQ F = MQ R Mas uma vez deve-se usar a estatístca e o p-value que decorre da tabela ANOVA para tomar uma decsão. Rejeta-se a hpótese ula, e assume-se que há varáves depedetes a fluecar Y, se o p-value for baxo ( 0.05). E 3

Regressão Lear Múltpla ANOVA A terpretação da tabela ANOVA é aáloga ao caso da regressão smples e o cotexto da regressão lear múltpla é dada por: Fotes de varação Regressão Resdual Varações (Somas dos desvos quadrátcos) R E Graus de Lberdade (Nº de varáves depedetes) k k Desvos Quadrátcos Médos MQ = R R k E MQ = E k Total T 3

Regressão Lear Múltpla ANOVA Exemplo: A tabela ANOVA do exemplo cosderado é dada por: Model Regresso Resdual Total ANOVA b Sum of Squares df Mea Square F Sg.,3,56 55,897,000 a,45 7,0,456 9 a. Predctors: (Costat), peso, dade b. Depedet Varable: colesterol Como o p-value do teste é zero, poderá fazer setdo utlzar um modelo de regressão lear com todas estas varáves depedetes. 33