Regressão linear simples

Documentos relacionados
Regressão linear múltipla. Regressão linear múltipla

A finalidade de uma equação de regressão seria estimar valores de uma variável, com base em valores conhecidos da outra.

Ajuste de Curvas pelo Método dos Quadrados Mínimos

Regressão Linear Múltipla

Cap. 4 - Estimação por Intervalo

Ajuste de Curvas. Lucia Catabriga e Andréa Maria Pedrosa Valli

MAE Introdução à Probabilidade e Estatística II Resolução Lista 2

CORRELAÇÃO Aqui me tens de regresso

Avaliação de Desempenho de Sistemas Discretos

Virgílio A. F. Almeida DCC-UFMG 1/2005

Estatística II Licenciatura em Gestão TESTE I

Modelos de Regressão Linear Simples - parte III

CONHECIMENTOS ESPECÍFICOS

Aula 10. ANOVA Análise de Variância em SPSS

Econometria. Econometria. Algumas considerações. Algumas considerações MQO. Derivando as Propriedades

Sumário. 2 Índice Remissivo 17

Distribuições de Estatísticas Amostrais e Teorema Central do Limite

Econometria. Econometria. Aplicação. Modelo completo. Soma de Coeficientes. Teste para um Parâmetro

Estimação dos parâmetros angular e linear da equação de regressão linear simples pelo método não-paramétrico

Regressão linear simples

Comparação entre duas populações

1 Estimação de Parâmetros

Testes de Hipóteses sobre uma Proporção Populacional

Revisando... Distribuição Amostral da Média

ESTIMAÇÃO DA PROPORÇÃO POPULACIONAL p

CE071 - ANÁLISE DE REGRESSÃO LINEAR Prof a Suely Ruiz Giolo

n C) O EMV é igual a i 1

Lista de Exercícios #4 Assunto: Variáveis Aleatórias Contínuas

O teste de McNemar. A tabela 2x2. Depois - Antes

Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Estatística Aplicada I DISTRIBUIÇÃO AMOSTRAL MÉDIA ERRO AMOSTRAL

Introdução. Exemplos. Comparar três lojas quanto ao volume médio de vendas. ...

PROJETO E ANÁLISES DE EXPERIMENTOS (PAE) PROJETO FATORIAL 2 k COMPLETO E REPLICADO. Dr. Sivaldo Leite Correia

DURAÇÃO 1:30. (o teste consta de 3 páginas com questões, um formulário e uma tabela - 5 folhas no total)

b) Fabrico de peças cilíndricas Capítulo 5 - Distribuições conjuntas de probabilidades e complementos X - comprimento da peça Y - diâmetro da peça

Estimação da média populacional

6.1 Estimativa de uma média populacional: grandes amostras. Definição: Um estimador é uma característica amostral (como a média amostral

Estimar uma proporção p (desconhecida) de elementos em uma população, apresentando certa característica de interesse, a partir da informação

n ) uma amostra aleatória da variável aleatória X.

Probabilidades e Estatística

Histograma. Faixas de salários

Probabilidades e Estatística LEAN, LEE, LEGI, LERC, LMAC, MEAer, MEAmbi, MEBiol, MEBiom, MEEC, MEFT, MEMat, MEQ

Contabilometria. Prof.: Patricia Maria Bortolon, D. Sc.

Regression and Clinical prediction models

Teoria da Estimação 1

Probabilidades e Estatística LEE, LEGI, LEMat, LERC/LETI, LMAC, MEAer, MEAmb, MEBiol, MEBiom, MEEC, MEFT, MEQ

Prof. Lorí Viali, Dr.

Objetivo. Estimar a média de uma variável aleatória X, que representa uma característica de interesse de uma população, a partir de uma amostra.

MQI 2003 ESTATÍSTICA PARA METROLOGIA - SEMESTRE Teste 2 07/07/2008 Nome: PROBLEMA 1 Sejam X e Y v.a. contínuas com densidade conjunta:

DETERMINANDO A SIGNIFICÂNCIA ESTATÍSTICA PARA AS DIFERENÇAS ENTRE MÉDIAS

MAE Introdução à Probabilidade e Estatística II Resolução Lista 3

Distribuições Amostrais

Probabilidades e Estatística LEAN, LEGM, LEIC-A, LEIC-T, MA, MEMec

Testes de Hipótese para Comparação de 3 ou mais Médias

Ap A r p e r n e d n i d z i a z ge g m e m Es E t s a t tí t s í t s i t c i a c de d e Dado d s Francisco Carvalho

Estimadores de Momentos

Probabilidades e Estatística TODOS OS CURSOS

DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia

Distribuições Amostrais

ESTIMAÇÃO PARA A MÉDIA

Caderno de Exercício 3

1 Distribuições Amostrais

Probabilidades e Estatística TODOS OS CURSOS

Estatística Aplicada II. } Regressão Linear

Estimação da média populacional

Teorema do limite central e es/mação da proporção populacional p

Análise de Regressão Linear Múltipla I

3ª Lista de Exercícios de Programação I

Bioestatística e Computação I

binomial seria quase simétrica. Nestas condições será também melhor a aproximação pela distribuição normal.

Lista 01 - Estimação por MQO

Modelos de Regressão Linear Simples - parte II

CAPÍTULO 6 - ESTIMAÇÃO E TESTES DE HIPÓTESES

A letra x representa números reais, portanto

CONCEITOS BÁSICOS E PRINCÍPIOS DE ESTATÍSTICA

MATEMÁTICA II. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Bioestatística e Computação I

Nota aluno Nota FINAL

Modelo de Regressão Múltipla

Eletrônica 1. Aula 04 (Introdução ao transistor) CIN-UPPE

MATEMÁTICA II. 01. Uma função f, de R em R, tal. , então podemos afirmar que a, b e c são números reais, tais. que. D) c =

Regressão Linear - Parte I

Capítulo 5- Introdução à Inferência estatística. (Versão: para o manual a partir de 2016/17)

CE-003: Estatística II - Turma K/O Avaliações Semanais (2 o semestre 2015)

Probabilidades e Estatística TODOS OS CURSOS

Correlação e Regressão

Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 1 a Aula Prática Técnicas de somatório

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Teste de Hipótese

Capítulo 5- Introdução à Inferência estatística.

Caderno de Exercício 2

Análise de dados industriais

Probabilidades e Estatística LEE, LEIC-A, LEIC-T, LEMat, LERC, MEBiol, MEBiom, MEEC, MEFT, MEMec, MEQ

Amostras Aleatórias e Distribuições Amostrais. Probabilidade e Estatística: afinal, qual é a diferença?

Experimento 1 Estudo da Lei de Hooke

Virgílio A. F. Almeida DCC-UFMG 2005

Probabilidade e Estatística, 2009/1

Bioestatística e Computação I

MATEMÁTICA II. Profa. Dra. Amanda Liz Pacífico Manfrim Perticarrari

Obtemos, então, uma amostra aleatória de tamanho n de X, que representamos por X 1, X 2,..., X n.

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Transcrição:

Regressão liear simples Maria Virgiia P Dutra Eloae G Ramos Vaia Matos Foseca Pós Graduação em Saúde da Mulher e da Criaça IFF FIOCRUZ Baseado as aulas de M. Pagao e Gravreau e Geraldo Marcelo da Cuha Estima a reta que melhor represeta a relação etre duas variáveis uméricas, ambas com distribuição ormal. variável idepedete, explicativa variável depedete, resposta Dado que a relação é liear Estima o quato varia quado aumeta em 1 uidade. Permite predizer (ou estimar) o valor de para um valor específico de. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II Os dois cojutos de dados possuem coeficietes de correlação próximos, pois os potos possuem a mesma dispersão em relação a reta. Porém as retas que melhor se ajustam são completamete diferetes. A melhor reta é aproximadamete a mesma A correlação é diferete R² = 0,96 R² = 0,77 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 3 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 4

Correlação: represeta apeas a dispersão dos potos em relação à melhor reta. Regressão liear: método de estimação da reta de melhor ajuste. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 5 Estima os parâmetros da reta de melhor ajuste Uma reta qualquer é sempre defiida por uma equação da forma y = a + bx Parâmetros da reta a (itercepto) b (icliação) 1 10 8 6 4 0 0 1 3 4 5 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 8

Na figura, a reta possui equação y = 1 + x Parâmetros da reta Itercepto: a = 1 Icliação: b = 11 10 9 8 7 6 5 4 3 1 0 0 1 3 4 5 Itercepto: valor de y quado x=0 Icliação: quato y varia quado x aumeta 1 uidade Qual o efeito de aumetar ou dimiuir a? -3-3 - -1 0 1 3 4 5 Como seria a reta com equação y = 3 + 4x? Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 9 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 10 1.5 1 0.5 0-0.5-1 -1.5 - -.5 a a Qual o efeito de aumetar ou dimiuir b? 1.5 1 0.5 0-0.5-1 -1.5 - -.5-3 -3 - -1 0 1 3 4 5 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 11 b b

Como estimar os parâmetros a e b? Sabemos que a população (criaças com peso de ascimeto <1500g): y = circuferêcia da cabeça (CC) y é aprox. ormalmete distribuída CC aumeta cosistetemete quado IG aumeta O aumeto parece seguir um padrão liear (gráfico de dispersão) Gostaríamos de saber qual o valor esperado de CC (y), dado que IG (x) possui um valor específico: µ y x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 13 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 14 Uma forma de quatificar essa relação é ajustar aos dados um modelo da forma µ y x = α + βx α e β são os parâmetros ou coeficietes da reta/do modelo a população Modela a relação etre x e y, a população, por uma reta µ y x = α + βx a partir de uma amostra. Os coeficietes α e β são estimados por a e b. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 15 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 16

x e y são ormalmete distribuídos e dado um valor de x qualquer, y cotiua possuido distribuição ormal. Liearidade A relação etre y e x é liear. Homocedasticidade A variâcia de y é costate para todos os valores de x: σ y x = costate. Idepedêcia A amostra é composta por N pares (x i,y i ) escolhidos aleatoriamete e idepedetes. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 17 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 18 x Se ρ=0 Sempre σ y x σ y σ y x = σ y A B ão ajuda a explicar Se ρ = 1 ou ρ = -1 σ y x = 0 Se ρ > 0 (ou ρ < 0) σ y x < σ y Se ρ 0 σ y x σ y explica totalmete Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 19 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 0

Como estimar a reta de regressão? Como ecotrar α e β tais que y = α + βx é a reta que melhor represeta a relação liear etre x e y? Na população: y = α + βx Na amostra, para cada x i e y i : =a bx i y i = e i y i =a bx e i Circuferêcia da cabeça 4 6 8 30 3 34 Liha reta qualquer ŷ i = a + bx i (x i, ) e i =resíduo (x i, y i ) 4 6 8 30 3 34 Idade Gestacioal Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 1 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II Em todos os elemetos da amostra: y 1 = a + bx 1 + e 1 y = a + bx + e y N = a + bx N + e N y i = + e i a estimador de α b estimador de β e erro ou distâcia vertical etre uma observação particular e a reta de regressão. Também é chamado de resíduo. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 3 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 4

A regressão liear pelo método dos míimos quadrados estima a reta que miimiza a soma dos quadrados dos resíduos e 1 e e 3 e 4 e 5 e 6 e 7 = e i Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 5 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 6 Queremos miimizar e i = = a bx i Gauss mostrou que esse somatório é míimo quado b= x i x y e a= y b x x i x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 7 x idade gestacioal (semaas) y circuferêcia da cabeça (cm) = 100 x i x y b= e a= y b x x i x b = 0,78 e a = 3,91 A reta que melhor estima a relação liear etre IG e CC é y=3,91 0,78x ou CC=3,91 0,78IG Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 8

y= y=3,91 0,78x ou CC=3,91 0,78IG Para cada aumeto de 1 semaa a IG, espera-se que, a média, a CC aumete 0,78cm. Qual o valor esperado da CC quado IG=6 semaas? CC=3,91 0,78 6=4,19cm 4 6 8 30 3 34 36 Idade Gestacioal (sem.) Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 9 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 30 S x variabilidade de x S y variabilidade de y S xy variabilidade cojuta etre x e y b= x i x y = x i x S xy S x r= x i x y = S x S y x i x y S xy Alta correlação etre x e y e Sy >> S x Maior a icliação da reta b=r S y S x b=r S y S x outra forma de calcular b Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 31 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 3

a e b são estimadores de α e β, calculados a partir de uma amostra. Para calcularmos seus itervalos de cofiaça ou coduzirmos testes de hipótese, precisamos dos erros-padrão. σ y x desvio padrão de y, dado que x assume um valor particular. Por suposição é costate. EP b = y x e EP a = y x 1 x x i x x i x EP depede de σ y x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 33 x Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 34 σ y x É a distâcia média etre os valores observados de y e os valores estimados de y (ŷ), também chamado desvio padrão residual ou erro padrão residual, estimado por: Queremos coduzir um teste de hipótese para afirmar que β é sigificativamete diferete de β 0. H 0 : β = β 0 H A : β β 0 α = 0,05 s y x = = e i e 1 e e 3 e 4 e 5 e 6 e 7 = e i Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 35 t= b 0 EP b EP b = segue distr. = t com - graus de liberdade, ode: e s i y x x i x x i x Quato meor s y x, meor o erro padrão de b. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 36

Geralmete estamos iteressados em rejeitar H 0 : β = 0 ou seja, a hipótese de que ão há relação liear etre x e y. H 0 : β = 0 H 0 : ρ = 0 pois b=r S y S x = = s y x EP b = s y x x i x = 1,5904 x i x =0,0631 H 0 : β = 0 H A : β 0 α = 0,05 t = b 0 EP b =0,8701 0,0631 e i =1,36 p 0,001 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 37 Rejeitamos a hipótese ula de icliação igual a 0. Na população de bebês com baixo peso, há uma relação liear sigificativa etre circuferêcia da cabeça e idade gestacioal. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 38 Para uma distribuição t com 98 graus de liberdade, aprox. 95% das observações situam-se etre -1,98 e +1,98. IC-95%: [b 1,98EP b ;b 1,98 EP b ] [0,7801 1,98 0,0631 ;0,7801 1,98 0,0631 ] [0,6564; 0,9038] IC95% ão iclui o zero Aálise de resíduos Coeficiete de determiação Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 39 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 40

ŷ i = a + bx i e i = y i ŷ i Gráfico de resíduos é um gráfico de dispersão de e versus ŷ. Detectar valores extremos. Verificar o pressuposto da homocedasticidade em s y x. Verificar o pressuposto da liearidade. ŷ i = a + bx i e i = y i ŷ i resíduo 8 6 4 0 - -4-6 0 4 6 8 30 3 y estimado GESTAGE HEADCIRC y estimado resíduo 9 7 6,54 0,46 31 9 8,1 0,9 33 30 9,66 0,34 31 8 8,1-0,1 30 9 7,3 1,68 5 3 3,4-0,4 7 4,98 -,98 9 6 6,54-0,54 8 7 5,76 1,4 9 5 6,54-1,54 6 3 4, -1, 30 6 7,3-1,3 9 7 6,54 0,46 9 7 6,54 0,46 9 6 6,54-0,54 9 7 6,54 0,46 9 6 6,54-0,54 33 9 9,66-0,66 33 8 9,66-1,66 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 41 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 4 Valores atípicos Heterocedasticidade O quato o modelo de regressão liear se ajusta bem aos dados? r : Proporção da variabilidade de y explicada pela regressão liear de y sobre x. Não liearidade Modelo adequado e N(0,σ) y x = 1 y s y x = 1 r s y r = s y s y x s y Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 43 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 44

No exemplo: r = 0,78, logo r = 0,61 y = y O modelo de regressão liear explica 61% da variabilidade de y. A idade gestacioal explica liearmete 61% da variabilidade da circuferêcia da cabeça. Perímetro Cefálico 4 6 8 30 3 34 y i y y i y ss y =ss y x ss y SS total =SS residual SS regressão y i y 4 6 8 30 x i 3 34 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 45 Idade Gestacioal Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 46 MS total = SS total 1 y = y ss y =ss y x ss y SS total =SS residual SS regressão MS residual = SS residual F 1, = MS regressão MS residual MS regressão = SS regressão 1 De fato, é possível provar que F 1,ν = t ν. No exemplo: MS residual = SS residual = 47,88 =,53 98 MS regressão = SS regressão =386,87 1 F 1, = MS regressão = 386,87 =15,9 p 0,001 MS residual,53 Pode ser usado para testar H 0 : MS regressão = MS residual. Equivale a testar H 0 : β = 0, utilizado o teste t com - graus de liberdade. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 47 Ateriormete havíamos ecotrado t - = 1,37 que, elevado ao quadrado resulta em 153. Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 48

Comado Liear Regressio Liear Regressio Variable Coefficiet Std Error F-test P-Value gestage 0.780 0.063 15.9474 0.000000 CONSTANT 3.914 1.89 4.5793 0.034868 Correlatio Coefficiet: r^= 0.61 Source df Sum Squares Mea Square F-stat Regressio 1 386.867 386.867 15.947 Residuals 98 47.883.59 Total 99 634.750 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 49 Programa de Pós-Graduação em Saúde da Mulher e da Criaça Bioestatística e Computação II 50