Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Documentos relacionados
Estatística - Análise de Regressão Linear Simples. Professor José Alberto - (11) sosestatistica.com.br

Probabilidades e Estatística

MÓDULO V: Análise Bidimensional: Correlação, Regressão e Teste Qui-quadrado de Independência

= < 5. O segundo menor valor esperado estimado corresponde à célula (3,3), com Ê33 = 29 30

Introdução ao modelo de Regressão Linear

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

Revisão de Modelos de regressão. Prof. Thais C O Fonseca - DME, UFRJ

Probabilidades e Estatística - LEIC + LERCI + LEE 2 o semestre 2004/05

Probabilidades e Estatística

REGRESSÃO LINEAR Parte I. Flávia F. Feitosa

Probabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança

Correlação e Regressão Linear

CONHECIMENTOS ESPECÍFICOS

Testes de hipóteses Paramétricos

AULA 09 Regressão. Ernesto F. L. Amaral. 17 de setembro de 2012

Análise da Regressão. Prof. Dr. Alberto Franke (48)

Modelos de Regressão Linear Simples - Análise de Resíduos

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

Instituto Federal Goiano

ECONOMETRIA. Prof. Patricia Maria Bortolon, D. Sc.

Nessa situação, a média dessa distribuição Normal (X ) é igual à média populacional, ou seja:

Introdução ao Planejamento e Análise Estatística de Experimentos 1º Semestre de 2013 Capítulo 3 Introdução à Probabilidade e à Inferência Estatística

Seja (X,Y) uma v.a. bidimensional contínua ou discreta. Define-se valor esperado condicionado de X para um dado Y igual a y da seguinte forma:

INSTITUTO POLITÉCNICO DE SETÚBAL ESCOLA SUPERIOR DE SAÚDE ESTATÍSTICA. Cursos: Licenciatura em Enfermagem

Econometria. Regressão Linear Simples Lista de Exercícios

EXAME DE ESTATÍSTICA / ESTATÍSTICA I

Testes de Hipóteses Paramétricos

EXAME DE ESTATÍSTICA / ESTATÍSTICA I

Métodos Quantitativos

Análise da Regressão múltipla: Inferência. Aula 4 6 de maio de 2013

INFERÊNCIA ESTATÍSTICA. ESTIMAÇÃO PARA A PROPORÇÃO POPULACIONAL p

Ajuste de Curvas. Universidade Tecnológica Federal do Paraná Campus Francisco Beltrão. Disciplina: Cálculo Numérico Professor: Jonas Joacir Radtke

Testes de Hipóteses Paramétricos

Exercícios Selecionados de Econometria para Concursos Públicos

Inferência para várias populações normais análise de variância (ANOVA)

Estatística Computacional (Licenciatura em Matemática) Duração: 2h Exame 14/06/10 NOME:

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Prova de Estatística

Intervalos de Confiança

Planejamento de Experimentos. 13. Experimentos com fatores aleatórios

P x. 2 i = P y. 2 i = Analise os dados e comente a possibilidade de existir uma relação linear entreasvariáveisemestudo.

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

REGRESSÃO LINEAR SIMPLES E MÚLTIPLA

Estimação e Testes de Hipóteses

X 1 X 2 Y

Escola Secundária de Jácome Ratton

Intervalos de Confiança

Aula 2 Regressão e Correlação Linear

Inferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva

Amostragem e distribuições por amostragem

Conceitos Básicos Teste t Teste F. Teste de Hipóteses. Joel M. Corrêa da Rosa

AULAS 14 E 15 Modelo de regressão simples

Aula 2 Tópicos em Econometria I. Porque estudar econometria? Causalidade! Modelo de RLM Hipóteses

ESTATÍSTICA E BIOESTATÍSTICA

Aula 6. Testes de Hipóteses Paramétricos (I)

DE ESPECIALIZAÇÃO EM ESTATÍSTICA APLICADA)

Contabilometria. Aula 9 Regressão Linear Inferências e Grau de Ajustamento

Medidas de Dispersão ou variabilidade

Resolução da Prova de Matemática Financeira e Estatística do ISS Teresina, aplicada em 28/08/2016.

Inferência Estatística. Teoria da Estimação

Econometria - Lista 5

Catarina Marques. Estatística II Licenciatura em Gestão. Conceitos: População, Unidade Estatística e Amostra

Mais Informações sobre Itens do Relatório

Métodos Quantitativos Aplicados

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

INSTITUTO SUPERIOR DE AGRONOMIA ESTATÍSTICA E DELINEAMENTO 28 de Janeiro, a CHAMADA de EXAME Uma resolução possível

MAE Introdução à Probabilidade e Estatística II Resolução Lista 5

Prova de Estatística

Homocedasticidade? Exemplo: consumo vs peso de automóveis

VERSÃO RESPOSTAS PROVA DE MÉTODOS QUANTITATIVOS

Econometria em Finanças e Atuária

Estatística 1. Resumo Teórico

Capítulo 8 - Testes de hipóteses 3

Poder do teste e determinação do tamanho da amostra:pca & PBC

Aula 7. Testes de Hipóteses Paramétricos (II)

Renda x Vulnerabilidade Ambiental

a) 19% b) 20% c) Aproximadamente 13% d) 14% e) Qualquer número menor que 20%

RESOLUÇÃO DAS QUESTÕES DE ESTATÍSTICA

Aula 7. Testes de Hipóteses Paramétricos (II)

Intervalos Estatísticos para uma única Amostra - parte I

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Estimação parâmetros e teste de hipóteses. Prof. Dr. Alberto Franke (48)

ANOVA FACTORIAL EXEMPLO 1. ANOVA TWO-WAY COM O SPSS. a capacidade de reconhecimento do odor materno

INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Estatística II - Licenciatura em Gestão Época de Recurso - Parte prática (14 valores) 24/01/2011.

4 Modelos de Regressão Dinâmica

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

( ) = σ 2. Capítulo 8 - Testes de hipóteses. 8.1 Introdução

Inferência Estatística:

Estatística Indutiva

AULA 11 Heteroscedasticidade

Métodos Quantitativos para Ciência da Computação Experimental

6. Amostragem e estimação pontual

7 Teste de Hipóteses

Módulo 2 AVALIAÇÃO DA DEMANDA EM TRANSPORTES

1 semestre de 2014 Gabarito Lista de exercícios 3 - Estatística Descritiva III C A S A

Tratamento estatístico de observações

Bioestatística e Computação I

EXAME NACIONAL DE SELEÇÃO 2012 PROVA DE ESTATÍSTICA

Soluções da Colectânea de Exercícios

Testes de Hipótese para uma única Amostra - parte II

Transcrição:

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Lic. Eng. Biomédica e Bioengenharia-2009/2010

Modelos de regressão É usual estarmos interessados em estabelecer uma relação entre uma variável dependente Y e uma (ou mais) variável(is) independentes x (ou x i, i = 1,..., k). Esta relação é, regra geral, traduzida por um modelo de regressão.

Exemplo Consideremos as variáveis Y =pressão atmosférica (variável dependente ou resposta) x = altitude (variável independente ou explicativa ou regressora) Há vários tipos de modelos de regressão, entre eles: 1 Modelo determinístico Y = β 0 + β 1 x 2 Modelo de regressão linear simples (RLS) Y = β 0 + β 1 x + ɛ, onde se assume que ɛ é um erro aleatório tal que E(ɛ) = 0 3 Modelo de regressão linear múltipla Y = β 0 + β 1 x 1 + β 2 x 2 ɛ, onde x 1 e x 2 representam a altitude e a temperatura, respectivamente.

Representação gráfica A obtenção de informação no âmbito de RLS passa pela recolha de uma amostra de n pontos (x i, y i ), i = 1,..., n onde x i representa a variável independente ou regressora e y i representa a resposta ou variável dependente. É crucial representar graficamente o conjunto de pontos (x i, y i ), i = 1,..., n, para averiguar se a relação entre a variável independente x e a variável dependente Y é de facto linear ou se existe a necessidade de uma transformação para que tal ocorra.

Exemplo Na seguinte tabela encontram-se dados relativos ao tempo dispendido (em 10 meses consecutivos) pelo pessoal administrativo de um centro de saúde para o preenchimento de convocatórias dos utentes para vacinação. Mês N o convocatórias Tempo (min) 1 30 73 2 20 50 3 60 128 4 80 170 5 40 87 6 50 108 7 60 135 8 30 69 9 70 148 10 60 132 160 140 120 100 80 60 40 20 20 30 40 50 60 70 80 No scilab: plot2d(x,y,style=-4,rect=[18,20,82,174]) Apesar de nenhuma curva simples passar exactamente por todos os pontos, há forte indicação de o conjunto de pontos se dispersar aleatoriamente em torno de uma recta.

Modelo de RLS É definido por Y i = β 0 + β 1 x i + ɛ i, i = 1,..., n, onde Y i =resposta (ou variável dependente) aleatória x i = i-ésima observação da variável independente β 0 =ordenada na origem (constante desconhecida) β 1 =declive (constante deconhecida) ɛ i =erro aleatório associado à observação da resposta i É costume assumir que os erros aleatórios ɛ i são v.a. tais que V (ɛ i ) = σ 2 (constante desconhecida) Assim sendo, o modelo de RLS verifica E(Y i ) = β 0 + β 1 x i + E(ɛ i ) = β 0 + β 1 x i V (Y i ) = V (ɛ i ) = σ 2.

Estimação de β 0 e β 1 : Método dos mínimos quadrados Com base no conjunto de dados (x i, y i ), i = 1,..., n, a obtenção de estimativas dos mínimos quadrados de β 0 e β 1 consiste na minimização das discrepâncias entre o que é esperado pelo modelo de RLS (E(Y i ) = β 0 + β 1 x i ) e o que é efectivamente observado (y i ). Com efeito, pretendemos encontrar estimativas desses parâmetros que minimizem a soma dos quadrados dos desvios verticais entre y i e β 0 + β 1 x i, soma essa igual a Q = n [y i (β 0 + β 1 x i )] 2. i=1

Estimativas de mínimos quadrados As estimativas de mínimos quadrados de β 0 e β 1, que daqui em diante representaremos por β 0 e β 1, são a solução do seguinte sistema de equações { Q ( β 0, β β 1 ) : 0 β0 = β 0,β 1 = β 1 = 0 Q β 1 β0 = β 0,β 1 = β 1 = 0 i.e. β 0 = y β 1 x n i=1 β 1 = x iy i n xȳ n i=1 x i 2 nx 2

Notas: 1 O sistema cuja solução são as estimativas de β 0 e β 1 tem solução sse n i=1 x2 i nx 2 0, i.e., sse na amostra existirem pelo menos dois valores distintos da variável explicativa x; 2 Pode mostrar-se que a matriz Hessiana de Q é semi-definida positiva, pelo que, caso exista solução do sistema cuja solução são as estimativas de β 0 e β 1, então esta corresponderá a um ponto de mínimo; 3 Às diferenças e i = y i ( β 0 + β 1 x i ), chamamos resíduos. Será à custa destes que obteremos uma estimativa da variância σ 2. A soma dos resíduos é zero, i.e., i=1 e i = 0; 4 É usual estimar o valor esperado da resposta associada a um valor arbitrário x da variável explicativa. A estimativa pontual de E(Y x) = β 0 + β 1 x é igual a ŷ = ˆβ 0 + ˆβ 1 x. A esta recta dá-se o nome de recta de regressão.

Exemplo No exemplo anterior: β 0 = 10 e β1 = 2, o que nos permite concluir que o tempo médio aumenta de 2 minutos por cada convocatória a preencher. Se quisessemos determinar o tempo médio estimado necessário para convocar 55 pessoas, teríamos que fazer Ŷ 55 = 10 + 2 55 = 120 No scilab, para determinarmos as estimativas β 0 e β 1, depois de definirmos os vectores x e y fazemos [beta1,beta0,sig]=reglin(x,y). devolvendo beta1=2 e beta0=10 sig=2.449 (desvio padrão não corrigido dos resíduos).

Estimação de β 0 e β 1 -método da MV Para obter as estimativas de MV de β 0 e β 1 são necessárias hipóteses adicionais, nomeadamente nos erros aleatórios. Estas hipóteses adicionais permitirão efectuar inferências de vário tipo, como por exemplo, obter intervalos de confiança e efectuar testes de hipóteses sobre β 0 e β 1 e outros parâmetros de interesse. Assume-se que Consequentemente ɛ i i.i.d normal(0, σ 2 ), i = 1,..., n Y i = β 0 + β 1 x i + ɛ i ind normal(β 0 + β 1 x i, σ 2 ) o que nos permite concluir que as estimativas de MV de β 0 e β 1 coincidem com as estimativas obtidas pelo método dos mínimos quadrados.

Parâmetro Estimador Valor esperado ( Variância β 0 β0 = Y β 1 x β 0 σ 2 1 β 1 β1 = ) n + x 2 ni=1 x i 2 nx2 ni=1 x i Y i nxy ni=1 x 2 i nx2 β 1 σ 2 ni=1 x 2 i nx2 Para além de β 0 eβ 1, é necessário estimar outro parâmetro desconhecido: V (ɛ i ) = V (Y i ) = σ 2 A estimativa de σ 2, representar-se-á por σ 2 e é dada por σ 2 = = 1 n 2 1 n 2 n (y i ŷ i ) 2 = 1 n [y i ( β 0 + β 1 x i )] 2 n 2 i=1 i=1 [( n ) ( n )] yi 2 ny 2 β 1 2 xi 2 nx 2 i=1 i=1

Exemplo Voltemos ao exemplo que temos vindo a considerar e determinemos a estimativa da variância do tempo dispendido. Recordemos que no scilab, o comando [beta1,beta0,sig]=reglin(x,y) devolvia beta1=2 e beta0=10 sig=2.449 (desvio padrão não corrigido dos resíduos). Assim sendo, σ 2 = n(sig)2 n 2 = 7.5. A relação traduzida pelo modelo de RLS só é válida no intervalo [ x(1), x (n) ], onde, recorde-se, x (1) = min i=1,...,n x i e x (n) = max i=1,...,n x i

Para além das estimativas pontuais, é também importante adiantar intervalos de valores razoáveis para os parâmetros desconhecidos β 0 e β 1, bem como o valor esperado da resposta quando a variável explicativa toma um certo valor x 0 : E(Y x 0 ) = β 0 + β 1 x 0. Para podermos construir intervalos de confiança e até efectuar testes de hipóteses sobre parâmetros de interesse no modelo de RLS, assumimos que ɛ i i.i.d normal(0, σ 2 ), i = 1,..., n, (1) o que nos permite obter os seguintes resultados distribucionais:

Sob a validade de (1), temos que Y i ind normal(β 0 + β 1 x i, σ 2 ), i = 1,..., n, e consequentemente Parâmetro Estimador Distribuição ( β 0 β0 normal (β 0, σ 2 ( β 1 β1 normal β 1, β 0 + β 1 x 0 β0 + β 1 x 0 normal 1 n + x 2 ni=1 x 2 i nx2 )) ) σ 2 ni=1 x ( i (β 2 nx2 )) 0 + β 1 x 0, σ 2 1 n + (x 0 x) 2 ni=1 x i 2 nx2 Sob a validade de (1), temos que Parâmetro V.a. fulcral para o parâm. Distribuição σ 2 (n 2) σ 2 σ 2 χ 2 (n 2) É exactamente por β 0 e β 1 terem distribuições normais e serem independentes da v.a. fulcral para σ 2 que seremos capazes de adiantar v.a. fulcrais para β 0, β 1 e β 0 + β 1 x 0. Elas possuem, em qualquer dos casos, distribuição de t-student já que (n 2) σ2 σ 2 distribuição do qui-quadrado. Obtemos assim: tem

V.a. fulcrais e intervalos de confiança para β 0, β 1 e β 0 + β 1 x 0 Parâmetro V.a. fulcral t (n 2) IC (1 α) 100% β0 β β 0 0 ( ) β0 ± F 1 ) σ 2 1 n + x 2 t (1 ( ) α (n 2) 2 σ 2 1 n + x 2 ni=1 x 2 nx2 i ni=1 x i 2 nx2 β 1 β1 β 1 σ 2 ni=1 x i 2 nx2 ( β 0 + β 1 x β 0 + β 1 x 0 ) (β 0 +β 1 x 0 ) 0 ( σ 2 1 n + (x 0 x) 2 ) ni=1 x i 2 nx2 [ β 1 ± F 1 t (n 2) (1 α 2 ( β 0 + β 1 x 0 ) ± F 1 t (n 2) (1 α 2 ) ] σ 2 ni=1 x i 2 nx2 ) ( ) σ 2 1 n + (x 0 x) 2 ni=1 x i 2 nx2

Exemplo Um astrónomo resolveu estudar a relação entre a distância e a velocidade de recessão entre nubelosas. Com esse objectivo, registou para 24 nubelosas as distâncias a partir da terra (x i em megaparsec) e as respectivas velocidades de recessão (y i e Km/s), tendo obtido os seguintes dados: 24 x i = 21.873, i=1 24 24 y i = 8955, yi 2 = 6511425, i=1 i=1 x (1) = 0.032, x (n) = 2 i=1 i=1 24 x i y i = 12513.7, 24 xi 2 = 29.5178 Determinemos um intervalo de confiança a 90% para o valor esperado da velocidade de recessão de uma nubelosa a uma distância da terra de 0.55 megaparsec, assumindo que o modelo de RLS é apropriado.

Exemplo (cont.) Ora, uma vez que: x = 0.911375, y = 373.125 24 xi 2 nx = 9.583294625, i=1 24 yi 2 ny = 3170090.625 i=1 obtemos: ˆβ 1 = 24 i=1 x i y i 24 xȳ 24 = 4352.336875 i=1 x2 i 24x 9.583294625 = 454.1587 ˆβ 0 = y ˆβ 1 x = 40.7839, e portanto a estimativa de E(Y x 0 = 0.55) é dada por Ê(Y x 0 = 0.55) = ˆβ 0 + ˆβ 1 x 0 = 209.0034.

Exemplo (cont.) A estimativa de σ 2 é, neste caso: ˆσ 2 = [( n ) ( n )] 1 yi 2 nȳ 2 n 2 2 1 xi 2 n x 2 1=1 1=1 = 54247.1805 O intervalo de confiança pedido, para α = 0.10, é dado por: IC (1 α) 100% = ( β 0 + β ( 1 x 0 ) ± Ft 1 (n 2) 1 α ) ( ) 1 σ 2 2 n + (x 0 x) 2 n i=1 x2 i nx 2 = [209.0039 ± 94.0336] = [114.967, 303.0398]

Testes de hipóteses em regressão linear simples Mais uma vez, é a partir das v.a. fulcrais utilizadas nos intervalos de confiança que se obtêm as estatísticas de teste para o confronto de duas hipóteses (sobre β 0, β 1 ou β 0 + β 1 x 0 ). Assumindo que ɛ i i.i.d normal(0, σ 2 ), temos então: Hipótese nula Estatística de teste β0 β H 0 : β 0 = β 0,0 0,0 ( ) H0 T (n 2) σ 2 1 n + x 2 ni=1 x i 2 nx2 β1 β H 0 : β 1 = β 1,0 1,0 σ 2 ni=1 x i 2 nx2 H 0 : E(Y x 0 ) = β 0 + β 1 x 0 = = E 0 (Y x 0 ) ( β 0 + β 1 x 0 ) E 0 (T x 0 ) ( σ 2 1 n + (x 0 x)2 H0 T (n 2) ni=1 x 2 i nx2 ) H0 T (n 2)

Nota: De entre todos os testes de hipóteses no âmbito da RLS, existe um particularmente importante, o teste cuja hipótese nula é H 0 : β 1 = β 1,0 = 0. A este teste costuma dar-se o nome de teste de significância da regressão e permite-nos decidir se existe ou não uma dependência linear entre a variável dependente e a variável explicativa, uma vez que, sob a validade de H 0, temos Y i = β 0 + ɛ i, ou seja não existe uma dependência linear entre as duas variáveis. Exemplo Voltando ao exemplo anterior, testemos agora a hipótese de a velocidade de recessão das nubelosas não ser influenciada pela respectiva distância da terra, ao n.s. de 10%. Hipóteses: H 0 : β 1 = β 1,0 = 0 vs. H 1 : β 1 0 Nível de significância: α 0 = 10% Estatística de teste: T = β 1 β 1,0 σ 2 ni=1 x i 2 nx2 H0 T (n 2)

Exemplo (cont.) Região de rejeição de H 0 : Porque estamos a lidar com um teste de hipóteses bilateral e uma vez que quanto maior for ˆβ 1, mais inconsistente é a hipótese nula com os dados. Logo, a região de rejeição de H 0 será uma região do tipo onde c = P(rejeitarH 0 H 0 ), i.e.: W = (, c) (c, + ) ( c = Ft 1 (n 2) 1 α ) ( = Ft 1 2 (n 2) 1 0.10 ) = 1.717 2 Decisão: O valor observado da estatística de teste é: t = 454.1587 0 54247.1805 9.583294625 = 6.036 Como t W, devemos rejeitar H 0, i.e., a hipótese de a velocidade das nubelosas não ser influenciada pela sua distância à terra, ao n.s de 10% (ou a qualquer n.s.superior a este).

Coeficiente de determinação Coeficiente de determinação Trata-se de um coeficiente que fornece informação acerca do ajustamento da recta de regressão aos dados e é definido por r 2 = n i=1 (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 = ( n i=1 x iy i n xȳ) 2 ( n i=1 x i 2 n x 2) ( n i=1 y i 2 nȳ 2). Assim, r 2 100% corresponde à variação total ( n i=1 (y i ȳ) 2 ) explicada pela variável regressora x ( n i=1 (ŷ i ȳ) 2 ). Notas: r 2 [0, 1]; Se r 2 = 1 ŷ i = y i e portanto o modelo de RLS é muito bom. Se r 2 = 0 ŷ i = ȳ, então o modelo de RLS é incapaz de descrever a variabilidade observada na variável resposta e como tal, o modelo é muito mau.

Exemplo No exemplo anterior, o coeficiente de determinação é: r 2 = (12513.7 24 0.911375 373.125) 2 (29.5178 24 0.911375 2 ) (6511425 24 373.125 2 ) = 0.6235 Podemos então afirmar que a recta de regressão explica 62.35% da variação total da variável resposta Y. Havendo então cerca de 40% de variação não explicada, pode afirmar-se que a recta estimada se ajusta razoavelmente aos dados.