Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Lic. Eng. Biomédica e Bioengenharia-2009/2010
Modelos de regressão É usual estarmos interessados em estabelecer uma relação entre uma variável dependente Y e uma (ou mais) variável(is) independentes x (ou x i, i = 1,..., k). Esta relação é, regra geral, traduzida por um modelo de regressão.
Exemplo Consideremos as variáveis Y =pressão atmosférica (variável dependente ou resposta) x = altitude (variável independente ou explicativa ou regressora) Há vários tipos de modelos de regressão, entre eles: 1 Modelo determinístico Y = β 0 + β 1 x 2 Modelo de regressão linear simples (RLS) Y = β 0 + β 1 x + ɛ, onde se assume que ɛ é um erro aleatório tal que E(ɛ) = 0 3 Modelo de regressão linear múltipla Y = β 0 + β 1 x 1 + β 2 x 2 ɛ, onde x 1 e x 2 representam a altitude e a temperatura, respectivamente.
Representação gráfica A obtenção de informação no âmbito de RLS passa pela recolha de uma amostra de n pontos (x i, y i ), i = 1,..., n onde x i representa a variável independente ou regressora e y i representa a resposta ou variável dependente. É crucial representar graficamente o conjunto de pontos (x i, y i ), i = 1,..., n, para averiguar se a relação entre a variável independente x e a variável dependente Y é de facto linear ou se existe a necessidade de uma transformação para que tal ocorra.
Exemplo Na seguinte tabela encontram-se dados relativos ao tempo dispendido (em 10 meses consecutivos) pelo pessoal administrativo de um centro de saúde para o preenchimento de convocatórias dos utentes para vacinação. Mês N o convocatórias Tempo (min) 1 30 73 2 20 50 3 60 128 4 80 170 5 40 87 6 50 108 7 60 135 8 30 69 9 70 148 10 60 132 160 140 120 100 80 60 40 20 20 30 40 50 60 70 80 No scilab: plot2d(x,y,style=-4,rect=[18,20,82,174]) Apesar de nenhuma curva simples passar exactamente por todos os pontos, há forte indicação de o conjunto de pontos se dispersar aleatoriamente em torno de uma recta.
Modelo de RLS É definido por Y i = β 0 + β 1 x i + ɛ i, i = 1,..., n, onde Y i =resposta (ou variável dependente) aleatória x i = i-ésima observação da variável independente β 0 =ordenada na origem (constante desconhecida) β 1 =declive (constante deconhecida) ɛ i =erro aleatório associado à observação da resposta i É costume assumir que os erros aleatórios ɛ i são v.a. tais que V (ɛ i ) = σ 2 (constante desconhecida) Assim sendo, o modelo de RLS verifica E(Y i ) = β 0 + β 1 x i + E(ɛ i ) = β 0 + β 1 x i V (Y i ) = V (ɛ i ) = σ 2.
Estimação de β 0 e β 1 : Método dos mínimos quadrados Com base no conjunto de dados (x i, y i ), i = 1,..., n, a obtenção de estimativas dos mínimos quadrados de β 0 e β 1 consiste na minimização das discrepâncias entre o que é esperado pelo modelo de RLS (E(Y i ) = β 0 + β 1 x i ) e o que é efectivamente observado (y i ). Com efeito, pretendemos encontrar estimativas desses parâmetros que minimizem a soma dos quadrados dos desvios verticais entre y i e β 0 + β 1 x i, soma essa igual a Q = n [y i (β 0 + β 1 x i )] 2. i=1
Estimativas de mínimos quadrados As estimativas de mínimos quadrados de β 0 e β 1, que daqui em diante representaremos por β 0 e β 1, são a solução do seguinte sistema de equações { Q ( β 0, β β 1 ) : 0 β0 = β 0,β 1 = β 1 = 0 Q β 1 β0 = β 0,β 1 = β 1 = 0 i.e. β 0 = y β 1 x n i=1 β 1 = x iy i n xȳ n i=1 x i 2 nx 2
Notas: 1 O sistema cuja solução são as estimativas de β 0 e β 1 tem solução sse n i=1 x2 i nx 2 0, i.e., sse na amostra existirem pelo menos dois valores distintos da variável explicativa x; 2 Pode mostrar-se que a matriz Hessiana de Q é semi-definida positiva, pelo que, caso exista solução do sistema cuja solução são as estimativas de β 0 e β 1, então esta corresponderá a um ponto de mínimo; 3 Às diferenças e i = y i ( β 0 + β 1 x i ), chamamos resíduos. Será à custa destes que obteremos uma estimativa da variância σ 2. A soma dos resíduos é zero, i.e., i=1 e i = 0; 4 É usual estimar o valor esperado da resposta associada a um valor arbitrário x da variável explicativa. A estimativa pontual de E(Y x) = β 0 + β 1 x é igual a ŷ = ˆβ 0 + ˆβ 1 x. A esta recta dá-se o nome de recta de regressão.
Exemplo No exemplo anterior: β 0 = 10 e β1 = 2, o que nos permite concluir que o tempo médio aumenta de 2 minutos por cada convocatória a preencher. Se quisessemos determinar o tempo médio estimado necessário para convocar 55 pessoas, teríamos que fazer Ŷ 55 = 10 + 2 55 = 120 No scilab, para determinarmos as estimativas β 0 e β 1, depois de definirmos os vectores x e y fazemos [beta1,beta0,sig]=reglin(x,y). devolvendo beta1=2 e beta0=10 sig=2.449 (desvio padrão não corrigido dos resíduos).
Estimação de β 0 e β 1 -método da MV Para obter as estimativas de MV de β 0 e β 1 são necessárias hipóteses adicionais, nomeadamente nos erros aleatórios. Estas hipóteses adicionais permitirão efectuar inferências de vário tipo, como por exemplo, obter intervalos de confiança e efectuar testes de hipóteses sobre β 0 e β 1 e outros parâmetros de interesse. Assume-se que Consequentemente ɛ i i.i.d normal(0, σ 2 ), i = 1,..., n Y i = β 0 + β 1 x i + ɛ i ind normal(β 0 + β 1 x i, σ 2 ) o que nos permite concluir que as estimativas de MV de β 0 e β 1 coincidem com as estimativas obtidas pelo método dos mínimos quadrados.
Parâmetro Estimador Valor esperado ( Variância β 0 β0 = Y β 1 x β 0 σ 2 1 β 1 β1 = ) n + x 2 ni=1 x i 2 nx2 ni=1 x i Y i nxy ni=1 x 2 i nx2 β 1 σ 2 ni=1 x 2 i nx2 Para além de β 0 eβ 1, é necessário estimar outro parâmetro desconhecido: V (ɛ i ) = V (Y i ) = σ 2 A estimativa de σ 2, representar-se-á por σ 2 e é dada por σ 2 = = 1 n 2 1 n 2 n (y i ŷ i ) 2 = 1 n [y i ( β 0 + β 1 x i )] 2 n 2 i=1 i=1 [( n ) ( n )] yi 2 ny 2 β 1 2 xi 2 nx 2 i=1 i=1
Exemplo Voltemos ao exemplo que temos vindo a considerar e determinemos a estimativa da variância do tempo dispendido. Recordemos que no scilab, o comando [beta1,beta0,sig]=reglin(x,y) devolvia beta1=2 e beta0=10 sig=2.449 (desvio padrão não corrigido dos resíduos). Assim sendo, σ 2 = n(sig)2 n 2 = 7.5. A relação traduzida pelo modelo de RLS só é válida no intervalo [ x(1), x (n) ], onde, recorde-se, x (1) = min i=1,...,n x i e x (n) = max i=1,...,n x i
Para além das estimativas pontuais, é também importante adiantar intervalos de valores razoáveis para os parâmetros desconhecidos β 0 e β 1, bem como o valor esperado da resposta quando a variável explicativa toma um certo valor x 0 : E(Y x 0 ) = β 0 + β 1 x 0. Para podermos construir intervalos de confiança e até efectuar testes de hipóteses sobre parâmetros de interesse no modelo de RLS, assumimos que ɛ i i.i.d normal(0, σ 2 ), i = 1,..., n, (1) o que nos permite obter os seguintes resultados distribucionais:
Sob a validade de (1), temos que Y i ind normal(β 0 + β 1 x i, σ 2 ), i = 1,..., n, e consequentemente Parâmetro Estimador Distribuição ( β 0 β0 normal (β 0, σ 2 ( β 1 β1 normal β 1, β 0 + β 1 x 0 β0 + β 1 x 0 normal 1 n + x 2 ni=1 x 2 i nx2 )) ) σ 2 ni=1 x ( i (β 2 nx2 )) 0 + β 1 x 0, σ 2 1 n + (x 0 x) 2 ni=1 x i 2 nx2 Sob a validade de (1), temos que Parâmetro V.a. fulcral para o parâm. Distribuição σ 2 (n 2) σ 2 σ 2 χ 2 (n 2) É exactamente por β 0 e β 1 terem distribuições normais e serem independentes da v.a. fulcral para σ 2 que seremos capazes de adiantar v.a. fulcrais para β 0, β 1 e β 0 + β 1 x 0. Elas possuem, em qualquer dos casos, distribuição de t-student já que (n 2) σ2 σ 2 distribuição do qui-quadrado. Obtemos assim: tem
V.a. fulcrais e intervalos de confiança para β 0, β 1 e β 0 + β 1 x 0 Parâmetro V.a. fulcral t (n 2) IC (1 α) 100% β0 β β 0 0 ( ) β0 ± F 1 ) σ 2 1 n + x 2 t (1 ( ) α (n 2) 2 σ 2 1 n + x 2 ni=1 x 2 nx2 i ni=1 x i 2 nx2 β 1 β1 β 1 σ 2 ni=1 x i 2 nx2 ( β 0 + β 1 x β 0 + β 1 x 0 ) (β 0 +β 1 x 0 ) 0 ( σ 2 1 n + (x 0 x) 2 ) ni=1 x i 2 nx2 [ β 1 ± F 1 t (n 2) (1 α 2 ( β 0 + β 1 x 0 ) ± F 1 t (n 2) (1 α 2 ) ] σ 2 ni=1 x i 2 nx2 ) ( ) σ 2 1 n + (x 0 x) 2 ni=1 x i 2 nx2
Exemplo Um astrónomo resolveu estudar a relação entre a distância e a velocidade de recessão entre nubelosas. Com esse objectivo, registou para 24 nubelosas as distâncias a partir da terra (x i em megaparsec) e as respectivas velocidades de recessão (y i e Km/s), tendo obtido os seguintes dados: 24 x i = 21.873, i=1 24 24 y i = 8955, yi 2 = 6511425, i=1 i=1 x (1) = 0.032, x (n) = 2 i=1 i=1 24 x i y i = 12513.7, 24 xi 2 = 29.5178 Determinemos um intervalo de confiança a 90% para o valor esperado da velocidade de recessão de uma nubelosa a uma distância da terra de 0.55 megaparsec, assumindo que o modelo de RLS é apropriado.
Exemplo (cont.) Ora, uma vez que: x = 0.911375, y = 373.125 24 xi 2 nx = 9.583294625, i=1 24 yi 2 ny = 3170090.625 i=1 obtemos: ˆβ 1 = 24 i=1 x i y i 24 xȳ 24 = 4352.336875 i=1 x2 i 24x 9.583294625 = 454.1587 ˆβ 0 = y ˆβ 1 x = 40.7839, e portanto a estimativa de E(Y x 0 = 0.55) é dada por Ê(Y x 0 = 0.55) = ˆβ 0 + ˆβ 1 x 0 = 209.0034.
Exemplo (cont.) A estimativa de σ 2 é, neste caso: ˆσ 2 = [( n ) ( n )] 1 yi 2 nȳ 2 n 2 2 1 xi 2 n x 2 1=1 1=1 = 54247.1805 O intervalo de confiança pedido, para α = 0.10, é dado por: IC (1 α) 100% = ( β 0 + β ( 1 x 0 ) ± Ft 1 (n 2) 1 α ) ( ) 1 σ 2 2 n + (x 0 x) 2 n i=1 x2 i nx 2 = [209.0039 ± 94.0336] = [114.967, 303.0398]
Testes de hipóteses em regressão linear simples Mais uma vez, é a partir das v.a. fulcrais utilizadas nos intervalos de confiança que se obtêm as estatísticas de teste para o confronto de duas hipóteses (sobre β 0, β 1 ou β 0 + β 1 x 0 ). Assumindo que ɛ i i.i.d normal(0, σ 2 ), temos então: Hipótese nula Estatística de teste β0 β H 0 : β 0 = β 0,0 0,0 ( ) H0 T (n 2) σ 2 1 n + x 2 ni=1 x i 2 nx2 β1 β H 0 : β 1 = β 1,0 1,0 σ 2 ni=1 x i 2 nx2 H 0 : E(Y x 0 ) = β 0 + β 1 x 0 = = E 0 (Y x 0 ) ( β 0 + β 1 x 0 ) E 0 (T x 0 ) ( σ 2 1 n + (x 0 x)2 H0 T (n 2) ni=1 x 2 i nx2 ) H0 T (n 2)
Nota: De entre todos os testes de hipóteses no âmbito da RLS, existe um particularmente importante, o teste cuja hipótese nula é H 0 : β 1 = β 1,0 = 0. A este teste costuma dar-se o nome de teste de significância da regressão e permite-nos decidir se existe ou não uma dependência linear entre a variável dependente e a variável explicativa, uma vez que, sob a validade de H 0, temos Y i = β 0 + ɛ i, ou seja não existe uma dependência linear entre as duas variáveis. Exemplo Voltando ao exemplo anterior, testemos agora a hipótese de a velocidade de recessão das nubelosas não ser influenciada pela respectiva distância da terra, ao n.s. de 10%. Hipóteses: H 0 : β 1 = β 1,0 = 0 vs. H 1 : β 1 0 Nível de significância: α 0 = 10% Estatística de teste: T = β 1 β 1,0 σ 2 ni=1 x i 2 nx2 H0 T (n 2)
Exemplo (cont.) Região de rejeição de H 0 : Porque estamos a lidar com um teste de hipóteses bilateral e uma vez que quanto maior for ˆβ 1, mais inconsistente é a hipótese nula com os dados. Logo, a região de rejeição de H 0 será uma região do tipo onde c = P(rejeitarH 0 H 0 ), i.e.: W = (, c) (c, + ) ( c = Ft 1 (n 2) 1 α ) ( = Ft 1 2 (n 2) 1 0.10 ) = 1.717 2 Decisão: O valor observado da estatística de teste é: t = 454.1587 0 54247.1805 9.583294625 = 6.036 Como t W, devemos rejeitar H 0, i.e., a hipótese de a velocidade das nubelosas não ser influenciada pela sua distância à terra, ao n.s de 10% (ou a qualquer n.s.superior a este).
Coeficiente de determinação Coeficiente de determinação Trata-se de um coeficiente que fornece informação acerca do ajustamento da recta de regressão aos dados e é definido por r 2 = n i=1 (ŷ i ȳ) 2 n i=1 (y i ȳ) 2 = ( n i=1 x iy i n xȳ) 2 ( n i=1 x i 2 n x 2) ( n i=1 y i 2 nȳ 2). Assim, r 2 100% corresponde à variação total ( n i=1 (y i ȳ) 2 ) explicada pela variável regressora x ( n i=1 (ŷ i ȳ) 2 ). Notas: r 2 [0, 1]; Se r 2 = 1 ŷ i = y i e portanto o modelo de RLS é muito bom. Se r 2 = 0 ŷ i = ȳ, então o modelo de RLS é incapaz de descrever a variabilidade observada na variável resposta e como tal, o modelo é muito mau.
Exemplo No exemplo anterior, o coeficiente de determinação é: r 2 = (12513.7 24 0.911375 373.125) 2 (29.5178 24 0.911375 2 ) (6511425 24 373.125 2 ) = 0.6235 Podemos então afirmar que a recta de regressão explica 62.35% da variação total da variável resposta Y. Havendo então cerca de 40% de variação não explicada, pode afirmar-se que a recta estimada se ajusta razoavelmente aos dados.