Coeficiente de determinação R 2 no modelo de regressão linear normal Fernando Lucambio Departamento de Estatística Universidade Federal do Paraná Curitiba/PR, 81531 990, Brasil email: lucambio@ufpr.br Outubro de 2011
Um modelo de regressão descreve a variável de interesse como a soma de uma parte considerada determinística e uma parte aleatória, sendo a parte determinística uma função de variáveis explicativas, também chamadas de regressoras e a parte aleatória o erro. Os modelos de regressão constituem uma das metodologias mais utilizadas na análise de dados devido a sua estrutura simples, aplicabilidade e interpretabilidade. A literatura deste tema é extensa, um livro clássico deste tema é Applied Regression Analysis de Draper & Smith (1998) e outros. Em português uma referência mais abrangente é o livro Modelos de Regressão com apoio computacional do Prof. Gilberto A. Paula do IME-USP. 1
O modelo clássico de regressão linear simples é escrito como Y i = β 0 + x i β 1 + ɛ i, onde β 0 +x i β 1 é a parte determinística e ɛ 1,..., ɛ n o erro aleatório (i = 1,..., n). Neste modelo a variável aleatória Y representa a resposta, x representa as observações da variável preditora, explicativa ou covariável X e β 0 e β 1 os parâmetros da regressão desconhecidos. Em situações nas quais exista mais do que uma variável para explicar a resposta o modelo de regressão é Y i = β 0 + x i1 β 1 +... + x ip β p + ɛ i, i = 1,..., n, denominado de modelo de regressão linear múltipla. 2
Como qualquer modelo estatístico devemos fazer suposições para poder obtermos estimadores, realizar testes de hipóteses de interesse e verificarmos a adequação deste modelo aos dados, a final, a utilidade de qualquer modelo é sua qualidade em representar os dados. Suposição de Linearidade: esta suposição é impĺıcita na definição do modelo e significa que cada valor observado da resposta y i pode ser escrito como uma função linear de x i. Suposição Computacional: para que possamos encontrar estimador único do vetor de parâmetros β é necessário que (X X) 1 exista, ou equivalentemente que posto(x) = p, onde X é uma matriz formada pelas observações das variáveis explicativas. 3
Suposição Distribucional: a estimação dos parâmetros é por mínimos quadrados e para isso assume-se que X é mensurada sem erros, ɛ i não depende de x i, i = 1,..., n e ɛ N n (0, σ 2 I), isto é, a distribuição de probabilidade do erro é normal multivariada de órdem n, com média zero e matriz de variancias e covariancias σ 2 I, onde I representa a matriz identidade. Isto significa que E{ɛ i } = 0 e para i = 1,..., n. cov{ɛ i, ɛ j } = { σ 2 se i j 0 se i = j, Suposição Impĺıcita: todas as observações são igualmente possíveis de serem observadas e tem a mesma importância na determinação dos resultados de mínimos quadrados e na influência nas conclussôes. 4
Coeficiente de determinação Uma vez escolhido um modelo de regressão, isto é, uma vez decididas as variáveis explicativas significativas à resposta queremos saber o grau de certeza ou o grau de acerto do modelo. Utilizamos para isso uma medida da qualidade do modelo. Qualificar um modelo poder ser realizado de diversas maneiras, por exemplo, observando o desvio padrão das estimativas dos parâmetros de regressão; se estes forem pequenos em relação à estimativa significa uma boa qualidade na estimação. Para fugir de termos ambiguos foram pensados e amplamente estudados índices que quantificam a qualidade de um modelo de regressão. Um deles, amplamente utilizado, é conhecido como coeficiente de determinação, denota-se R 2 e constitui nosso objeto de estudo. 5
O coeficiente de determinação R 2, segundo o conhecemos, é uma medida da bondade do ajuste do modelo selecionado e também uma medida da precissão na predição, tanto de novas observações quanto da média de novas observações, do modelo de regressão linear. Uma medida eficaz de calcular a relação entre duas variáveis aleatórias é o coeficiente de correlação e o coeficiente de determinação é justamente a correlação ao quadrado entre as observações y e os valores preditos pelo modelo µ. Uma vez estimados os coeficientes do modelo encontramos os valores preditos pelo modelo como ou µ i = x i β. Ê{Y i } = x i β, 6
Definição 1. Para o modelo de regressão linear normal o coeficiente de determinação define-se como R 2 = corr 2 {y, µ}, ou simplesmente R 2 = 1 ni=1 (y i µ i ) 2 ni=1 (y i y) 2, onde y i são as observações dependentes, µ i os valores preditos e y o correspondente valor predito pelo modelo nulo y i = β 0 + ɛ i, sendo ɛ i N(0, σ 2 ), i = 1,..., n. 7
Podemos afirmar que o R 2 é uma medida da proporção que a soma de quadrados dos desvios de cada y i em relação a y pode ser explicada pelas covariáveis x 1,..., x n. Então, o R 2 é uma medida da bondade do ajuste do modelo Y i = β 0 + x i1 β 1 +... + x ip β p + ɛ i, incluindo as covariáveis, em relação ao modelo y i = β 0 + ɛ i, no qual nenhuma das covariáveis é considerada. 8
Propriedades do coeficiente de determinação O coeficiente de determinação, definido como quadrado de um coeficiente de correlação satisfaz que 0 R 2 1. Esta propriedade nos permite melhor interpretar-lo. Podemos perceber que R 2 = 0 somente quando E{Y } = y, como é o caso do modelo y i = β 0 + ɛ i,, nessa situação E{Y i } = µ = β 0, µ = β 0 = y, logo n i=1 (y i µ) 2 = n i=1 (y i y) 2 e R 2 = 1 ni=1 (y i y) 2 ni=1 (y i y) 2 = 0 9
Interpretamos então que se R 2 0 o modelo não é apropriado para explicar a variável resposta através das variáveis explicativas selecionadas, significando que o R 2 é uma medida da utilidade dos outros termos além do β 0 no modelo. Um modelo cujo ajuste seja perfeito implicaria que µ i = y i, portanto n i=1 (y i µ i ) 2 = 0 e, consequentemente, R 2 = 1. Significando que, quanto mais próximo de 1 estiver o valor do coeficiente de determinação melhor o ajuste aos dados do modelo proposto. 10
Limitações É importante notar que altos valores de R 2 não necessariamente implicam que o modelo de regressão está bem ajustado. Podemos entender isso através dos exemplos apresentados por Anscombe em 1973. Nesse trabalho o autor apresentou quatro conjuntos de dados com as mesmas médias, variancias e correlação entre as variáveis resposta e explicativa. Algumas estatísticas descritivas importantes destes dados, como média, variancia, correlação entre X e Y e outras assumem os mesmos valores e, portanto, as retas de regressão também coincidem. Porém somente em um dos exemplos o modelo de regressão é adequado, nos outros a relação não é linear ou mesmo não existe relação entre as variáveis resposta e explicativa. Outras estatísticas descritivas que não influenciam na estimação da reta de regressão não coincidem, como é o caso da mediana e os valores estremos. 11
Conjunto de dados de Anscombe No.1 Conjunto de dados de Anscombe No.2 y1 4 6 8 10 12 y2 4 6 8 10 12 5 10 15 5 10 15 x1 x2 12
Conjunto de dados de Anscombe No.3 Conjunto de dados de Anscombe No.4 y3 4 6 8 10 12 y4 4 6 8 10 12 5 10 15 5 10 15 x3 x4 13
Limitações Desde trabalhos muito cedo é conhecido que uma maneira articial de aumentar o valor do R 2 é acrescentar variáveis explicativas ao modelo, mesmo que nada tenham a ver com o problema estudado. Então é possível que alguns modelos tenham grandes valores de R 2 e sua qualidade seja ruim para estimação ou predição de novas observações. Também devemos ressaltar que podemos diminuir o valor do R 2 aumentado o número de pontos repetidos, isto é, observando mais do que um valor de Y para o mesmo valor de X obtemos sempre um R 2 menor do que se observamos somente um Y para cada X. 14
Aplicações Além da utilização do coeficiente de determinação como medida de certeza ou como medida da qualidade do modelo, podemos mencionar otras duas aplicações também muito importantes: seleção de variáveis, identificação de colinearidade e importância relativa. Calculando o R 2 em todas as possíveis regressões permite escolher quais variáveis explicativas devem permanecer no modelo. O procedimento de escolha das variáveis que realmente explicam a resposta é chamado de seleção de variáveis. Àquele modelo que forneça maior valor de R 2 deveria ser o mais apropriado. No entanto, este método tem uma série de inconvenientes. 15
Encontrar todas as possíveis regressões é um procedimento intensivo computacionalmente e sua aplicação restringe-se a tamanhos de amostra relativamente pequenos. Além disso, mencionamos que quantas mais variáveis explicativas maior o valor do R 2. Uma maneira comum de evitar este problema é usar uma versão adaptada de R 2, em vez de si mesmo. A versão adaptada é conhecida como coeficiente de determinação ajustado o qual, para um modelo com p variáveis explicativas, é dado por R 2 adj = 1 n 1 n p 1 (1 R2 ) Esta versão corrige o valor do R 2 pelos graus de liberdade permitindo que não necessariamente o Radj 2 seja maior no modelo com todas as variáveis explicativas. A deficiência computacional se corrige com procedimentos conhecidos como FORWARD, BACKWARE, STEPWARE e outros. 16
Identificação de colinearidade O termo restante, V IF = 1 1 R 2 j é chamado de fator de identificação da variância. Reflete todos os outros fatores que influenciam a incerteza nas estimativas do j-ésimo coeficiente. O VIF é igual a 1 quando X j é ortogonal a cada uma das outras variáveis preditoras, caso contrário, o VIF é maior que 1., Para calcular Rj 2 devemos considerar um modelo de regressão de X j em relação às outras variaáveis preditoras sem considerar a resposta Y. 17
Importância relativa O termo importancia relativa refere-se à contribuição individual das variáveis explanatorias em relação à resposta no modelo de regressão linear ajustado. Uma idéia intuitiva, que funciona somente se as regressoras forem não correlacionadas, é justamente o R 2 de cada regressão linear simples, uma vez que a soma destes é igual ao R 2 do modelo completo. No entanto, na maioria das situações práticas, as variáveis regressoras são tipicamente correlacionadas. Logo não é evidente particionar o R 2 no valor correspondente das regressões simples. Diversas propostas existem na literatura para medir a importância relativa baseadas no R 2, sendo as mais importantes chamadas na literatura de FIRST, LAST e LMG, constituindo estas em aplicações do R 2 uma vez escolhido o modelo de regressão. 18