CRM e Prospecção de Dados Marília Antunes aula de 11 de Maio 09 6 Modelos de regressão 6.1 Introdução No capítulo anterior foram apresentados alguns modelos preditivos em que a variável resposta (a variável para a qual se constrói o modelo e que se pretende prever) era de natureza qualitativa. Tratava-se de uma variável categórica, tomando apenas um número finito e tipicamente pequeno (muito frequentemente igual a dois) de valores, os quais não têm significado numérico, sendo apenas rótulos das classes que representam. Este capítulo é dedicado a modelos preditivos para os casos em que a variável resposta tem um significado numérico. Como exemplos podemos considerar o valor dispendido por um cliente numa determinada cadeia comercial durante um certo período de tempo, o consumo de um automóvel dadas as suas características e as condições de utilização, ou o número de acessos a uma página da internet num determinado mês, entre outros. As variáveis usadas como input, tomam a designação de variáveis preditoras, independentes, explanatórias ou regressoras, enquanto a variável que se pretende prever toma a desinação de variável resposta. Esta última também é frequentemente referida como variável dependente. As variáveis explanatórias podem ser de qualquer tipo, numérico ou categórico. O objectivo é utilizar um conjunto de objectos para os quais sejam conhecidos os valores da variável resposta e de outras variáveis (variáveis explanatórias) para construir um modelo que permita prever o valor da variável resposta dada uma nova observação para a qual apenas se conheçam os valores das variáveis preditoras. O contexto difere do abordado anteriormente, apenas no facto da variável resposta ser de um tipo diferente - quantitativo. No entando, veremos mais adiante que nesta classe de modelos existe ainda espaço para acomodar o caso em que a variável resposta é categórica. 1
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 2 A acurácia da previsão (a diferença entre o valor efectivo de uma quantidade medida e o valor previsto para essa quantidade, resultante de um modelo) é um dos aspectos mais importantes na modelação, pelo que várias medidas para avaliação da acurácia têm sido propostas. Estas medidas podem também ser usadas para escolher o melhor modelo entre vários modelos propostos, bem como para escolher os parâmetros de cada modelo. De acordo com a terminologia introduzida anteriormente, estas medidas são funções score. A acurácia da previsão é um aspecto que se poderá considerar crítico mas não é o único que merece atenção pois nem sempre a obtenção de boas previsões é o objectivo na base da construção do modelo. Um modelo pode ser construído com o objectivo de se compreender a forma como as variáveis regressoras contribuem para a explicação da variável dependente. Também pode suceder que na construção do modelo sejam deixadas de fora variáveis (cuja importância é reconhecida) por questões legais ou éticas. Outro caso é aquele em que o interesse está mais dirigido para a descoberta da forma como as variáveis regressoras interagem, no sentido de se descobrir o quanto o valor de outras variáveis condicionam a mudança que determinada variável regressora consegue imprimir na variável resposta. Por razões óbvias, existe interesse em obter boas previsões a partir de um modelo simples. Aliás, é frequente sacrificar-se alguma capacidade preditiva optando-se por um modelo que produz previsões menos acuradas mas que é substancialmente menos complexo. Em suma, é necessário combinar de forma parcimoniosa a acurácia com a simplicidade. 6.2 Modelos lineares e ajustamento de mínimos quadrados Em estatística, um modelo diz-se linear se for linear nos parâmetros. De entre os modelos lineares, os mais simples são aqueles em que os valores preditos, ŷ, são dados por uma combinação linear das variáveis regressoras: ŷ = a 0 + p a j x j. (1) As variáveis regressoras podem ser de qualquer tipo. Quando são de natureza categórica, é necessário crias variáveis auxiliares para que possam ser introduzidas no modelo. Estas variáveis tomam a designação de variáveis dummy. Embora muitas vezes as variáveis categóricas estejam representadas por números, é necessário ter em conta que isto não faz delas variáveis j=1
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 3 numéricas uma vez que esses números são meros rótulos, sem qualquer significado quantitativo. Se a variável explanatória em questão for dicotómica (frequentemente indicando a presença ou ausência de determinada característica), basta que as categorias da variável sejam representadas por 0 e 1, sendo considerada a categoria a que está associado o 0 como a classe referência. Quando uma variável categórica possui k + 1 categorias, então é necessário criar k variáveis dummy. Todas estas variáveis podem tomar apenas os valores 0 ou 1. As k + 1 categorias são, por conveniência, numeradas de 0 a k, sendo a categoria 0 a classe referência. A um objecto que pertença à classe referência corresponderá o valor 0 para todas as k variáveis dummy. Se o objecto pertence à classe i, a todas as variáveis dummy corresponderá o valor 0, com excepção para a i-ésima, à qual corresponderá o valor 1. Em suma, as variáveis dummy são variáveis indicatrizes, indicadoras da presença ou não de cada categoria no objecto. Exemplo 1. Consideremos o caso em que as características x = (x 1,x 2,x 3 )=(idade,sexo,educaç~ao) estão presentes no conjunto de dados. Se o objectivo for o da construção de um modelo de regressão linear para modelar y =rendimento, sendo as variáveis sexo e educaç~ao variáveis categóricas, é necessário registar a informação correspondente com recurso a variáveis dummy. Admitindo que foram registadas usando a seguinte codificação, { 0, se sexo=feminino x 2 = 1, se sexo=masculino e 0, se educaç~ao=ensino básico x 3 = 1, se educaç~ao=ensino secundário, 2, se educaç~ao=ensino superior as variáveis dummy a criar são as seguintes: a variável x 2, tal como está codificada, é a própria variável dummy; para a variável x 3 é necessário criar duas variáveis dummy, x 31 e x 32. Desta forma, os indivíduos do sexo feminino recebem x 2 = 0 e os dos sexo masculino x 2 = 1. Relativamente à variável educaç~ao, tem-se x 31 = 0 e x 32 = 0 se educaç~ao=ensino básico x 31 = 1 e x 32 = 0 se educaç~ao=ensino secundário x 31 = 0 e x 32 = 1 se educaç~ao=ensino superior. As categorias codificadas com 0 (sexo=feminino e educaç~ao=ensino superior) são as classes referência para estas variáveis. O modelo ajustado será da forma y = a 0 + a 1 x 1 + a 2 x 2 + a 31 x 31 + a 32 x 32.
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 4 Naturalmente, a variável resposta não será predita de forma exacta, sendo o objectivo nos modelos de regressão o da previsão do valor médio de Y condicional ao vector de variáveis explanatórias x = (x 1,...,x p ). Estes modelos são designados por modelos de regressão linear. O caso mais simples é aquele em que é considerada apenas uma variável regressora (regressão linear simples), correspondendo o modelo a uma recta - a recta de regressão de Y sobre X. Um modelo mais geral é o da regressão múltipla, a que corresponde um hiperplano no espaço gerado por x. Este tipo de modelos é o mais antigo e também o mais utilizado e com mais sucesso de entre os modelos preditivos. Uma razão para tal é a sua evidente simplicidade- uma simples soma ponderada de variáveis, não só é simples de calcular como também é simples de compreender e interpretar. Outra razão para o sucesso destes modelos é que mesmo em situações em que, reconhecidamente, a relação entre a variável resposta e as variáveis regressoras não é linear, as previsões produzidas pelo modelo são, mesmo assim, valiosas. A razão por detrás deste aspecto prende-se com o seguinte: note-se que quando se faz o desenvolvimento em série de Taylor, mesmo de funções bastante complexas, é normal que os termos de ordem mais baixa (linear) sejam os mais significativos, produzindo aproximações bastante satisfatórias. É extremamente raro que um modelo se adeque perfeitamente aos dados. Isto é particularmente verdade em prospecção de dados, em que o modelo é de natureza empírica, construído com base nas variáveis disponíveis na base de dados e que não são, necessariamente, as mais indicadas. Acontece ainda que as próprias medições não são isentas de erro. Por estas (e outras) razões, os valores de y têm associados erros, de forma que cada vector (x 1,...,x p ) se encontrará associado a possíveis valores de y segundo uma distribuição. Sumariamente, pode-se dizer que todos os valores de y diferirão do valor proposto pelo modelo. Estas diferenças designam-se por resíduos, que denotaremos por e: y(i) = ŷ(i) + e(i) = a 0 + p a j x j (i) + e(i), 1 i n. (2) j=1 Em termos matriciais, se representarmos as n medições y no conjunto de treino pelo vector y, e as p medições das variáveis explanatórias sobre os n objectos pela matriz X de dimensão n (p + 1) (com uma coluna adicional de uns de forma a incorporar no modelo o termo a 0, correspondente ao intercepto), o modelo pode ser escrito como y = Xa + e, (3) onde y é um vector n 1 de valores da variável resposta, a = (a 0,a 1,...,a p )
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 5 é um vector (p + 1) 1 de parâmetros do modelo e e é o vector n 1 de resíduos. Naturalmente, pretendemos escolher os parâmetros (os p + 1 valores do vector a) de forma a que as previsões possuam a maior acurácia possível. Dito de outra forma, pretendemos encontrar os valores para os parâmetros que minimizem (de acordo com algum critério) os devios e. De entre todas as propostas para a determinação de a, a mais popular é a que consiste em somar os quadrados dos resíduos e determinar os valores de a que minimizam essa soma: ( 2 n n p e(i) 2 = y(i) a j x j (i)). (4) i=1 i=1 Nesta expressão, y(i) representa o valor observado de Y correspondente ao i- ésimo objecto do grupo de treino e (x 0 (i),x 1 (i),...,x p (i)) = (1,x 1 (i),...,x p (i)) é o vector das variáveis preditoras para o mesmo objecto. Por razões óbvias, este método é denominado de método dos mínimos quadrados. O conjunto de valores que minimiza a soma dos quadrados dos resíduos corresponderá às estimativas dos parâmetros do modelo, a = (a 0,...,a p ), representando-se por â = (â 0,...,â p ) Por uma questão de simplicidade na escrita, sempre que tal não causar confusão, utilizaremos a notação a = (a 0,...,a p ) mesmo quando nos referirmos aos valores estimados dos parâmetros. Em termos matriciais, a solução que minimiza a equação (4) é dada por a = (X T X) 1 X T y. (5) Em regressão linear, os parâmetros são frequentemente chamados de coeficientes de regressão. Um vez estimados, os parâmetros são usados na equação (1) para se obter previsões. O valor predito de y, dado um vector de variáveis preditoras x é ŷ k, dado por j=0 ŷ k = x T ka = a T x k. (6) Exemplo 2. Os dados representados na Figura 1 foram recolhidos numa experiência em que 53 indivíduos realizaram uma tarefa sendo sujeitos a um aumento gradual de esforço. No eixo vertical está representada uma medida do ar expirado enquanto no eixo horizontal está representada uma medida do oxigénio inspirado. A recta representada corresponde ao ajustamento de um modelo de regressão linear simples aos dados. A natureza não linear dos dados faz com que o modelo ajustado y = a 0 +a 1 x = 18.45+0.03x resulte num ajustamento de fraca qualidade como se pode constatar pela representação gráfica. Os resíduos, também representados na Figura 1, revelam a falta de ajustamento do modelo. A presença de um padrão (quadrático, neste caso)
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 6 A B ar expirado 0 50 100 150 resíduos 20 10 0 10 20 30 0 1000 2000 3000 4000 5000 oxigénio inspirado 0 1000 2000 3000 4000 5000 oxigénio inspirado Figura 1: A- Ar expirado vs oxigénio inspirado (53 observações) e modelo ajustado (y = 18.45 + 0.03x); B- resíduos do modelo vs oxigénio inspirado. indica que o modelo não foi capaz de captar esta relação existente nos dados. A solução poderá passar pela introdução no modelo de um termo quadrático, ou seja, adoptar um modelo da forma y = a 0 + a 1 x + a 2 x 2. Note-se que este é, ainda, um modelo linear, uma vez que o é nos parâmetros. O resultado do ajustamento deste modelo aos dados pode ser verificado na Figura 2. Os resíduos (representados também na Figura 2) encontram-se distribuídos em torno da recta y = 0, apresentando aspecto aleatório ou seja, ausência de padrão, o que significa que o modelo terá captado a relação existente entre a variável dependente e a variável regressora. 6.3 Interpretação probabilística do modelo de regressão linear Se o objectivo do ajustamento de um modelo for o de obter um sumário dos dados, isto é, se se resumir à obtenção de um modelo descritivo, a tarefa fica terminada quando se obtêm as estimativas dos parâmetros do modelo. No entanto, se o objectivo estiver para além do conjunto de treino e for o de extrapolar para novas situações emergentes da mesma população, isto é fazer previsão, então pretende-se que o modelo produza previsões com o mínimo de erro. Neste caso, a construção do modelo tem de estar imbuída de formalismo que permita trabalhar em contexto inferencial. Para isto, admite-se que cada valor y(i) é resultado de uma combinação linear de variáveis preditoras α T x(i) mais o termo correspondente ao intercepto e ainda um termo aleatório ǫ(i) que tem distribuição N(0,σ 2 ) e é independente dos restantes valores. Fica
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 7 A B ar expirado 0 50 100 150 resíduos 20 10 0 10 20 30 0 1000 2000 3000 4000 5000 oxigénio inspirado 0 1000 2000 3000 4000 5000 oxigénio inspirado Figura 2: A- Ar expirado vs oxigénio inspirado (53 observações) e modelo ajustado (y = 24.27 0.013x+0.000009x 2 ); B- resíduos do modelo vs oxigénio inspirado. implícito que se admite também que todos os termos aleatórios possuem igual variância, σ 2. O vector Y, de dimensão n 1, escreve-se como Y = Xα + ǫ. O vector (n 1) observado, y, correspondente às observações do conjunto de treino é, pois, uma realização de Y. A matriz X, de dimensão (n (p + 1)), possui uma coluna de uns (a primeira), de forma a que o modelo acomode o termo correspondente ao intercepto. Os elementos do vector ǫ designam-se por erros. Os erros distinguem-se dos resíduos na medida em que o erro é uma realização de uma variável aleatória e o resíduo é a diferença entre um valor observado e o valor ajustado por um modelo. Também α é diferente de a - o vector α representa quantidades (verdadeiras) desconhecidas, enquanto que a representa os valores considerados no modelo que, se pretende, está a representar a realidade. No enquadramento considerado, as estimativas obtidas com base no método dos mínimos quadrados, a, são também estimativas de máxima verosimilhança de α. A matriz de covariâncias dos parâmetros estimados a é dada por (X T X) 1 σ 2. (7) Esta matriz representa a incerteza na estimação dos parâmetros do modelo. No caso da regressão linear simples, em que existe apenas uma variável re-
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 8 gressora, obtém-se ( ) n x 2 σ 2 1 + n i=1 (x(i) x)2 n para variância do intercepto e obtém-se (8) σ 2 n i=1 (x(i) x)2 (9) para a variância do declive da recta de regressão. Nestas expressões, x representa a média da única variável regressora. Os elementos da diagonal da matriz de covariância de a na expressão (7) correspondem às variâncias dos coeficientes de regressão e podem ser usados para fazer inferência sobre eles. Concretamente, permitem testar se os coeficientes de regressão são significativamente diferentes de zero ou não. Seja v j o j-ésimo elemento da diagonal de (X T X) 1 σ 2. Então, a razão a j / v j pode ser comparada com quantis da distribuição t de Student com (n p 1) graus de liberdade para testar se o coeficiente de regressão correspondente é nulo. No entanto, como veremos mais adiante, esta questão faz sentido apenas quando considerada no contexto das restantes variáveis consideradas no modelo. Dada a observação de um novo objecto, x, ao qual corresponde um valor predito para y dado por ŷ, então a variância associada à previsão é x T (X T X) 1 xσ 2. Note-se que se trata de obter um intervalo de confiança para o valor médio de y quando as variáveis regressoras assumem uma determinada combinação de valores. Quando existe apenas uma variável regressora, esta quantidade é igual a ( ) 1 σ 2 n + (x x) 2 n i=1 (x(i). x)2 Note-se que esta variância é tanto maior quanto mais x se afastar da média do grupo de treino. Isto significa que, as previsões com menor acurácia, em termos da variância, são as que correspondem aos objectos que se encontrem nas caudas das variáveis preditoras. Estas variâncias permitem ainda construir intervalos de confiança para os valores de y em geral que se designam por intervalos de predição. Um intervalo de predição corresponde ao intervalo de valores plausíveis para y para determinado x. Estes intervalos devem incorporar a incerteza sobre o valor predito mas também a incerteza sobre variabilidade de y em torno do
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 9 A B pressão sistólica 130 140 150 160 pressão sistólica 130 140 150 160 45 50 55 60 65 70 75 idade 170 180 190 200 210 220 peso (lbs) Figura 3: A - Pressão sistólica vs idade; e B - pressão sistólica vs peso. valor predito, pelo que a variância correspondente à predição incorpora mais um termo do que a variância acima: ( σ 2 1 + 1 ) n + (x x) 2 n i=1 (x(i). x)2 Exemplo 3. Os dados seguintes são referentes a medições da pressão sistólica realizadas em 10 indivíduos. Registaram-se ainda a idade (em anos) e o peso (em libra). pressão sistólica idade peso y x 1 x 2 132 52 173 143 59 184 153 67 194 162 73 211 154 64 196 168 74 220 137 54 188 149 61 188 159 65 207 128 46 167 Na Figura 3 A matriz X, dos valores das variáveis regressoras no conjunto
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 10 de treino, e o vector y, dos valores da variável dependente, são 1 52 173 132 1 59 184 143 1 67 194 153 1 73 211 162 X = 1 64 196 1 74 220 e y = 154 168. 1 54 188 137 1 61 188 149 1 65 207 159 1 46 167 128 O vector dos parâmetros é dado por a = (X T X) 1 X T y = pelo que o modelo ajustado é 31.832 0.869 0.328, y = 31.832 + 0.869x 1 + 0.328x 2. Assim, os valores ajustados são dados por ŷ = Xa, sendo os resíduos dados por e = y ŷ, e iguais a 133.753 1.753 143.442 0.442 153.671 0.671 164.459 2.459 ŷ = 151.721 168.280 e e = 2.279 0.280, respectivamente. 140.411 3.411 146.491 2.509 156.199 2.801 126.573 1.427 Os resíduos do modelo ajustado encontram-se representados na Figura 4. A ausência de padrão sugere a aleatoriedade dos resíduos. A estimativa de σ 2 é obtida a partir dos resíduos do modelo: ˆσ 2 = 1 n p 1 n e(i) 2 = 2.4742. i=1
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 11 resíduos 4 2 0 2 4 130 140 150 160 valores ajustados Figura 4: Resíduos vs valores ajustados da pressão sistólica. Uma vez obtida a estimativa de σ 2, podemos calcular a estimativa da matriz de covariâncias dos parâmetros. (X T X) 1ˆσ 193.00 2.69 1.86 2 = 2.69 0.07 0.04. 1.86 0.04 0.02 A raíz quadrada dos elementos da diagonal desta matriz correspondem aos desvio padrões estimados dos parâmetros do modelo, (13.8926, 0.2691, 0.1465) T. A estatística a j V ar(a ˆ j ) permite testar H 0 : a j = 0 vs H 1 : a j 0, comparando-se o seu valor com os quantis da distribuição t de Student com (n p 1) graus de liberdade. Para os parâmetros do modelo ajustado obteve-se
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 12 parâmetro a j V ar(a ˆ j ) p-value a 0 2.291 0.0557 a 1 3.228 0.0145 a 2 2.240 0.0601 o que nos permite concluir, ao nível de significância α = 0.1, que todos os parâmetros são significativos. Exemplo 4. Consideremos de novo os dados referentes a medições do oxigénio inspirado e do ar expirado. Considerando o modelo ajustado y = 24.27 0.013x + 0.000009x 2, o valor da estimativa de σ 2 é ˆσ 2 = 3.186, pelo que, dado um vector x, a estimativa da variância associada à previsão é x T (X T X) 1 xˆσ 2. Pode então obter-se o intervalo de 100(1 α)% de confiança para o valor ajustado, que é da forma ŷ t 1 α/2 (n p 1) x T (X T X) 1 xˆσ 2. A variância associada a um valor futuro é (1 + x T (X T X) 1 x)ˆσ 2, obtendo-se a seguinte expressão para o intervalo de predição: ŷ t 1 α/2 (n p 1) (1 + x T (X T X) 1 x)ˆσ 2. Os dados, valores ajustados e limites dos intervalos de confiança para a previsão e limites para o intervalo de predição estão representados na Figura 5. Leitura recomendada: Capítulo 11 de Principles of Data Mining. Hand, David J.; Mannila, Heikki; Smyth, Padhraic. (Fotocópias disponíveis na reprografia do departamento.)
CRM e Prospecção de Dados 2008/09 M. Antunes, DEIO-FCUL 13 A ar expirado 0 50 100 150 0 1000 2000 3000 4000 5000 oxigénio inspirado B ar expirado 0 50 100 150 0 1000 2000 3000 4000 5000 oxigénio inspirado Figura 5: A - dados, valores ajustados e intervalo de confiança para a previsão; e B - dados, valores ajustados e intervalo de predição.