Modelos ara Regressão Pretende-se arender a redizer o valor de uma variável (atributo) numérica. Os atributos (ou variáveis) usados como entrada ara o algoritmo de arendizagem dizem-se reditores odendo ser numéricos ou nominais. Questões relevantes: Precisão da redição Imortância relativa / interdeendência das variáveis reditoras Comlexidade dos modelos obtidos Graça Gasar - DI/FCUL Modelos ara regressão - Modelos lineares Sea y a variável alvo, ŷ o seu valor aroximado (redito), e x as variáveis reditoras ŷ é uma combinação linear das variáveis reditoras: ) y = a + a = x ŷ deve redizer o valor médio de y ara cada vector (x,, x ) Os (+) coeficientes a são chamados coeficientes de regressão. Por conveniência da notação, considera-se uma variável extra x, cuo valor é semre y) = x = Com uma única variável reditora temos um modelo de regressão simles, reresentando uma recta de regressão. Com várias variáveis reditoras temos um modelo de regressão múltila, reresentando um hierlano de regressão. Graça Gasar - DI/FCUL Modelos ara regressão - 2 Exemlo cycle time main memory cache chanels erformance (ns) (Kb) (Kb) MYCT MMIN MMAX CACH CHMIN CHMAX class 25 256 6 256 6 28 99 29 8 32 32 8 32 253 29 8 32 32 8 32 253 29 8 32 32 8 32 253 29 8 6 32 8 6 32 26 8 32 64 8 32 29 23 32 64 28 32 64 238 4 3 2 23 4 52 35 4 6 24 6 2 8 65 8 7 5 4 6 65 8 7 35 64 64 4 5 Modelo linear roduzido a artir de conunto de 29 exelos de treino: Método de regressão linear Os valores actuais de y no conunto de treino tiicamente diferem de ŷ Estas diferenças e( são chamadas resíduos ou erros: ) y( = y( + e( = a x ( + e( = Queremos obter valores ara os arâmetros a que minimizem os resíduos: Método dos quadrados mínimos ( least squares ) minimizar n 2 n e( = y( a i = i = = x 2 ( class = -66.5 +.66 MYCT +.43 MMIN +.659 MMAX +.494 CACH -.72 CHMIN +.2 CHMAX Graça Gasar - DI/FCUL Modelos ara regressão - 3 Graça Gasar - DI/FCUL Modelos ara regressão - 4
Cálculo dos coeficientes de regressão A equação dos resíduos y( = a x ( + e(, = i < n ode ser exressa em termos matriciais: y = Xa + e onde y é uma matriz (vector) n de valores alvo, X uma matriz n (+) de valores das variáveis reditoras, a um vector (+) de coeficientes de regressão e e um vector n de resíduos Os valores dos coeficientes de regressão que minimizam a soma dos quadrados dos resíduos odem ser calculados or a = X T X X T y Graça Gasar - DI/FCUL Modelos ara regressão - 5 Algoritmo de Widrow-Hoff Nos anos 6 rocurou-se construir algoritmos iterativos simles caazes de arender modelos lineares O algoritmo de Widrow-Hoff (também conhecido como LMS least-mean-square ou Adaline) converge ara a solução imlementando uma estratégia simles de descida de gradiente, tendo uma regra de actualização dos esos análoga à do ercetrão Graça Gasar - DI/FCUL Modelos ara regressão - 6 Esboço do algoritmo Sea η uma constante ositiva equena chamada taxa de arendizagem Inicializar cada a com um valor equeno aleatório Até satisfazer condição de terminação: ara cada exemlo de treino <(x,,x ), y>: calcular y) = a x = ara cada coeficiente a, : ) a a + η(y y)x Árvores ara redição numérica Uma estrutura análoga a uma árvore de decisão ode ser usada ara roblemas de regressão, indicando nos nós folha um valor numérico que é a média dos valores do atributo alvo ara todas as instâncias de treino que alcançam esse nó folha. Estas árvores são chamadas árvores de regressão. É ossível combinar árvores de regressão com equações de regressão as folhas contêm exressões de regressão lineares em lugar de um único valor numérico. Estas árvores são chamadas árvores de modelos. Graça Gasar - DI/FCUL Modelos ara regressão - 7 Graça Gasar - DI/FCUL Modelos ara regressão - 8
Árvore de regressão: MMAX <= 4 : CACH <= 8.5 : MMAX <= 6 : class = 24.3 MMAX > 6 : class = 43. CACH > 8.5 : CHMIN <= 7 : class = 52. CHMIN > 7 : class = 4 MMAX > 4 : MMAX <= 225 : CACH <= 27 : class = 8.4 CACH > 27 : class = 28 MMAX > 225 : CHMIN <= : class = 235 CHMIN > : MMAX <= 48 : class = 355 MMAX > 48 : class = 97 Exemlos Árvore de modelos: MMAX <= 4 : CACH <= 8.5 : LM CACH > 8.5 : LM2 MMAX > 4 : MMAX <= 225 : LM3 MMAX > 225 : LM4 Modelos nas folhas: LM: class = 5.9 -.453MYCT +.327MMAX LM2: class = -.69 +.4MMAX +.59CACH +.57CHMIN LM3: class =.64 -.266MYCT +.485MMIN +.346MMAX +.627CACH +.43CHMIN +.27CHMAX LM4: class = -35 -.843MYCT +.83MMAX +.62CACH Construção de árvores ara redição Começa or se construir uma árvore de decisão, usando um critério diferente do ganho de informação ara escolha do melhor atributo num nó Critério de escolha de um atributo A: Escolher A que maximiza Ci reduçãodesviopadrão( C, A) = σ ( C) σ ( Ci ) C onde C é o conunto de exemlos que alcançaram o nó em causa, C i são os subconuntos que resultam da artição de C elos vários valores do atributo A, e σ é o desvio adrão (estimado) dos valores do atributo alvo A subdivisão dos nós termina quando σ(c) é uma equena fracção (or exemlo, menor que 5%) de σ(d), sendo D o conunto de treino comleto, ou quando o número de exemlos em C é muito equeno (or exemlo, 4) Construída a árvore, considera-se a hiótese de odar nós da árvore, de modo análogo à oda de árvores de decisão. i Graça Gasar - DI/FCUL Modelos ara regressão - 9 Graça Gasar - DI/FCUL Modelos ara regressão - Construção e oda de árvores de modelos Nas árvores de modelos, ara cada nó (folha ou não) é calculado um modelo de regressão linear, tendo em conta os exemlos que alcançaram esse nó e considerando aenas como variáveis reditoras os atributos que ainda odem ser testados na subárvore de que esse nó é raiz. Para cada modelo linear estima-se o erro da redição, ela média dos erros roduzidos ara o conunto de exemlos de treino C que alcançaram esse nó, multilicada or um factor ositivo corrector: C + C yi ŷi n i C Simlificação dos modelos lineares: Por causa do factor corrector, oderá tentar reduzir-se o erro estimado da redição, reduzindo o valor de, isto é, simlificando o modelo linear or eliminação de uma das variáveis reditoras São eliminados termos do modelo linear, um a um, enquanto o erro estimado diminuir. Aós a simlificação dos modelos associados aos nós, efectua-se o rocesso de oda da árvore de modelos. Regressão Linear em R O rattle tem ainda muitas limitações nas tarefas de regressão linear No R estão disoníveis as funções: lm regressão linear glm regressão linear generalizada Exemlo: > fire <- read.csv("forestfires.csv") > fire.model <-lm(area ~ RH + wind+ rain, data = fire) >deviance(fire.model) # soma dos quadrados dos resíduos >coef(fire.model) # matriz de coeficientes >fire.model2 <- udate(fire.model,. ~. + tem) Graça Gasar - DI/FCUL Modelos ara regressão - Graça Gasar - DI/FCUL Modelos ara regressão - 2
Problemas com muitas variáveis reditoras A selecção de variáveis é um roblema imortante quando se quer obter a melhor redição ossível. Algumas estratégias que odem ser usadas individualmente ou de forma combinada: Classificar as variáveis num equeno número de gruos segundo uma avaliação da sua imortância no domínio de alicação em causa. Construa o modelo rimeiro com o gruo mais imortante, em seguida adicione o róximo gruo de variáveis, verificando se o auste do modelo melhorou com a inclusão das variáveis no novo gruo. Use a análise de comonentes rinciais ara rocurar um equeno número de comonentes (combinações de variáveis) que exliquem grande arte da variância nos dados. Com sorte, um ou mais das comonentes rinciais odem ser variáveis úteis ou sugerir formas simles de combinar e reduzir as variáveis originais. Graça Gasar - DI/FCUL Modelos ara regressão - 3 Regressão Linear Generalizada Um modelo de regressão linear simles ode ser reresentado or: E [ y] = a + ax onde E[y] é o valor eserado ou valor médio de y. Os modelos de regressão linear generalizada ermitem uma transformação f() sobre o lado esquerdo da equação: f ( E[ y]) = a + a x f() é uma função chamada função link. Exemlos comuns de funções link: (todas funções monótonas) f(x) = x função identidade f(x) = /x f(x) = log(x) f(x) = log( x /(-x) ) função logit Graça Gasar - DI/FCUL Modelos ara regressão - 4 Regressão Linear Generalizada Na regressão linear generalizada os elementos de y odem ter uma distribuição de robabilidade diferente da normal. Distribuições comummente consideradas são: Binomial: y é reresenta o número, de um total n, que satisfaz uma certa condição Poisson: y reresenta uma contagem Quasi-binomial: difere da binomial or ter uma variância suerior ao valor médio. A variância teórica da binomial é substituída ela variância estimada a artir dos dados Quasi- oisson Graça Gasar - DI/FCUL Modelos ara regressão - 5 Regressão Linear Generalizada Estende a regressão linear ara ermitir variáveis resosta não normais e transformações da linearidade Há uma variável resosta y cua distribuição é determinada elo seu valor médio µ e ossivelmente or um factor de escala As variáveis estímulo/reditoras influenciam y através do reditor linear η = a x + a 2 x 2 + + a x O valor médio µ é uma função invertível do reditor linear µ = m(η) η= m - (µ)=f(µ) f() chama-se a função link Graça Gasar - DI/FCUL Modelos ara regressão - 6
Regressão Linear Generalizada Algumas famílias de funções de distribuição e funções link canónicas associadas Binomial - logit() Poisson log Gaussiana identidade Exemlo com binomial Uma certa doença rovoca cegueira rogressiva. Os dados seguintes indicam o número de doentes cegos, numa amostra de 5 essoas, ao longo de várias idades idade 2 35 45 55 7 essoas 5 5 5 5 5 cegos 6 7 26 37 44 Uso de glm com familia binomial > dados <- data.frame( idade= c(2,35,45,55,7), essoas = re(5,5), cegos= c(6,7,26,37,44)) Junção da matriz de 2 colunas (nº de sucessos, nº de insucessos) que constitui a variável resosta Y > dados$y <- cbind(dados$cegos, dados$essoas dados$cegos) > modelo <- glm(y ~ idade,family = binomial(link=logit), data = dados) > summary(modelo) > redict(modelo, data.frame(idade = c(6,8,9)), tye = "resonse") Qual a redição do número de doentes cegos aos 6, 8 e 9 anos? Graça Gasar - DI/FCUL Modelos ara regressão - 7 Graça Gasar - DI/FCUL Modelos ara regressão - 8 Regressão Linear localizada Uma generalização do modelo de regressão linear básico ode ser obtida considerando que Y é localmente linear em X, com uma deendência local distinta em várias regiões do esaço de dados. Modelo roduzido inclui: Os arâmetros de cada hierlano local As fronteiras de cada hierlano As descontinuidades daí resultantes odem ser roblemáticas (saltos súbitos do valor da variável resosta, ara equenas variações das variáveis reditoras) Slines Para evitar essas descontinuidades, ode-se imor continuidade das derivadas a vários níveis nos extremos dos segmentos (que deixarão de ser rectas) Esses segmentos curvos são chamados slines e o modelo global é chamado função sline Tiicamente cada segmento é um olinómio de equeno grau (quadrado ou cúbico). Graça Gasar - DI/FCUL Modelos ara regressão - 9 Graça Gasar - DI/FCUL Modelos ara regressão - 2
Regressão não linear em R Função nls Exemlo: Alicação de um método de regressão não linear ara redizer valores da variável alvo "Volume" do conunto de dados "tree" > startvalues<-c(b=., b=., b2=.) # escolha dos valores iniciais ara os # coeficientes da regressao nao linear > modelo <- nls(volume ~ b*girth^b*height^b2, start=startvalues) #construcao do modelo nao linear > summary(modelo) > B <- coef(modelo) # obtencao dos coeficientes em B Graça Gasar - DI/FCUL Modelos ara regressão - 2