Modelos de Regressão para a Previsão de Séries Temporais por meio do Algoritmo knn-tsp

Modelos de Regressão para a Previsão de Séries Temporais por meio do Algoritmo knn-tsp Carlos Andres Ferrero, André Gustavo Maletzke, Willian Zalewski Grupo de Pesquisa em Análise Inteligente de Dados Instituto Federal de Santa Catarina IFSC, Santa Catarina, Brasil Email: {andresferrero}@ifscedubr Centro de Engenharias e Ciências Exatas CECE Universidade Estadual do Oeste do Paraná, Parana, Brasil Departamento de Informática Universidade Tecnológica Federal do Paraná UTFPR, Parana, Brasil Resumo Traditional data mining techniques do not take into account the order of the temporal observations during the pattern extraction process Many efforts have been performed to adapt and optimizing the traditional machine learning algorithms on the sequential data analysis, such as the k-nearest Neighbor - Time Series Prediction (knn-tsp), an adaptation of the knn machine learning algorithm to predict temporal data In this paper we propose two forecasting functions for the knn-tsp algorithm, the first one based on regression trees (M5P) and the second based on the linear regression (LR) These proposed functions were evaluated experimentally and compared with the standard function of knn-tsp (MVR) in 1-ahead forecasts on NN5 Competition data The experimental results demonstrate that the M5P and LR functions showed statistically significant improvement of 20% and 125%, respectively, in comparison to the MVR function I INTRODUÇÃO A previsão de dados ou séries temporais permite prever dados desconhecidos a partir de um conjunto de informações conhecidas Para isso, têm sido propostas abordagens lineares e não-lineares para realizar a previsão Em geral, abordagens lineares assumem que os dados respeitam alguma distribuição estatística e, com base nessa informação, são definidos parâmetros para ajustar um modelo aos dados Porém, uma grande parte dos dados temporais, no mundo real, envolve fenômenos naturais, os quais podem apresentar comportamentos nãolineares As abordagens para a modelagem não-linear, também denominadas de regressões não-paramétricas, são comumente classificadas como globais e locais [1] As primeiras utilizam todas as observações da série temporal para a construção de um modelo de previsão, enquanto que as abordagens locais utilizam somente um subconjunto de sequências, consideradas de maior importância, para estimar o valor futuro Nesse sentido, uma das estratégias de previsão local de dados com comportamentos não-lineares trata da adaptação do algoritmo de aprendizado de máquina k-nearest Neighbor knn para a previsão de séries temporais [2] O algoritmo knn para classificação, amplamente conhecido na literatura, consiste em predizer o rótulo de um novo exemplo com base em exemplos similares já rotulados A adaptação desse algoritmo para dados temporais é denominada k-nearest Neighbor - Time Series Prediction knn-tsp e apresenta como uma das principais vantagens a simplicidade e a capacidade de adaptação a distintos problemas [3] Entretanto, questões relacionadas aos seus parâmetros continuam em aberto, dentre os quais a função de previsão, aplicada sobre as sequências de maior importância encontradas pelo algoritmo knn-tsp, e que é responsável por determinar o valor futuro previsto Sob esse escopo, neste trabalho, são propostas duas novas funções de previsão para o knn-tsp, baseadas na indução de modelos de regressão linear e árvores de regressão As funções propostas foram avaliadas e comparadas com a função padrão do algoritmo knn-tsp Nessa avaliação, foram utilizadas séries temporais de domínio público e amplamente estudadas na literatura O trabalho está organizado da seguinte forma: na Seção II é introduzido o algoritmo knn-tsp e são apresentados trabalhos anteriores realizados com o knn-tsp; na Seção III são apresentadas as funções de previsão propostas; na Seção IV é descrito o conjunto de dados utilizado; na Seção V é apresentada a avaliação experimental realizada e na Seção VI, são apresentadas as conclusões e trabalhos futuros II ALGORITMO knn-tsp O knn é um algoritmo de aprendizado de máquina supervisionado, proposto por em [4], comumente utilizado em tarefas de classificação A lógica desse algoritmo consiste em encontrar, usando uma medida de similaridade, os k exemplos mais próximos de um novo exemplo ainda não-rotulado A partir dos rótulos desses k exemplos, é utilizada uma função para determinar a classe desse novo exemplo [5], [6] Em [3], [7] é proposta uma adaptação do algoritmo knn para a previsão de dados temporais, denominado k-nearest Neighbor - Time Series Prediction knn-tsp A ideia do algoritmo knn-tsp consiste em, considerando os últimos w dados ocorridos, os quais constituem a sequência de referência, encontrar as k sequências de tamanho w que apresentaram comportamentos similares no passado Após, com base em informações de comportamento dessas sequências similares e considerando uma função de previsão, é realizada a estimativa do valor futuro Esse cálculo constitui uma aproximação ao valor verdadeiro da série temporal Na Figura 1, são ilustrados esquematicamente os parâmetros envolvidos no processo de previsão do algoritmo knn-tsp, os quais são descritos a seguir

sequências similares Figura 1 Parâmetros do Algoritmo knn-tsp [8] (a) (b) (c) (d) (e) Tamanho w da janela: refere-se ao tamanho das sequências (número de observações) considerado para representar a sequência de referência e utilizado para buscar as sequências similares no passado; Conjunto de exemplos de treinamento: consiste do conjunto de sequências do passado a serem consideradas na busca das sequências similares; Medida de similaridade: define a maneira de quantificar a similaridade entre duas sequências (baseia-se na representação de cada sequência como um ponto no espaço w-dimensional); Cardinalidade do conjunto de sequências similares: refere-se à quantidade de sequências de maior similaridade a serem consideradas para a previsão do valor futuro e é representada por k; Função de previsão: consiste da função que utiliza a informação do comportamento das k sequências similares para estimar o valor futuro A execução do knn-tsp é realizada em três fases: (A) preparação do conjunto de exemplos de treinamento, (B) obtenção dos vizinhos mais próximos e (C) cálculo do valor futuro da sequência de referência A Preparação do Conjunto de Exemplos de Treinamento A construção do conjunto de treinamento é realizada utilizando a janela de tamanho w, extraindo da série temporal sequências de tamanho fixo, que representem parte do comportamento da série Desse modo, seja a série temporal X = (x 1,x 2,,x n ) de tamanho n e o par ordenado (x x n,x n+1 ) o exemplo de referência, em que x n corresponde à sequência de referência dada por x n = (x n (w 1),x n (w 2),,x n ) e ˆx n+1 o valor futuro da sequência de referência, ie, ao valor a ser previsto Cada elemento do conjunto de exemplos de treinamento S = {S w,s w+1,s w+2,,s n 1 } (definido pelo conjunto de Equações 1), S i S, consiste em um par ordenado (x x i,x i+1 ), onde a primeira componente (em formato negrito) corresponde à i-ésima sequência de treinamento, dada pela série (x i (w 1),x i (w 2),,x i ), e a segunda refere-se ao valor futuro da sequência de treinamento (classe) x w S w = (xx w,x w+1 ) = ((x 1,x 2,,x w ),x w+1 ) S w+1 = (x x w+1,x w+2 ) = ((x 2,x 3,,x w+1 ),x w+2 ) S w+i = (x x w+i,x w+i+1 ) = ((x i+1,x i+2,,x w+i ),x w+i+1 ) S w+ j = (x x w+ j,x w+ j+1 ) = ((x j+1,x j+2,,x w+ j ),x w+ j+1 ) S n 1 = (x x n 1,x n ) = ((x n w,x n (w 1),,x n 1 ),x n ) B Obtenção dos vizinhos mais próximos Nessa fase, o conjunto S é utilizado para a busca dos exemplos das sequências de treinamento que descrevam comportamento semelhante (de acordo com a medida de similaridade) ao da sequência de referência Para isso, devem ser considerados a cardinalidade k do conjunto de vizinhos mais próximos a serem utilizados na estimativa do valor futuro e o critério de seleção de vizinhos próximos Nesse critério utiliza-se uma medida de similaridade, com o intuito de identificar os exemplos de treinamento com com- (1)

portamento mais semelhante ao da sequência de referência De acordo com [9], a distância Euclidiana é uma das métricas mais utilizadas, devido ao fato de ser uma medida intuitiva, de baixo custo computacional e por apresentar desempenho satisfatório em diversos domínios Essa medida determina a distância entre dois pontos no espaço R w, no qual w corresponde ao tamanho das sequências Dessa forma, é constituído o conjunto S = {S 1,S 2,,S k } S, de cardinalidade k, em que cada elemento S j consiste em um par ordenado (s s j,w,s j,w+1 ) correspondente à j-ésima sequência mais similar à sequência de referência x n C Cálculo do valor futuro da sequência de referência Na última fase, uma função de previsão f (S ) é responsável pela estimativa do valor futuro da sequência de referência, que é desconhecido Os dados contidos nas sequências armazenadas no conjunto S são utilizados por uma função que procura estimar o valor ˆx n+1 A função de previsão Média de Valores Relativos MVR, f MV R, calcula ˆx n+1 utilizando o valor de x n acrescido da média local da diferença dos valores da classe, s j,w+1, e o valor s j,w de cada exemplo S j S [3] A função é definida pela Equação 2 f MV R (S ) = x n + k j=1 s j,w+1 k = ˆx n+1 (2) onde s j,w+1 = s j,w+1 s j,w Essa função tem a característica de adaptar-se na previsão de valores futuros localizados em níveis diferentes de tendência [7] Neste trabalho, são apresentadas novas funções de previsão, as quais são descritas em detalhes na Seção III D Trabalhos Anteriores O algoritmo knn-tsp proposto em [3], tem sido aplicado em distintos domínios apresentando resultados competitivos em comparação com outras abordagens [10], [11] Ainda em [3] diversos parâmetros do algoritmo knn-tsp são avaliados, tais como número de subsequências similares e função de previsão, considerando diferentes conjuntos de dados Considerando que um dos principais parâmetros que influenciam na performance do knn-tsp é a função de previsão, em [7] é apresentado uma avaliação empírica entre as duas principais funções de previsão do algoritmo (função Média de Valores e Média de Valores Relativos), sendo que a MVR demonstrou-se estatisticamente superior em todas as comparações e, portanto, tem sido indicada como parâmetro padrão do knn-tsp Embora a função de previsão tenha recebido maior atenção no estudo do algoritmo, outros parâmetros também foram avaliados concomitantemente Em [8] é apresentado um estudo sobre a influência de diferentes medidas de similaridade na performance de previsão do knn-tsp, considerando conjuntos de dados artificias e reais Desse modo, o parâmetro função de previsão, que está diretamente relacionado com a qualidade das previsões, não tem sido amplamente explorado e que portanto merece maior atenção Nesse contexto, na próxima seção são apresentadas as funções de previsão propostas neste trabalho Tabela I III TABELA ATRIBUTO VALOR PARA CRIAÇÃO DE FUNÇÕES DE PREVISÃO Atributos Classe (a) (b) (c) S p,1 x p x p+1 S p,2 x p x p+1 S p,3 x p x p+1 S (p+1),1 x p+1 x p+2 S (p+1),2 x p+1 x p+2 S (p+1),3 x p+1 x p+2 S (n 1),1 S (n 1),2 S (n 1),3 x n 1 x n 1 x n 1 x n PROPOSTA DE FUNÇÕES DE PREVISÃO As funções de previsão comumente utilizadas aproximam esse valor pela média local ou pela média ponderada dos valores da classe, dados por s i,w+1 de cada sequência similar S i S [1] Diversos critérios têm sido propostos na literatura para definir os pesos dos s i,w+1, os quais podem ser combinados linearmente ou utilizando, por exemplo, uma função exponencial [12] Especificamente a função f MV R utiliza a diferença entre o último valor da sequência similar e o valor futuro da sequência similar, conforme Equação 2 Essa função não utiliza integralmente a informação contida nas sequências similares, apenas os últimos dois valores A proposta deste trabalho consiste em criar funções que utilizem integralmente o comportamento das sequências similares Com esse intuito, é construído um conjunto de dados que armazena para cada sequência similar: (a) os valores da sequência similar e o seu valor futuro, (b) a sequência de referência e (c) o valor futuro da sequência de referência, tal que (a) e (b) constituem os atributos e (c) constitui a classe A proposta consiste em construir uma tabela no formato atributo valor, de modo a tornar possível a aplicação métodos tradicionais de aprendizado de máquina, adequados ao problema de regressão Na Tabela I é apresentado um exemplo de uma tabela atributo valor, para k = 3, considerando S p = {S p,1,s p,2,,s p,k } como sendo o conjunto de sequências similares de uma sequência de referência x p, com valor de futuro x p+1, para p < n, em que p consiste na quantidade de sequências de referência do passado que serão utilizadas para construir o conjunto de dados Desse modo, a partir da representação atributo valor da Tabela I é realizada a indução de modelos de regressão, os quais serão utilizados como função de previsão para o algoritmo knn-tsp É importante ressaltar que os modelos são construídos considerando somente as subsequências que compõem a Tabela I e não todas as observações da série temporal A seguir são apresentados o métodos utilizados neste trabalho para a construção dos modelos de regressão x n x n

A Regressão Linear A regressão linear é uma técnica para modelar a relação entre atributos e a classe, na qual cada atribututo é ponderado em função de sua contribuição para a previsão da variável resposta Os atributos são considerados variáveis independentes e, a classe, a variável dependente desses atributos O objetivo do algoritmo para construção da regressão linear consiste em ajustar os pesos dos atributos, de forma a atingir um critério específico, tal como minimizar o erro quadrático médio A técnica possui inúmeras variantes, dentre essas ressaltam-se a utilização do critério de informação Akaike para selecionar modelos mais promissores [13], [14] e do erro quadrático mediano como critério de ajuste com o objetivo de reduzir a influência de possíveis outliers [15], [16] B Árvores de Regressão A técnica de regressão linear pode ser combinada com algoritmos de indução de árvores de decisão, comumente aplicados para construir modelos com classe nominal Essa relação resulta em árvores de decisão com regressões lineares nas folhas da árvore Inicialmente, quantifica-se o ganho de informação de cada atributo em relação à classe, sendo escolhido aquele atributo que minimiza a variação do valor da classe Para o atributo escolhido é criado um nó, que divide os exemplos de treinamento em dois subconjuntos Esse processo é repetido recursivamente para os dois subconjuntos, até atingir um critério de variação dos valores da classe Posteriormente, realiza-se o processo de poda, em que são construídos modelos de regressão linear utilizando os exemplos contidos em cada folha [17], [18], [19] IV DESCRIÇÃO DO CONJUNTO DE DADOS EXPERIMENTAL O conjunto de dados utilizado para avaliar experimentalmente as funções de previsão propostas neste trabalho são provenientes da competição Neural Networks Competition 5 NN5 1 O conjunto de dados selecionado é composto por 111 séries temporais que representam a atividade diária de caixas eletrônicos em várias cidades do Reino Unido durante um período de 735 dias com um horizonte de previsão de 56 dias Esse conjunto de séries temporais são amplamente utilizadas na literatura para avaliação de algoritmos de previsão multi-etapa, ie, que prevem horizontes maiores do que um à frente Especificamente neste trabalho, essas séries serão utilizadas para avaliar as funções de previsão do algoritmo knn-tsp com horizonte de previsão de um à frente A competição NN5 também sugere a avaliação dos algoritmos por meio da medida Erro Médio Absoluto Percentual Padronizado (conhecido na literatura como Standard Mean Absolute Percentage Error SMAPE) e, portanto, foi a medida de avaliação selecionada para este trabalho V AVALIAÇÃO EXPERIMENTAL O algoritmo knn-tsp foi executado para as 111 séries temporais do conjunto de dados, com a seguinte configuração 1 http://wwwneural-forecasting-competitioncom/nn5/ Tabela II MEDIDAS DESCRITIVAS DE SMAPE Medida MVR LR M5P Média 29,908 23,433 25,948 Mediana 29,262 22,599 25,120 Desvio Padrão 7,560 6,354 6,469 Coeficiente de Variação 0,253 0,271 0,249 Quartil Inferior 24,629 18,850 21,419 Quartil Superior 34,380 27,644 28,642 Assimetria 0,656 0,567 0,849 Curtose 1,213-0,225 1,486 N o Discrepantes Inferiores 0 0 0 N o Discrepantes Superiores 1 1 3 experimental: (a) tamanho de janela de w = 7 dias (período semanal); (b) 735 dias de conjunto de treinamento; (c) distância Euclidiana com normalização do eixo vertical como medida similaridade; (d) cardinalidade do conjunto de séries similares k = 5 e (e) como funções de previsão: MVR (Média de Valores Relativos) e as provenientes dos modelos construídos com os algoritmos LR (Regressão Linear) e M5P (Árvores de Regressão), disponíveis na ferramenta Weka Para construir as regressões lineares foi utilizado o critério de Akaike para a seleção do modelo e a minimização do erro quadrático médio como critério para o ajuste Todos os experimentos foram executados utilizando rotinas desenvolvidas em Linguagem R versão 302 [20], inclusive a construção de modelos de regressão, por meio do pacote rweka [21], bem como os gráficos e as análises estatísticas Para construir as funções de previsão LR e M5P, foram geradas tabelas atributo valor, considerando p = 300, ie, foram considerados somente os últimos 300 dias A avaliação experimental está constituída de duas análises: descritiva e comparativa, que são apresentadas a seguir As análises realizadas, bem como os gráficos gerados também foram realizados por meio da Linguagem R A Análise Descritiva Na Tabela II, são apresentadas as medidas descritivas de SMAPE das 111 séries temporais para cada função de previsão Por meio dessa tabela observa-se que os valores de média e mediana são próximos para as três funções de previsão, em que a função MVR apresenta maiores valores e a função LR valores menores O coeficiente de variação, que é a relação do desvio padrão com a média, apresenta valores similares para as três funções e não ultrapassaram 28% As diferenças entre os quartis superior e inferior foram de aproximadamente 30%, em que o quartil inferior é maior que o superior, o que fornece indícios de uma distribuição levemente assimétrica à direita Essa observação é confirmada pelo valor de assimetria, que é maior que zero para as três funções Quanto ao valor de curtose observam-se distribuições levemente leptocúrticas (> 0) para as funções MVR e M5P, e quase mesocúrtica para a função LR (= 0) Também verificam-se certos valores discrepantes superiores, sendo um para as funções MVR e LR e três para a função M5P Para verificar o comportamento normal da distribuição de erros, na Figura 2, são apresentados os gráficos de distribuição

Figura 2 Distribuições de probabilidade normal para as funções MVR, LR e M5P de probabilidade normal para cada função de previsão Nesses gráficos, quanto maior a proximidade dos valores de SMAPE à linha reta diagonal maior é a aderência a uma distribuição normal de erros Desse modo, por meio desses gráficos é possível observar a aderência dos erros das funções à distribuição de probabilidade normal Para confirmar isso, aplicou-se o teste do Kolmogorov-Smirnov, considerando nível significância de 0, 05, e os p-valores resultantes para as funções MVR, LR e M5P foram de 0,6084, 0,1673 e 0,2169, respectivamente, constatando a aderência B Análise Comparativa Na Figura 3 é apresentado o Diagrama de Caixas da distribuição de erros para cada função Mediante a análise do gráfico da Figura 3 observa-se que a mediana e o intervalo interquartil de menor erro é o da função LR e o de maior erro o da função MVR Nesse gráfico é possível observar uma melhoria de previsão das funções LR e M5P em relação à função MVR Foi realizada uma Análise de Variância (ANOVA) para analisar a variabilidade intergrupos e intragrupos e verificar a existência de diferença estatisticamente significativa O p-valor resultante foi < 0,001, considerada extremamente significativa A partir desse resultado, foi analisada a diferença entre os erros das funções de previsão O gráfico da Figura 3 apresenta uma visão global da distribuição de erros e pelo fato das funções de previsão terem sido aplicadas às mesmas 111 séries temporais pode-se realizar uma análise emparelhada, de forma a identificar a real melhoria dessas funções de previsão Desse modo, na Figura 4 é apresentado o Diagrama de Caixas das diferenças entre os erros das três técnicas Por meio desse gráfico observa-se que os intervalos interquartil das diferenças (MV R LR) e (MV R M5P) estão Figura 3 Diagrama de Caixas de SMAPE ambos acima do zero, o que demonstra a ocorrência de uma maior proporção de erros maiores quando aplicada a função MV R em relação às funções propostas neste trabalho Na terceira diferença (LR M5P) observa-se que o intervalo interquartil está abaixo do zero, indicando que a função LR apresentou melhor desempenho que a função M5P Para verificar a diferença estatística entre o desempenho das funções foi aplicado o teste estatístico t student para amostras emparelhadas e múltiplas comparações, utilizando a correção de Bonferroni, com nível de significância de 0, 05

Figura 4 Diagrama de Caixas de SMAPE Os p-valores resultantes são apresentados na Tabela III Tabela III P-VALORES DA COMPARAÇÃO ENTRE AS FUNÇÕES MVR vs LR MVR vs M5P LR vs M5P p-valor < 2,0 10 16 8,2 10 12 2,7 10 12 Menor erro LR M5P LR Percentual 20, 0% 12, 5% 8, 0% Com os resultados da Tabela III é possível constatar diferença estatisticamente significativa nas três comparações efetuadas, de tal maneira que os valores de SMAPE seguem estatisticamente a seguinte expressão LR < M5P < MV R Também é possível observar o percentual de melhoria das funções LR e M5P em relação à função MVR, de 20,0% e 12,5%, respectivamente Ainda, em relação a comparação entre as duas funções de previsão propostas neste trabalho, LR apresentou desempenho significativamente melhor de aproximadamente 8,0% em relação à função M5P Como mencionado, existem modelos globais e locais para previsão de dados temporais Dentre as características principais do algoritmo knn-tsp têm-se a sua simplicidade e a exploração de padrões locais A função MVR apresenta tais características, entretanto não utiliza todas as informações disponíveis nas sequências similares para a previsão dos valores futuros As funções LR e MVR, que apresentaram melhor desempenho, consistem em uma forma de representar o comportamento global da série a partir da utilização de padrões locais, como mostrado na Seção III Desse modo, a abordagem apresentada neste trabalho pode representar uma estratégia híbrida entre ambos os modelos globais e locais VI CONCLUSÕES E TRABALHOS FUTUROS Neste trabalho foi proposta uma nova abordagem para construir funções de previsão para o algoritmo knn-tsp, de modo a permitir a utilização integral da informação contida nas sequências similares do passado no processo de previsão dos valores futuros Para demonstrar a efetividade da abordagem proposta, neste trabalho foi conduzida uma avaliação experimental do algoritmo knn-tsp aplicado a previsão das séries temporais da competição NN5 Nessa avaliação foram adotadas três variações do parâmetro função de previsão A função MVR, utilizada em trabalhos anteriores, foi comparada com as duas funções de previsão propostas, as quais foram geradas a partir de algoritmos para indução de modelos de regressão linear e árvores de regressão, denominados LR e M5P Por meio dos resulatdos reportados neste trabalho é possível concluir que as duas funções de previsão propostas apresentaram melhor desempenho que a função MVR A partir da abordagem proposta neste estudo surgem diferentes temas a serem explorados, dentre os quais: a construção de modelos de regressão utilizando outros algoritmos; a separação do modelo geral em w modelos menores, construindo um modelo para cada valor do período e a adaptação do algoritmo knn-tsp para realizar previsões de múltiplas etapas, para comparar com outros resultados da literatura REFERÊNCIAS [1] D S K Karunasinghe and S-Y Liong, Chaotic time series prediction with a global model: Artificial neural network, Journal of Hydrology, vol 323, no 1-4, pp 92 105, 2006 [2] J McNames, Innovations in local modeling for time series prediction, PhD dissertation, Stanford University, 1999 [3] C A Ferrero, Algoritmo knn para previsão de dados temporais: funções de previsão e critérios de seleção de vizinhos próximos aplicados a variáveis ambientais em limnologia, Dissertação de Mestrado, ICMC- USP, São Carlos SP, Brasil, 2008 [4] T Cover and P Hart, Nearest neighbor pattern classification, Information Theory, IEEE Transactions on, vol 13, no 1, pp 21 27, 1967 [5] D W Aha, D Kibler, and M K Albert, Instance-based learning algorithms, Machine Learning 6, pp 37 66, 1991 [6] J Han and M Kamber, Data Mining: Cconcepts and Techniques, 2nd ed San Francisco CA, USA: Morgan Kaufmann, 2006 [7] C A Ferrero, M C Monard, H D Lee, and F C Wu, Proposta de uma Funçao de Previsao de Dados Temporais para o Algoritmo dos Vizinhos mais Próximos, in Anais do XXXV Conferência Latinoamericana de Informática (CLEI), Pelotas RS, Brasil, 2009, pp 1 10 [8] J A Junior, H D Lee, C A Ferrero, and F C Wu, Estudo da influência de medidas de similaridade da norma lp no algoritmo knn-tsp para previsão de dados temporais, in IX Encontro Nacional de Inteligência Artificial, Brazilian Conference on Intelligent System (BRACIS 2012), Curitiba PR, Brasil, 2012, pp 1 12 [9] E Keogh and S Kasetty, On the need for time series data mining benchmarks: a survey and empirical demonstration, in Proceedings of the 8th International Conference on Knowledge Discovery and Data Mining, New York, USA, 2002, pp 102 110 [10] W Zalewski, Influência da incerteza de medição na previsão de dados em segurança de barragens, Dissertação de Mestrado, Universidade Federal de Santa Catarina (UFSC), Florianópolis SC, Brasil, 2010 [11] F K Odan, C A Ferrero, L F R Reis, and M C Monard, Análise comparativa dos modelos knn-tsp e série de fourier para previsão de demanda horária para abastecimento de água, in XVIII Simpósio Brasileiro de Recursos Hídricos (ABH 2009), Campo Grande MS, Brasil, 2009, pp 1 20 [12] D Solomatine, M Maskey, and D Shrestha, Eager and lazy learning methods in the context of hydrologic forecasting, Neural Networks, 2006 IJCNN 06 International Joint Conference on, vol 1, no 1, pp 4847 4853, 2006 [13] D Kundu and G Murali, Model selection in linear regression, Comput Stat Data Anal, vol 22, no 5, pp 461 469, Sep 1996 [14] T Hastie, R Tibshirani, and J Friedman, The elements of statistical learning: data mining, inference and prediction, 2nd ed Springer, 2009

[15] P J Rouseeuw, Least median of square regression, Journal of the American Statistical Association, vol 79, no 388, pp 871 880, 1984 [16] S Hekimoglu, R C Erenoglu, and J Kalina, Outlier detection by means of robust regression estimators for use in engineering science, Journal of Zhejiang University Science A, vol 10, pp 909 921, 2008 [17] L Breiman, J H Friedman, R A Olshen, and C J Stone, Classification and Regression Trees Chapman and Hall, 1984 [18] J R Quinlan, Learning with continuous classes, in Proceedings of the 5th Australian Joint Conference on Artificial Intelligence Singapura: World Scientific, 1992, pp 343 348 [19] Y Wang and I H Witten, Inducing model trees for continuous classes, in Proceedings of the 9th European Conference on Machine Learning, 1997, pp 128 137 [20] R Core Team, R: A Language and Environment for Statistical Computing, R Foundation for Statistical Computing, Vienna, Austria, 2014 [21] K Hornik, C Buchta, and A Zeileis, Open-source machine learning: R meets Weka, Computational Statistics, vol 24, no 2, pp 225 232, 2009