Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com Resumo Durante a disciplina Mineração de Dados, ministrada pelo Prof. Celso Kaestner, uma grande variedade de técnicas e algoritmos de mineração de dados foi apresentada. Este trabalho concentra diversos experimentos de mineração de dados realizados utilizando a linguagem R sobre uma base disponibilizada pelo Center for Machine Learning and Intelligent Systems da University of California, Irvine. I. INTRODUÇÃO E OBJETIVOS DO TRABALHO O objetivo deste trabalho é aplicar diversas técnicas de Mineração de Dados em uma base de dados real. Esta base foi obtida a partir do servidor da UCI (http://archive.ics.uci. edu/ml/datasets/forest+fires) e será detalhada na sequência. A implementação e execução dos algoritmos foi realizada utilizando a linguagem R (através do programa R-Studio) e de uma ferramenta desenvolvida em java pela equipe da Universidade de Waikato chamada WEKA. A próxima seção descreverá com maiores detalhes a organização e estrutura da base de dados utilizada. Na sequência, serão apresentados os comandos em R necessários para a realização de diversas tarefas de mineração de dados, tais como: classificação, associação e agrupamento. Por fim, os resultados obtidos por cada técnica serão sumarizados e comparados em uma seção dedicada, seguida de um capítulo trazendo as conclusões do trabalho. II. DESCRIÇÃO DA BASE DE DADOS UTILIZADA A base foi concebida por pesquisadores da Universidade do Minho, em Portugal. O foco do trabalho foi identificar a possibilidade de previsão da ocorrência de um incêndio florestal, bem como de sua área total queimada, através de diversos conjuntos de parâmetros de entrada (dentre eles os dados puramente meteorológicos: temperatura, umidade do ar, chuvas e vento). Ela contempla as queimadas ocorridas no parque Montesinho (vide Figura 1) de janeiro de 2000 até dezembro de 2003. Uma vez carregada a base no sistema, o que será explicado na próxima seção, podemos facilmente obter diversas informações sobre a mesma através de simples comandos em R, por exemplo: 1) dim(forestfires) Este comando devolve a dimensão da base. Através dele descobrimos que a mesma contém 517 instâncias e 13 atributos Figura 1. Parque Montesinho (nordeste de Portugal). 2) names(forestfires) Tal comando retorna o nome de todos os atributos da base. De maneira sucinta, os atributos presentes na base são os seguintes: X e Y: coordenadas do incêndio como indicado na Figura 1; month e day : dia e mês da ocorrência dos incêndios; FFMC, DMC, DC e ISI: São as siglas para respectivamente Fine Fuel Moisture Code, Duff Moisture Code, Drought Code e Initial Spread Index. Tais indicadores compõe um famoso índice utilizado na graduação da gravidade de queimadas florestais chamado FWI (Fire Weather Index); temp: temperatura medida no momento da queimada (em C); RH: umidade relativa do ar no momento da queimada (em %); wind: velocidade dos ventos medida na estação meteorológica localizada no centro do parque (em km/h); rain: corresponde a precipitação acumulada no momento do incêndio (em mm/m 2 ); area: área total queimada (em ha). Uma observação importante deve ser feita para este último item. Todas as ocorrências presentes na base

correspondem a incêndios que aconteceram. Quando os valores de área na base são nulos, isto indica que a área queimada foi inferior a 100 m 2. 3) summary(forestfires) Através deste comando, podemos ter uma visão geral de todos os atributos da base, conforme mostra a Figura 2 Como dito anteriormente, foi utilizado o software RStudio, que é um ótimo ambiente de desenvolvimento integrado (IDE) para trabalhos com R. Existem diversas maneiras de importar uma base de dados no programa, duas delas estão apresentadas na Figura 5: Figura 5. RStudio. Duas maneiras possíveis para se importar uma base de dados no Figura 2. Resumo de todos os atributos da base 4) barplot(table(forestfires$month)) Este comando gera um gráfico em barras, como o apresentado na Figura 3. Vemos claramente que maior parte dos incêndios se dá durante o verão (julho, agosto e setembro) Figura 3. A maior parte dos incêndios ocorre durante os meses do verão. Uma vez os dados da base carregados, podemos começar a realizar os diversos experimentos, como será mostrado nas próximas subseções. Antes de passarmos para a aplicação dos algoritmos propriamente dita, é importante notar algumas etapas de preprocessamento da base, necessárias para um melhor desempenho dos algoritmos. Primeiramente, afim de amenizar o desbalanceamento dos dados, [2] sugere aplicar uma transformação no atributo da área (área = ln(área+1)). Além disso, algoritmos como redes neurais, SVM ou k-means precisam ter os dados de entrada normalizados para evitar que os atributos com maior amplitude tenham artificialmente maior peso no resultado final. Por fim, para facilitar a aplicação de todos os algoritmos propostos neste trabalho, criou-se uma nova versão da base onde os valores de área foram discretizados em quatro categorias. Todas estas operações são apresentadas na Figura 6. 5) hist(forestfires$area) Através desta simples instrução, outro traço marcante da base é evidenciado: a maioria das instâncias refere-se a incêndios de pequeno porte (menor que 100 100 m 2 ), como mostra a Figura 4. Figura 4. A maior parte dos incêndios é de pequeno porte. Outros exemplos de comandos em R para exploração de bases de dados podem ser encontrados em [1]. III. APLICAÇÃO DOS ALGORITMOS DE MINERAÇÃO DE DADOS Nesta seção serão apresentados como implementar diversos algoritmos de mineração de dados utilizando a linguagem R. Figura 6. Preprocessamento dos dados: transformação nos valores da área, normalização dos valores numéricos e criação de uma base com os valores de área discretizados. Além disso, nos exemplos a seguir considerou-se somente parte dos atributos de entrada para a classificação da área queimada. Por questões evidenciadas em [2], utilizou-se apenas os atributos meteorológicos como valores de entrada, conforme mostra a Figura 7 A. Algoritmos de Classificação Quando o atributo que buscamos classificar é do tipo discreto, falamos em problemas de classificação. Por outro lado,

Figura 7. Utilizou-se apenas alguns dos atributos de entrada para a determinação da área e/ou criação dos clusters. quando trata-se de um atributo contínuo (numérico) passamos a chamar de algoritmos de regressão, também chamados de fitting de função. No caso da base utilizada neste trabalho, [2] busca predizer o valor da área queimada a partir de diversos conjuntos de parâmetros (essencialmente um problema de regressão ou fitting de função). No presente trabalho, os algoritmos de árvore de decisão, Naïve-Bayes e vizinho mais próximo (knn) serão aplicados em uma versão alternativa da base de dados, conforme apresentado previamente. Já os algoritmos redes neurais (MultiLayer Perceptron) e Support Vector Machine (SVM) utilizarão os valores numéricos da área, realizando uma tarefa de regressão nos valores da mesma. Esta seção não tem por objetivo descrever cada um dos algoritmos aqui utilizados (uma vez que o foco maior é a experimentação destas técnicas através da linguagem R). No entanto, algumas considerações serão feitas nos capítulos dedicados aos problemas encontrados e à discussão dos resultados. As Figuras 8, 9, 10, 11 e 12 a seguir demostram uma maneira possível de se executar e visualizar em R diversos algoritmos de classificação. Figura 10. Figura 11. Implementação do algoritmo do Vizinho mais Próximo. Implementação do algoritmo de Redes Neurais (MLP). Figura 8. Implementação do algoritmo de Árvore de Decisão. Figura 12. Implementação do algoritmo Support Vector Machine (SVM) Figura 9. Implementação do algoritmo Naïve-Bayes. B. Algoritmos de Associação A base utilizada neste trabalho não é adaptada para a aplicação de algoritmos de associação. Logo, a fim de poder implementar tal algoritmo em R, definiu-se um novo problema e criou-se uma nova base, especialmente adaptada para este tipo de exercício.

Esta base (criada a partir do próprio RStudio) contém mil músicas cifradas (formato tipicamente utilizado por seresteiros e tocadores de violão ou outros instrumentos de corda). Servindo-se da linguagem R e de pacotes específicos para exploração de páginas da internet, foi criado um script capaz de acessar automaticamente um famoso site de músicas cifradas (www.cifraclub.com.br) e obter informações das mil músicas mais acessadas no site: nome da música, nome do artista, tom da música e cifras da mesma (vide Figura 13) A comparação destes dois métodos será brevemente comentada na seção dedicada à discussão de resultados. As Figuras 16 e 17 evidenciam uma forma possível de implementação destes algoritmos em R. Figura 13. Informações obtidas automaticamente da internet através de um script em R. A partir destas informações, uma outra base foi gerada, contendo apenas a indicação de que cifras são utilizadas em cada música, bem como o tom da mesma (Figura 14). Esta base (que foi nomeada de cifrasdf) já se encontra no formato ideal para aplicação do algoritmo de associação, conforme mostra a Figura 15. Figura 16. Implementação do algoritmo de agrupamento K-means. Figura 14. Lista contendo as cifras e o tom de cada música. Figura 17. Implementação do algoritmo de agrupamento hierárquico. Figura 15. Implementação do algoritmos de associação (A priori). C. Algoritmos de Agrupamento Dois algoritmos de agrupamento (clustering) foram implementados: K-means e Agrupamento hierárquico. Para tal, a base foi ligeiramente simplificada. Como dito anteriormente, apenas os atributos meteorológicos (temperatura, vento, umidade do ar e chuva) foram considerados para a criação dos agrupamentos. Com o intuito de evidenciar o agrupamento produzido pelo algoritmo, o atributo área foi suprimido da base. IV. DIFICULDADES ENCONTRADAS Naturalmente, este trabalho não tem a pretensão de abordar de maneira aprofundada nenhum dos algoritmos aqui apresentados. Tal tarefa seria bastante extensa, uma vez que cada uma destas técnicas possuem muitos detalhes de configuração, optimização e adaptação ao problema que se busca resolver. Felizmente, a maior parte das configurações de base foram suficientes para uma abordagem eficiente de cada um dos algoritmos. Identificar os comandos em R necessários para preprocessar os dados corretamente foi um importante ponto de dificuldade. Além do mais, observou-se que para boa parte dos algoritmos aqui aplicados, a qualidade desta etapa de preprocessamento pode ser determinante nos resultados obtidos (como é o caso

da normalização dos valores para algoritmos de redes neurais ou a discretização do atributo área na aplicação de algoritmos de classificação). Um outro problema que vale ressaltar é o grande desequilíbrio na base utilizada (fato que também pode ser amenizado através de um preprocessamento adequado dos dados de entrada). Mais da metade dos registros continham o valor de área nulo. Tal desbalanceamento leva algoritmos como árvore de decisão ou naïve-bayes a fazerem escolhas equivocadas, classificando todas as entradas com os valores de maior ocorrência, por exemplo. destas três técnicas para este problema de classificação é representativo e pode ser visualizado na da Figura 20 V. RESULTADOS E DISCUSSÃO A respeito dos algoritmos de classificação (árvore de decisão, naïve-bayes e vizinho mais próximo), os resultados obtidos com as poucas simulações no RStudio não foram muito promissores (como mostra a Figura 18). (a) (b) (c) Figura 18. Resultados da classificação em R: (a) árvore de decisão (42,7% de acerto); (b) naïve-bayes (35% de acerto); (c) vizinho mais próximo (35,7% de acerto). Como dito na seção anterior, fica evidente que o desbalanceamento força os algoritmos de classificação a optarem majoritariamente pelas pequenas áreas (VerySmall ou Small). Isto também pode ser visualizado na Figura 19, onde vemos que a árvore de decisão gerada nem chega a criar folhas para as categorias Medium e Large. Figura 20. Resultados de comparação através do WEKA. Observa-se que nenhuma das técnicas utilizadas consegue superar significativamente o classificador mais simples (ZeroR). Também através da ferramenta Knowledge Flow do WEKA, é possível gerar a curva ROC comparando estas três técnicas. Conforme pode ser visto na Figura 21, nenhum dos algoritmos tem uma eficiência significativamente melhor que um classificador aleatório para este problema de classificação. Figura 21. Curva ROC comparando os algoritmos de classificação para a classe VerySmall. Fica evidente que nenhum deles se sai melhor que o classificador randômico para este problema em particular. Figura 19. Árvore de decisão produzida pelo R. Fica claro o resultado do desbalanceamento da base de dados. Com o objetivo de se obter um comparativo mais detalhado destes três algoritmos, foi utilizado um outro software, bem mais completo, chamado WEKA. Mais precisamente, uma ferramenta chamada Experimenter do WEKA que é capaz de realizar centenas de simulações destes algoritmos e apresentar um balanço comparativo dos resultados. Naturalmente, a implementação dos algoritmos no WEKA não é exatamente a mesma que a utilizada pelo package do RStudio. No entanto, o resultado da comparação da eficiência Ainda na área dos algoritmos de classificação, mas desta vez tratando o problema como um problema de regressão, comparou-se os resultados obtidos na predição da área dado pelos algoritmos de redes neurais e SVM. A Figura 22 mostra o resultado obtido através da ferramenta Experimenter do WEKA. A rede neural (MultiLayer Perceptron) produzida no R está apresentada na Figura 23. Ela é composta por uma camada interna contendo 4 neurônios (conforme a utilizada em [2]). Como concluído em [2], o SVM se saiu um pouco melhor que a rede neural para esta tarefa de regressão. Passando para o algoritmo de associação avaliado (a priori), uma amostra das regras encontradas pode ser vista na

Figura 24. associação. Pequena amostra das regras obtidas com o algoritmo de Figura 22. Resultados de comparação através do WEKA. O SVM se saiu melhor no quesito menor erro quadrático médio, mas não chega a ser uma vantagem estatisticamente significativa. (a) (b) Figura 25. Resultados dos algoritmos de agrupamento em R: (a) K-means (27% de acerto); (b) Agrupamento hierárquico (44% de acerto). evidente se os gráficos da Figura 25 fossem diagonais puras). O K-means categorizou apenas 27% das instâncias da mesma maneira que a classificação inicial. Já o agrupamento hierárquico atingiu a barra dos 44%. Além disso, a característica aleatória na posição inicial dos grupos do K-means faz com que tenhamos um resultado diferente a cada execução do algoritmo. Antes de chegar nas quatro categorias finais, o agrupamento hierárquico cria um diagrama bastante denso contendo o agrupamento de cada uma das instâncias da base. A Figura 26 mostra este diagrama (chamado dendrograma) que apesar de ilisível, ilustra bem o funcionamento da técnica de agrupamento hierárquico. Figura 23. RStudio. Rede neural MLP utilizada para obtenção dos resultados no Figura 24. A figura apresenta apenas as nove primeiras regras com um suporte maior que dez por cento e confiança acima de noventa por cento. Como era de se esperar, as regras de associação encontradas são bastante coerentes com a teoria musical (notas de um mesmo campo harmônico em função da tonalidade da música). Para finalizar, a Figura 25 mostra os resultados obtidos para os algoritmos de agrupamento. Conforme explicado anteriormente, cada um dos dois algoritmos utilizados agrupou os dados em quatro categorias (a partir dos dados meteorológicos da base). Estes grupos foram comparados com a classificação inicial feita, com base nos valores das áreas (VerySmall, Small, Medium e Large). Nenhum dos dois algoritmos conseguiu uma classificação muito similar com a definição inicial escolhida (o que seria Figura 26. hierárquico. Dendrograma produzido pelo algoritmo de agrupamento VI. CONCLUSÃO Sobre uma base de dados contendo informações a respeito de incêndios florestais, aplicou-se uma série de algoritmos e

técnicas de mineração de dados. Para esta base em questão, nenhum dos três algoritmos de classificação experimentados (naïve-bayes, árvore de decisão e vizinho mais próximo) apresentou resultados significativos. Tratando a mesma base como um problema de regressão (o que poderia ser visto como uma generalização do problema de classificação, com classes infinitas), o SVM se saiu levemente melhor que a rede neural (o que é coerente com os resultados obtidos em [2]). Apenas como exemplificação, aplicou-se também dois algoritmos de agrupamento diferentes: K-means e agrupamento hierárquico. Apesar de nenhuma das duas técnicas categorizarem as áreas exatamente como feito pela análise humana, o agrupamento hierárquico apresentou melhores resultados. Também com o intuito de experimentação, criou-se um cenário alternativo, não utilizando a mesma base dos outros algoritmos, para a implementação e aplicação de um algoritmo de associação. Tal base, composta de notas e tons de mil músicas colhidas na internet, originou resultados coerentes com a teoria musical. Ficou bem claro a extrema importância da qualidade dos dados de entrada. Principalmente no que diz respeito ao preprocessamento dos mesmos, fato primordial para que os algoritmos tenham melhores resultados. Do mais, todos os algoritmos utilizados aqui foram aplicados com suas configurações padrões. Logo, é de se esperar que resultados diferentes possam ser obtidos adaptando mais precisamente cada um dos algoritmos ao problema em questão. De maneira geral, fica evidente a potência e facilidade que ferramentas como o WEKA e a linguagem R trazem para as operações de mineração de dados. RECONHECIMENTO O autor agradece ao professor do Programa de Pós- Graduação em Computação Aplicada da UTFPR, Dr Celso Antônio Alves Kaestner, pelos ensinamentos ministrados na disciplina de Mineração de Dados. REFERÊNCIAS [1] Y. Zhao, R and data mining: Examples and case studies, 2014. [2] P. Cortez and A. Morais, A data mining approach to predict forest fires using meteorological data, 2007.