DATA MINING EM POÇOS DE ÁGUA SUBTERRÂNEA:um estudo de caso



Documentos relacionados
XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

DATA WAREHOUSE. Introdução

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

ADM041 / EPR806 Sistemas de Informação

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

ISO/IEC 12207: Gerência de Configuração

Disciplina: Unidade III: Prof.: Período:

Processo de Controle das Reposições da loja

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Orientação a Objetos

A Grande Importância da Mineração de Dados nas Organizações

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

Padrão ix. Manual de Instalação do Q-Ware Server Versão

SISTEMA DE GERENCIAMENTO DE PROJETOS - REDMINE MANUAL DE USO

TCEnet e TCELogin Manual Técnico

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

AP_ Conta Aplicativo para digitação e envio de contas médicas no padrão TISS

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

Módulo 4: Gerenciamento de Dados

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

Desenvolvimento de um Simulador de Gerenciamento de Memória

Manual do Visualizador NF e KEY BEST

Manual de Utilização

Backup.

Semântica para Sharepoint. Busca semântica utilizando ontologias

Manual de Utilização Sisamil - Sistema Integrado de Saúde Amil Manual de Utilização 1 54

Capacidade = 512 x 300 x x 2 x 5 = ,72 GB

Georreferenciamento de Informações Econômicas

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Pesquisa e organização de informação

Prof. Marcelo Machado Cunha

Manual SAGe Versão 1.2 (a partir da versão )

CURSO DE INFORMÁTICA BÁSICA AULA 2 O AMBIENTE WINDOWS

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Programação Orientada a Objetos com PHP & MySQL Cookies e Sessões. Prof. MSc. Hugo Souza

Georreferenciamento de Informações Econômicas

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

gerenciamento de portais e websites corporativos interface simples e amigável, ágil e funcional não dependendo mais de um profissional especializado

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Palavras-chave: i3geo, gvsig, Mapserver, integração, plugin. Contato: ou

ArcGIS 1: Introdução ao GIS (10.2)

Revisão: Introdução. - Integração com o AutoManager; 1 Atualização de versão do banco de dados PostgreSQL

O CENSO 2010: BREVE APRESENTAÇÃO E RELEVÂNCIA PARA A GEOGRAFIA

Sistema de Controle de Solicitação de Desenvolvimento

Atividade de Aprendizagem 1 Aquífero Guarani Eixo(s) temático(s) Tema Conteúdos Usos / objetivos Voltadas para procedimentos e atitudes Competências

CONSTRUÇÃO DE BLOG COM O BLOGGER

Manual da Turma Virtual: MATERIAIS. Para acessar a turma virtual com o perfil Docente, siga o caminho indicado abaixo:

A lógica de programação ajuda a facilitar o desenvolvimento dos futuros programas que você desenvolverá.

ÍNDICE 1 INTRODUÇÃO ACESSO AOS SISTEMAS DOCUMENTOS MANUTENÇÃO OCR REGISTRO DE DOCUMENTOS GERANDO DOCUMENTOS

CONTROLE DE QUALIDADE e VALIDAÇÃO DE PRODUTO CARTOGRÁFICO

UNIVERSIDADE FEDERAL DA BAHIA - UFBA

Imóvel Mix SGI. 1. Acesso ao Sistema 2. Aspectos Gerais 3. Configuração da Empresa 4. Cadastro de Usuários

PROJETO DE REDES

Sistema de Gestão de Recursos de Aprendizagem

Hardware (Nível 0) Organização. Interface de Máquina (IM) Interface Interna de Microprogramação (IIMP)

Guia Site Empresarial

Jonathan J. Campos, Jefferson de Faria, William de O. Sant Ana

Projeto de Sistemas I

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Lição 1 - Criação de campos calculados em consultas

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Software. Gerenciamento de Manutenção

Um Driver NDIS Para Interceptação de Datagramas IP

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

MANUAL DO USUÁRIO SORE Sistema Online de Reservas de Equipamento. Toledo PR. Versão Atualização 26/01/2009 Depto de TI - FASUL Página 1

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

Sistemas Operacionais

AUTOR: DAVID DE MIRANDA RODRIGUES CONTATO: CURSO FIC DE PROGRAMADOR WEB VERSÃO: 1.0

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Sistemas de Informação Geográfica Prof. Tiago Eugenio de Melo, MSc.

Universidade Federal do Estado do Rio de Janeiro UNIRIO. Guia para criação do banco de dados de redes sociais

Planejando o aplicativo

Bem- Vindo ao manual de instruções do ECO Editor de COnteúdo.

Universidade Federal do Vale do São Francisco Programa de Assistência Estudantil

Manual do usuário. v1.0

EXPLORANDO TÉCNICAS E RECURSOS DO GERENCIADOR DE DADOS ABERTOS CKAN. TuaneFaria USP tuanefaria@yahoo.com.br

ÍNDICE 1. CADASTRO DE BOLSAS... 2

Noções de. Microsoft SQL Server. Microsoft SQL Server

Login Integrado (Quiosque / Visão Descentralizada TOTVS 11)

SIG - Sistemas de Informação Geográfica

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Figura 1: tela inicial do BlueControl COMO COLOCAR A SALA DE INFORMÁTICA EM FUNCIONAMENTO?

Está apto a utilizar o sistema, o usuário que tenha conhecimentos básicos de informática e navegação na internet.

American Work Guia de Primeiros Passos

Microsoft Project 2007

ÍNDICE. 1. Introdução O que é o Sistema Mo Porã Como acessar o Site Mo Porã Cadastro do Sistema Mo Porã...

Professor: Macêdo Firmino Disciplina: Sistemas Operacionais de Rede

Manual do Painel Administrativo

TUTORIAL DE USO DO BUSINESS INTELLIGENCE (BI) PARA O HÓRUS-ESPECIALIZADO

Sistemas de Informação


Introdução a Banco de Dados

MINISTÉRIO DO DESENVOLVIMENTO AGRÁRIO SUBSECRETARIA DE PLANEJAMENTO, ORÇAMENTO E ADMINISTRAÇÃO COORDENAÇÃO-GERAL DE MODERNIZAÇÃO E INFORMÁTICA

www. inf.br Outubro/2008 5www.habisp.inf.br TREINAMENTO HABISP VERBA DE ATENDIMENTO

Transcrição:

DATA MINING EM POÇOS DE ÁGUA SUBTERRÂNEA:um estudo de caso Paulo Vinícius Lamana Barboza 1, Walkiria Cordenonzi 1 1 Centro Universitário Franciscano Rua dos Andradas 1614 Santa Maria RS Brazil <paulo@clickduplo.com>, walkiria@unifra.br Abstract. Gathering data, common growing up fact in the greatest companies. It has cooperate for the creation of a technology known as Data Mining. The purpose of all the work done is to clearly show algorithms of Data Mining Classification as tool capable of finding databases: precious information, unexplored before, and potentially useful. The relation between Data Mining and Geographic Information System (GIS) will also be exposed. Resumo. O estudo de caso apresenta o uso de mineração de dados (data mining),através dos algoritmos de classificação para encontrar conhecimento implícito em uma base de dados sobre poços de água subterrânea, no Brasil. A relevância deste estudo está na informação sobre a escassez de pesquisas desenvolvidas nessa área, juntamente com a importância do uso racional da água e informações sobre os tipos de poços, sua localização, profundidade e seu uso. Introdução Com o uso da informática, a vida do homem passou a sofrer mudanças mais rapidamente. Acumularam-se informações de toda a natureza, desde aquelas estáticas, como, por exemplo, as de natureza histórica, até as informações que são alteradas e modificadas a cada instante. O simples armazenamento e a recuperação rápida e prática dessas informações já foram bastante benéficas para a sociedade. Um exemplo disso, de acordo com Navega (2002), é que não é mais necessária a busca demorada e cansativa sobre volumosos arquivos de papel. Passou a imaginar que poderia aproveitar melhor as informações guardadas e, até mesmo, identificar outros conhecimentos ou utilidades, até então escondidas dentro dessas informações. Foi então que se passou a explorar profundamente as informações acumuladas, na busca de padrões que pudessem ter algum valor significativo para as corporações. Estas buscas de padrões chama-se mineração de dados (data mining DM). O objetivo deste artigo é apresentar um estudo de caso no qual são unidos os dois conceitos: mineração de dados e Sistemas de Informação Geográfica - SIG. Este segundo está representado através de uma base de dados sobre poços de água subterrânea. A escolha destes dados se dá pela constatação que nos próximos 30 anos a

quantidade de água disponível por pessoa, no Brasil, estará reduzida em 20% do que se tem hoje, segundo dados da Organização das Nações Unidas ONU [Souza 2008]. Este artigo está organizado na seguinte forma: na Seção 2 uma breve descrição sobre conceito e tipos de SIG s; na Seção 3 conceitos são mostrados sobre mineração de dados. Na Seção 4 o estudo de caso é descrito. Na sequência, as conclusões são apresentadas. 2. Sistemas de Informações Geográficos - SIG Segundo Casanova e Câmara (2005), o SIG é um conjunto de técnicas e de ciências utilizadas no armazenamento, gerenciamento, cruzamento, manipulação, exibição, registro ou documentação de dados e informações geográficas. Para o autor, esses sistemas vêm influenciando expressivamente diversas áreas do mundo em que vivemos. Dentre elas, estão a cartografia, a análise de recursos naturais, os transportes, as comunicações, entre outras. Ainda segundo o autor, um ponto fundamental no tratamento de dados em SIG é a sua capacidade de lidar com uma certa localização e ao mesmo tempo com atributos descritivos de um banco de dados tradicional. Os autores afirmam que um SIG deve descrever um ponto geográfico da forma mais detalhada possível. Para cada lote em um cadastro urbano, por exemplo, um SIG guarda, além dos atributos do proprietário e da casa (atributos descritivos), a informação geométrica com as coordenadas das limitações do lote (atributos georreferenciados). Numa visão tecnológica, planejar um SIG significa obter um sistema que aproveite ao máximo as ferramentas de representações espaciais, a fim de representar a grande variedade de características existentes no espaço. A diferença mais notável entre um SIG e um sistema convencional é a sua capacidade de armazenamento, pois permite guardar tanto os dados descritivos de uma localização, como por exemplo, CEP, endereço ou telefone, quanto as geometrias dos diferentes tipos de dados geográficos. As aplicações de geoprocessamento lidam com dois grandes tipos de dados: (a) Geo-campos: são dados capazes de armazenar tipos de solo e topografias e (b) Geo-objetos: estes dados possuem atributos não espaciais, podendo estar associados a várias representações gráficas, como municípios, casas, entre outros objeto de estudo deste trabalho. O autor afirma, ainda, que há duas formas básicas de consultas em SIG s envolvendo dados geográficos: espacial e por atributos. A consulta espacial está relacionada a dados geográficos de uma dada estrutura. Por exemplo: mostre todos os prédios que fazem parte do bairro Camobi. Já a consulta por atributos está ligada com os valores de um certo objeto. Por exemplo: mostre quantas pessoas residem no bairro Camobi. Estas duas consultas são indispensáveis em um SIG. 3. Mineração de Dados O Data Mining surge como uma ferramenta tecnológica capaz de criar novas soluções a partir das informações já armazenadas num banco de dados. Segundo Addrians e Zantinge (1996), trata-se de uma tecnologia surgida a partir de três áreas: estatística clássica, inteligência artificial e aprendizado de máquina, sendo a primeira a mais antiga delas. Segundo Goldschmidt (2005), o Data Mining é parte de um processo maior, conhecido como Knowledge Discovery in Databases (KDD), em português Descoberta de Conhecimento em Bases de Dados, que permite a extração não trivial de

conhecimento previamente desconhecido e potencialmente útil de um banco de dados. O KDD se caracteriza por possuir várias etapas operacionais, e uma dessas etapas é justamente o Data Mining. Ao se explorar dados georreferenciados em um KDD, é interessante extrair padrões espaciais e descritivos, construindo um conhecimento espacial e também conhecimentos não explicitamente armazenados em bases de dados, segundo Koperski (1997, apud Bogorny,2003). Porém, dados espaciais possuem interdependências, ou seja, estão geograficamente relacionados uns aos outros. Já dados descritivos são independentes. Minerar dados georreferenciados é um desafio, pois os algoritmos de mineração tratam todas as instâncias como independentes. Com isso, se conclui que, apesar do KDD ser um processo altamente relevante, é necessário um acompanhamento humano na busca por conhecimento. Segundo Navega (2002) apud Fayad (1996), esse processo utiliza diversos algoritmos para encontrar esses padrões. Apesar de os algoritmos serem capazes de detectar padrões válidos e novos, ainda não existe um algoritmo eficaz capaz de determinar padrões valiosos. Exatamente por isso, um projeto que deseja ser bem sucedido exige um acompanhamento humano perante o Data Mining. Esse acompanhamento envolve a conduta na exploração de dados e determinação do valor dos padrões encontrados. O Data Mining possui diversas técnicas que podem ser utilizadas. Dentre eles, pode-se citar: classificação, regressão, segmentação, associação, projeção e detectação de anomalias, segundo Loria (2008). O objetivo deste trabalho é receber do próprio algoritmo as informações relevantes e então processá-las como valiosas. Com base nisso, a técnica escolhida para o trabalho foi a de Classificação. Através da classificação é possível descobrir, por exemplo, qual é o intervalo de profundidade (em metros) com maior número de poços em boa situação num determinado estado. É uma técnica que possibilita a análise de resultados baseado em um perfil descoberto pelo algoritmo escolhido. A ferramenta utilizada no trabalho Weka - disponibiliza diversos algoritmos de classificação. E dentro da classificação, foi escolhido o algoritmo de Árvore de Decisão J48 para a maioria dos estudos. Este algoritmo possui uma complexidade maior: é mais detalhado em seus resultados, e exige uma interpretação maior do minerador. Segundo Pichiliani (2006), uma árvore possui basicamente um nó raiz, inicializando a árvore, os nós comuns dividindo e subdividindo os atributos e os nós folha, que é onde estarão os resultados da classificação do algoritmo. Um SIG com um Data Mining implementado pode facilitar a interpretação de padrões encontrados. Em outras palavras, os algoritmos encontram padrões, e o SIG os apresenta geograficamente, em mapas e gráficos, tornando mais fácil a interpretação, colaborando, assim, para uma melhor tomada de decisões. O capítulo a seguir vai tratar do estudo de caso realizado. Será apresentada a ferramenta utilizada para a pesquisa, a forma como o algoritmo foi aplicado e que resultados puderam ser encontrados durante as aplicações. 4. Estudo de Caso A água é um assunto muito debatido na atualidade, e seu bom uso foram os motivos da escolha deste assunto, através dos temas de SIG, para serem utilizados como base para a aplicação do Data Mining. O trabalho se baseou na aplicação de técnicas de classificação de mineração de dados sobre registros de poços de água subterrânea no

Brasil. Existem diversas ferramentas que permitem trabalhar com mineração de dados, entre elas: Microsoft SQL Server, Oracle e a ferramenta de livre distribuição Weka [Hall, 2009]. E exatamente por ser de gratuita, o Weka foi a opção para os estudos de Data Mining. Trata-se de um pacote de aprendizagem desenvolvido em Java, que possui implementados os principais algoritmos de técnicas de Data Mining. É também opensource (possui seu código-fonte aberto). Para iniciar o estudo, a base de dados selecionada está disponível no site GISMAPS (GIS, 2005), no formato Shapefile. As informações sobre os poços são do Serviço Geológico do Brasil. Para a limpeza dos dados aconteceram conversões e correções dos dados até obter-se o arquivo ARFF, padrão da ferramenta Weka. As primeiras operações sobre a base de dados dos poços foram relacionadas a correções de inconsistências. Ao realizar a primeira conversão para o formato ARFF, foram detectadas algumas fragilidades, como ausência de padrão e erros de digitação, que foram corrigidos. Por exemplo, algumas correções realizadas: (a) Poços em situação BOM e BOA foram todos definidos como BOM ; (b) Poços em situação INUTILIZAVEL e NAO UTILIZAVEL foram todos renomeados para INUTILIZAVEL. A base de dados conta com 42.217 registros de poços no total. Para cada poço, têm-se as seguintes informações: Código do poço; Unidade da Federação da superintendência regional; Unidade da Federação do poço (UF_POCO); Município de localização do poço; Localidade do poço; Hemisfério de localização do poço (HEMISFERIO); Fonte das informações; Nome do proprietário; Tipo de poço (TIPO_POCO); Tipo de captação (CAPTACAO); Tipo de penetração (PENETRACAO); Altitude do poço (ALTITUDE); Bacia Hidrográfica (BACIA_HID); Sub-Bacia Hidrográfica; Base Cartográfica; Data da perfuração; Profundidade (PROFUND); Executor do projeto; Perfurador; Situação do poço (SITUACAO); Produção do poço; Finalidade do uso da água (USO_AGUA); Tipo de aqüífero; Nome do aqüífero; Vazão (VAZAO); Data do exame químico; e Unidade Operacional. Os atributos destacados em negrito foram os selecionados para a realização do trabalho, levando em conta fatores como importância da informação e maior consistência dos dados. Os termos entre parênteses são os nomes dos atributos na base de dados. Na etapa de pré-processamento do Weka, já foi possível observar, na contagem padrão de todos os registros, que mais de metade dos poços de água subterrânea do Brasil (mais precisamente 50,15%) são abastecidos por alguma destas três bacias do Atlântico Sul: Sul-Leste, Sul-Norte/Nordeste ou Sul-Sudeste. No préprocessamento, é possível encontrar o número total de todos os registros para cada atributo. Por exemplo, o número total de: Poços do RS, Poços inutilizáveis, Poços abastecidos pelo Rio Amazonas, entre outros. Após esta etapa, o algoritmo J48 foi aplicado, conforme seção a seguir. 4.2 APLICAÇÃO DO ALGORITMO J48 A aplicação deste algoritmo foi eficiente para encontrar padrões relevantes. Os resultados a seguir estão divididos em tópicos, cada um representando um teste com um atributo classe diferente. É importante ressaltar que neste trabalho somente está sendo apresentada duas classes de atributos, outras classes foram mineradas e por questão de espaço não puderam ser apresentadas.

4.2.1. Atributo classe: BACIA_HID Os resultados a seguir foram encontrados ao atribuir a Bacia Hidrográfica como atributo classe nas árvores de decisão. Cada resultado está acompanhado do trecho da árvore de decisão onde se encontra o determinado resultado: Na Figura 1, é possível observar que 14,96% dos poços localizados em Pernambuco (PE) possuem altitude entre 276 e 699 metros, pertencem à bacia hidrográfica do Rio São Francisco e também são usados para irrigação. Figura 1. Trecho da Árvore de Decisão representando todos os poços usados para Irrigação em Pernambuco (PE). Para interpretar o resultado obtido no parágrafo anterior (14,96%), utilizou-se uma regra de três, com o total de poços de Pernambuco (3430 poços) e o registro da linha 17 da Figura 5. O resultado apresentado nesta linha é 528.0/15.0. Isto significa que existem 528 poços em Pernambuco usados para irrigação, com altitude superior a 276 metros e inferior a 699 metros. O número 15.0 significa que, dos 528 poços encontrados, apenas 15 não são abastecidos pelo Rio São Francisco. Interpretando a Figura 1, é possível descobrir, por exemplo, quantos poços em Pernambuco são usados para irrigação e possuem no máximo 276 metros de altitude. Entre as linhas 4 e 16 se encontra esta resposta. Basta fazer: 55 + 5 + 6 + 3 + 3 + 88 + 11 = 171. E destes 171 poços, 150 são abastecidos pelo Rio São Francisco ((55-1) + 5 + 3 + 88). Todos os próximos resultados também foram encontrados dessa forma, interpretando os valores na árvore, e aplicando regras de três, julgando os valores mais adequados e relevantes. Na Figura 2, pode-se observar que os poços com água destinada à pecuária no estado de Pernambuco (PE) geralmente não são tão profundos. Foi constatado que 86,41% desses poços possuem no máximo 67 metros de profundidade (linha 3 na Figura 3).

Figura 2. Trecho da Árvore de Decisão representando todos os poços de Pernambuco utilizados para Pecuária. A Figura 3 mostra que 44,65% dos poços tubulares do Rio Grande do Norte (RN) estão em situação Equipado, e também são abastecidos pela bacia do Atlântico Sul-Norte/Nordeste (esse número pode ser visto na linha 5 da Figura 4). Figura 3. Trecho da Árvore de Decisão representando a situação dos poços tubulares do Rio Grande do Norte. No Rio Grande do Sul (RS), os números mais relevantes foram detectados nos poços de captação única, situação boa e altitude superior a 55 metros do nível do mar. A Figura 4 mostra a árvore baseada nesses dados: Interpretando a árvore na Figura 3, foi possível constatar que, para estes poços: (a) 71,28% dos utilizados para abastecimento doméstico são tubulares e possuem uma vazão inferior a 30m³/s. E destes 71,28%, 66% são abastecidos pela bacia hidrográfica do Atlântico Sul-Sudeste (entre as linhas 7 e 12); (b) No abastecimento urbano, foi possível observar que os poços de menor altitude são abastecidos em sua maioria pelo Rio Uruguai. Entende-se menor altitude como uma divisão feita pelo algoritmo, de poços acima de 492 metros e abaixo deste valor:o Rio Uruguai abastece 77,47% dos poços com altitude máxima de 492 metros do nível do mar (linha 25); (c) 49,85% dos poços com altitude superior a 492 metros são abastecidos pela bacia do Atlântico Sul-Sudeste (entre as linhas 26 e 32). Em Santa Catarina acontece um resultado diferente das conclusões anteriores, porém para os poços em geral, desconsiderando sua situação e captação. A Figura 5 mostra esta árvore de decisão, seguida de algumas informações detectadas: (a) Rio Uruguai abastece mais de 99% dos poços de Santa Catarina instalados numa altitude superior a 335 metros do nível do mar (linha 9); (b) Enquanto isso, o Atlântico Sul-

Sudeste está abastecendo mais de 89% dos poços com altitude máxima de 335 metros (entre as linhas 2 e 8). Como se percebe, o algoritmo encontrou resultados inversamente semelhantes nestes dois estados vizinhos, quando divididos os registros em altitudes altas e baixas. O Rio Uruguai abastece principalmente os poços mais altos de SC e mais baixos do RS, enquanto o Atlântico Sul-Sudeste abastece principalmente os mais baixos de SC e mais altos do RS. Vale lembrar que os resultados encontrados para o Rio Grande do Sul possuíam uma filtragem mais detalhada. Nas árvores de decisão, é possível notar que o algoritmo constrói a árvore, do topo para base, em que ele próprio vai identificando as ramificações mais adequadas. Para cada atributo utilizado, ele vai definindo subgrupos adequados (nós filhos, podendo ser o mesmo atributo ou não) até encontrar o atributo definido pelo usuário, como nós folhas. Figura 4. Trecho da Árvore de Decisão representando os poços do Rio Grande do Sul com captação única, situação boa e altitude superior a 55 metros.

Figura 5. Árvore de Decisão representando os poços de Santa Catarina. 5. CONCLUSÕES Para se obter resultados realmente precisos e valiosos em uma mineração, é necessário um bom domínio da aplicação utilizada, além de um bom conhecimento das informações contidas na base de dados em questão. Quando se tem uma base com diversos atributos para cada registro, é importante também que se tenha uma grande quantidade de registros, para com isso validar a corretude dos dados e o uso do algoritmo J48. O algoritmo J48 é complexo e exige uma interpretação mais profunda e detalhada na busca por conhecimento. É importante saber qual atributo será usado como classe, pois a precisão depende muito desta escolha também. Vale salientar a importância da classificação por árvores de decisão, pois uma combinação correta dos ingredientes a serem utilizados pode fornecer resultados realmente valiosos. Esses ingredientes seriam: (a) um número de registros considerável, afinal informações verdadeiramente preciosas (antes desconhecidas) são descobertas em grandes volumes de dados; (b) uma base de dados limpa, sem campos em branco e com o mínimo de inconsistências possível; (c) estar ciente de quais impactos o percentual de erro em questão pode causar na prática dos resultados obtidos. A base de dados escolhida foi importante durante os procedimentos de mineração, pela sua quantidade significativa de registros (mais de 42.000). Apesar de possuir inconsistências em algumas instâncias, entende-se que os resultados encontrados com o algoritmo J48 foram relevantes, e o uso de uma ferramenta especialista facilitou muito essa busca. O Weka colaborou bastante para o melhor aprendizado do assunto, pois é uma ferramenta de fácil entendimento e disponibiliza os algoritmos de Data Mining de uma forma bem objetiva. Ela dispensa a necessidade de possuir conhecimentos em Banco de Dados e instruções SQL, por exemplo. Por fim, todo esse poder presente no Data Mining pode ser aplicado em um Sistema de Informação Geográfica (SIG). Um Data Mining pode oferecer novas formas de análise a bases de dados com informações espaciais, além de os resultados da mineração poderem ser visualizados geograficamente. Em pesquisas futuras, pretende-se testar novamente o algoritmo, alterando alguns parâmetros do J48, pois através deles é possível obter novos tipos de resultados, mais precisos ou detalhados. Outra linha de pesquisa é aplicar estas técnicas em outras bases de dados, para verificar que informações relevantes poderão ser encontradas utilizando os mesmos algoritmos, se a precisão será maior ou menor em cada um deles, e quais dificuldades serão encontradas. Objetos de estudo também incluíram técnicas de Data Mining, como a Segmentação e a Associação, no intuito de aprofundar ainda mais

o conhecimento sobre a mineração de dados, tecnologia que tem tudo para evoluir ainda mais. 5. Referências Addrians, P; Zantinge, D (1996) Data Mining. Addison-Wesley. Koperski, K.; Han, J.; Adhikari, J. Mining knowledge in geographical data. In COMM. ACM, 1997. Câmara, Gilberto (2009) Introdução à Ciência da Geoinformação http://www.dpi.inpe.br/gilberto/livro/introd, 10 out. 2009. Casanova, Marco and Câmara, G (2009) Bancos de Dados Geográficos http://www.dpi.inpe.br/livros/bdados/index.html, 23 ago. 2009. Gismaps (2010) Shape files: Water resources. http://www.gismaps.com.br/english/shape.htm, 13 mai. 2010. Goldschmidt, R. Passos E. (2005) Data Mining: um guia prático. Elsiever, 2005. Loria, J. (2008) Data Mining no SQL Server 2008 http://www.microsoft.com.br/kitbi/arquivos/pt-br%5cdatamining_brz.pdf, 09 dez. 2009. Navega, S. 2009 Princípios Essenciais do Data Mining, http://www.intelliwise.com/reports/i2002.pdf, 30 nov. 2009.