REFERÊNCIA BIBLIOGRÁFICA



Documentos relacionados
BACIA DO RIO DAS VELHAS

Processos de gerenciamento de projetos em um projeto

Projeto de inovação do processo de monitoramento de safra da Conab

Seção 2/E Monitoramento, Avaliação e Aprendizagem

ARTIGO TÉCNICO. Os objectivos do Projecto passam por:

CHECK - LIST - ISO 9001:2000

Sugestões e críticas podem ser encaminhadas para o nape@ufv.br CONSIDERAÇÕES INICIAIS:

SISTEMA DE GESTÃO AMBIENTAL ABNT NBR ISO 14001

11 de maio de Análise do uso dos Resultados _ Proposta Técnica

Engenharia de Software

MUDANÇAS DO CLIMA E OS RECURSOS HÍDRICOS. São Carlos, 25 de fevereiro de 2010

Sistema de Informações Geográficas Avaliação da Qualidade de Água por meio do IQA utilizando um Sistema de Informação Geográfica (SIG)

Conteúdo Específico do curso de Gestão Ambiental

CORRELAÇÃO DO USO DO SOLO E QUALIDADE DE ÁGUA UTILIZANDO FERRAMENTAS DE GEOPROCESSAMENTO E TÉCNICA DE ANÁLISE ESTATÍSTICA MULTIVARIADA

1 INTRODUÇÃO. 1.1 Motivação e Justificativa

Universidade Federal de Minas Gerais ICEx / DCC

PROPOSTA DE PROGRAMAS E AÇÕES PARA O PNRH

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

PLANOS DE CONTINGÊNCIAS

Análise da rede de monitoramento hidrometeorológico do estado de Sergipe

SISTEMATIZAÇÃO DA SAZONALIDADE DAS VAZÕES CARACTERÍSTICAS PARA FLEXIBILIZAÇÃO DA OUTORGA DE DIREITO DE USO DOS RECURSOS HÍDRICOS

Política de Sustentabilidade das empresas Eletrobras

UNIVERSIDADE FEDERAL DA BAHIA - UFBA

Organização da Aula. Política de Desenvolvimento Econômico. Aula 2. Contextualização

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 5 CONCEITOS DO PLANEJAMENTO OPERACIONAL

SERVIÇO DE ANÁLISE DE REDES DE TELECOMUNICAÇÕES APLICABILIDADE PARA CALL-CENTERS VISÃO DA EMPRESA

Gerenciamento de Problemas

Lista de verificação (Check list) para planejamento e execução de Projetos

VIGILÂNCIA SOCIAL E A GESTÃO DA INFORMAÇÃO: A IMPORTÂNCIA DO PLANEJAMENTO, MONITORAMENTO E AVALIAÇÃO

Anexo IX. Ref. Pregão nº. 052/2011 DMED. ET Análises de Água e Efluentes

QUALIFICAÇÃO E PARTICIPAÇÃO DE PROFESSORES DAS UNIDADES DE ENSINO NA ELABORAÇÃO DE PROGRAMAS FORMAIS DE EDUCAÇÃO AMBIENTAL

ANÁLISE DOS RESULTADOS DOS PROGRAMAS DE APOIO ÀS PMEs NO BRASIL Resumo Executivo PARA BAIXAR A AVALIAÇÃO COMPLETA:

Atividade de Aprendizagem 1 Aquífero Guarani Eixo(s) temático(s) Tema Conteúdos Usos / objetivos Voltadas para procedimentos e atitudes Competências

MODELO DE APRESENTAÇÃO DE PROJETO DE PESQUISA

ADM041 / EPR806 Sistemas de Informação

Ao dormir, todos somos vulneráveis. William Shakespeare NOTA TÉCNICA. Adma Figueiredo. Eloisa Domingues. Ivete Rodrigues

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

Diretrizes visando a melhoria de projetos e soluções construtivas na expansão de habitações de interesse social 1

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

PLANIFICAÇÃO CIÊNCIAS NATURAIS (8.º ANO) 2015/2016 Docentes: João Mendes, Madalena Serra e Vanda Messenário

Metodologia de Gerenciamento de Projetos da Justiça Federal

MODELO CMM MATURIDADE DE SOFTWARE

Mesa Redonda 5: Monitoramento de Águas Subterrâneas, Estratégias para Implantação de um Modelo Cooperativo

ARCO - Associação Recreativa dos Correios. Sistema para Gerenciamento de Associações Recreativas Plano de Desenvolvimento de Software Versão <1.

3 Classificação Resumo do algoritmo proposto

ORIENTAÇÕES SOBRE O CONTEÚDO DO PROJETO

1

Gerenciamento de Projetos Modulo VIII Riscos

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Missão. Objetivos Específicos

BOA GOVERNANÇA PARA GESTÃO SUSTENTÁVEL DAS ÁGUAS URBANAS PROGRAMA DRENURBS

Aumente sua velocidade e flexibilidade com a implantação da nuvem gerenciada de software da SAP

Profissionais de Alta Performance

PLANEJAMENTO URBANO E DE TRANSPORTES BASEADO EM CENÁRIO DE MOBILIDADE SUSTENTÁVEL O CASO DE UBERLÂNDIA, MG, BRASIL

Indicadores Gerais para a Avaliação Inclusiva

O Sistema de Monitoramento Hidrológico dos Reservatórios Hidrelétricos Brasileiros

Prof. Dr. Guanis de Barros Vilela Junior

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

GIRH como Ferramenta de Adaptação às Mudanças Climáticas. Adaptação em Gestão das Águas

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Abordagem de Processo: conceitos e diretrizes para sua implementação

Gerenciamento de projetos.

ALESSANDRO PEREIRA DOS REIS PAULO CESAR CASTRO DE ALMEIDA ENGENHARIA DE SOFTWARE - CAPABILITY MATURITY MODEL INTEGRATION (CMMI)

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Como vai a Governança de TI no Brasil? Resultados de pesquisa com 652 profissionais

POLÍTICA DE GEOPROCESSAMENTO DA ELETROSUL

RELATÓRIO TÉCNICO GESOL Nº 19/2009

EDITAL CHAMADA DE CASOS

Gerenciamento de Riscos do Projeto Eventos Adversos

Elaboração e Gestão de Projetos Educacionais

Gerenciamento de Drenagem de Mina. Soluções e Tecnologias Avançadas.

ELABORAÇÃO DE PROJETOS

Métodos qualitativos: Pesquisa-Ação

3 Metodologia para Segmentação do Mercado Bancário

ANEXO X DIAGNÓSTICO GERAL

Atlas Digital de MINAS GERAIS 1 de 5

Análise e Projeto Orientados por Objetos

2.1 Os projetos que demonstrarem resultados (quádrupla meta) serão compartilhados na Convenção Nacional.

TERMO DE REFERÊNCIA (TR) GAUD VAGA

Tema I: Abastecimento de Água

REÚSO DE ÁGUA NO SISTEMA DE PRÉ-TRATAMENTO E CATAFORESE NO PROCESSO DE PINTURA AUTOMOTIVA

SISTEMA DE CÁLCULO DA QUALIDADE DA ÁGUA (SCQA) Estabelecimento das Equações do índice de Qualidade das Águas (IQA)

CURSO DE ESPECIALIZAÇÃO EM GESTÃO AMBIENTAL

Estudo da Delimitação por MDE de Ottobacias de Cursos de Água da Sub-Bacia 63 Visando o Cálculo de Perímetro e Área de Drenagem

INVENTÁRIO DAS FONTES POLUIDORAS/CONTAMINANTES DOS RECURSOS VIVOS MARINHOS DO BRASIL

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

CURSO: GESTÃO AMBIENTAL

RELACÃO CANDIDATOS E VAGAS NO VESTIBULAR PARA O CURSO DE ADMINISTRAÇÃO EM AGRONEGÓCIOS DE 2007/1 A 2010/2 - UNEMAT/ CUTS

SERVIÇO PÚBLICO FEDERAL UNIVERSIDADE FEDERAL DA PARAÍBA CONSELHO SUPERIOR DE ENSINO, PESQUISA E EXTENSÃO

Adriano Marum Rômulo. Uma Investigação sobre a Gerência de Projetos de Desenvolvimento de Software em Órgãos do Governo do Ceará com Base no MPS-BR

GEOGRAFIA. transformadas

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

ANEXO 2 - INDICADORES EDUCACIONAIS 1

Mudanças Cimáticas Globais e Biodiversidade Aquática. Odete Rocha. Departamento de Ecologia Universidade Federal de São Carlos

GUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas

Portal de Memória Técnica

Capacitação do Núcleo de Evidências em Saúde / Estação BVS da ESP / SES -MG em

Transcrição:

1

2 Dados Internacionais de Catalogação-na-Publicação (CIP) Divisão de Informação e Documentação Tannús, Marcos Bartasson Aquisição de Conhecimento de Bases de Dados para Redimensionamento da Rede de Monitoramento da Qualidade das Águas Superficiais da Bacia do Rio das Velhas / Marcos Bartasson Tannús. São José dos Campos, 2014. 85f. Dissertação de mestrado profissional Curso de Mestrado Profissional em Engenharia de Produção Instituto Tecnológico de Aeronáutica, 2014. Orientador: Prof. Dr. Rodrigo Arnaldo Scarpel. 1. Knowledge Discovery Databases. 2. Mineração de Dados. 3. Rede de Monitoramento da Qualidade da Água. I. Instituto Tecnológico de Aeronáutica. II. Aquisição de Conhecimento de Bases de Dados para Redimensionamento da Rede de Monitoramento da Qualidade das Águas Superficiais da Bacia do Rio das Velhas. REFERÊNCIA BIBLIOGRÁFICA TANNÚS, Marcos Bartasson. Aquisição de Conhecimento de Bases de Dados para Redimensionamento da Rede de Monitoramento da Qualidade das Águas Superficiais da Bacia do Rio das Velhas. 2014. 85f. Dissertação de Mestrado Profissional em Engenharia de Produção Instituto Tecnológico de Aeronáutica, São José dos Campos. CESSÃO DE DIREITOS NOME DO AUTOR: Marcos Bartasson Tannús TÍTULO DO TRABALHO: Aquisição de Conhecimento de Bases de Dados para Redimensionamento da Rede de Monitoramento da Qualidade das Águas Superficiais da Bacia do Rio das Velhas. TIPO DO TRABALHO/ANO: Dissertação / 2014 É concedida ao Instituto Tecnológico de Aeronáutica permissão para reproduzir cópias desta dissertação e para emprestar ou vender cópias somente para propósitos acadêmicos e científicos. O autor reserva outros direitos de publicação e nenhuma parte desta dissertação pode ser reproduzida sem a sua autorização (do autor). Marcos Bartasson Tannús Rua Oscar Trompowsky, 1221/801 CEP 30.441-123 Belo Horizonte MG

iii AQUISIÇÃO DE CONHECIMENTO DE BASES DE DADOS PARA REDIMENSIONAMENTO DA REDE DE MONITORAMENTO DA QUALIDADE DAS ÁGUAS SUPERFICIAIS DA BACIA DO RIO DAS VELHAS Marcos Bartasson Tannús Composição da Banca Examinadora: Prof. Dr. Rodrigo Arnaldo Scarpel Orientador - ITA Prof. Dra. Denise Beatriz Ferrari ITA Dr. Flavio Edmundo Novaes Hegenberg UniFOA ITA

À minha esposa Maria Cristina, aos meus pais Antônio e Ilka e ao meu irmão João Carlos. iv

v Agradecimentos Ao Prof. Rodrigo Scarpel pela orientação dedicada e sempre assertiva. Aos amigos do Instituto Senai de Tecnologia em Meio Ambiente pelas discussões que muito enriqueceram o nosso trabalho. Aos amigos da Turma 1 do MPEP pelo companheirismo e compartilhamento de experiências. Ao Serviço Nacional de Aprendizagem Industrial (SENAI) por ter propiciado esta oportunidade de capacitação. Aos professores do MPEP pelo apoio e incentivo. Ao Instituto Mineiro de Gestão das Águas (IGAM), à Fundação de Amparo à Pesquisa do Estado de Minas Gerais (FAPEMIG), à Companhia Energética de Minas Gerais (CEMIG) e à Agência Nacional de Energia Elétrica (ANEEL) pela disponibilização de informações imprescindíveis para o presente estudo.

vi RESUMO O monitoramento da qualidade das águas superficiais é um importante instrumento para a avaliação das condições ambientais de determinado curso d água ou região, permitindo, pela interpretação de seus resultados, avaliar a eficácia das políticas públicas de controle ambiental. A operação de uma rede de monitoramento com elevado número de estações de coleta e determinação de dezenas de parâmetros físico-químicos e biológicos é bastante onerosa e requer uma logística complexa a ser implementada por uma equipe multidisciplinar (químicos, biólogos, geólogos, técnicos coletores, técnicos de laboratório, entre outros). Pela importância, custo e complexidade, é constante a discussão sobre procedimentos de otimização de redes de monitoramento da qualidade das águas. O presente estudo contribui com esta discussão ao empregar os procedimentos do processo Knowledge Discovery in Databases KDD, associado à conceituação de ecorregiões aquáticas, na avaliação das informações obtidas com a operação da rede de monitoramento da qualidade das águas superficiais da bacia do rio das Velhas, Estado de Minas Gerais. A análise contemplou uma base de dados pré-processada composta por 113 estações de amostragem, toda elas com informações de 17 parâmetros físico-químicos e biológicos, determinados em campo e laboratório, representativos da sazonalidade climática da região em foco (períodos de cheia e seca) no período de 2007-2013. Seguindo todas as etapas do processo KDD, entre elas a aplicação de um algoritmo de mineração de dados para identificação de padrões (agrupamentos por similaridade) e interpretação dos padrões pautada na tipificação de aspectos físicos (litologia e altitude) da bacia, foi possível estabelecer a recomendação de desativação de 23 estações de amostragem localizadas ao longo do rio das Velhas e seus tributários.

vii ABSTRACT The monitoring of surface water quality is an important tool for the assessment of environmental conditions for a specific watercourse or region, allowing analysis of the results to support environmental control public policies. The water quality monitoring operation network involves a large number of data sampling stations and dozens of physical, chemical and biological parameters. This involves an expensive and complex logistic system that requires to be implemented by multidisciplinary technical staff (chemists, biologists, geologists, sample collectors, lab technicians, etc.). Take into account cost and complexity factors, the optimization procedures for water quality monitoring network has been extensively studied. The aim of this study is to optimize quality monitoring network by Knowledge Discovery in Databases (KDD) procedure associated with aquatic ecoregions monitoring concept. Data collected by the surface water quality monitoring network of the Velhas river basin, in Minas Gerais State, Brazil, was analysed. The data analysis included a preprocessing database of 113 data collection stations, 17 physico-chemical and biological parameters (determined at laboratory and field), which represented the region (concerning flood and drought periods), for the 2007-2013 period. Following KDD steps, using data mining algorithm application, identifying standards behavior (grouping by similarity), and pattern identification guided by the physical typologies (lithology and altitude) of the basin, it was possible to perform water quality monitoring network optimization. The data pattern analysis concluded that it was possible to establish the recommendation to shutdown 23 data sampling stations along the Velhas river and its tributaries.

viii Lista de Figuras Figura 2.1 Rede Básica do monitoramento das águas superficiais do Estado de Minas Gerais. Figura 2.2 Representação das etapas constituintes do processo KDD. Figura 2.3 Ecorregiões aquáticas abrangidas pelo Estado de Minas Gerais. Figura 3.1 Divisão político-administrativa e trechos da bacia do rio das Velhas. Figura 3.2 Série histórica das precipitações mensais (período janeiro/2007 a dezembro/2013) registradas pela Estação 83857 do INMET (Belo Horizonte). Figura 3.3 Síntese geológica da bacia do rio das Velhas. Figura 3.4 Distribuição de classes altimétricas na bacia do rio das Velhas. Figura 3.5 Tipificação da bacia do rio das Velhas conforme AQEM (2002). Figura 3.6 Etapas da aplicação do processo KDD. Figura 3.7 Estações das Redes Dirigida e Básica da bacia do rio das Velhas. Figura 3.8 Espacialização das estações de amostragem componentes da base de dados préprocessada da bacia do rio das Velhas. Figura 4.1 Dendograma da similaridade das estações de amostragem da bacia do rio das Velhas gerado pelo software R. Figura 4.2 Espacialização dos clusters e classes de tipificação da bacia do rio das Velhas.

ix Lista de Tabelas Tabela 2.1 Compatibilidade das campanhas do Projeto Águas de Minas com o ciclo hidrológico. Tabela 3.1 Características gerais da bacia do rio das Velhas. Tabela 4.1 Possibilidades de exclusão de estações.

x Lista de Abreviaturas e Siglas ANA ANEEL AQEM CEMIG CETEC CITSF CT CT-HIDRO CERH DNAEE FAPEMIG FEAM FIEMG IET IGAM IQA KDD MCT MDE MMA SENAI SIG SRTM Agência Nacional de Águas Agência Nacional de Energia Elétrica Integrated Assessment System for the Ecological Quality of Streams and Rivers throughout Europe using Benthic Macroinvertebrates Companhia Energética de Minas Gerais Fundação Centro Tecnológico de Minas Gerais Centro de Inovação e Tecnologia SENAI FIEMG Contaminação por Tóxicos Fundo Setorial de Recursos Hídricos Conselho Estadual de Recursos Hídricos de Minas Gerais Departamento Nacional de Águas e Energia Elétrica Fundação de Amparo a Pesquisa do Estado de Minas Gerais Fundação Estadual do Meio Ambiente Federação das Indústrias do Estado de Minas Gerais Índice de Estado Trófico Instituto Mineiro de Gestão das Águas Índice de Qualidade da Água Knowledge Discovery in Databases Ministério de Ciência e Tecnologia Modelo Digital de Elevação Ministério do Meio Ambiente e Desenvolvimento Sustentável Serviço Nacional de Aprendizagem Industrial Sistema de Informações Geográficas Shuttle Radar Topograph Mission

xi Sumário 1. INTRODUÇÃO... 12 1.1 MOTIVAÇÃO... 14 1.2 OBJETIVO... 14 1.3 JUSTIFICATIVA... 15 1.4 ESTRUTURA DO TEXTO... 15 2. REFERENCIAL TEÓRICO... 17 2.1 MONITORAMENTO DA QUALIDADE DAS ÁGUAS SUPERFICIAIS... 17 2.2 DIMENSIONAMENTO DE REDES DE MONITORAMENTO... 21 2.3 O PROCESSO KDD KNOWLEDGE DISCOVERY IN DATABASES... 25 2.4 ANÁLISE DE AGRUPAMENTOS... 29 2.5 ECORREGIÕES AQUÁTICAS E SUAS TIPIFICAÇÕES... 33 3. MATERIAIS E MÉTODOS... 37 3.1 A BACIA DO RIO DAS VELHAS E SUA TIPIFICAÇÃO NO CONTEXTO DE ECORREGIÃO AQUÁTICA... 37 3.2 APLICAÇÃO DO PROCESSO KDD... 47 3.2.1 BASE DE DADOS DO MONITORAMENTO DA QUALIDADE DAS ÁGUAS SUPERFICIAIS DA BACIA DO RIO DAS VELHAS... 47 3.2.2 PRÉ-PROCESSAMENTO DA BASE DE DADOS DO MONITORAMENTO DA QUALIDADE DAS ÁGUAS SUPERFICIAIS DA BACIA DO RIO DAS VELHAS. 49 3.2.3 TRANSFORMAÇÃO E MINERAÇÃO DE DADOS... 56 4. RESULTADOS E DISCUSSÃO... 58 5. CONCLUSÕES... 69 REFERÊNCIAS... 71 APÊNDICE A Tabela A.1 Base de dados pré-processada - valores médios dos dados de cheia para o período 2007-2013. Tabela A.2 Base de dados pré-processada valores médios dos dados de seca para o período 2007-2013.

12 1. INTRODUÇÃO O monitoramento da qualidade das águas naturais representa um conjunto de práticas de coletas de dados e amostras de água em locais específicos, em intervalos regulares de tempo, visando o acompanhamento das alterações nas características físicas, químicas e biológicas da água, decorrentes de atividades antrópicas e de fenômenos naturais (ANA, 2014). Sanders et al. (2003) definem o monitoramento da qualidade da água como sendo o esforço para a obtenção de informações quantitativas das características físicas, químicas e biológicas da água por meio de amostragem estatística. Os trabalhos de monitoramento da qualidade das águas superficiais do Estado de Minas Gerais remontam à década de setenta do século passado, quando o Departamento Nacional de Águas e Energia Elétrica (DNAEE) implantou uma rede de estações de amostragem nas principais bacias hidrográficas abrangidas pelo território mineiro. Ainda nessa década de setenta, a Fundação Centro Tecnológico de Minas Gerais (CETEC) conduziu o monitoramento nas bacias dos rios das Velhas, Paraopeba e Paraíba do Sul, interrompido no final da década de oitenta. Em 1993, a Fundação Estadual do Meio Ambiente (FEAM) reativou o monitoramento das bacias dos rios das Velhas e Paraopeba. Essas bacias eram consideradas críticas em razão do elevado grau de desenvolvimento socioeconômico da Região Metropolitana de Belo Horizonte. Em 1997, a partir de um convênio com o Ministério de Meio Ambiente (MMA), a FEAM implanta o Projeto Águas de Minas e estende o monitoramento às oito principais bacias hidrográficas mineiras, representando um marco na geração de informações sobre o estado de preservação e das necessidades de melhorias das condições ambientais das águas superficiais em Minas Gerais (ALMEIDA, 2013). A partir de 2001 esse projeto passou a ser coordenado pelo Instituto Mineiro de Gestão das Águas (IGAM).

13 O Projeto Águas de Minas tem por objetivo o levantamento de informações sobre a qualidade das águas para subsidiar a definição de políticas regionais e setoriais para a preservação e melhoria das condições ambientais do Estado de Minas Gerais. A rede de monitoramento vem sendo ampliada gradativamente em razão da necessidade de melhor avaliar as pressões ambientais decorrentes das atividades antrópicas. A totalidade das estações de amostragem em Minas Gerais é agrupada em duas redes de monitoramento: Rede Básica e Rede Dirigida. A operação dessas redes coleta das amostras e determinações de parâmetros físico-químicos e biológicos em campo e laboratório está a cargo do Centro de Inovação e Tecnologia SENAI FIEMG (CITSF), sob contrato com o IGAM. O monitoramento da Rede Básica segue a configuração de monitoramento básico adotado pela Agência Nacional das Águas (ANA), ou seja, busca avaliar a evolução da qualidade das águas e a identificação de tendências em locais estratégicos, acompanhando ciclos hidrológicos com uma frequência mínima trimestral até uma frequência mensal (ANA, 2014). Também seguindo a proposição da ANA, os parâmetros monitorados pela Rede Básica estão relacionados com o tipo de uso e ocupação da bacia contribuinte à estação e com os objetivos da rede. Os resultados obtidos como o monitoramento da Rede Básica tem permitido a identificação de locais onde é necessário um maior detalhamento em relação aos parâmetros a serem determinados e à periodicidade das campanhas de amostragem. Assim, em regiões onde são dominantes as pressões ambientais decorrentes de atividades industriais, minerárias e de infraestrutura, são operadas redes de monitoramento específicas para cada tipo de pressão antrópica, as quais são denominadas Redes Dirigidas (ALMEIDA, 2013).

14 1.1 MOTIVAÇÃO Para se avaliar a dinâmica das alterações ambientais decorrentes das ações antrópicas e de fenômenos naturais que impactam os recursos hídricos, diversos órgãos públicos e empresas privadas desenvolvem amplos projetos de monitoramento da qualidade da água. Como exemplo, tem-se o Programa Nacional de Avaliação da Qualidade das Águas desenvolvido pela ANA e o Projeto Águas de Minas, implementado pelo IGAM. Os monitoramentos para avaliação da qualidade das águas superficiais demandam constantes avaliações sobre o arranjo adequado das estações de amostragem, a periodicidade de amostragem e os parâmetros a serem determinados. De um modo geral, as discussões estão centradas em como obter melhores informações para a gestão dos recursos hídricos tendo em vista os recursos técnicos e financeiros disponíveis. Neste contexto, torna-se imprescindível uma interpretação da expressiva carga de dados gerada com os monitoramentos em curso, alguns com séries históricas de décadas, com o intuito de avaliar se os resultados analíticos conduzem ou repetem, sistematicamente, uma condição de qualidade ambiental que poderia ser identificada com segurança a partir de um esforço amostral menor, com consequente redução dos dispêndios financeiros. Considera-se que o presente estudo, ao focar a similaridade de resultados obtidos em diferentes estações de amostragem, trará uma contribuição para o melhor balizamento técnico do debate em curso. 1.2 OBJETIVO Este trabalho tem por objetivo avaliar a existência de similaridade nos dados analíticos obtidos com a operação da rede de monitoramento da qualidade das águas superficiais da

15 bacia do rio das Velhas, no Estado de Minas Gerais, empregando o processo KDD (Knowledge Discovery in Databases), conjuntamente com análise de classes de tipificação de ecorregiões aquáticas, com o intuito de verificar a possibilidade de reduzir o número de estações de amostragem. 1.3 JUSTIFICATIVA A adoção do processo KDD nesta proposição de otimização da rede de monitoramento da qualidade das águas superficiais da bacia do rio das Velhas se pauta pela ênfase desta técnica na busca por padrões compreensíveis em bases de dados que podem ser interpretados como conhecimento útil. Ao considerar o processo global de descoberta de conhecimento de dados, o KDD contempla a forma como os dados são armazenados e acessados, como os algoritmos podem ser dimensionados para conjuntos de dados robustos e como os resultados podem ser interpretados e visualizados, toda esta abordagem realizada em um ambiente interativo com usuário que valoriza o conhecimento prévio sobre o tema em análise (FAYYAD et al., 1996). Esta interatividade na interpretação dos resultados será facilitada e suportada pela confrontação dos padrões obtidos com as classes de tipificação de ecorregiões aquáticas (AQEM, 2002). 1.4 ESTRUTURA DO TEXTO Na Seção 2.1 são apresentadas as considerações gerais sobre as redes de monitoramento da qualidade das águas superficiais, enfatizando seus objetivos e práticas, seguidas por uma abordagem específica sobre o monitoramento da qualidade da água no

16 Estado de Minas Gerais, tipos de redes, número de estações, periodicidade das coletas, parâmetros que são determinados e formas de divulgação dos resultados (índices de qualidade). Na Seção 2.2 são relatados os métodos correntes de dimensionamento de redes de monitoramento e discutidos alguns estudos concernentes ao redimensionamento da rede de monitoramento da qualidade da água na bacia do rio das Velhas. A Seção 2.3 apresenta uma discussão sobre o processo KDD, sua conceituação e suas etapas, seguida por uma abordagem específica sobre a etapa de mineração de dados. Na Seção 2.4 é apresentado o método de formação de agrupamentos hierárquicos. A Seção 2.5 discorre sobre o avanço na conceituação de ecorregiões aquáticas, suas formas de tipificação e a adoção do conceito na condução de políticas públicas de recursos hídricos no país e no exterior. Na Seção 3.1 é apresentada uma caracterização dos aspectos físicos e socioeconômicos da bacia do rio das Velhas e discutida sua tipificação. Na Seção 3.2 são discutidas as etapas de aplicação do processo KDD, apresentando a base de dados do monitoramento da qualidade das águas superficiais da bacia do rio das Velhas, as atividades de pré-processamento da base de dados e seus resultados, seguida pela descrição dos procedimentos empreendidos para a transformação dos dados e aplicação de algoritmo de mineração de dados. Na Seção 4 são descritas as etapas finais da aplicação do processo KDD, apresentando os resultados do método de mineração de dados empregado e a interpretação dos mesmos frente à tipificação da bacia do rio das Velhas. A Seção 5 apresenta as conclusões do estudo.

17 2. REFERENCIAL TEÓRICO A seguir são abordados os tópicos considerados de grande importância para o melhor entendimento deste trabalho, sendo eles: o monitoramento da qualidade das águas superficiais, suas especificidades e aplicações; as técnicas correntes de otimização de redes de monitoramento da qualidade das águas superficiais; os recursos da técnica KDD, discorrendo sobre suas etapas; a análise de agrupamentos; a conceituação de ecorregiões aquáticas e suas tipificações. 2.1 MONITORAMENTO DA QUALIDADE DAS ÁGUAS SUPERFICIAIS A Rede Básica do monitoramento da qualidade das águas superficiais do Estado de Minas Gerais em 2013 contava com 544 estações de amostragem distribuídas nas bacias hidrográficas dos rios São Francisco, Grande, Doce, Paranaíba, Paraíba do Sul, Mucuri, Jequitinhonha, Pardo, Buranhém, Itapemirim, Itabapoana, Itanhém, Itaúnas, Jucuruçu, Peruípe, São Mateus e Piracicaba/Jaguari (Figura 2.1), traduzindo uma densidade de 0,93 estações de amostragem para cada 10.000 km 2 (IGAM, 2014). A Rede Dirigida contava em 2013 com 44 estações. A operação da Rede Básica de monitoramento do Projeto Águas de Minas compreende a execução anual de quatro campanhas, ou seja, possui uma periodicidade trimestral. Esta periodicidade permite bem representar o ano hidrológico da região sudeste, como apresentado na Tabela 2.1. A operação das Redes Dirigidas apresenta periodicidade desde semestral a mensal.

18 Fonte: Igam (2014). Figura 2.1 Rede Básica do monitoramento das águas superficiais do Estado de Minas Gerais.

19 Tabela 2.1 Compatibilidade das campanhas do Projeto Águas de Minas com o ciclo hidrológico. Campanha Período de Execução Período Hidrológico 1ª Janeiro-Fevereiro-Março Cheia 2ª Abril-Maio-Junho Vazante 3ª Julho-Agosto-Setembro Seca 4ª Outubro-Novembro-Dezembro Enchente No âmbito do Projeto Águas de Minas, os dados gerados com a realização das coletas de amostras de água nas diversas estações e determinação in loco e em laboratório de mais de 40 parâmetros físico-químicos e biológicos são tratados pela equipe técnica do IGAM e disponibilizados para a sociedade em geral por meio da divulgação do Índice de Qualidade das Águas (IQA), que reflete a poluição em decorrência da matéria orgânica e fecal, sólidos e nutrientes, e pelo indicador de Contaminação por Tóxicos (CT), que se refere à contaminação por substâncias tóxicas como chumbo, nitrogênio e fenóis. Desenvolvido em 1970 pela instituição americana National Sanitation Foundation (NSF), o IQA é um índice aceito internacionalmente para avaliar o impacto do lançamento de esgotos sanitários e outros materiais orgânicos, nutrientes e sólidos. Ele reúne em um único resultado os valores de nove parâmetros considerados mais representativos para a caracterização da qualidade das águas, sendo eles: Oxigênio dissolvido ; ph in loco (unidade de ph); Coliformes termotolerantes (NMP/100 ml); Temperatura da água (ºC); Fósforo total ; Nitrato (mg N/L);

20 Sólidos totais, 103-105ºC ; Turbidez (NTU); Demanda Bioquímica de Oxigênio. A Contaminação por Tóxicos (CT) avalia a presença de 13 substâncias tóxicas nos corpos de água, sendo elas: Arsênio total ; Bário total ; Cádmio total ; Chumbo total ; Cianeto livre ; Cobre dissolvido ; Cromo total ; Fenóis totais ; Mercúrio total (µg/l); Nitrito (mg N/L); Nitrato (mg N/L); Nitrogênio amoniacal total (mg N/L); Zinco total. Além do IQA e do CT, o IGAM também avalia o Índice de Estado Trófico (IET), Densidade de Cianobactérias e Ensaios de Ecotoxicidade, sendo que os dois últimos são realizados apenas em algumas estações específicas.

21 2.2 DIMENSIONAMENTO DE REDES DE MONITORAMENTO ANA (2014) recomenda que tanto a localização das estações quanto os parâmetros monitorados devem ser reavaliados periodicamente. Almeida (2013) discute diversos métodos que podem ser empregados para otimização ou redimensionamento de redes de monitoramento, agrupando-os da seguinte forma: Redimensionamento de redes de monitoramento utilizando análises estatísticas; Redimensionamento de redes de monitoramento utilizando análises geoestatísticas e SIG; Redimensionamento de redes de monitoramento utilizando entropia. A operação de um programa de monitoramento da qualidade da água gera uma expressiva carga de informações quantitativas das características físicas, químicas e biológicas dos cursos d água considerados. Comumente, são aplicadas técnicas de análise estatística multivariada para avaliar os dados gerados, sendo as mais usuais: análise fatorial, análise de componentes principais, análise de agrupamento hierárquico, análises discriminantes e redes neurais. Diversos autores têm aplicado técnicas estatísticas na proposição de agrupamentos de estações de monitoramento ou na correlação de parâmetros analíticos. França et al. (2009) realizaram a análise multivariada dos dados de monitoramento da qualidade da água da bacia do Alto Iguaçu, empregando a técnica de análise fatorial, onde buscando identificar quais parâmetros seriam mais relevantes para a caracterização do estado qualitativo do corpo hídrico, observaram uma interação entre a degradação da matéria orgânica e a dinâmica de transporte de sólidos. Ao analisarem os pontos de amostragem, identificaram três pontos considerados relevantes para a avaliação do estado qualitativo da água da bacia do Alto Iguaçu.

22 Trindade (2013) aplicou técnicas de análise de cluster, análise de componentes principais e análise fatorial para abordar os dados de monitoramento da qualidade das águas superficiais da porção mineira da bacia do rio São Francisco com o objetivo de identificação e avaliação espaço-temporal da bacia mais impactada. A autora observou que a bacia do rio das Velhas era a mais impactada em toda a bacia do rio São Francisco. Sabino et al. (2008) analisaram os dados relativos a 18 pontos de coleta de água, ao longo do rio Paraopeba (MG), com determinações de 41 parâmetros químicos e bacteriológicos. A redução dos dados pela análise por componentes principais resultou em oito componentes, com autovalores maiores que 1, os quais explicam 75% da variância total. A maior parte da variabilidade e os oito componentes puderam ser usados para indicar o processo hidrodinâmico que controla a qualidade das águas. Considerando o contexto regional da abordagem e a proximidade de propósito com o presente estudo, cabe destacar o trabalho de Nonato et al. (2007). Esses autores conduziram um estudo considerando uma rede de amostragem abrangendo o alto curso do rio das Velhas, composta por 30 estações operadas pela Companhia de Saneamento de Minas Gerais e pelo Projeto Águas de Minas, com frequências de amostragem mensal, para cursos que drenam áreas reconhecidamente impactadas, e trimestrais para as demais estações. Os dados analisados representavam 39 parâmetros físico-químicos monitorados nas 37 estações de amostragem ao longo da bacia do alto curso do rio das Velhas. A técnica de agrupamento hierárquico, combinada com a análise de componentes principais e a avaliação de gráficos de dispersão entre estações foram utilizadas com a finalidade de avaliar as similaridades das estações de amostragem e parâmetros monitorados. Nesse trabalho, a distância Euclidiana foi calculada na matriz das medianas ranqueadas das estações e como técnica hierárquica aglomerativa foi utilizado o método de Ward. Complementarmente às medidas de distância, a medida de similaridade também foi utilizada na construção de um dendograma. Nonato et al.

23 (2007) concluíram que o tratamento estatístico dos dados do monitoramento da qualidade da água na região do alto curso do rio das Velhas mostrou que apenas 22 parâmetros de qualidade descrevem as 4 componentes principais mais importantes, explicando 80% da variabilidade dos dados. Os autores também observaram a correlação entre pares de algumas estações da Rede Dirigida para o abastecimento, o que recomenda a eliminação de uma das estações correlacionadas, reduzindo o número de estações nesse grupo em futuro monitoramento. A adoção de técnicas de Sistema de Informação Geográfica (SIG) no dimensionamento ou redimensionamento de redes de monitoramento favorece a delimitação de seus limites físicos e o georreferenciamento de informações diversas da bacia em análise, tais como: aspectos hidrológicos, substrato rochoso, modelado do relevo (por exemplo, modelagem digital de elevação) e uso da terra, entre outros. Por vezes, são observados estudos conjugando técnicas de sensoriamento remoto e SIG na avaliação de parâmetros da qualidade das águas superficiais. Usali e Ismail (2010), ao avaliar parâmetros tais como sólidos em suspensão, concentração de fitoplâncton e turbidez a partir de suas reflectâncias, expressam que no futuro a solução de questões de qualidade da água poderá ser encontrada rapidamente empregando tais tecnologias para o gerenciamento sustentável dos recursos hídricos. A aplicação do conceito de entropia na otimização de redes de monitoramento está embasada na Teoria da Informação (SHANNON, 1948). Shannon e Weaver (1962) perceberam uma relação entre entropia e informação e propuseram um tratamento análogo entre os conceitos de informação transmitida e de entropia aplicável às séries de dados. Ao aplicar o conceito de entropia no redimensionamento das redes de monitoramento dos rios Fox (Winconsin, EUA) e Piracicaba (São Paulo, Brasil), Soares (2001) considera que a associação de estações de monitoramento para fins de redimensionamento baseia-se no

24 critério de que esta associação produzirá o menor transporte de informações, ou seja, quanto mais estas estações produzirem informações independentes umas das outras, menor será a informação comum entre elas e isto caracterizará a importância da informação da estação de monitoramento considerada. O transporte de informação representa a quantidade de informação redundante no conjunto ou na associação das informações obtidas com as estações consideradas na rede em questão. Quando os processos são independentes em cada estação, ou seja, a informação produzida só depende de cada estação em questão, o transporte de informação entre as estações consideradas será zero. Desta forma, a análise do redimensionamento sob o conceito de entropia sempre deverá levar em conta a incerteza da informação produzida em cada estação e a dependência entre as informações produzidas nestas estações. Entre os resultados do trabalho de Soares (2001) estão o desenvolvimento de um aplicativo computacional para a análise e avaliação de desempenho de estações de monitoramento baseado no conceito de entropia e a proposição de uma metodologia de dimensionamento e redimensionamento de redes de monitoramento da qualidade da água. Gontijo Junior e Koide (2012), ao avaliarem os métodos para otimização de redes de monitoramento fluviométrico, consideram que a aplicação de método utilizando o conceito de entropia possibilita alcançar resultados vantajosos com uma menor quantidade de informações sobre a bacia. Almeida (2013) propôs a avaliação da distribuição espacial da rede de monitoramento de qualidade das águas superficiais do rio das Velhas (MG) empregando o método da entropia. A avaliação considerou 19 estações de monitoramento localizadas na calha do rio das Velhas e foi pautada em cinco parâmetros: Coliformes Termotolerantes, Arsênio Total, Fósforo Total, Turbidez e Oxigênio Dissolvido. Nas análises dos dados foi utilizado o programa computacional desenvolvido por Soares (2001), que permite verificar a eficiência dos dados coletados quanto à informação fornecida por cada um deles e estabelecer níveis de

25 prioridade de manutenção das estações na rede de monitoramento. Em razão do programa utilizado analisar apenas cinco estações por vez, com uma série de no máximo 21 dados, tornou-se necessário agrupar as estações em quatro trechos. Tais agrupamentos foram definidos por meio da análise de cluster e validados com a utilização dos testes não paramétricos de Kruskal-Wallis, seguidos pelo teste de comparações múltiplas, ao nível de significância de 5%. A avaliação da distribuição espacial da rede de monitoramento considerou o nível de prioridade de manutenção de suas estações, sendo realizada em duas etapas: uma em função de cada parâmetro individualmente e outra de todos eles conjuntamente. As análises permitiram identificar, considerando a incerteza envolvida, as estações mais importantes na manutenção da rede e aquelas que, em razão de suas classificações, poderiam ser desativadas. Desta forma, pode-se concluir que o método da entropia pode ser uma importante ferramenta de decisão para o redimensionamento de redes de monitoramento. 2.3 O PROCESSO KDD KNOWLEDGE DISCOVERY IN DATABASES O KDD Knowledge Discovery in Databases é um processo de descoberta de conhecimento útil em uma coleção de dados. Fayyad et al. (1996) definem o KDD como sendo um processo não trivial de identificação de padrões válido, original, potencialmente útil e fundamentalmente compreensível em dados. No contexto dessa definição, os citados autores consideram o termo padrão como a expressão de alguma linguagem descrevendo um subconjunto de dados ou um modelo aplicado a este subconjunto. O termo processo implica nas diversas etapas que envolvem a preparação de dados, a procura por padrões, a avaliação de conhecimento e o refinamento e na submissão à sucessivas iterações. O processo é considerado não trivial por ele ir além da computação de quantidades de formas fechadas e

26 envolver pesquisas de estruturas, modelos, padrões e parâmetros. Os padrões descobertos devem ser válidos para novos dados com algum grau de certeza. Os padrões também devem ser originais e potencialmente úteis para o usuário ou tarefa. Por fim, os autores também expressam que os padrões devem ser compreensíveis, se não imediatamente, após alguns processamentos. Fayyad et al. (1996) ressaltam que o processo KDD é interativo e iterativo, com muitas decisões pelo usuário. A Figura 2.2 apresenta uma ilustração das etapas do processo KDD. Fonte: Modificado de Fayyad et al. (1996). Figura 2.2 Representação das etapas constituintes do processo KDD. As etapas do processo KDD são sintetizadas a seguir (FAYYAD et al., 1996): Aprendizagem do domínio da aplicação: inclui o conhecimento prévio e os objetivos da aplicação; Criação de um conjunto de dados alvo: inclui a seleção de um conjunto de dados ou o foco em um subconjunto de variáveis ou amostras de dados sobre o qual a descoberta será executada; Limpeza de dados e pré-processamento: inclui operações básicas tais como remoção de ruído e de outliers se necessário, coleta de informações necessárias para modelar ou justificar ruídos, decidir sobre estratégias para lidar com campos de dados faltantes, explicar sequências temporais de informação e alterações conhecidas, bem como decidir