Árvore de decisão e a densidade mínima de amostras no mapeamento da cobertura da terra



Documentos relacionados
15- Representação Cartográfica - Estudos Temáticos a partir de imagens de Sensoriamento Remoto

Cálculo de volume de objetos utilizando câmeras RGB-D

MAPEAMENTO DE CLASSES INTRAURBANAS NO MUNICÍPIO DE CARAGUATATUBA (SP) UTILIZANDO IMAGENS LANDSAT-5 TM E IMAGEM NDBI

Renzo Joel Flores Ortiz e Ilka Afonso Reis

Sensoriamento Remoto. Características das Imagens Orbitais

10 FÓRUM DE EXTENSÃO E CULTURA DA UEM COMPARAÇÃO DE FUSÃO ENTRE AS IMAGENS DO SATÉLITE RAPID EYE, CBERS E SPOT.

Figura 1: Localização geográfica da área de estudo com a composição colorida do sensor TM (R3, G2 e B1).

Programa Integrado de Monitoria Remota de Fragmentos Florestais e Crescimento Urbano no Rio de Janeiro

SENSORIAMENTO REMOTO NO USO DO SOLO

Comparação entre classificadores por pixel e por região com imagem SPOT-5 para o estado de Minas Gerais

I Encontro Brasileiro de usuários QGIS

FOTOINTERPRETAÇÃO. Interpretação e medidas. Dado qualitativo: lago

Aula 3 - Registro de Imagem

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

ANÁLISE DA TRANSFORMAÇÃO DA PAISAGEM NA REGIÃO DE MACHADO (MG) POR MEIO DE COMPOSIÇÕES COLORIDAS MULTITEMPORAIS

MONITORAMENTO DA TEMPERATURA DE SUPERFÍCIE EM ÁREAS URBANAS UTILIZANDO GEOTECNOLOGIAS

Determinação de data de plantio da cultura da soja no estado do Paraná por meio de composições decendiais de NDVI

Município de Colíder MT

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

UNIVERSIDADE FEDERAL DA BAHIA - UFBA

MAPEAMENTO DA COBERTURA VEGETAL DE ÁREAS DE GRANDE EXTENSÃO ATRAVÉS DE MOSAICOS DE IMAGENS DO NOAA-AVHRR

VARIABILIDADE ESPAÇO TEMPORAL DO IVDN NO MUNICIPIO DE ÁGUAS BELAS-PE COM BASE EM IMAGENS TM LANDSAT 5

C a p í t u l o I V. P r o c e s s a m e n t o d a s I m a g e n s O r b i t a i s d o s S e n s o r e s T M e E T M

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO - UFES CENTRO DE CIÊNCIAS HUMANAS E NATURAIS CCHN DEPARTAMENTO DE GEOGRAFIA DEFESA DE MONOGRAFIA

Geomática e SIGDR aula teórica 23 17/05/11. Sistemas de Detecção Remota Resolução de imagens

MundoGEOXperience - Maratona de Ideias Geográficas 07/05/2014

Geração e Interpretação de Mapas de Produtividade. Laboratório de Agricultura de Precisão II

Aula 3 - Registro de Imagem

Aplicações CBERS na Universidade Federal do Rio Grande do Sul

UNIVERSIDADE DO EXTREMO SUL CATARINENSE. Correção geométrica de imagens

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Global T126 e GFS), executando para ambos os horários (00Z e 12Z), utilizando

Departamento de Engenharia Civil Caixa Postal CEP:88010/970 - Florianópolis, SC {lia, lapolli, franzoni}@ecv.ufsc.br

SISTEMA DE SAÚDE E EXPANSÃO URBANA: ANÁLISE E MAPEAMENTO DO MUNICÍPIO DE LEME/SP

SERVIÇOS ESPECIALIZADOS PARA FORNECIMENTO DE IMAGENS DE SATÉLITE

MAPEAMENTO DAS ÁREAS DE PRESERVAÇÃO PERMANENTE DA BACIA HIDROGRÁFICA DO RIO PAJEÚ-PE. Carlos Tiago Amâncio Rodrigues¹, André Quintão de Almeida²

Costa, B.L. 1 ; Faria, R.A.M²; Marins, L.S.³. ²Universidade do Estado do Rio de Janeiro / Faculdade de Formação de Professores - rfariageo@hotmail.

DISTRIBUIÇÃO DO USO E COBERTURA DA TERRA POR DOMÍNIOS GEOMORFOLÓGICOS NA BACIA HIDROGRÁFICA DO RIO SÃO JOÃO - RIO DE JANEIRO

4. RESULTADOS E DISCUSSÃO. Quadro 11 - Exatidão dos mapeamentos de uso do solo

ESTUDO DE CASO: ÍNDICE DE UMIDADE DO SOLO UTILIZANDO IMAGENS DO SENSOR MODIS PARA O MUNICÍPIO DE BELEM DO SÃO FRANCISCO, PE

UNIVERSIDADE FEDERAL DA PARAÍBA CENTRO DE CIÊNCIAS EXATAS E DA NATUREZA DEPARTAMENTO DE GEOCIÊNCIAS

Ferramentas de sensoriamento remoto e SIG aplicadas ao novo Código Florestal

Processamento de Imagem. Prof. Herondino

AVALIAÇÃO DOS ÍNDICES NDVI, NDBI E NDWI COMO FERRAMENTAS AO MAPEAMENTO DO USO E COBERTURA DA TERRA

SENRORIAMENTO REMOTO E SIG. Aula 1. Prof. Guttemberg Silvino Prof. Francisco das Chagas

Diagnóstico Ambiental do Município de Alta Floresta - MT

Autor: Uriálisson Mattos Queiroz Instituição: Escola de Engenharia Mecânica da Bahia(EEMBA)/IQUALI

4ª aba do cadastro: Mapa Orientações para upload de shapefiles

USO DA TÉCNICA DE ANALISE POR COMPONENTE PRINCIPAL NA DETECÇÃO DE MUDANÇAS NA COBERTURA DO SOLO

Inventário Florestal Nacional IFN-BR

044.ASR.SRE.16 - Princípios Físicos do Sensoriamento Remoto

CLASSIFICAÇÃO DA COBERTURA DA TERRA DE ANGRA DOS REIS RJ, A PARTIR DE ANÁLISE DE IMAGEM BASEADA EM OBJETO E MINERAÇÃO DE DADOS

Flavio Marcelo CONEGLIAN, Rodrigo Antonio LA SCALEA e Selma Regina Aranha RIBEIRO. Universidade Estadual de Ponta Grossa

Comparação entre Variáveis Meteorológicas das Cidades de Fortaleza (CE) e Patos (PB)

AQUISIÇÃO DE IMAGENS DE SATÉLITE DE ALTA RESOLUÇÃO ESPACIAL PARA A REGIÃO DO MUNICÍPIO DE ROSÁRIO DO SUL - RS

Para realizar a avaliação do impacto da aplicação da legislação ambiental nos municípios foram realizadas as seguintes atividades:

PROCESSAMENTO DOS DADOS AVHRR DO SATÉLITE NOAA E APLICAÇÃO SOBRE A REGIÃO SUL DO BRASIL. Leonid Bakst Yoshihiro Yamazaki

Estatísticas do Desmatamento. Amazônia Legal. Outubro de Resumo. Carlos Souza Jr., Adalberto Veríssimo & Sanae Hayashi (Imazon)

Humidade no solo. Departamento de Física 2011 Detecção Remota Pratica III. Joao Gonçalo Ricardo Rodrigues

Relações mais harmoniosas de convívio com a natureza; O mundo como um modelo real que necessita de abstrações para sua descrição; Reconhecimento de

Sistemas de Informação Geográfica (SIG) para Agricultura de Precisão

SISTEMAS DE INFORMAÇÃO GEOGRÁFICA (I)

EXPANSÃO DA SOJA PARA A PORÇÃO NORTE DO BIOMA CERRADO NO ESTADO DO PIAUÍ

Heron Martins, Antônio Fonseca; Carlos Souza Jr.; Márcio Sales & Adalberto Veríssimo (Imazon) RESUMO

Site da disciplina: Site do Laboratório de Geotecnologias Aplicadas:

Classificação de Imagens

Glossário das Camadas do SISTEMA CADEF

Projeto de Redes Neurais e MATLAB

ANÁLISE DE MÉTODOS DE CLASSIFICAÇÃO SUPERVISIONADA APLICADA AO DESMATAMENTO NO MUNICÍPIO DE MARABÁ UTILIZANDO IMAGENS CCD - CBERS

Sistemas Sensores. Introdução

REVISTA DA SOCIEDADE BRASILEIRA DE ARBORIZAÇÃO URBANA, Volume 2, Número 3, 2007.

IMAGENS DE SATÉLITE PROF. MAURO NORMANDO M. BARROS FILHO

Análise comparativa de algoritmos de árvore de decisão do sistema WEKA para classificação do uso e cobertura da terra

Índice de vegetação em clone de seringueira após a desfolha anual Vegetation Index in rubber clone after the annual defoliation

Análise da qualidade de imagens Landsat-1-MSS entre os anos de 1972 e 1975 para o bioma Cerrado

ESTUDO DA EXPANSÃO DO DESMATAMENTO DO BIOMA CERRADO A PARTIR DE CENAS AMOSTRAIS DOS SATÉLITES LANDSAT

ADM041 / EPR806 Sistemas de Informação

Características das Imagens de SAR

5 Extraindo listas de produtos em sites de comércio eletrônico

6 Construção de Cenários

AVALIAÇÃO DAS IMAGENS IRS-P6 EM RELAÇÃO AO PADRÃO DE EXATIDÃO CARTOGRÁFICA. Danielly Garcia Santos¹, Elaine Reis Costa Lima²

Monitoramento de qualidade e quantidade de água superficial em área de reflorestamento de Pinus taeda e Pinus elliottis

Avaliação da ocupação e uso do solo na Região Metropolitana de Goiânia GO.

3 Classificação Resumo do algoritmo proposto

A seguir são apresentadas as etapas metodológicas da Pesquisa CNT de Rodovias.

Área de treinamento mínima para classificação por árvore de decisão. Luis Fernando Chimelo Ruiz 1 Ricardo Simão Diniz Dalmolin 2 Alexandre ten Caten 3

Sensoriamento Remoto

TERMO DE REFERENCIA PARA COMPILAÇÃO E MAPEAMENTO DE IMOVEIS RURAIS

LEVANTAMENTO DO USO DAS TERRAS DO MUNICÍPIO DE SÃO JOÃO DO CARIRI-PB COM BASE EM IMAGENS DO TM/LANDSAT 5

4. RESULTADOS E DISCUSSÃO

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Dados para mapeamento

MODELAGEM DA PRODUÇÃO DE SEDIMENTOS USANDO CENÁRIO AMBIENTAL ALTERNATIVO NA REGIÃO NO NOROESTE DO RIO DE JANEIRO - BRAZIL

Classificação de Imagens de Sensoriamento Remoto usando SVM

MAPEAMENTO DA COBERTURA VEGETAL NA SUB-BACIA DO CÓRREGO PINHEIRINHO/BOTUCATU/SP UTILIZANDO O NDVI

Análise dos Indicadores de Sustentabilidade na Cidade de Serafina Corrêa - RS

MAPA - Orientações. Conteúdo desse documento:

USO DO MATLAB NA GERAÇÃO DE IMAGEM SINTÉTICA COM MENOR PROPORÇÃO DE NUVEM

3 Estado da arte em classificação de imagens de alta resolução

Transcrição:

Ciência Rural, Santa Maria, Árvore v.44, de n.6, decisão p.1001-1007, e a densidade jun, 2014 mínima de amostras no mapeamento da cobertura da terra. ISSN 0103-8478 1001 Árvore de decisão e a densidade mínima de amostras no mapeamento da cobertura da terra Decision tree and minimum sample density in land cover mapping Luis Fernando Chimelo Ruiz I Alexandre ten Caten II Ricardo Simão Diniz Dalmolin III RESUMO A cobertura da terra é uma i nformação espacial de extrema relevância para uma série de modelos, sendo utilizada para estimar a produção de sedimentos e para mensurar a potencialidade da paisagem em sequestrar carbono. A classifi cação da cobertura da terra pelo método de classificação supervisionado necessita de áreas de treino, já que essas áreas devem ser representativas para cada classe de cobertura da terra. Para o algoritmo de classifi cação por árvore de decisão (AD), a complexidade da AD resulta em diferentes valores de acurácias para os mapas temáticos. Desse modo, o objetivo deste estudo foi determinar a densidade mínima de amostras em um modelo por AD, a fi m de discriminar as classes de cobertura da terra e avaliar o tamanho da AD gerada quanto ao seu número de folhas. Além disso, preocupou-se em identifi car as classes da cobertura da terra de mais difícil classifi cação. Nesse contexto, foram utilizadas bandas da imagem do satélite RESOURCESAT-1 e índices espectrais. A densidade mínima de amostras variou entre 0,15 e 0,30% da área total para cada classe. Esse intervalo de amostragem possibilitou resultados melhores que 80% para o índice kappa. O menor agrupamento entre observações em uma mesma folha terminal foi de 45, e as classes mais difíceis de classifi car foram fl oresta e lavoura de arroz, devido à semelhança espectral que as fl orestas sombreadas possuem com as lavouras de arroz irrigadas. Palavras-chave: classificação supervisionada de imagem, mineração de dados, sensoriamento remoto, uso da terra. ABSTRACT Land cover is a spatial information of great relevance for a variety of models for estimating sediment yield and to measure the potential of the landscape carbon sequestration. The classifi cation of land cover by the supervised method requires training areas, these areas must be representative of each class of land cover. For the classifi cation decision tree (DT) algorithm, the complexity of DT, results in different values of accuracies for Recebido 06.03.13 Aprovado 12.11.13 Devolvido pelo autor 10.04.14 CR-2013-0290.R2 thematic maps. Thus, the objective of this study was to estimate the minimum sample density in a DT model which would allow to discriminate land cover classes, evaluate the size of the generated DT model, as well as, identify the more diffi cult land cover class to be mapped. Satellite images from RESOURCESAT-1as well as spectral indices were used in the study. The minimum sample density varied between 0.15 and 0.30% of the total area for each class, this sampling interval allowed better results than 80% for kappa index. The smallest grouping of observations in the same terminal leaf was 45 observations. In this study the most diffi cult land use classes to be mapped were forest and rice crops due to spectral similarity of shaded forests with irrigated rice crops. Key words: supervised image classifi cation, data mining, remote sensing, land use. INTRODUÇÃO Nos últimos 40 anos, houve uma evolução no desenvolvimento de instrumentos que possibilitam a coleta de um grande volume de dados, a exemplo do sensoriamento remoto com plataformas e sensores com crescente ganho em resolução temporal, espacial, radiométrica e espectral. Simultaneamente ao aumento do volume de dados sobre a superfície terrestre, a capacidade de processamento dos computadores e a evolução dos algoritmos de reconhecimento de padrões para a classificação da cobertura da terra tornaram-se também mais sofisticados. Entre os algoritmos mais utilizados, podemos citar redes neurais artificiais (RNA) (FOODY & ARORA, 1997), máquina vetor de suporte (SVM) (CRISTIANINI & SHAWETAYLOR, 2001) e árvore I Programa de Pós-graduação em Sensoriamento Remoto da Universidade Federal do Rio Grande do Sul (UFRGS), Av. Bento Gonçalves, 9500, Campus do Vale, Bairro Agronomia, 91501-970, Porto Alegre, RS, Brasil. E-mail: ruiz.ch@gmail.com. Autor para correspondência. II Departamento de Solos, Universidade Federal de Santa Maria (UFSM), Santa Maria, RS, Brasil. III Departamento de Ciências Biológicas e Veterinárias,Universidade Federal de Santa Catarina (UFSC), Curitibanos, SC, Brasil.

1002 Ruiz et al. de decisão (AD) (FRIEDL & BRODLEY, 1997). Os métodos RNA e SVM exigem um maior tempo de processamento e são considerados caixas pretas, devido à dificuldade encontrada na interpretação dos seus resultados. Os algoritmos de AD apresentam vantagens para a classificação da cobertura da terra, entre elas, podem ser citadas: a facilidade de interpretação dos resultados, o baixo tempo de processamento, a capacidade do modelo trabalhar com dados medidos em distintas escalas, o fato de não demandar distribuição normal do dados e a capacidade em processar as relações não lineares entre os preditores e as classes de cobertura da terra (FRIEDL & BRODLEY, 1997). De acordo com as definições de QUINLAN (1996), o algoritmo AD pode ser entendido como uma hierarquia de nós que são conectados por ramos, uma vez que sua estrutura traduz uma árvore invertida, a qual se desenvolve da raiz para as folhas. O nó de decisão possui um teste para algum atributo, e cada ramo descendente corresponde a um possível valor para esse atributo, sendo a folha relacionada a uma classe. O caminho completo da árvore, que vai da raiz para a folha, determina uma regra de classificação. Estudos demonstraram a eficácia desse classificador em dados de sensoriamento remoto. FRIEDL & BRODLEY (1997) compararam AD com os algoritmos máxima verossimilhança e com a função discriminante linear. Nesse caso, as maiores acurácias foram encontradas para o algoritmo AD. Em trabalho para classificar a cobertura da terra e espécies de vegetação, SASAKI et al. (2012) utilizaram AD por meio da integração de dados do escanner a laser e de imagens de alta resolução, obtendo valores do índice kappa para a classificação superior a 0,97. Na classificação supervisionada, as características dos dados utilizados têm influência na classificação resultante. Fatores como o número de classes e o volume de dados para treinamento dos algoritmos são elementos críticos para a acurácia da classificação da cobertura da terra. Para o método AD, outra relação importante está na complexidade (tamanho) da árvore gerada com seu poder preditivo. Em geral, quanto mais complexa a AD, maior é seu potencial preditivo ( PAL & MATHER, 2003). Por outro lado, AD grandes são de difícil implementação em programas de Sistema de Informação Geográfica. Diante do exposto, este trabalho teve como objetivo: (i) determinar qual a densidade mínima de amostras necessárias para discriminar as classes de cobertura da terra, (ii) avaliar o tamanho da AD gerada quanto ao seu número de folhas; e (iii) identificar as classes de cobertura de difícil classificação. MATERIAL E MÉTODOS Área de estudo A bacia hidrográfica do rio Vacacaí Mirim abrange 1153,47km 2 e está localizada na região central do estado do Rio Grande do Sul, Brasil, entre as coordenadas geográficas 53º 46 30 e 53 49 29 de longitude oeste e 29º 36 55 e 29 39 50 de latitude sul. A geomorfologia do local é caracterizada pelo Planalto Médio, Rebordo do Planalto Sul-Riograndense e pela Depressão Central. Tanto no Planalto Médio como na Depressão Central, predominam áreas de agricultura, com destaque para soja na primeira e arroz irrigado na segunda. Em ambos os locais, foram observadas também áreas de campo e solo exposto. As áreas mais conservadas com presença de Mata Atlântica estão localizadas no Rebordo do Planalto. Ao percorrer a área de estudo em uma fase de reambulação, houve a formulação de um modelo mental da cobertura da terra que guiou as fases seguintes de vetorização dos conjuntos de dados de treinamento e de avaliação. As classes de cobertura da terra estabelecidas foram: campo, lavoura de soja, lavoura de arroz, floresta de Mata Atlântica, solo exposto e água. Dados de sensoriamento remoto Foram utilizados os dados das bandas do sensor LISS III, que estão a bordo da plataforma RESOURCESAT-1. A imagem utilizada foi do dia 12 de fevereiro de 2010, a cena abrange toda a área de estudo, com poucas nuvens e resolução espacial de 23,5 metros. A imagem foi corrigida geometricamente a partir de dez pontos de controle, utilizando a função polinomial de segunda ordem para interpolação espacial, obtendose o erro médio quadrático menor que um pixel. Para reamostragem dos valores dos pixels, foi utilizada a interpolação bilinear. A correção atmosférica da imagem foi efetuada por meio do método de subtração do objeto escuro (CHAVEZ, 1996). Após a aplicação das correções na imagem, foram gerados índices espectrais. Para isso, empregaram-se as bandas espectrais 0,52-0,59μm (verde - VERDE); 0,62-0,68μm (vermelho VERM); 0,77-0,86μm (infravermelho próximo - IVP) e 1,55-1,70μm (infravermelho médio - IVM). Os índices espectrais elaborados foram: Índice de Umidade por Diferença Normalizada para estresse hídrico

Árvore de decisão e a densidade mínima de amostras no mapeamento da cobertura da terra. 1003 (NDWI1) (GAO, 1996), Índice de Umidade por Diferença Normalizada para lâmina d água (NDWI2) (MCFEETERS, 1996), Razão Simples (RS), Índice de Vegetação por Diferença Normalizada (NDVI) (TUCKER, 1979) e Índice de Vegetação ajustado ao Solo (SAVI) (HUETE, 1988). O SAVI possui a constante L, que é um fator de ajuste de substrato do dossel. Neste trabalho, utilizou-se o valor de L=0,5, pois engloba maior variação de condições de vegetação (HUETE, 1988). Árvore de decisão (AD) Dentre os algoritmos de AD disponíveis no programa de mineração de dados Weka v3.6 (HALL et al., 2009), utilizou-se, neste trabalho, o J48. Esse algoritmo realiza a classificação de forma recursiva, dividindo a totalidade do conjunto de dados de treinamento em subconjuntos cada vez mais homogêneos entre si. O algoritmo interrompe o processo de segmentação dos dados até que um nível de semelhança entre as classes finais, previamente determinado pelo usuário, seja atingido. Essas subdivisões dos dados são baseadas em procedimentos estatísticos, considerando-se os erros dos nós e seus descendentes. A identificação da raiz e dos seus descendentes é dada através dos cálculos de entropia e razão do ganho da informação. A entropia avalia a capacidade de previsão de um atributo (ELMASRI & NAVATHE, 2005). Divisão da área de treinamento e geração das AD Com o intuito de gerar os modelos de AD e possibilitar a avaliação da qualidade dos mapas de cobertura da terra gerados, foram coletados dois grupos de dados (amostras) em uma composição de imagem B3G4R5. Ambos os grupos de dados foram gerados por vetorização de seis diferentes classes de cobertura, no programa QGIS 1.7.0, por meio das ferramentas de edição. O primeiro conjunto de dados foi utilizado como treinamento para gerar os modelos de AD. Cada uma das seis classes de cobertura da terra foi amostrada em um total de 5.000 pixels. Como o pixel de trabalho foi de 23,5m, tem-se um total de 552,25m² por pixel. Isso compreende um total de amostras de 16,57km² para cada uma das seis classes de cobertura da terra. O segundo conjunto, com vetorização completamente independente do conjunto de dados de treinamento, foi amostrado para representar os dados de avaliação. Nesse conjunto de dados, foram reunidos 19.497 pixels, perfazendo um total de 10,76km² para as seis classes de cobertura. Visando gerar as diferentes densidades de amostragem, o conjunto de dados de treinamento foi dividido, aleatoriamente, em conjuntos de dados de 250, 500, 750, 1.000, sucessivamente até o conjunto total de 5.000 pixels. Esse agrupamento dos dados em conjuntos de 250 pixels foi definido por meio de avaliações prévias, considerando a quantidade mínima de pixels em que a AD teve seu poder preditivo fortemente deteriorado. Ao todo, geraram-se 20 subgrupos de amostras a serem avaliados. Para cada subgrupo, foi criada uma classificação de imagem, e esse grupo foi confrontado com o conjunto de avaliação. No desenvolvimento dos modelos de AD no programa Weka, foi selecionado verdadeiro para a poda (reducederrorpruning=true), e o número mínimo de amostras (NMA) nas folhas terminais igual a dois (NMA=2). A poda serve para que ramos menos confiáveis sejam removidos. Esses ramos em maior quantidade podem ser decorrentes de ruídos do conjunto de treinamento. O processo de poda produz AD com melhor nível de precisão e menos tempo de processamento (HAN & KAMBER, 2001). Sempre que é feita uma divisão nos dados produzindo uma nova folha na árvore, e essa folha representa menos do que um NMA do conjunto de dados, o nó pai e os seus filhos são compactados em um único nó. Esse processo continua ao longo da criação de toda a árvore. A AD no formato texto, gerada pelo programa Weka, foi convertida para um formato condicional if else a fim de ser implementada no programa SAGA-GIS. Na segunda etapa do estudo, foram avaliados distintos valores de NMA que poderiam ser reunidos em uma folha terminal da AD. Para isso, criaram-se 10 AD em que o NMA informado no programa Weka variou de cinco a 50, com intervalo de cinco em cinco. Esses valores foram escolhidos por compreenderem um intervalo significativo de valores. As novas classificações procedentes dessa etapa foram comparadas com os dados de avaliação. Em cada uma das fases do estudo, a avaliação da qualidade dos mapas gerados foi realizada pelo coeficiente Kappa (CONGALTON, 1991). RESULTADOS E DISCUSSÃO Efeitos do tamanho da área de treinamento e do número mínimo de amostras A complexidade da AD aumenta de acordo com o tamanho da amostragem (Figura 1a). O acréscimo no número de folhas representa a dificuldade de o modelo classificar as classes de cobertura da terra, pois, quanto maior o número de amostras inseridas no algoritmo por AD, mais folhas serão necessárias para encontrar padrões nessas amostras. Isso resultará em maior tempo de processamento e em árvores mais

1004 Ruiz et al. complexas. Por outro lado, o aumento da densidade das amostras proporcionou melhores valores de acurácia (Figura 1b). Em uma análise mais detalhada, percebemos que até em uma amostragem de 2.500 pixels (1,38km 2 e 0,12% do total da área) os valores para o índice kappa foram menores que 50%. Esse comportamento no gráfico pode ser explicado pela semelhança espectral que as classes floresta, campo e lavoura de arroz possuem. Nesse caso, para capturar a variabilidade espectral dessas classes, é necessário um número maior de amostras. Assim, com a classificação utilizando 3.000 (1,66km 2 e 0,14% da área total) pixels por classe, os valores da confiabilidade aumentaram, chegando a mais 90%. Para as demais densidades de amostragem, o índice kappa manteve-se igualmente elevado. Esses resultados indicam haver uma densidade de amostragem mínima que deveria ser seguida em futuros trabalhos, quando AD for aplicada na classificação da cobertura da terra. Resultados semelhantes foram encontrados por PAL & MATHER (2003) no leste da Inglaterra, que utilizaram dados do Landsat ETM + para sete classes de cobertura da terra em uma área de 91,18km 2. Esses autores obtiveram valores de acurácia que variaram de 78.3% a 84.1% para as amostragens que possuíam 100 (0,09km 2 e 0,01% da área total) e 300 (0,27km 2 e 0,30% da área total) pixels por classe. Para amostragens de 350 (0,31km 2 e 0,34% da área total) e 400 (0,36km 2 e 0,39% da área total) pixels, as diferenças de acurácia não foram significativas. Neste trabalho, procurouse determinar a menor área de treinamento possível, sem obter perdas significativas na acurácia. Nesse caso, o tamanho da área de treinamento escolhido foi de 3.500 pixels para cada classe. O total desses pixels abrange uma área de 1,93km 2 e representa 0,17% de toda a área. Essa amostragem obteve o valor de 94,2% de índice kappa e 57 para o número de folhas. A diferença desses valores comparados à amostragem que utilizou 5.000 (2,76km 2 e 0,24% da área total) pixels foi sutil, visto que o valor de acurácia para a amostragem de 5.000 pixels foi de Figura 1 - a) número de folhas em relação ao total de pixels para cada classe, b) valores de índice kappa em relação ao total de pixels para cada classe, c) valores de índice kappa em relação ao NMA, d) número de folhas em relação ao NMA.

Árvore de decisão e a densidade mínima de amostras no mapeamento da cobertura da terra. 1005 94,5%, e o número de folhas foi de 60. A importância de diminuir esses 1.500 pixels pode estar na coleta de amostras para classes que são menos representativas em uma imagem, por exemplo, a classe água. Outra questão está no tempo e custo de aquisição dessas amostras, que se torna mais dispendiosa quando esses dados são levantados a campo. Com isso, foi determinado que a densidade mínima de amostras na classificação da cobertura da terra por AD pode estar entre 0,15% a 0,30% da área total para cada classe. Com os melhores resultados encontrados para a amostragem de 3.500 pixels para cada classe (0,17% da área total), o próximo passo foi submetê-la a diferentes valores de NMA. O primeiro valor informado foi cinco e o último valor foi de 50, variando de cinco em cinco (Figura 1c). A complexidade da AD também está relacionada com o NMA, pois, quanto mais valores das amostras forem agrupados nas folhas terminais, menores serão as AD. Na figura 1d, podem ser avaliados os números de folhas para as AD geradas anteriormente, apresentando a diminuição das folhas para maiores valores do NMA. Para as AD com NMA de cinco e 50, verificou-se uma redução de 42 folhas. Quando analisados seus valores de índice kappa, a diferença foi menos representativa, isto é, de apenas 0,4%. Essa redução de folhas sem grandes perdas da confiança facilita a interpretação da AD resultante e diminui o tempo de processamento. Futuros trabalhos poderão avaliar a classificação por AD em relação ao tamanho da área treinamento com o número de classes da cobertura da terra. Análise da classificação Ao considerar o número de folhas em Figura 2 - a) AD escolhida no estudo b) imagem classificada por meio da árvore de decisão escolhida. Sistema de coordenada UTM, fuso 22, datum SIRGAS2000.

1006 Ruiz et al. relação ao índice kappa, a AD mais vantajosa neste estudo foi a gerada com 3.500 pixels e o NMA igual a 45. O atributo preditivo que forneceu a maior redução na entropia foi o NDVI, sendo escolhido como raiz da árvore (Figura 2a). As classes mais difíceis de classificar foram áreas de floresta e áreas de arroz irrigado, possivelmente, devido à semelhança espectral que áreas de floresta sombreadas possuem com as áreas úmidas de arroz irrigado, necessitando de mais folhas para classificá-las. Na figura 2a, pode ser visualizada a AD utilizada para a classificação da cobertura da terra na área de estudo. A partir dela, observou-se que as classes floresta e lavouras de arroz resultaram no maior número de folhas. Já as coberturas da terra, água e solo exposto necessitaram de apenas uma folha para cada. O resultado da classificação originado dessa árvore está ilustrado na figura 2b. Alguns padrões em relação ao uso da terra podem ser observados no mapa classificado, em que as florestas (29,54%) estão situadas no rebordo, nas maiores declividades da área e próximo às drenagens. As áreas de lavoura de arroz (13,70%) que são áreas irrigadas, na sua maioria pelos rios da região, estão próximas às drenagens. O resultado mais controverso está nas áreas de solo exposto (12,64%), pois, sabendo que a imagem é datada no dia 12 de fevereiro, essas áreas de solo exposto deveriam estar com lavouras de arroz. O motivo disso não acontecer é devido a fortes precipitações ocorridas na região, acarretando enxurradas que provocam a remoção das plantas de arroz da lavoura e também o acúmulo de sedimentos, que resultou no aumento da área de solo exposto no mapa temático. Outra questão em relação à classe arroz, observada a campo, está na substituição desse cultivo por plantações de soja (12,02%). A classe de uso da terra mais representativa nesse mapa temático foi o uso campo (30,69%) e as menos representativas foram as áreas de água (1,41%). CONCLUSÃO A densidade mínima de amostras permaneceu no intervalo de 0,15% a 0,30% da área total para cada classe. Esse intervalo pode ser usado como guia no momento da determinação da área de treinamento. O número mínimo de amostras igual a 45 foi o que proporcionou melhor relação entre tamanho da AD gerada e a exatidão da classificação. Além diso, a redução aplicada na AD propiciou identificar os usos da terra de difícil classificação, que, neste trabalho, foram as florestas e as lavouras de arroz. Nessas classes, foi necessário maior número de folhas para distingui-las das demais. AGRADECIMENTOS Os autores agradecem ao Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq) pelas bolsas de iniciação científica do primeiro autor e produtividade em pesquisa ao terceiro autor. REFERÊNCIAS CONGALTON, R.G. A review of assessing the accuracy of classifications of remotely sensed data. Remote Sensing of Environment, v.37, p.35-46, 1991. Disponível em: <http://dx.doi. org/10.1016/0034-4257(91)90048-b>. Acesso em: 12 dez. 2012. doi: 10.1016/0034-4257(91)90048-B. CHAVEZ, JR., P.S. Image-based atmospheric corrections - revisited and improved. Photogrammetric Engineering and Remote Sensing, v.62, p.1025-1036, 1996. Disponível em: <http:// www.asprs.org/a/publications/pers/96journal/september/1996_ sep_1025-1036.pdf>. Acesso em: 12 nov. 2012. CRISTIANINI, N.; SHAWE-TAYLOR, J. An introduction to support vector machines and other kernel based learning methods. Cambridge: Cambridge University, 2001. 191p. ELMASRI, R.; NAVATHE, S.B. Sistemas de banco de dados. São Paulo: Addison, 2005. 744p. FOODY, G.M.; ARORA, M.K. An evaluation of some factors affecting the accuracy of classification by an artificial neural network. International Journal of Remote Sensing, v.18, p.799-810, 1997. Disponível em: <http://dx.doi.org/10.1080/014311697218764>. Acesso em: 10 dez. 2012. doi: 10.1080/014311697218764. FRIEDL, M.A.; BRODLEY, C.E. Decision tree classification of land cover from remotely sensed data. Remote Sensing of Environment, v.61, p.399-409, 1997. Disponível em: <http:// dx.doi.org/10.1016/s0034-4257(97)00049-7>. Acesso em: 11 dez. 2012. doi: 10.1016/S0034-4257(97)00049-7. GAO, B. NDWI A normalized difference water index for remote sensing of vegetation liquid water from space. Remote Sensing of Environment, v.58, p.257-266, 1996. Disponível em: <http:// dx.doi.org/10.1016/s0034-4257(96)00067-3>. Acesso em: 11 dez. 2012. doi. 10.1016/S0034-4257(96)00067-3. HAN, J.; KAMBER, M. Data mining: concepts and techniques. San Diego: Academic, 2001. 550p. HALL, M. et al. The WEKA data mining software: an update. SIGKDD Explorations, v.11, n.1, p18 2009. Disponível em: <http:// www.cs.waikato.ac.nz/ml/weka/>. Acesso em: 10 jan. 2013. HUETE, A.R. A soil-adjustued vegetacion index (SAVI). Remote Sensing of Environment, v.25, p.295-309, 1988. Disponível em: <http://dx.doi.org/10.1016/0034-4257(88)90106-x>. Acesso em: 11 dez. 2012. doi. 10.1016/0034-4257(88)90106-X. MCFEETERS S.K. The use of the normalized difference water index (NDWI) in the delineation of open water features. International Journal of Remote Sensing, v.17, p.1425-1432, 1996. Disponível em: <http://dx.doi.org/10.1080/01431169608948714>. Acesso em: 10 dez. 2012. doi. 10.1080/01431169608948714. PAL, M.; MATHER, P.M. An assessment of the effectiveness of decision tree methods for land cover classification. Remote

Árvore de decisão e a densidade mínima de amostras no mapeamento da cobertura da terra. 1007 Sensing of Environment, v.86, p.554-565, 2003. Disponível em: <http://dx.doi.org/10.1016/s0034-4257(03)00132-9>. Acesso em: 11 dez. 2012. doi:s0034-4257(03)00132-9. QUINLAN, R. Improved use of continuous attributes in C4.5. Journal of ArtificialIntelligence Research, v.4, p.77-90, 1996. Disponível em: <http://dx.doi.org/10.1613/jair.279>. Acesso em: 11 dez. 2012. doi: 10.1613/jair.279. SASAKI, T. et al. Object-based classification of land cover and tree species by integrating airborne LiDAR and high spatial resolution imagery data. Landscape and Ecological Engineering, v.8, p.157-171, 2012. Disponível em: <http://dx.doi.org/10.1007/s11355-011- 0158-z>. Acesso em: 11 dez. 2012. doi: 10.1007/s11355-011-0158-z. TUCKER, C.J. Red and photographic infrared linear combinations for monitoring vegetation. Remote Sensing of Environment, v.8, p.127-150, 1979. Disponível em <http://dx.doi.org/10.1016/0034-4257(88)90106-x>. Acesso em: 11 dez. 2012. doi: 10.1016/0034-4257(88)90106-X.