CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS GEOGRÁFICOS QUANTITATIVOS NOTAS DE AULA PROFA. MÔNICA M. S. DECANINI 2003 DPTO DE CARTOGRAFIA FCT UNESP PRESIDENTE PRUDENTE
CARTOGRAFIA TEMÁTICA: MÉTODOS DE CLASSIFICAÇÃO DOS DADOS GEOGRÁFICOS QUANTITATIVOS Um problema central para cartógrafos e geógrafos é o grande volume de dados para mapear. Há a necessidade de se fazer algum tipo de generalização e simplificação, portanto, o cartógrafo tem que resolver a questão da classificação dos dados. Os dados devem ser classificados (taxonomias ou formas de ordenação dos dados) para reduzir um grande número de indivíduos para um número menor de grupos visando facilitar a descrição e ilustração dos dados. Para isso necessita definir as classes a serem utilizadas; A Classificação facilita a interpretação da realidade que é extremamente complexa; Embora possa causar a perda de detalhes, torna a interpretação mais significativa e eficaz. TEM MAIOR PODER INTERPRETATIVO. POR QUÊ? A classificação é necessária devido a impraticabilidade de simbolizar e mapear cada indivíduo; Quando há uma variação muito pequena entre símbolos, pelas leis da percepção visual, a diferenciação é quase imperceptível, particularmente quando os símbolos são colocados no contexto do mapa, distanciados um dos outros: LIMITE DA PERCEPÇÃO DA COR => 8 CORES A classificação é um método que tem como propósito específico auxiliar na descoberta de relações espaciais.
O objetivo é agrupar os valores individuais de tal maneira que revele padrões espaciais que sirva aos propósitos temáticos dos usuários. A classificação pode ser numérica ou quantitativa INFORMAÇÃO QUANTITATIVA => MAPA COROPLÉTICO Para o mapeamento quantitativo há um conjunto de métodos para estabelecer intervalos de classes. MÉTODOS DE CLASSIFICAÇÃO DE DADOS GEOGRÁFICOS QUANTITATIVOS MAPA COROPLÉTICO Os métodos de classificação de dados geográficos quantitativos são a melhor forma de planejar os intervalos de classes para os mapas coropléticos. É preciso considerar também que o sistema de intervalo de classes inclua um intervalo de dados sem classes sobrepostas, e refletir algumas divisões lógicas dos dados de modo a retratar o propósito do mapa. Se possível tem de haver relação matemática lógica entre as classes (estatísticas). Alguns métodos comumente usados são: 1. Intervalos iguais (constante) 2. Quantis 3. Quebras Naturais: Otimização de Jenks- método analítico; 4. Desvio padrão (constante) 5. Média Aninhada (Calcula-se a Média e dividi-se em 2 classes=> acima e abaixo da média, sucessivamente para cada uma delas faz-se o mesmo => 4 classes e depois =>8 classes)
SELEÇÃO DE INTERVALOS DE CLASSES (REGRAS) As Classes não podem se sobrepor: 0 20 18 30 28 40 Errado Obs: Os limites das classes devem ser bem definidos Nunca uma observação pode entrar em duas classes diferentes Os intervalos selecionados devem cobrir todos os dados, do mais baixo até o mais alto. Nenhum valor deve começar com o valor que é igual ao maior valor da classe precedente. Exemplo: 00 05 05 10 10 15 00 04 05 09 10 14 00.0 4.9 05.0 9.9 10.0 14.9 00 < 5 05 < 10 10 < 20 Errado Certo Certo Certo Há um limite quanto ao número de classes a serem representados no mapa coroplético. O olho humano consegue distinguir um número limitado de tons de cinza entre o branco e preto na escala cinza acromática e de corescromática (cerca de oito cores ou tons de cinza). DEFINIÇÃO DO NÚMERO DE CLASSES: MÉTODO DE STURGES Um método estatístico bastante utilizado para a definição do número de classes em uma série é o método de Sturges, que propõe a aplicação da seguinte fórmula: k=1 + 3.33logN Onde, k corresponde ao número de classes N corresponde ao número de elementos da série, da qual, para fins de mapeamento excluem-se os valores repetidos
Se N 80 => Utilize k=1 + 3.33logN ou N Se N > 80 => Utilize k=1 + 3.33logN Uma vez definido o número de classes, aplica-se o método de intervalo iguais e demais métodos. O Desvio Padrão é simétrico (de ±1s a ± 3s). 1. MÉTODO DE INTERVALOS IGUAIS (CONSTANTE) Esse método atribui intervalos iguais para cada classe. O procedimento para obter o intervalo de classe é: 1. Calcular a amplitude dos dados (R): R = H L Onde, H é o valor mais alto e L o mais baixo da série de observações. 2. Obter o valor do intervalo de classe (h): h = R/k Onde, k número de classes 3. Para obter os limites de classe, calcula-se: L + 1.h = 1 o limite de classe => L < L + 1.h L + 2.h = 2 o limite de classe => L + 1.h < L + 2.h L + 3.h = 3 limite de classe => L + 2.h - < L + 3.h L + 4.h = 4 o limite de classe => L + 3.h < L + 4.h E assim, sucessivamente... Vantagens e Desvantagens Mapas que são classificados por este método, geralmente tem um senso intuitivo. Sua legenda tende a aparecer ordenadamente e contínua (Figura 1).
1 2 3 4 68% 136% 204% 272% 340 % Intervalo de Classes 68% <136% 136% < 204% 204% <272% 272% 340% Figura 1 intervalos de classe pelo método de Intervalos Iguais Se as unidades de observação são iguais em tamanho e a distribuição numérica é retangular, muitos mapas parecerão organizados. Infelizmente, muitos histogramas não são retangulares. É um método fácil de calcular; O método de Intervalos Iguais não mostra detalhes e variações entre valores mais baixos (todos concentrados em uma só classe), em uma série que contém valores de amplitude grande; No método de Intervalos Iguais, por considerar intervalos fixos, pode ocorrer classe vazia, que apesar de existir na legenda não existe no cartograma; O método de Intervalos Iguais pode dividir as observações, de uma forma não correspondente a realidade, isto é, coloca uma quebra no meio de um agrupamento/cluster de um conjunto de valores (Figura 2). Classe1 Classe 2 Classe 3 Figura 2 Intervalos Iguais - Quebra no meio de um agrupamento/cluster
2. MÉTODO DO QUANTIL O total do conjunto dos dados é subdividido em um número de classes, na qual cada uma tem o mesmo número de observações. Pode-se ter uma série de dados dividida em 4 classes (Quartil ou Desvio Quartílico = 25% dos dados em cada classe) até 100 (Percentis). Se o conjunto dos dados tem, por exemplo, 20 valores e se quer trabalhar com quatro (04) classes, as primeiras 5 observações totais dos valores serão colocadas na primeira classe. O segundo grupo de 5 observações será colocado na Segunda classe, e assim por diante. OBS: Deve-se sempre ordenar os dados para criar as classes. Para calcular o Quantil (com 4 classes é um Quartil) Q = Número de observações / Número de classes =>20/4 = 5 observações Conforme exemplo acima se tem os seguintes intervalos de classes (inteiros): 1, 2, 3, 10, 20, 30, 40, 60, 76, 77, 80, 90... 1 20 30 77 Quando o resultado obtido não é inteiro, como no exemplo abaixo, faz-se uma aproximação (Slocum, 1999): Coloca-se 13 observações na primeira classe e 14 na segunda classe, de tal forma que se tenha o total de 27 observações (aproximadamente 13.4 x 2) Q = Número de observações / Número de classes =>67/5 = 13.4 observações Excluem-se as repetições, i.e., as observações repetidas não são contadas.
Observações: Quando uma série apresenta disparidade de valores em alguns elementos, recomenda-se trabalhar com a amplitude útil, evitando-se a amplitude total. Reserva-se uma classe específica para os elementos díspares. Assim, o mapeamento representará mais satisfatoriamente a distribuição espacial das informações O método dos Quantis pode dividir de uma forma não correspondente a realidade, pois coloca uma quebra no meio de um agrupamento/cluster de um conjunto de valores. Diferente do Método de Intervalos Iguais, cria um vazio entre um intervalo e outro, dando uma impressão de descontinuidade. 3.MÉTODO DO DESVIO-PADRÃO (CONSTANTE) Se o conjunto de dados se comporta como uma distribuição normal, os limites das classes podem ser estabelecidos pelo uso do valor do seu desvio-padrão. Os limites das classes são obtidos pelo: 1. cálculo da média e desvio-padrão da população n 2. determina-se os limites pela adição ou subtração do desvio padrão a média. Normalmente não mais que seis classes são necessárias para levar em conta a maioria dos valores na distribuição normal. INTERVALOS ( X 3s) ( X - 2s) Classe1 ( X 2s) ( X s) Classe 2 ( X s) X Classe 3 X ( X + s) Classe 4 ( X + s) ( X + 2s) Classe 5 ( X + 2s) ( X + 3s) Classe 6 Este método produz classes de intervalos constantes, porque o desvio-padrão é imutável (simétrico).
Alguns problemas de simbolização surgem com este método (Dent, 1993), uma vez que os limites das classes são organizados ao redor de um valor central, ao invés de crescer a partir de um valor mais baixo, como usualmente é feito (Figura 3). (a) (b) (c) Figura 3 : Alternativas de simbolização de classes obtidas pelo método do desvio padrão. Fonte: Dent, 1993 Em (a), no intervalo de classes a importância visual de 3 a +3 é contínua. Contudo, devido à natureza bidirecional do desvio padrão, esse método de simbolização parece ter pouco apelo intuitivo. Em (b), maior importância é dada àqueles valores próximos da média, pois o valor mais escuro está próximo da média (ESCURO=>CLARO).. Em (c), maior importância é atribuída àqueles valores mais distantes da média (CLARO=> ESCURO). Portanto, deve-se adotar esquemas divergentes ou bipolares para se representar dados de natureza bi-direcional, como no exemplo da Figura 4.
x Figura 4: Esquema divergente de cor O propósito do mapa ditará a escolha de um método de simbolização. 4. MÉTODO DA OTIMIZAÇÃO DE JENKS Esse método forma grupos que são homogêneos internamente e assegura a heterogeneidade entre classes (TABELA 1). O procedimento de medida dessa técnica é chamado de Ajuste de Bondade ou Mellhor Ajuste de Variância (GVF = Goodness of Variance Fit): 1. Calcule o n. de classes. Faça um histograma ou um diagrama de frequência dos dados da série para agrupar as observações. 2. Compute a Média ( X ) do conjunto de dados e faz-se a soma dos Desvios Quadráticos de cada observação (x i ) da série de dados. SDAM = (x i - X ) 2 Onde, SDAM é o Desvio Quadrático da média da série de observações 3. Desenvolva os limites de classe da primeira iteração. Considere cada valor da série como uma classe, que é considerada a forma ideal. Calculam-se as Médias de cada classe (Z c ).
Calculam-se os Desvios Quadráticos de cada observação dentro da classe (x i - Z c ). Faz-se a somatória da somatória: SDCM = (x i - Z c ) 2 Onde, SDCM é o Desvio Quadrático da Média das observações dentro da classe Na primeira iteração, a Média da classe é idêntica ao valor da classe, portanto, o Desvio Quadrático da Média da classe (SDCM) é ZERO. 4. Compute o Ajuste de Bondade (GVF) GVF = (SDAM SDCM) / SDAM 5. Observe que o valor de GVF para a primeira iteração é 1.0, pois o objetivo da iteração é maximizar o valor de GVF. Parte-se da situação ideal (não generalizada), pois obviamente em um mapa coroplético não se tem uma observação para cada classe, o que se pretende é agrupar as observações em classes, para poder representar graficamente, de uma forma eficaz e legível (já que o olho humano tem um limite na percepção das cores de no máximo 8 cores). Portanto, na situação real, a solução de GVF deve ser menor que 1.0, mas tendendo próximo a 1.0, ou seja, quanto mais próxima de 1.0, melhor o resultado. Quando não há melhora nesse valor, pára-se a iteração. 6. Repita os procedimentos acima até o valor de GVF não puder ser maximizado, i.é., aproximar-se do Valor 1.0.
TABELA 1- MÉTODO DE CLASSIFICAÇÃO OTIMIZAÇÃO DE JENKS Fonte: Dent, 1993 REFERÊNCIAS BIBLIOGRÁFICAS BOS, ES (1973) Cartographic Principles in Thematic Mapping. ITC, The Netherlands. DENT, D.B. (1993) Cartography: Thematic Map Design. WCB, England. SLOCUM, T A (1999) Thematic Cartography and Visualization. Prentice Hall, New Jersey. RAMOS, C. da S. E SANCHEZ, M. C. (2000) Estudo Metodológico da Classificação de dados para Cartografia Temática. Geografia 25(2):23-52.