MEDIDAS DE SIMILARIDADE UTILIZANDO CARACTERÍSTICAS DA ÁGUA DO MUNICÍPIO DE BOTUCATU Lívia Paschoalino de Campos 1,Farid Sallum Neto 2, Lilian Cristina Trevizan Felipe 3 Carlos Roberto Padovani 4 1 Mestra em Biometria, Unesp-Campus de Botucatu, livia@ibb.unesp.br 2 Mestre em Biometria, Unesp-Campus de Botucatu, faridsallum@ibb.unesp.br 3 Doutora em Química, Sabesp, lfelipe@sabesp.com.br 4 Professor Titular, Unesp-Campus de Botucatu, bioestatistica@ibb.unesp.br 1 INTRODUÇÃO A Análise Multivariada tem sido muito utilizada nas diversas áreas do conhecimento científico; isso se deve ao avanço computacional nas últimas décadas e também ao amplo interesse em analisar conjuntamente um número grande de variáveis relacionadas entre si em um conjunto de dados. Sua utilização busca compreender mais facilmente a estrutura de variação dos dados e possibilitar o aprofundamento e interpretações contida nos dados. (JOHNSON E WICHERN, 2007) O presente estudo considera cinco grupos formados anteriormente por meio da Análise de Agrupamento envolvendo variáveis relacionadas a qualidade da água distribuída no município de Botucatu-SP pela Companhia de Saneamento Básico do Estado de São Paulo (Sabesp). Para estes grupos procurou-se utilizar diferentes coeficientes de dissimilaridade para avaliar quais grupos são mais semelhantes ou dissemelhantes entre si. Para isso, três diferentes coeficientes de dissimilaridade, também chamados de medidas de parecença, para quantificar a proximidade entre os cinco grupos estudados dois a dois foram utilizados. (MINGOTI, 2005) Neste sentido, objetivou-se buscar as proximidades entre os dez pares de agrupamento e ainda, verificar a concordância das distâncias existentes entre eles, pelos três procedimentos realizados. 2 MATERIAL E MÉTODOS Considerou-se, inicialmente as medidas das características físico químicas e bacteriológicas (cor aparente (corap), tubidez (turb), flúor (fluor), bactérias heterotróficas (bact), cloro residual (cloro), coliformes totais (colif) e potencial hidrogeniônico (ph)) coletadas em 148 pontos de coleta, distribuídos em 76 bairros no município de Botucatu SP. Essas medidas foram realizadas pela Divisão de Controle Sanitário da Sabesp, no período de 2007 a 2011. A partir dos vetores médios das respostas das características avaliadas por bairro
(OTU unidade taxonômica operacional ), Campos (2014) agregou esses bairros em cinco grupos formados por 13,2,7,39 e 15 unidades taxonômicas utilizando o método de Ward com a distância euclidiana média e o número de grupos determinado pelo gráfico de comportamento de nível de fusão. Os vetores médios resultantes estão apresentados na Tabela 1. Tabela1. Perfil médio de respostas físico-química e bacteriológica dos grupos estabelecidos pela análise de agrupamento dos bairros grupo corap (UC) turb (UNT) fluor (mg/l) bact (UFC) cloro (mg/l) colif (NMP) ph 1 4,000 0,32,678 0,269 2,077 0,000 7,050 2 4,000 0,637 0,969 6,750 1,812 0,800 7,695 3 5,190 0,848 0,688 0,214 1,711 1,800 7,665 4 4,013 0,561 0,704 0,147 1,759 0,200 7,720 5 4,000 0,836 0,663 0,133 1,764 0,100 7,670 Considerando os vetores médios dos grupos como OTU para o presente estudo (centróide dos bairros) serão determinadas medidas de parecença entre os respectivos pares de centróides dos grupos. Na literatura, destaca-se como a medida de dissimilaridade mais utilizada para variáveis quantitativas, a distância euclidiana, porém outras medidas também são muito usadas, tais como: Minkowski, Canberra, Mahalanobis, city-block, Bray-Curtis, Sokal e Sneath. Neste estudo, optou-se por utilizar os coeficientes de Canberra, Bray-Curtis e Sokal e Sneath como medidas de dissimilaridade, e então comparar seus resultados. (BUSSAB et al, 1990) O coeficiente de dissimilaridade de Canberra é usualmente utilizado quando o conjunto de dados só apresenta valores não negativos, sendo o seu valor para dois OTU s p-dimensionais (X l, X k ), l k, expresso por: d(x l, X k ) = 1 p p i=1 X il X ik X il +X ik (1) O coeficiente de dissimilaridade de Bray-Curtis foi desenvolvido por J. Roger Bray e
John T. Curtis, e tem sido muito utilizado nas áreas da Biologia e da Ecologia, para quantificar a dissimilaridade da composição entre dois locais diferentes. O valor entre dois OTU s p-dimensionais (X l, X k ), l k, é expresso por: d(x l, X k ) = 1 p p i=1 X il X ik p i=1 (X il+x ik ) (2) O coeficiente de similaridade de Sokal e Sneath (1963), autores fundamentais para a área de taxonomia numérica, pode ser determinado entre dois OTU s p-dimensionais (X l, X k ), l k, como: d(x l, X k ) = { 1 p p i=1 (X il X ik X il +X ik ) 2 } 1 2 (3) Para todas as medidas de dissimilaridade apresentadas, dois grupos serão tão mais próximos, quanto menor for o valor encontrado para a distância. 3 RESULTADOS E DISCUSSÕES Utilizando os coeficientes de dissimilaridade de Canberra, Bray-Curtis e Sokal e Sneath nos cinco grupos em estudo, obteve-se uma matriz de distância resultante para cada métrica, respectivamente. A seguir são apresentadas as matrizes de distância para as três métricas e o resumo final das concordâncias. Tabela 2. Medida de Canberra para os grupos 1 0 0,362 0,262 0,244 0,273 2 0 0,256 0,256 0,296 3 0 0,192 0,185 4 0 0,088 Observa-se nos resultados apresentados coeficientes apresentados na Tabela 2. que os
grupos mais próximos (menor distância) foram os grupos 4 e 5, ou seja, mais semelhantes entre si. Já a maior distância encontrada, ou seja, grupos com características mais diferentes, foi obtida entre os grupo 1 e 2. Tabela 3. Medida de Bray-Curtis para os grupos 1 0 0,034 0,020 0,008 0,008 2 0 0,033 0,029 0,030 3 0 0,014 0,013 4 0 0,002 Na Tabela 3, observa-se que os grupos mais semelhantes entre si, foram os grupos 4 e 5, e os grupos dissemelhantes os grupos 1 e 2. Tabela 4. Medida de Sokal e Sneath para os grupos 1 0 0,534 0,421 3,027 0,434 2 0 0,396 0,432 0,476 3 0 0,324 0,353 4 0 0,148 Para a medida de Sokal e Sneath (Tabela 4), é possível verificar que os grupos mais semelhantes são os grupos 4 e 5, e o com maior distância, ou seja, mais diferentes entre si, os grupos 1 e 4. Tabela 5. Agrupamento e respectiva posição na ordenação das distâncias Agrupamento Canberra Bray-Curtis Sokal e Sneath (1,2) 10 10 9 (1,3) 7 6 5 (1,4) 4 2 10 (1,5) 8 3 7 (2,3) 5 9 4
(2,4) 6 7 6 (2,5) 9 8 8 (3,4) 3 5 2 (3,5) 2 4 3 (4,5) 1(0,088) 1(0,002) 1(0,148) Os resultados da ordenação das ordenações (em ordem crescente de magnitude) das distâncias apresentados na Tabela 5, permitem indicar a concordância plena das três métricas nos dois grupos mais próximos (4,5), isto é, com as menores distâncias. Além disso, verifica-se a concordância parcial em duas das três métricas nos (1,2), (2,4) e (2,5). Destaca-se também, que a discordância mais acentuada ocorreu entre os grupos (1,4). 4 CONCLUSÕES No geral, conclui-se que houve uma concordância plena e três parciais entre as diferentes métricas utilizadas e que seria interessante a realização de estudos complementares para verificar a melhor análise dos dados em questão, frente a baixa concordância entre os coeficientes utilizados. 5 REFERÊNCIAS BUSSAB, W.O.; MIAZAKI, E.S.; ANDRADE, D.F. Introdução a análise de agrupamento. São Paulo: USP-IME, 1990. 105p. SIMPOSIO NACIONAL DE PROBABILIDADE E ESTATISTICA, 9., São Paulo, 1990. CAMPOS, L.P. Perfil geográfico multivariado da água consumida no município de Botucatu. 71f. Dissertação (Mestrado em Biometria) apresentada ao Instituto de Biociências UNESP, Botucatu, SP, 2014. JOHNSON, R. A.; WICHERN, D. W. Applied multivariate statistical analysis.new Jersey: Prentice Hall, 2007. 773p. MINGOTI, S. A. Análise de dados através de métodos de estatística multivariada: uma abordagem aplicada. Belo Horizonte: Editora UFMG, 2005. 297p. AGRADECIMENTOS Ao programa de Pós-Graduação em Biometria, a Companhia de Saneamento Básico do Estado de São Paulo por ceder os dados da pesquisa e a Capes pelo apoio financeiro.