RECONHECIMENTO DE PADRÕES DE ESPÉCIES DE MORCEGOS DO SUL DA BAHIA UTILIZANDO CLUSTERIZAÇÃO FUZZY Pedro Henrique Silva Coutinho, Thiago Pereira das Chagas Departamento de Ciências Exatas e Tecnológicas Universidade Estadual de Santa Cruz Ilhéus, Bahia, Brasil Emails: coutinho.p92@gmail.com, tpchagas@uesc.br Abstract This work presents a methodology to pattern recognition of bat species based on fuzzy clustering. The fuzzy feature provides robustness to real data analysis, since classification is represented by membership degrees. The metodology is based on extraction of features using principal component analysis, determination of the number of species present in the data set by different cluster validity indices and unsupervised classification using a hybrid method, the Subtractive Fuzzy ckmeans. The method was tested in data sets with different number of species represented by six parameters extracted from echolocation signals. With the increase of the amount of species, the used parameters were insufficient to descorrelate the features of species, indicating that new parameters should be introduced to data to increase the efficient classification. Keywords Fuzzy clustering, pattern recognition, bat species, echolocation signals. Resumo Este trabalho apresenta uma metodologia para reconhecimento de padrões de espécies de morcegos baseada em agrupamento fuzzy. O caráter fuzzy provê robustez à análise de dados reais, já que a classificação é representada por graus de pertinência. A metodologia se baseia na extração de características utilizando análise de componentes principais, determinação da quantidade de espécies presentes no conjunto de dados a partir de índices de validade de agrupamento e classificação fuzzy não-supervisionada utilizado um método híbrido, o Fuzzy ckmeans Subtrativo. O método foi testado em conjuntos de dados com diferentes números de espécies representadas por seis parâmetros extraídos de sinais de ecolocalização. Com o aumento da quantidade de espécies no conjunto de dados, os parâmetros utilizados foram insuficientes para descorrelacionar as características das espécies, indicando que novos parâmetros devam ser inseridos aos dados para aumento da eficiência da classificação. Palavras-chave Agrupamento fuzzy, reconhecimento de padrões, espécies de morcegos, sinais de ecolocalização. 1 Introdução A maioria dos morcegos, com exceção das raposas voadoras, utilizam sinais de ecolocalização para orientação espacial e captura de alimentos. Os morcegos emitem ondas que são refletidas nos objetos ao redor e processadas pelo sistema auditivo, permitindo o reconhecimento do espaço e localização de potenciais presas (Farias, 2012). Cada espécie possui características próprias destes sinais e, com isso, diversos estudos puderam ser realizados a fim de identificar espécies acusticamente. Sabe-se que estas características podem variar em algumas situações. No processo de caça, quando o morcego se aproxima do alvo, o intervalo entre os pulsos emitidos aumenta, permitindo maior precisão na localização. Desta forma, para identificação de espécies, são utilizados sinais em regime. A identificação acústica de morcegos é realizada com a análise do espectrograma do sinal de ecolocalização, que é um gráfico que relaciona a intensidade do sinal nos domínios da frequência e do tempo. Atualmente, a identificação pode ser realizada por métodos manuais ou automáticos (Preatoni et al., 2005). Nos manuais, o espectrograma é gerado e características são extraídas de sua análise. Então é realizada uma busca na literatura por espécies com características acústicas similares. Entretanto, esse processo demanda tempo e é suscetível a falhas humanas. Nos automáticos, métodos estatísticos ou inteligência artificial são aplicados para a identificação(parsons, 2001; Parsons & Jones, 2000; Jennings et al., 2008). Existem softwares utilizados para geração do espectrograma e a identificação automática de espécies, mas possuem um alto custo e seus resultados são imprecisos para espécies do sul da Bahia. O estudo relacionado à identificação ainda não é aplicado em espécies da Mata Atlântica. Neste trabalho é apresentado um método fuzzy de agrupamento para reconhecimento de padrões de espécies de morcegos da região sul da Bahia. O método se constitui em determinar a quantidade de subestruturas (espécies) contidas no conjunto de dados e em classificá-los nãosupervisionadamente. Para determinação das subestruturas foram aplicados índices de validação de agrupamento e para a classificação foi utilizado um método híbrido de agrupamento fuzzy. A característica fuzzy permite avaliar incertezas de dados reais através dos graus de pertinência, que expressam a probabilidade de um ponto de dado pertencer a um dado grupo. O método foi aplicado em conjuntos gerados com diferentes números de espécies de morcegos do sul da Bahia, sendo que cada morcego é representado por parâmetros extraídos do seu sinal de ecolocalização.
Este trabalho está organizado em 5 seções. Uma breve fundamentação teórica das técnicas utilizadas é apresentada na Seção 2. Na seção 3 é apresentada a metodologia proposta. Os resultados obtidos são apresentados e discutidos na Seção 4. Além disso, os resultados são comparados com o método clássico de agrupamento fuzzy, o Fuzzy c-means. Finalmente, a Seção 5 trata das conclusões e perspectivas do trabalho. 2 Fundamentação Teórica 2.1 Agrupamento fuzzy O processo de agrupamento, ou classificação nãosupervisionada, é definido como a organização dos elementosdeumconjuntodedadosz=[z 1,...,z N ] em c N grupos, onde N é a quantidade de elementos (ou amostra) z R l,l N. Essa organização busca garantir a similaridade entre elementos de um mesmo grupo e a dissimilaridade entre elementos de grupos diferentes (Jain et al., 1999). Os métodos de agrupamento costumam ser classificados como hard ou fuzzy. A abordagem fuzzy é capaz de capturar a incerteza proveniente de dados reais e prover resultados mais robustos que os agrupamentos hard (Vargas & Bedregal, 2010), já que um ponto de dado é classificado por graus de pertinência relacionados a cada grupo. 2.1.1 Fuzzy ckmeans O método de agrupamento Fuzzy ckmeans (FCKM) é uma variação do Fuzzy c-means(fcm) (Vargas & Bedregal, 2010). O FCM realiza o processo de agrupamento solucionando o problema de otimização descrito pela equação (1) (Bezdek, 1981) a partir da minimização da distância entre cada elemento z k e cada centro v i. Um centro é um ponto que representa um grupos obtido no processo de agrupamento. J(Z,U,V) = c i=1 k=1 N (µ ik ) m z k v i (1) onde m é uma constante dada no intervalo (1, ), denominada parâmetro de fuzzyficação, c é a quantidade de grupos, V= [v 1,...,v c ] a matriz de centros e U= [µ ik ] a matriz de pertinências µ [0,1]. No FCKM, o modo com que os centros dos grupos são calculados é semelhante ao do algoritmo k-means (MacQueen, 1967). Uma matriz binária, denominada µcrisp, é obtida a partir da matriz de pertinência U gerada pelo FCM com a condição apresentada na equação (2) (Vargas & Bedregal, 2010): µcrisp ij = max µ ij c, max µ µ ij (2) N il max µ l=1 lj l=1 onde µcrisp ij é a pertinência de cada elemento a cada grupo para o FCKM. O primeiro termo da condição garante que seja atribuído o valor 1 ao grupo a que um elemento possua maior grau de pertinência. Enquanto o segundo garante que exista pelo menos um elemento contido em cada grupo. Esta variação permite obter resultados similares ao FCM, porém com menor esforço computacional. Entretanto, assim como o FCM, o FCKM necessita da informação a priori da quantidade de grupos c e da matriz V de centros iniciais. 2.2 Agrupamento Subtrativo O agrupamento subtrativo, proposto por Chiu (1994), considera cada ponto de dado um potencial centro. Ao longo das iterações, o ponto que apresenta maior potencial é escolhido como centro e os potenciais dos demais pontos são subtraídos pelo seu. Este processo se repete até que um dado critério de parada seja alcançado. O potencial do elemento z k é dado pela equação (3). onde p k = N j=1 e α z k z j α = 4 r a 2, p R,k = 1,2,...,N e α,r a > 0 (3) Os potenciais são atualizados de acordo com a equação (4). p k p k p le β z k z l (4) onde z l é o l-ésimo elemento com potencial p l e β = 4 r b 2, β,r b > 0 As constantes r a e r b determinam a influência da vizinhança no cálculo do potencial de um ponto. Com a diminuição do valor de r a a quantidade de grupos gerados tende a aumentar. Para evitar a obtenção de grupos próximos, o valor de r b é escolhido comumente como r b = 1.5r a (Chiu, 1994), implicando na diminuição de β. 2.3 Fuzzy ckmeans Subtrativo Um dos principais problemas em métodos de agrupamento fuzzy é a inicialização dos centros. Yang et al. (2010) propuseram o agrupamento subtrativo para essa finalidade ao FCM. Aqui, a mesma proposta foi aplicada ao FCKM.
O Fuzzy ckmeans Subtrativo (FCKMS) é um método híbrido de agrupamento que utiliza o agrupamento subtrativo para inicializar a matriz de centros do FCKM. Com isso, a inicialização dos centros passa a ser automática e em pontos obtidos do conjunto de dados. Estes pontos estão localizados próximos aos centros obtidos ao final do processo do FCKM, aumentando a probabilidade de convergência e reduzindo o custo computacional. O número de centros gerados é determinado pela variação do raio de influência r a do método subtrativo. Como para valores pequenos de r a, a quantidade de centros gerados é maior, o seu valor é acrescido de valores pequenos até um valor que gere a quantidade de centros desejada. 2.4 Índices de validade de agrupamento Os índices de validade de agrupamento quantificam a qualidade do agrupamento obtido através de diferentes critérios como densidade e separação dos grupos, por exemplo. Estes índices podem ser aplicados para determinação do número apropriadodegruposemumconjuntodedados(babuska, 1998). Para isso, o processo de agrupamento é realizado para diferentes números de grupos e os índices de validade são calculados para cada um. A qualidade do agrupamento e, consequentemente, o valor de grupos a ser escolhido, é indicada por valores de máximo ou mínimo, a depender do método. 2.5 Análise de componentes principais A análise de componentes principais (PCA - principal component analysis) (Jolliffe, 2002) é uma técnica vastamente utilizada para extração de características e redução de dados. Ela é baseada na transformação de dados cujas características podem estar correlacionadas em um espaço onde as características sejam não correlacionadas. As componentes do espaço gerado são denominadas componentes principais e são ordenadas em ordem decrescente de variância. 3 Metodologia Para realização dos testes foram gerados conjuntos de dados com 30 morcegos de cada espécie utilizando dados de média e desvio padrão de parâmetros extraídos dos sinais de ecolocalização descritos na literatura (Farias, 2012). Foram escolhidas espécies disponíveis em um banco de dados de sinais gravados, cujos parâmetros estão em fase de extração. Foram gerados dois conjuntos de dados, denominados C1 1 e C2 2, com cinco e oito espé- 1 Eptescicus furinalis, Eumops auripendulus, Molossus molossus, Myotis nigricans e M. riparius 2 Eptescicus furinalis, Eumops auripendulus, Molossus cies encontradas no sul da Bahia, respectivamente. Cada conjunto possui 30 morcegos de cada espécie, caracterizados por seis parâmetros extraídos dos espectrogramas dos sinais de ecolocalização. Um exemplo de espectrograma é apresentado na Figura 1. Os parâmetros relacionados ao sinal no tempo são duração do sinal e intervalo entre pulsos, em ms, e relacionados à frequência são frequência inicial, frequência final, máxima frequência e menor frequência, em khz. Figura 1: Espectrograma da espécie Nyctinomops laticaudatus (N.l.) (Farias, 2012) A metodologia baseia-se em três etapas: extração de características, determinação do número de espécies contidas nos conjuntos de dados e classificação não-supervisionada. A etapa de extração de características foi realizada com a aplicação do PCA aos conjuntos de dados. Com isso, a dimensionalidade dos dados foi reduzida para a quantidade de componentes principais que apresentaram variância significativa para a classificação. A determinação da quantidade de espécies foi realizada com a análise dos resultados dos índices de validade de agrupamento. Os índices foram obtidos após a realização da classificação nãosupervisionada para diferentes valores de grupos. Como cada índice possui um valor indicativo do número ótimo de grupos, foi escolhida a moda, que é o valor que mais se repete, dos valores indicados por cada índice. Neste trabalho foram aplicados quatro índices de validade de agrupamento (Babuska, 1998): distância média entre grupos (AWCD - average within-cluster distance), hipervolume fuzzy (FH - fuzzy hypervolume), densidade média da separação (APD - average partition density) e achatamento médio dos grupos(acf- average cluster flatness). O número adequado de grupos é indicado pelo APD por valores de máximo, enquanto no FH e no ACF por valores de mínimo. O AWCD decai de forma monótona com o aumento do número de grupos, uma diminuição acentuada na taxa de decaimento no gráfico indica o valor adequado. Para a classificação não-supervisionada foi aplicado o FCKMS, sendo utilizada a norma euclidiana como medida de distância entre os pontos molossus, M. rufus, Myotis nigricans, M. riparius, Lasiurus cinerus e L. ega
e os centros. 4 Resultados A qualidade dos resultados obtidos foi medida quantitativamente utilizando o produto de eficiência (EP), que é a média geométrica dos percentuais de morcegos classificados corretamente em cada espécie (Ef i ). Matematicamente, é expresso pela equação (5). EP = [(Ef 1 )...(Ef c )] 1 c (5) O FH, o APD e o AWCD indicaram 5 grupos, enquanto o ACF 4 grupos. Desta forma, foi escolhido o valor 5 para realização da classificação não-supervisionada. O FCKMS foi inicializado com m=2 e para determinação dos centros iniciais, variou-se o parâmetro r a até que fossem gerados 5 centros, resultado obtido com r a =0.12. A disposição espacial dos grupos obtidos está apresentada na Figura 4. Os elementos foram classificados aos grupos que apresentaram maior grau de pertinência. 4.1 Conjunto de dados C1 Com a aplicação do PCA a dimensionalidade foi reduzida para 2 componentes principais, pois apresentaram variância explicativa de 91%. A disposição espacial das espécies no espaço do PCA está apresentada na Figura 2. Figura 4: Disposição espacial das espécies do conjunto C1 separadas por símbolos. Os centros obtidos são apresentados em vermelho. Nesse resultado, todos os elementos foram classificados corretamente, portanto EP=1. Figura 2: Disposição espacial das espécies do conjunto C1 separadas por símbolos. Os índices de validade de agrupamento foram obtidos para o número de grupos de 1 a 10 e estão apresentados na Figura 3. Figura 3: Índices de validade de agrupamento aplicados a C1. 4.2 Conjunto de dados C2 Com a aplicação do PCA ao conjunto de dados C2 foi obtida a disposição espacial presente na Figura 5. Neste caso, as duas primeiras componentes principais explicaram 88% da variância e a terceira componente 7%. A influência na classificação da terceira componente principal foi testada e o resultado foi inferior ao obtido com duas componentes. Os valores dos índices de validade de agrupamento obtidos para este conjunto estão apresentados na Figura 6. Apenas o APD e o AWCD indicaram a quantidade correta de grupos. O FH apresentou valores de mínimo para 3 e 7 grupos e o ACF para 6 grupos. Sabe-se que foram gerados 8 grupos, porém em uma situação de completo desconhecimento das espécies, há uma prevalência deste número. Este resultado é favorável à metodologia utilizada. O resultado obtido com a aplicação do FCKMS, inicializado com m=2 e os 8 centros iniciais obtidos com r a =0.225, é mostrado na Figura 7.
Figura 5: Disposição espacial das espécies do conjunto C2 separadas por símbolos. Figura 8: Detalhe da disposição espacial das espécies de C2 classificadas incorretamente, separadas por símbolos. Os centros obtidos são apresentados em vermelho. 81% eficiente. Com a análise dos graus de pertinência realizada por um especialista, a classificação dos morcegos pode ser avaliada e eventualmente alterada. Sendo assim, o problema de classificação manual passa a ser apenas de um subconjunto dos dados originais. Na Figura 9 são apresentados os graus de pertinência da espécie representada por na Figura 5 em relação aos grupos próximos, representados por, e na Figura 7. Índices de validade de agrupamento aplica- Figura 6: dos a C2. Figura 9: Graus de pertinência dos morcegos da espécie de C2 da Fig. 5 aos grupos (preto), (cinza) e (branco) da Fig. 7. Figura 7: Disposição espacial das espécies do conjunto C2 separadas por símbolos. Os centros obtidos são apresentados em vermelho. A região onde ocorreram as classificações incorretas pode ser melhor visualizada pela Figura 8. Neste resultado, a classificação foi cerca de Nesse caso, pode-se perceber que os graus de pertinência dos morcegos classificados incorretamente são baixos em relação ao grupo que deveriam pertencer (preto). 4.3 Comparação com o Fuzzy c-means e o Fuzzy ckmeans A comparação de desempenho entre o FCKM e o FCM foi realizada em de Vargas (2010), com resultados favoráveis para o Fuzzy ck-means. Nesta seção é realizada esta comparação para os conjun-
tos de dados dos chamados dos morcegos, averiguando os efeitos da inicialização com o método subtrativo. Para isso, são comparados resultados de EP e número de iterações obtidos com o FCM e o FCKM para 100 inicializações aleatórias de centros. Os resultados das inicializações aleatórias são comparados aos obtidos para os conjuntos C1 e C2 utilizando o FCKMS nas Tabelas 1 e 2, respectivamente. Tabela 1: Maiores produtos de eficiência (%) e média das iterações dos 100 testes com o FCM e FCKM para o conjunto de dados C1 Maior EP n o de iterações FCM 98,63 42 ± 25 FCKM 100 4 ± 2 FCKMS 100 2 Tabela 2: Maiores produtos de eficiência (%) e média das iterações dos 100 testes com o FCM e FCKM para o conjunto de dados C2 Maior EP n o de iterações FCM 64,60 90 ± 29 FCKM 82,15 10 ± 4 FCKMS 81,49 4 O FCKMS apresentou eficiências similares às obtidas com o FCKM e superiores às do FCM. Entretanto, o custo computacional requerido foi menor, já que os centros são inicializados em pontos próximos aos de convergência. 5 Conclusões Com o aumento da quantidade de espécies contidas no conjunto de dados, os parâmetros utilizados não se mostraram suficientes para descorrelacionar as espécies de maneira eficiente. Pretende-se empregar esta metodologia em conjuntos de dados obtidos a partir de sinais gravados localmente. Contudo, mais características deverão ser extraídas dos sinais de ecolocalização, implicando na maior possibilidade de descorrelação de características de um grande número de espécies. Além disso, outros tipos de técnicas de extração de características, como a análise de componentes independentes, deverão ser implementadas à metodologia e novos índices de validade de agrupamento para determinação do número de espécies. O reconhecimento das espécies referentes a cada grupo é realizada a partir das características dos centros obtidos. Um sistema especialista fuzzy está sendo desenvolvido para realização automática desta etapa. À Universidade Estadual de Santa Cruz. Ao Rogério Vargas, Fábio Falcão e ao projeto FAPEDB/UESC: Identificação automática de espécies de morcegos através do sinal de ecolocalização utilizando sistemas Fuzzy. Bibliografia BABUŠKA, R. Fuzzy modeling for control. New York: Springer, 1998. ISBN 9789401148689 BEZDEK, J.C. Pattern Recognition with Fuzzy Objective Function Algorithms. New York: Plenum Press, 1981. CHIU, S. L., Fuzzy Model Identfication Based on Cluster Estimation.Journal of Intelligent and Fuzzy Systems, v. 2, p. 267-278, 1994. de Vargas, R.R; BEDREGAL, B. R. C., A comparative study between fuzzy c-means and ckmeans algorithms. Fuzzy Information Processing Society (NAFIPS), 2010 Annual Meeting of the North American, p. 1-6, 2010. FARIAS, H. M. Monitoramento e identificação acústica de espécies de morcegos da Mata Atlântica por sinais de ecolocalização: contribuições ecológicas e potencial para conservação. 2012. 71 f. Dissertação (Mestrado em Ecologia e Conservação de Biodiversidade) - Universidade Estadual de Santa Cruz, Ilhéus. 2012. JAIN, A.; MURTY, M.; FLYNN, P. Data Clustering: A review. ACM Comput. Surv., vol. 31, no.3, p. 264-323, 1999. JENNINGS, N.; PARSONS, S.; POCOCK, M. J. O. Human vc. machine: identification of bat species from their echolocation calls by humans and by artificial neural networks. Can. J. Zool., 86, 371-377, 2008. JOLLIFFE, I. T. Principal Component Analysis. Springer, 2002. MACQUEEN, J. Some Methds for Classification and Analysis of Multivariate Observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, p. 281-297, Berkeley, CA. University of California Press, 1967. PARSONS, S. Identification of New Zealand bats (Chalinolobus tuberculatus and Mystacina tuberculata) in flight from analysis of echolocation calls by artificial neural networks. J. Zool. Lond., 253, 447-456, 2001. PARSONS, S.; JONES, G. Acoustic identification of twelve species of echolocating bat by discriminant function analysis and artificial neural networks. The Journal of Experimental Biology, 203, 2641-2656, 2000. PREATONI, D. G. et al. Identifying bats from time-expanded recordings of search calls: comparing classification methods. Journal of Wildlife Management, 69 (4), 1601-1614, 2005. VARGAS, R.; BEDREGAL, B.: Uma nova forma de calcular o centro dos clusters no algoritmo Fuzzy c-means. Proceedings of CNMAC 2010, v. 3, p.486-492., 2010. YANG, Q.; ZHANG, D.; TIAN, F. An initialization method for Fuzzy C-means algorithm using Subtractive Clustering. 3rd International Conference on Intelligent Networks and Intelligent Systems, p. 393-396, Nov 2010. Agradecimentos