Utilização de Espectroscopia Difusa com RNA e SVM para a predição de CTC no solo Gustavo Perin 1, Alaine Margarete Guimarães 1 1 Departamento de Informática, Universidade Estadual de Ponta Grossa, Ponta Grossa, Paraná, Brasil, perin96@hotmail.com, alainemg@uepg.br RESUMO A capacidade de troca de cátions (CTC) é uma importante propriedade de minerais de argila que pode ser usada para caracterização e quantificação de adsorventes em solos. Porém, os métodos para a obtenção do seu valor normalmente são feitos através de processos lentos, caros e poluentes. Para resolver esses problemas novas ferramentas estão sendo utilizadas, como a espectroscopia de refletância. Esta, aplicada com métodos computacionais para análise de dados e reconhecimento de padrões, como Redes Neurais Artificiais (RNA) e Máquina de Vetores de Suporte (SVM), permite a predição de valores de modo que os atributos químicos do solo possam ser obtidos. O objetivo do trabalho foi analisar a eficiência das técnicas RNA e SVM, a partir de comprimentos de onda na região do visível e infravermelho próximo, para a predição de CTC. Foi utilizado o software Weka com os algoritmos MultilayerPerceptron e SMOreg. O desempenho da SVM foi melhor em relação a RNA, com R² = 0,57 e RMSE = 1,33. PALAVRAS-CHAVE: Vis-NIRS, Aprendizado de Máquina, Refletância Espectral. INTRODUÇÃO A capacidade de troca de cátions (CTC) é uma importante propriedade de minerais de argila. Ela pode ser apresentada como a habilidade do solo de reter e trocar íons positivamente carregados na superfície coloidal. Resultados do valor da CTC podem ser usados para caracterização e quantificação de adsorventes em argilas e solos. Os métodos adotados para a obtenção do valor da CTC envolvem preparação de diversas soluções, lixiviações, titulações e outras operações que tornam sua determinação relativamente lenta, como o método acetato de amônio ou cloreto de bário (DOHRMANN, 2006).
A espectroscopia de refletância é uma ferramenta alternativa que pode ser utilizada para substituir os métodos convencionais de análise química do solo. A técnica tem algumas vantagens sobre os métodos convencionais, como a velocidade e economia (CANASVERAS et al., 2012). Sendo altamente sensível a ambos os componentes orgânicos e inorgânicos do solo, a espectroscopia de refletância tem sido explorada, e essa sensibilidade faz com que sua utilização no campo das ciências agrícolas e ambientais seja particularmente apropriada (LIU et al., 2013). As informações dos espectros gerados podem ser aliadas a métodos computacionais e técnicas estatísticas, como algoritmos de aprendizado de máquina. Quando associadas se tornam grandes ferramentas de predição, reconhecimento de padrões, classificação, capazes de extrair o máximo de informação do sistema, tal como auxiliar na interpretação dos dados. O objetivo desse trabalho foi a analisar a eficiência da utilização de espectroscopia de refletância com técnicas computacionais, sendo essas Redes Neurais Artificiais (RNAs) e Máquina de Vetores de Suporte (SVM), como alternativa para predizer a CTC do solo de maneira facilitada. MATERIAL E MÉTODOS Para esta pesquisa, foi utilizada uma base de dados referentes a leituras de refletância espectral em 111 amostras de solo obtidas na região de Pirai do Sul Paraná no ano de 2011. A região de estudo, com uma extensão de 110 hectares, é composta predominantemente por Latossolos de textura média a argilosa. A precipitação pluvial média anual varia entre 1400 e 1800 milímetros, não apresentando estação seca bem definida. Em relação às temperaturas históricas registradas nos Campos Gerais, a média anual indica valores entre 16 e 20ºC no ano, variando de acordo com a latitude e altitude da região (PROENÇA, 2012). O espectrofotômetro utilizado nas leituras foi da marca FOSS, modelo XDS Near- Infrared. A base de dados é composta por: leituras de comprimentos de onda na região do infravermelho visível e próximo (Vis-NIRS visible and Near Infrared Spectroscopy) de dois em dois nanômetros, resultando em 1050 atributos, e a CTC obtida em laboratório pelo método convencional da resina em cmolc/dm³. A região Vis-NIRS reflete a composição e informações estruturais de moléculas no comprimento de onda do espectro de 400-2500 nanômetros gerando informações espectrais (LIU et al., 2013). Essas informações foram separadas em quatro bases de dados, para a maior amplitude do estudo, sendo elas subdivididas em: r400-r700 (visível), r700-r2498 (infravermelho próximo), r400-r2498 (Vis-NIRS) e r1100-r1650.
Os modelos computacionais RNA e SVM foram utilizados para a análise de dados e reconhecimento de padrões a fim de predizer valores. As RNAs são simulações matemáticas de processamento de dados que se baseiam em redes neurais biológicas. RNAs têm as vantagens da auto-organização, autoaprendizagem, robustez e tolerância a falhas na modelagem. No entanto, RNAs sofrem de três grandes inconvenientes: dependem fortemente dos parâmetros de aprendizagem e da topologia de rede; são demoradas; e os modelos são complexos e de difícil interpretação (SHI et al., 2014). O algoritmo de RNA aplicado foi o MultilayerPerceptron. A SVM é um conjunto de métodos capaz de aprender em um espaço de alta dimensionalidade com poucos dados de treinamento. Ela emprega um conjunto de equações lineares para obter os vetores de suporte, sendo capaz de lidar com problemas lineares e não lineares de análise multivariada e resolver esses problemas de uma maneira relativamente rápida (LIU et al., 2013). O algoritmo de SVM aplicado foi o SMOreg. Para a execução dos algoritmos foi utilizado o software Weka (HALL et al., 2009), um software livre do tipo open source, desenvolvido para mineração de dados. RESULTADOS E DISCUSSÃO A Tabela 1 mostra os resultados da validação-cruzada para a CTC aplicando RNA e SVM, através do software weka, no Vis-NIRS e suas faixas em diferentes amplitudes. Tabela 1 Resultados da validação-cruzada para a CTC aplicando RNA e SVM no Vis-NIRS e suas faixas em diferentes amplitudes. Bases de dados utilizadas RNA SVM R² RMSE R² RMSE R400-R700 (Visível) 0,4880 1,44 0,4472 1,53 R700-R2498 (Infravermelho Próximo) 0,3401 2,37 0,5718 1,33 R400-R2498 (Vis-NIRS) 0,3329 1,91 0,5676 1,34 R1100-R1650 0,3360 1,72 0,4471 1,50 Variável R² = Coeficiente de Determinação. Variável RMSE = Erro médio da raiz quadrada (Root mean squared error). O melhor resultado predito aplicando RNA foi na faixa do visível (R² = 0,48), já na SVM encontra-se na faixa do infravermelho próximo (R² = 0,57) e Vis-NIRS (R² = 0,56). Nota-se que os algoritmos se comportam de maneiras diferentes para quantidades de dados distintas. As Redes Neurais Artificiais demonstraram um bom desempenho na faixa que varia apenas de R400-R700, enquanto com SVM obteve-se a melhor resposta quando o conjunto trabalhado foi de R700-R2498 e R400-R2498. Terra (2011) utilizou SVM e Regressão com Mínimos Quadrados Parciais (PLSR - Partial Least Squares Regression) para predizer a CTC em dados de reflectância no Vis-NIRS.
Sua base de dados continha 895 amostras. A resposta para SVM foi R² = 0,68 (RMSE = 0,14) e com PLSR R² = 0,31 (RMSE = 0,21), superior ao resultado deste trabalho (R² = 0,56 e RMSE = 1,34). O número de amostras pode ter colaborado para essa diferença nos resultados. Canasveras et al. (2012) utilizou PLSR para predizer a CTC (em cmolc/kg) no Vis- NIRS. Com uma base de dados com 331 amostras. Sua resposta foi de R² = 0,70 (RMSE = 5,6). Observa-se que no primeiro caso, a SVM se comportou melhor que PLRS e no segundo caso, que só foi utilizado PLRS o erro se manteve alto. CONCLUSÕES Nesse estudo a técnica SVM demonstrou melhor desempenho que RNA para a predição de CTC no solo, obtendo erros menores em todos os casos e coeficientes de determinação maiores em três dos quatro casos. Em relação à estimativa de CTC por refletância espectral, os resultados não foram satisfatórios o suficiente para concluir sobre seu potencial efetivo de uso. AGRADECIMENTOS A Fundação Araucária, pelo apoio financeiro. A Fundação ABC pelo fornecimento da base de dados Onix. REFERÊNCIAS CANASVERAS, J. C.; BARRON, V.; DEL CAMPILLO, M. C.; ROSSEL, R. A. V. Reflectance spectroscopy: a tool for predicting soil properties related to the incidence of Fe chlorosis. Spanish Journal Of Agricultural Research, 2012, Vol.10 (4), pp.1133-1142. DOHRMANN, R. Cation exchange capacity methodology II: A modified silver thiourea method. Applied Clay Science, Volume 34, Issues 1 4, October 2006, Pages 38-46. HALL, M.; FRANK, E.; HOLMES, G.; PFAHRINGER, B.; REUTEMANN, P.; WITTEN, I. H. The WEKA Data Mining Software: An Update. ACM SIGKDD Explorations Newsletter, 2009, Vol.11(1), pp.10-18 LIU, XM ; LIU, JS. Measurement of soil properties using visible and short wave-near infrared spectroscopy and multivariate calibration. Measurement, 2013, Vol.46(10), pp.3808-3814. PROENÇA, C. A. Redes Neurais Artificiais para Predição dos Teores de Matéria Orgânica e Argila do Solo na Região dos Campos Gerais Utilizando Espectroscopia de Reflectância Difusa. Dissertação. Universidade Estadual de Ponta Grossa, Ponta Grossa-PR, 2012.
SHI, Tiezhu; CHEN, Yiyun; LIU, Yaolin; WU, Guofeng Visible and near-infrared reflectance spectroscopy -- An alternative for monitoring soil contamination by heavy metals. Journal of Hazardous Materials, Jan 30, 2014, Vol.265, p.166 (11). TERRA, F. S. Espectroscopia de reflectância do visível ao Infravermelho médio aplicada aos estudos qualitativos e quantitativos de solos. Dissertação. Universidade de São Paulo, Piracicaba, 2011.