Comparação de modelos para reconstituição de superfície de valores de ph. Comparison of models for reconstruction of ph values surface

Documentos relacionados
P. P. G. em Agricultura de Precisão DPADP0803: Geoestatística (Prof. Dr. Elódio Sebem)

Relatório de análise estatística Bairro : Dois Irmãos Recife/PE

ISSN Palavras-chave: Hierarquização geométrica, espaços de Hilbert, simulação estocástica.

Prof: Felipe C. V. dos Santos

9 Correlação e Regressão. 9-1 Aspectos Gerais 9-2 Correlação 9-3 Regressão 9-4 Intervalos de Variação e Predição 9-5 Regressão Múltipla

Estimativas e Tamanhos de Amostras

Medidas Territoriais: Bairro, Distrito, Zona, Interdistrital, Intradistrital, Intermunicipal e outros Recortes do Espaço Urbano

ANÁLISE DE RISCO E RETORNO DE INVESTIMENTO USO DAS MEDIDAS DE DISPERSÃO

Estudo sobre a dependência espacial da dengue em Salvador no ano de 2002: Uma aplicação do Índice de Moran

Análise de modelos lineares mistos com dois fatores longitudinais: um fator quantitativo e um qualitativo ordinal.

Licenciatura em Ciências Biológicas Universidade Federal de Goiás. Bioestatística. Prof. Thiago Rangel - Dep. Ecologia ICB

APONTAMENTOS DE SPSS

Metodologias de identificação e caracterização de assentamentos precários

Distribuição de frequências:

Estimação bayesiana em modelos lineares generalizados mistos: MCMC versus INLA

Sumário. CAPÍTULO 1 Conceitos preliminares 1. CAPÍTULO 2 Descrição de dados: análise monovariada 47

7. Testes de Hipóteses

(") ; b) ρ b1b2 = 0,5; ρ b1b3 = 0,5; ρ b1b4 = 0

UMA ANÁLISE ECONOMÉTRICA DO ICMS *

Ajuste de um modelo de TRI aos dados do vestibular do curso de Administração Noturno da Universidade Federal de Uberlândia

9 Previsão da taxa de câmbio no Brasil

AT = Maior valor Menor valor

5 Experimentos Conjunto de Dados

CE Estatística I

Para ajudar a interpretar os resultados, o Cartão de Relatórios do Assistente do teste de % de defeituosos para 1 amostra exibe os seguintes

NOÇÕES RÁPIDAS DE ESTATÍSTICA E TRATAMENTO DE DADOS

Proposta de ajuste de modelos não lineares na descrição de germinação de sementes de café

Considerações. Planejamento. Planejamento. 3.3 Análise de Variância ANOVA. 3.3 Análise de Variância ANOVA. Estatística II

Conteúdo. 1 Introdução. Histograma do Quarto Sorteio da Nota Fiscal Paraná 032/16. Quarto Sorteio Eletrônico da Nota Fiscal Paraná

CÁLCULO DA INCERTEZA

CAPÍTULO 5 LINGUAGEM LEGAL E EXTENSÕES PROPOSTAS

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular PROBABILIDADES E ESTATÍSTICA Ano Lectivo 2012/2013

Estatística Descritiva

INTRODUÇÃO À ROBÓTICA MÓVEL

NÍVEL DE ENSINO: CARGA HORÁRIA: PROBABILIDADE EST PROFESSOR-AUTOR:

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

Avaliação de Sistemas de Medição

Conceitos básicos, probabilidade, distribuição normal e uso de tabelas padronizadas

Análise da distribuição da velocidade dos ventos em Piracicaba/SP

Proposição de um Modelo de Regressão para a Modelagem da Velocidade do Vento em Fortaleza, CE.

ESTUDOS DE COORTE. Baixo Peso Peso Normal Total Mãe usuária de cocaína

Análise retrospectiva e crítica das taxas de retorno calculadas pela Agência Nacional de Energia Elétrica (ANEEL) para as concessões no setor

M. Eisencraft 6.3 Funções de correlação 81. R YX (τ) R YY (τ). (6.19) R XY (τ) = R YX ( τ) (6.20)

Triangulação de Delauney

Estudo de Periodicidade dos Dados de Poluição Atmosférica na Estimação de Efeitos na Saúde no Município do Rio de Janeiro

PROGRAMA e Metas Curriculares Matemática A. Estatística. António Bivar, Carlos Grosso, Filipe Oliveira, Luísa Loura e Maria Clementina Timóteo

A PESQUISA. Prof. M.Sc Janine Gomes da Silva, Arq.

DETERMINAÇÃO DO PREÇO DA TERRA EM GOIÁS A PARTIR DO USO DE GEOESTATÍSTICA

Suplemento Roteiro 2. GEX 132 Laboratório de Física I

Determinação de medidas de posição a partir de dados agrupados

Profa.: Patricia Maria Bortolon, D.Sc. Statistics for Managers Using Microsoft Excel, 5e 2008 Pearson Prentice-Hall, Inc. Chap 9-1

CAPÍTULO V 5 CONCLUSÕES E RECOMENDAÇÕES 5.1 SÍNTESE DO TRABALHO DESENVOLVIDO

EXPERIMENTO FATORIAL BLOCADO PARA DETERMINAÇÃO DE DIFERENÇAS ENTRE TEMPO DE QUEIMA DE VELAS DE PARAFINA

Coeficiente de Assimetria

Gerenciamento de Risco

Medidas de Dispersão. Introdução Amplitude Variância Desvio Padrão Coeficiente de Variação

INSTRUMENTOS DE PESAGEM USADOS EM ENSAIOS DE MATERIAIS

A Influência da Amostragem na Representatividade dos Dados

Este documento contém 7 páginas e só pode ser reproduzido com autorização formal prévia do IBEC. Docto. n. DMT015 Rev. 3.

Roraima. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado de Roraima (1991, 2000 e 2010)

População e Amostra. População: O conjunto de todas as coisas que se pretende estudar. Representada por tudo o que está no interior do desenho.

SISTEMA GUARDIÃO. Manual de Usuário

CONCEITOS FUNDAMENTAIS

Espírito Santo. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado do Espírito Santo (1991, 2000 e 2010)

Utilização de testes de comparações múltiplas na análise de experimentos unifatoriais com tratamentos quantitativos

Ceará. Tabela 1: Indicadores selecionados: mediana, 1º e 3º quartis nos municípios do estado do Ceará (1991, 2000 e 2010)

GERÊNCIA DE ENSINO E PESQUISA - GEP SETOR DE GESTÃO DA PESQUISA E INOVAÇÃO TECNOLOGICA ESTATÍSTICA ALICADA NO EXCEL. Estatística Descritiva

Análise de Correspondência em acessos de pimenta

Aula 6. Testes de Hipóteses Paramétricos (I)

Filtro de Kalman. Teoria e Aplicação para Iniciantes. Prof. Dr. Marco Antonio Leonel Caetano. M&V Consultoria e Treinamento

A ANÁLISE EXPLORATÓRIA DE DADOS ESPACIAIS: breve introdução José Irineu Rangel Rigotti

Teste de hipótese de variância e Análise de Variância (ANOVA)

USO DE PLANEJAMENTO COMPOSTO CENTRAL NA AVALIAÇÃO DAS VARIÁVEIS TEMPERAURA E CONCENTRAÇÃO DE SOLVENTES NO ESTUDO DA SOLUBILIDADE DA UREIA

Agrupamento de Escolas do Fundão

Estatística Básica MEDIDAS RESUMO

Comprovação Estatística de Medidas Elétricas

ANÁLISE DOS RESÍDUOS. Na análise de regressão linear, assumimos que os erros E 1, E 2,, E n satisfazem os seguintes pressupostos:

UMA NOVA ABORDAGEM PARA O ENSINO DE ESTATÍSTICA NOS CURSOS DE ENGENHARIA

ESCOLA SECUNDÁRIA DE LOUSADA

Pedro Alberto Barbetta / Marcelo Menezes Reis / Antonio Cezar Bornia São Paulo: Atlas, 2004

Instrumentação Industrial. Fundamentos de Instrumentação Industrial: Introdução a Metrologia Incerteza na Medição

Incerteza de resultados de Medição em Máquinas de Medir por Coordenadas

FERRAMENTAS ESTATÍSTICAS PARA ANÁLISE DA CLASSIFICAÇÃO

Gabarito da 1 a Lista de Exercícios de Econometria II

Elementos de Estatística

Modelos de Regressão Linear Simples - Erro Puro e Falta de Ajuste

Estatística. Professora: Eliana Carvalho Estatística e Probabilidade 1

P R O G R A M A TERCEIRA FASE. DISCIPLINA: Estatística Aplicada à Pesquisa Educacional Código: 3EAPE Carga Horária: 54h/a (crédito 03)

APLICAÇÃO DE SIG NO GERENCIAMENTO DE RESÍDUOS SÓLIDOS: LOCALIZAÇÃO DE ÁREA PARA ATERRO SANITÁRIO

Unidade III ESTATÍSTICA. Prof. Fernando Rodrigues

HEP Bioestatística

USO DO MÉTODO DA MÁXIMA CURVATURA MODIFICADA PARA ESTIMAR O TAMANHO ÓTIMO DE PARCELAS NO ESTUDO DO PESO DOS ESTUDANTES

Exemplo Regressão Binomial Dados Emparelhados

Aula S03: Validação em Análises Ambientais

CAPÍTULO 3 POPULAÇÃO E AMOSTRA

8 Testes de Hipóteses e Comparação entre Modelos

M. Eisencraft 4.6 Distribuição e densidade de uma soma de variáveis aleatórias57. + w y. f X,Y (x,y)dxdy (4.24) w y

ESTATÍSTICA. Objectivo: recolha, compilação, análise e interpretação de dados. ESTATÍSTICA DESCRITIVA INFERÊNCIA ESTATÍSTICA

Projetos Socioeducacionais: O Caso do Projeto Travessia

Tabela 4.1 Distribuição dos indicadores por tipo Tipo de Indicador No. de indicadores. Indicadores de Evento 93. Indicadores de Tendência 37

Transcrição:

Comparação de modelos para reconstituição de superfície de valores de ph Wagner Hugo Bonat 1, Cristiano Nunes Nesi 2 e Paulo Justiniano Ribeiro Jr 3 1 Mestre em Métodos Numéricos, UFPR/DEST/LEG, Centro Politécnico, Curitiba/PR, wagner@leg.ufpr.br 2 Doutorando em Agronomia, UFPR/LEG, cristiano@epagri.sc.gov.br 3 PhD Estatística, UFPR/LEG, paulojus@leg.ufpr.br Resumo O interesse deste trabalho está em comparar técnicas de modelagem estatística para a reconstituição de fenômenos espacialmente contínuos, através de amostras coletadas de forma discreta dentro de uma área de estudo. Quatro modelos estatísticos foram considerados: o modelo geoestatístico, modelos aditivos generalizados com funções suaves bidimensionais do tipo thin plate splines e tensor product splines, e um modelo random walk de segunda ordem bidimensional. Dados são medidas de níveis de ph coletados em um solo do município de Xanxerê/SC. Para comparação das técnicas foi utilizado um procedimento de validação cruzada e três medidas de adequação das predições espaciais foram calculadas: desvio padrão médio, erro absoluto médio e nível de cobertura. Os resultados mostram que as predições usando o modelo geoestatístico são superiores as outras três abordagens consideradas. Seguiuse o modelo aditivo generalizado com thin plate splines cuja implementação computacional é mais simples. Os demais modelos apresentaram resultados pouco confiáveis, não tendo sido capazes de capturar pequenas variações espacias no nível de ph no solo. Palavras-chave: Modelo geoestatístico, splines bidimensionais, modelos de passeio aleatório. Comparison of models for reconstruction of ph values surface Abstract The present work aims to compare statistical models for reconstructing surfaces of spatially continuous phenomena by using a set of discrete samples taken over the study area. Four statistical models were considered: a geostatistical model, generalized additive models with this plate splines and tensor product splines as the choices of bidimensional smoothing functions and a bidimensional second order random walk model. Data consists of ph soil measurements taken at an area in the municipality of Xanxerê/SC. Predictions using the models are assessed and compared by three cross-validation measures: average prediction error, average absolute error and coverage levels. Overall better results were obtained with the geostatistical model followed by the generalized additive model with thin plate splines which is computationally atractive. Poor results were obtained with the other models which were unable to detect spatial variations on the soil ph values. Key words: geostatistical model, two-dimensional splines, random walk models. Introdução Métodos geoestatísticos aplicam-se à estimação e predição espacial em fenômenos espacialmente contínuos, usando dados obtidos em um número limitado de localizações geográficas. Isto ocorre em diversas situações ambientais como geologia, meteorologia, ecologia, pescas dentre outras. Na agronomia, o objetivo pode ser analisar uma região para fins de zoneamento agrícola, ou mapear o teor de nutrientes no solo. Outras áreas que também se deparam com tais problemas, são epidemiologia, entomologia, construção civil entre outras. Independente da área de aplicação, o que os fenômenos têm em comum é o fato de que as amostras tem uma localização espacial e o fenômeno em estudo varia continuamente sobre uma região. A presença de um componente espacial na coleta dos dados torna as análises estatísticas convencionais inadequadas, principalmente devido a suposição de amostras independentes. A ênfase da análise espacial é mensurar propriedades e relacionamentos, levando em conta a localização do fenômeno em estudo de forma explícita. Assim, a ideia geral é incorporar o espaço na análise que se deseja fazer. O termo geoestatística, refere-se a modelos e métodos para dados seguindo as seguintes características: Os valores Y i :i=1,...n são observados em um conjunto discreto de localizações amostrais, x i, em alguma região espacial A. Cada valor Y i é uma versão ruidosa de um fenômeno II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 1

espacial contínuo não observável, denotado por S x, nas correspondentes localizações amostrais. O objetivo mais comum neste tipo de análise é recuperar o processo S x. Para isto, a abordagem padrão é o modelo geoestatístico, como apresentado em Diggle e Ribeiro Jr (2007). Paralelamente ao desenvolvimento da geoestatística, outras formas de modelos para reconstituição de superfícies contínuas foram desenvolvidas. Uma abordagem computacionalmente barata é a utilização de funções suaves (smooth functions) bidimensionais como a thin plate splines (WOOD, 2003) e a tensor product splines (WOOD, 2006) em um contexto de modelos aditivos generalizados como apresentado em Hastie e Tibshirani (1990). Uma outra opção de análise é aproximar o campo latente Gaussiano por um campo latente Gaussiano Markoviano, como proposto por Rue e Tjelmeland (2002) dentro de uma perspectiva de estimação Bayesiana. Esta abordagem tem vantagens computacionais sobre a abordagem geoestatistica padrão, por assumir uma estrutura Markoviana para o relacionamento entre as observações espacialmente localizadas, tornando esparsa a matriz de variância-covariância do modelo, o que resulta em algoritmos numéricos mais rápidos e estáveis (RUE; HELD, 2005). Além disso, esta abordagem abre a possibilidade de trabalhar com grandes bases de dados através do uso de matrizes esparsas. Apresentadas estas diferentes possibilidades de modelagem, o objetivo deste artigo é comparar estes quatro modelos na reconstituição de uma superfície contínua, através de um conjunto de dados real, referente ao nível de ph do solo. O artigo está dividido em quatro seções. A primeira busca apresentar o problema, bem como, algumas possíveis abordagens de modelagem, junto com o objetivo do artigo. A segunda apresenta o conjunto de dados utilizado, as ferramentas de softwares e as principais referências sobre os modelos. A terceira apresenta os principais resultados alcançados e finalmente a quarta traz as conclusões e indicações de trabalhos futuros. Material e Métodos Para ilustrar e comparar as alternativas de modelagem, selecionou-se um conjunto de dados referente a amostras de solo que foram coletadas em uma área situada no município de Xanxerê/SC. O local possui solo do tipo Latossolo Vermelho distroférrico, clima Mesotérmico úmido, com verões quentes, invernos frios e temperatura média de 18,7 o C. A área foi dividida em 48 parcelas contíguas, cada uma medindo 2,4 x 5,0 metros. Nas parcelas foram coletadas cinco subamostras de solo que compuseram uma única amostra, avaliadas em laboratório para quantificação dos elementos minerais. As coordenadas de cada parcela foram estabelecidas de forma arbitrária, análogas ao plano coordenado (X 1 e X 2 ). Assim, o primeiro ponto foi tomado no centro da parcela, com coordenadas X 11 = 1,2m e X 21 = 2,5m. A segunda parcela na posição X 12 = 3,6m e X 22 = 2,5m, e assim sucessivamente para as demais. Com os níveis de ph de cada amostra e suas coordenadas, foram ajustados quatro modelos e a superfície reconstituída. Para o ajuste do modelo a variável resposta (nível de ph) foi assumida como Gaussiana. De forma geral, os quatro modelos explorados neste artigo podem ser descritos como casos particulares de modelos aditivamente estruturados (FAHRMEIR e TUTZ, 2001). Considere a variável aleatória Y i e que sua média E Y i /z,β é ligada a um preditor aditivamente estruturado, n f n β g μ i =η i =α+ f u ji β k z ki+ε i (1) j=1 i=1 onde g(.) é uma função conhecida chamada função de ligação, α e β são parâmetros de regressão desconhecidos, ε i é um termo não estruturado. A flexibilidade desta classe de modelos é devido as funções f(.) desconhecidas das covariáveis u, é justamente pelas diferentes formas que estas funções podem tomar, que tem-se diversas abordagens para um mesmo problema. Por exemplo, o primeiro modelo utilizado, o geoestatístico, é um caso particular do preditor em (1) quando toma-se as funções f(.) como um campo aleatório Gaussiano, como apresentado em Diggle e Ribeiro Jr, 2007. Este modelo encontra-se implementado no pacote geor (RIBEIRO Jr; DIGGLE, 2001). O segundo e terceiro são modelos aditivos generalizados, que supõe que as funções desconhecidas f(.) são splines bidimensionais, funções das coordenadas geográficas das observações. O que difere tais II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 2

modelos são as formas de especificação das funções suavizadoras, considerando-se aqui a thin plate splines e tensor product splines. Para o ajuste destes modelos foi utilizado o pacote mgcv (WOOD, 2008). O quarto modelo é do tipo random walk de segunda ordem bidimensional, que especifica as junções f(.) como campos aleatórios Markovianos Gaussianos (CAMG) conforme descrito em Rue e Held (2005) seção 3.4. Este modelo encontra-se implementado no pacote INLA (MARTINO; RUE, 2008). Todas as rotinas para as análises foram desenvolvidas em linguagem R (R Development Core Team 2010) e encontram-se disponíveis em www.leg.ufpr.br/papercompanions. Nos modelos considerados aqui foi tomada a função de ligação g(.) como sendo a identidade, já que, se está trabalhando no caso Gaussiano. As metodologias para inferência sobre os parâmetros desconhecidos dos modelos também variam de acordo com a forma assumida para as funções f(.). No caso de resposta Gaussiana, o modelo geoestatístico é estimado maximizando a função de verossimilhança, os modelos aditivos generalizados por uma extensão do métodos de mínimos quadrados e para os modelos random walk, utiliza-se inferência Bayesiana. Mais detalhes sobre aspectos de inferência para estes modelos podem ser obtidos nas referências apresentadas. A fim de comparar a capacidade preditiva dos modelos, foi realizado um procedimento de validação cruzada. Este procedimento consiste em retirar uma observação, reajustar os modelos sem a observação faltante e com o modelo ajustado prever a observação retirada, repetindo-se o processo para cada uma das 48 observações que compõem a amostra total. Com isso, foram calculadas as medidas da adequacidade da predição: desvio padrão médio (DPM), erro absoluto médio (EAM) que são medidas que avaliam apenas as predições médias. Para uma melhor comparação foi calculado o nível de cobertura dos intervalos de confiança ou credibilidade no caso de inferência Bayesiana. O nível de cobertura é definido como o percentual de intervalos construídos que realmente continham o verdadeiro valor da observação retirada. Todos os intervalos construídos neste artigo assumem um nível nominal de 95%. Resultados e Discussão A apresentação dos resultados será realizada através de mapas com as superfícies estimadas por cada uma das abordagens e, posteriormente comparação das medidas de adequação das predições. A Figura 1 apresenta quatro superfícies para o nível de ph obtidas por diferentes modelos. Para construção dos mapas a escala de cores é padronizada de forma a possibilitar a comparação. A grade de predição contêm 5618 pontos, sendo de 106 linhas por 53 colunas. De forma geral as quatro abordagens indicam a existência de dependência espacial para o nível de ph. Porém, a abordagem geoestatística e a thin plate splines mostram uma maior variabilidade. Os modelos tensor product e random walk 2D, estimaram superfícies muito suaves, para o nível de ph. As duas primeiras abordagens parecem ser mais sensíveis a pequenas variações espaciais na variável de interesse, enquanto as duas últimas não foram capazes de captar pequenas variações espaciais por suavizar aparentemente demais o processo. Algumas medidas resumo das predições ajudam a entender estas diferenças. Previsões obtidas pelo modelo geoestatístico estão entre 4,10 e 5,70 para os níveis de ph, uma amplitude de variação de 1,6 unidades, com o desvio padrão entre as predições de 0,1356. Para o modelo com thin plate splines os valores preditos variaram entre 4,62 e 5,26 uma amplitude de 0,64, com desvio padrão entre as observações de 0,1162. Isto explica que apesar das mudanças estimadas por este método serem mais suaves que pelo anterior (amplitude de variação menor) dentro da área como um todo, o método foi capaz de capturar pequenas variações espaciais refletidas nas curvas apresentadas na superfície estimada. A superfície predita pelo modelo com tensor product splines tem um aspecto bastante suave quando comparada com as duas anteriores, pois variações de pequena escala no nível de ph são menos aparentes. Os valores preditos variaram entre 4,69 e 5,28, com desvio padrão de 0,1031, mostrando resultados próximos a thin plate splines, como era esperado, por serem variações de funções splines bidimensionais. O modelo random walk 2D, neste caso, não consegue capturar efeitos espaciais de pequena escala, ou seja, mudanças sutis do fenômeno dentro da área de estudo. A superfície estimada é muito suave, contrastando com o ajuste dos outros modelos, principalmente do geoestatístico que capturou mais variabilidade espacial, no nível de ph sobre a área. As predições com esta abordagem variaram entre 4,85 e 5,18 com desvio padrão de apenas 0,073, uma variação 85% menor que a capturada pelo modelo geoestatístico. De certa forma, este resultado era esperado para este modelo, uma vez que o tamanho da amostra neste exemplo é pequeno (n = 48). Como este modelo não faz uso de função de correlação para mensurar o relacionamento entre as variáveis no II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 3

espaço, usando apenas informação da estrutura de vizinhança entre as observações, na falta de uma densa malha de pontos ele tenderá a prever valores próximos a média global da área que é 5, indicando apenas mudanças de grande escala em torno desta média global. Figura 1. Mapas de nível de ph estimados por diferentes abordagens. Para melhor explorar as relações entre as abordagens consideradas, a Tabela 1 apresenta a correlação entre as predições obtidas por cada abordagem. Tabela 1. Correlação entre as predições obtidas pelos diferentes modelos Abordagens Geoestatística Thin Plate Tensor Product Random Walk 2D Geoestatística 1 0,87 0,71 0,65 Thin Plate 0,87 1 0,89 0,85 Tensor Product 0,71 0,89 1 0,94 Randon Walk 2D 0,65 0,85 0,94 1 Como já era indicado pela Figura 1, as predições realizadas pela abordagem geoestatística guardam mais correlação com a thin plate splines, dado o alto coeficiente de correlação entre suas predições. As predições de tensor product splines são fortemente correlacionadas com as obtidas pelo random walk 2D, sendo que as duas parecem apresentar dificuldades em capturar mudanças de pequena escala no nível de ph. Até o momento foi analisado como cada abordagem se comportou para reconstituir a superfície do nível de ph sobre a área em estudo. Contudo, não se tem medidas indicando qual abordagem é melhor ou pior II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 4

para reconstituir a superfície, ou seja, qual abordagem erra menos ao estimar o nível de ph em determinada localização não observada. Por exemplo, o modelo geoestatístico capturou diversas variações em pequena escala no nível de ph, enquanto que o modelo random walk 2D indica que a superfície não apresenta tais variações, porém como não se observa a área toda, não há motivos para indicar um ou outro modelo como melhor para descrever o processo sobre esta área. Para responder sobre isso foi executado o procedimento de validação cruzada, cujo resumo dos resultados é apresentado na Tabela 2. Tabela 2. Comparação entre o desvio padrão médio, erro absoluto médio e nível de cobertura de acordo com abordagem utilizada Abordagens DPM EAM Cobertura Geoestatística 0,0006 0,1570 93,75% Thin Plate Splines 0,0012 0,1625 79,17% Tensor Product Splines 0,0043 0,2052 68,75% Random Walk 2D 0,0017 0,1683 54,17% DPM Desvio Padrão Médio, EAM Erro absoluto médio. O modelo geoestatístico é o que apresenta os melhores resultados em todas as medidas entre os modelos considerados. Destaca-se o nível de cobertura de 93,75%, o único que manteve-se perto do nível nominal de 95%. Destaca-se o fraco desempenho do modelo random walk 2D, principalmente na medida de nível de cobertura de seus intervalos, que apresentou um nível aproximadamente 40% menor do que era esperado. O modelo com tensor product splines apresentou seu baixo desempenho na medida de erro absoluto médio, valor 30,70% maior que o modelo geostatístico tido como referência para análises desta natureza. Já o modelo com termo espacial modelado por thin plate splines, foi, dentre os considerados, o que mais se aproximou do modelo geoestatístico, porém apresentando nível de cobertura consideravelmente abaixo do nível nominal. O desvio padrão médio é duas vezes maior que o do modelo geoestatístico, porém em termos absolutos esta diferença é muito pequena, de 0,0048. Com relação ao erro absoluto médio a diferença é de apenas 3,5%. Baseado nestes resultados, pode-se considerar que as abordagens geoestatística e thin plate splines, recuperaram a superfície do nível de ph da região de forma mais realística que a tensor product e random Walk 2D. Indicando também que esta superfície apresenta variações em pequena escala que não foram capturadas pelas últimas duas abordagens. Conclusão A metodologia usual para análises desta natureza, o modelo geoestatístico, mostrou um desempenho bastante superior às outras abordagens propostas (thin plate splines, tensor product splines e random walk 2D) na comparação por três medidas de adequação das predições, após um procedimento de validação cruzada. Cabe ressaltar que nas abordagens geoestatístico e random walk 2D o efeito espacial é tratado como aleatório, já nas abordagens thin plate e tensor product é tratado como efeito fixo. Os resultados apontam que o efeito espacial é melhor capturado quando tratado de forma aleatória. O mau desempenho do modelo random walk 2D, deve-se muito a malha de pontos ser pequena (n=48), o que torna a aproximação por espaço discreto pouco acurada. A abordagem thin plate splines apresentou resultados compatíveis com a metodologia padrão, sendo uma possível abordagem mais barata computacionalmente que o modelo geoestatístico. As outras duas abordagens apresentaram resultados bastante inferiores, sendo necessários mais estudos para identificar quando tais abordagens podem ser úteis na reconstituição de superfície contínuas. Deixa-se aqui como futura agenda para pesquisas, simular diferentes processos espaciais e fazer a reconstituição pelas diferentes abordagens para identificar para quais tipos de características do processo cada abordagem pode ser mais ou menos adequada. Além disso, também é recomendável considerar diferentes tipos de amostragem (regular, aleatório, agregada) e tamanhos de amostras, para verificar o desempenho das alternativas de modelagem sob algumas destas condições e estruturas de dados. II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 5

Referências DIGGLE, P. ; RIBEIRO Jr. P. J. Model-based geostatistics. New York: Springer, 2007. HASTIE, T. J.; TIBSHIRANI, R.J. Generalized Additive Models. London: Chapman & Hall, 1990. FAHRMEIR, L. ; TUTZ, G. Multivariate Statistical Modelling Based Generalized Linear Models. Berlin: Springer-Verlag, 2001. MARTINO, S. ; RUE, H. Implementing approximate Bayesian inference for latent Gaussian models using Integrated nested Laplace approximations: A manual for the inla-program. Department of Mathematical Sciences, 2008. R Development Core Team. R: A language and Environment for Statistical Computing. Vienna, Austria, 2009. Disponível em: <http://www.r-project.org>. Acesso em: 29 dez. 2010. RIBEIRO Jr., P. J. ; DIGGLE, P. GeoR: A package for geostatistical analysis. R-NEWS, p.15-18, 2001. RUE, H. ; TJELMELAND, H. Fitting Gaussian Markov randon fields to Gaussian fields. Scandinavian Journal of Statistics, p.31-50, 2002. RUE, H. ; HELD, L. Gaussian Markov Randon Fields: Theory and Applications. London: Chapman & Hall, 2005. WOOD, S. N. Thin-plate regression splines. Journal of the Royal Statistical Society (B), p. 95-114, 2003. WOOD, S. N. Generalized Additive Models: An Introduction with R. Boca Raton: Chapman & Hall, 2006. WOOD, S. N. Gams with gcv smoothness estimation and gamms by reml/pql. R package version, 2008. Disponível em: <http://cran.r-project.org/web/packages/mgcv>. Acesso em: 29 dez. 2010. II Simpósio de Geoestatística em Ciências Agrárias ISSN: 2236-2118 6