Modelagem Preditiva de Distribuição Geográfica Ricardo Pinto da Rocha Fonte: Cottrell - Maximum Entropy Modelling of Noisy and Incomplete Data Oque é modelagem de distribuição de espécies? distribuição em áreas onde a espécie tem potencial de estar = modelagem de nicho Modelo de distribuição das condições ambientais referentes aos pontos de ocorrência da espécie, baseada nos dados ambientais utilizados Amostra da distribuição real da espécie Amostra das variáveis ambientais responsáveis pela distribuição da espécie Barreiras geográficas não são incluídas. Interações entre espécies são difíceis de contemplar Para que modelar a distribuição Prever potencial distribuição de: 1.Possíveis áreas de ocorrência 2.Espécie ameaçada, rara e/ou endêmica 3.Espécie invasora 4.Espécie indicadora 5.Padrões de distribuição no passado ou no futuro Oque é necessário para modelar Conceito de nicho Registros de ocorrência da(s) espécie(s) Dados ambientais (mapas temáticos) Algoritmos de modelagem Conceito de nicho Grinnell (1904, 1917, 1924): Distribuição geográfica dos indivíduos de uma espécie na ausência de interações entre espécies Característica ambiental 1
Conceito de nicho Modelagem Modelagem mostra, no espaço geográfico, a distribuição potencial da espécie referente às condições ambientais utilizadas na construção do modelo precipitação nicho fundamental temperatura distribuição potencial valores dos registros de ocorrência das espécies nicho realizado algoritmo Registros de ocorrência (pontos de presença) Variáveis ambientais temperatura precipitação topografia Distribuição Potencial Passos para iniciar uma modelagem 1. Definir a pergunta 1. Definir a pergunta 2. Estabelecer a abrangência geográfica/ambiental do estudo 3. Verificar se a qualidade e a quantidade de dados bióticos e abióticos são suficientes 4. Definir quais dados (bióticos e abióticos) serão utilizados 5. Escolher o algoritmo para modelagem Oque você quer modelar e porque? Espécie ameaçada, rara e/ou endêmica Espécie invasora Espécie indicadora Estimar padrões potenciais de riqueza de espécies Realizar testes metodológicos 2. Definir a abrangência Onde você quer realizar a modelagem? Qual a abrangência geográfica do estudo? Qual a escala melhor se aplica a essa modelagem? Qual resolução melhor se aplica a essa escala? 3. Qualidade dos dados Dados bióticos: qualidade taxonômica e qualidade do georeferenciamento (ponto área localidade município) Dados abióticos (mapas temáticos): verificar a especificidade ambiental da espécie; biologia/ecologia da espécie Escala mostra a relação entre a medida do mapa e a realidade Resolução é o tamanho do pixel (célula) dos mapas/imagens. 2
3. Algoritmo Escolha baseada - Quantidade de dados bióticos disponíveis - Adequação à pergunta - Adequação à qualidade dos dados Tipos de algoritmos de modelagem Bioclim (algoritmo de envelope bioclimático ou ambiental) Um dos primeiros a ser desenvolvido Binário Bioclim ED Garp Maxent Environmental Distance - Simples - Pouco robusto - Aplicável em poucos pontos de ocorrência Genetic algorithm for rule-set production (GARP) - Algoritmo não determinístico - Sujeito variações geradas ao acaso - Produz um resultado diferente a cada vez que é rodado (mesmo conjunto de dados) MaxEnt (Máxima Entropia) método para realizar previsões a partir de informações incompletas Estima a probabilidade de ocorrência da espécie encontrando a distribuição de probabilidade de máxima entropia (que é a distribuição mais espalhada, mais próxima da distribuição uniforme). Avaliação do modelo gerado Gerar um conjunto de teste que não foram utilizados para treinar o modelo - coletar novos dados (trabalho de campo ou levantamento da literatura - dividir os dados em conjuntos (treino e teste) antes de realizar a modelagem Partição de dados em treino e teste Tipos de partições de dados: 1. com reposição (ex. bootstrapping e jackknife) 2. sem reposição (ex. crossvalidation e subsample) Avaliação da qualidade do modelo : 1. Conjunto de teste: a. Coletar novos dados (trabalho de campo ou levantando da literatura) b. Dividir o dados em conjuntos (treino e teste) antes de realizar a modelagem aleatório espacial Tipos de erro Presença Real Ausência Real Tipos de erro distribuição geográfica prevista Distribuição geográfica real Presença prevista a b Ausência prevista c d a, d = previsões corretas b = erro de sobreposição (falso positivo) c = erro de omissão (falso negativo) Sobreprevisão Omissão Avaliar o modelo 3
Validação dos modelos Limite de corte (threshold) Pensar na utilização/aplicação do modelo: escolher qual o limiar de corte a ser aplicado Limite de corte = valor a partir do qual os valores de adequabilidade gerados serão considerados presença para a espécie Assumir entre sobreprevisão ou omissão... Modelos com alto erro de omissão são ruins (corte padrão 10%) Verificar a identidade da espécie Verificar o georeferenciamento da espécie Estabelecer o que será considerado presença da espécie no modelo teste gerado ausência presença O limite de corte mais utilizado na literatura é o menor valor de adequabilidade ambiental associado ao conjunto de treino Limite de corte: menor valor de adequabilidade ambiental associado ao conjunto de treino Resumindo Fractional predicted Cumulative threshold Logistic threshold Description Training omission rate Test omission rate P-value area 1.000 0.027 Fixed cumulative value 1 0.595 0.000 0.000 6.209E-6 5.000 0.090 Fixed cumulative value 5 0.408 0.012 0.036 1.076E-9 10.000 0.161 Fixed cumulative value 0.313 0.023 0.107 1.915E-11 10 4.214 0.077 Minimum training 0.430 0.000 0.036 5.665E-9 presence 27.633 0.293 10 percentile training 0.162 0.093 0.143 9.905E-24 presence 32.479 0.319 Equal training sensitivity 0.134 0.140 0.250 5.358E-22 and specificity 27.633 0.293 Maximum training sensitivity plus 0.162 0.093 0.143 9.905E-24 specificity 28.247 0.296 Equal test sensitivity 0.158 0.105 0.143 2.165E-24 and specificity 27.440 0.292 Maximum test sensitivity plus 0.163 0.093 0.107 8.248E-26 specificity Obtenção dos registros das espécie Obtenção de dados climáticos Escolha do algoritmo Gerar modelos testes Escolher seu limite de corte Associar/avaliar o modelo gerado dentro desse limite de corte 4.214 0.077 15.182 0.210 Balance training omission, predicted area and threshold value Equate entropy of thresholded and original distributions 0.430 0.000 0.036 5.665E-9 0.256 0.035 0.107 5.592E-15 Processo de modelagem 1. Preparação do arquivo com registros especie, dd lat, dd long bimaculatus, -30.758039, -55.868683 bimaculatus, -31.177716, -55.787868 bimaculatus, -30.896333, -55.585434 bimaculatus, -34.906239, -55.096025 bimaculatus, -34.925556, -54.895278 bimaculatus, -34.382194, -54.674361 bimaculatus, -34.657286, -54.157294 Processo de modelagem 2. Dados abióticos (mapas digitais contínuos) Worldclim dados climáticos mensais (para o mundo todo) de temperatura (máxima, média, mínima, precipitação e altitude em 4 diferentes resoluções (10, 5, 2.5, e 30 ). http://www.worldclim.org/ Hidro1K Elevation derivative database, resolução 1 km (todo mundo), fonte Earth Resources observation and Science (EROS). http://eros.usgs.gov/ USGS US Geological Surveys, dados de imagens de satélite, Advanced very high resolution radiometer (AVHRR). http://www.usgs.gov/ IPCC Intergovernmental Panel on Climate Change, dados de clima (presente e projeção do passado e futuro). Resolução 50 km. http://eros.ipcc.data.org/ 4
16/11/2015 LGM Holoceno 2015 2080 Araucaria angustifolia 5