Universidade Federal de Goiás Programa de Pós-Graduação em Ecologia e Evolução Elaboração e Delineamento de Projetos www.ecologia.ufrgs.br/~adrimelo/planejamento Prof. Adriano S. Melo asm.adrimelo no gmail.com
Estudos Observacionais Um problema Menor certeza sobre a atribuição de relação causa-e-efeito a um dado resultado significativo em relação a um estudo experimental
Estudos Observacionais Um segundo problema relacionado Dificuldades na análise de dados devido a multicolinearidade Exemplo: Efeito de temperatura e altitude sobre a densidade de araucária. Y = densidade araucária; X1 = temperatura; X2 = altitude Informação: correlação entre temperatura e altitude = 0,9
Estudos Observacionais Modelos desconsiderando a interação (só para simplificar): Y ~ temp + alti > summary.aov(lm(ara~temp+alti)) Df Sum Sq Mean Sq F value Pr(>F) temp 1 25.4100 25.4100 21.59 0.00560 ** alti 1 10.1453 10.1453 8.62 0.03241 * Residuals 5 5.8847 1.1769 temp alti Y 30 100 0,4 24 200 1,0 26 300 1,1 18 400 3,5 Y ~ alti + temp > summary.aov(lm(ara~alti+temp)) Df Sum Sq Mean Sq F value Pr(>F) alti 1 34.926 34.926 29.6751 0.002832 ** temp 1 0.629 0.629 0.5347 0.497446 Residuals 5 5.885 1.177 12 500 3,0 14 600 5,1 11 700 3,8 13 800 7,7 Total SS = 25,41+10,1453+5,8847 = 34,926+0,629+5,885 = 41,44 Exclusivo: alti = 10,1453; temp = 0,629 Compartilhada: 25,41-0,629 = 24,781; 34,926-10,1453 = 24,781
Mas geralmente você verá apenas isto no seu programa favorito... summary(lm(ara~temp+alti)) Call: lm(formula = ara ~ temp + alti) Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -3.939226 4.236561-0.930 0.3951 temp 0.099181 0.135634 0.731 0.4974 alti 0.011787 0.004015 2.936 0.0324 *
Forma de trabalho: Seleção de modelos Uma das formas de fazer seleção: 1. Faça um modelo com todas variáveis 2. Retire uma variável do modelo anterior e calcule novamente 3. Compare os modelos 1 e 2. 4a. Se modelos forem semelhantes em desempenho: Fique com modelo mais simples. 4b. Se modelos forem diferentes em desempenho: Fique com modelo mais completo. 5. Tente retirar outra variável, repetindo os passos anteriores --> Fazemos isto com qualquer análise univariada! (e.g. regressão, anova)
Seleção de modelos: critérios Probabilidade (o mais comum; É bom sempre? Quando não é?) AIC BIC R 2 Diferentes critérios podem resultar em modelos distintos... Além dos critérios, existem outras estratégias de seleção... Que podem resultar em outros modelos...
Estudos observacionais Segundo Burnhan & Anderson (2003): --Não temos modelos corretos! --Temos modelos que são melhores que outros... --Um dado modelo é bom até o momento em que se encontre um melhor --Estudos observacionais: exploratórios --> podem gerar hipóteses para experimentação Veja o Capítulo 1 de: Burnhan & Anderson. 2003. Model selection and multi-model inference. Springer.
Antes de mais nada, são intuitivos! Exemplo: Sem saber nada de Estatística, como faria para saber se altura de meninos é maior que altura de meninas? Meninos: 1.73, 1.85, 1.75, 1.97, 1.56, 1.81, 1.69, 1.72 --> Média = 1.76 Meninas: 1.76, 1.59, 1.67, 1.62, 1.71, 1.68, 1.71, 1.57 --> Média = 1.66 Diferença entre médias = 1.76 1.66 = 0.10 Esta diferença é significativa? Ou seja, qual a probabilidade de 0.10 ter surgido ao acaso? Caso meninos não sejam maiores que meninas, as diferenças das médias deveriam ser próximas de 0. O quão raro é ter uma diferença de 0.10?
Exemplo: Meninos e Meninas Podemos aleatorizar as alturas entre as crianças 1a. aleatorização Meninos: 1.62, 1.85, 1.59, 1.97, 1.73, 1.81, 1.69, 1.71 --> Média = 1.74 Meninas: 1.76, 1,75, 1.67, 1.56, 1.72, 1.68, 1.57, 1.71 --> Média = 1.68 Diferença entre médias = 1.74 1.68 = 0.06 2a. aleatorização Meninos: 1.62, 1.75, 1.59, 1.56, 1.73, 1.68, 1.69, 1.71 --> Média = 1.66 Meninas: 1.76, 1.85, 1.67, 1.97, 1.72, 1.81, 1.57, 1.71 --> Média = 1.76 Diferença entre médias = 1.66 1.76 = -0.1
Exemplo: Meninos e Meninas Repetimos o procedimento 1000 vezes e guardamos os valores das diferenças das médias. Fazemos um histograma Diferença das médias observadas = 0.10 Qual a conclusão? 0 Diferenças das média
Exemplo: Meninos e Meninas Repetimos o procedimento 1000 vezes e guardamos os valores das diferenças das médias. Fazemos um histograma Diferença das médias observadas = 0.10 Qual a conclusão? 0 Diferenças das média
Todos testes são muito parecidos! O que muda é a estatística que mede o padrão que estamos testando Procedimento Geral 1. Calcule a estatística para os dados observados; 2. Aleatorize os dados segundo o seu modelo nulo; 3. Calcule a estatística novamente, mas agora para os dados aleatorizados; 4. Repita os passos 2 e 3 muitas vezes e guarde o valor da estat. em cada um; 5. Compare o valor observado com os valores obtidos nas aleatorizações; 6. O valor observado é semelhante ou diferente dos valores aleatorizados?
Exemplo: Co-ocorrência ilha1 ilha2 ilha3 ilha4 ilha5 ilha6 ilha7 ilha8 ilha9 ilha10 sp1 1 1 1 1 1 1 sp2 1 1 sp3 1 1 1 sp4 1 1 1 1 Estatística usada: C-Score Média do número de "checkerboard units (CU) entre todos pares de spp. Uma CU é qualquer submatrix da forma: 10 ou 01 01 10 O número de CU para cada par de espécies é calculado como: (r i -S)*(r j -S) onde S é o número de sítios compartilhados e r i e r j são ocorrências das spp. Modelo Nulo: Restrição: Cada espécie mantém seu número de ocorrências CU (sp1 x sp2) = (6-0)*(2-0) = 12
Exemplo 2: Co-ocorrência Observado ilha1 ilha2 ilha3 ilha4 ilha5 ilha6 ilha7 ilha8 ilha9 ilha10 sp1 1 1 1 1 1 1 sp2 1 1 sp3 1 1 1 sp4 1 1 1 1 sp1 sp2 sp3 sp4 sp1 12 0 15 sp2 6 3 sp3 12 sp4 Média = C-Score = 8
Exemplo 2: Co-ocorrência Aleatorizado 1 ilha1 ilha2 ilha3 ilha4 ilha5 ilha6 ilha7 ilha8 ilha9 ilha10 sp1 1 1 1 1 1 1 sp2 1 1 sp3 1 1 1 sp4 1 1 1 1 sp1 sp2 sp3 sp4 sp1 12 0 8 sp2 6 3 sp3 6 Média = C-Score = 5.8 sp4
Exemplo 2: Co-ocorrência C-Score Observado = 8 0 0.7 1.4 2.1 2.8 3.5 4.2 4.9 5.6 6.2 6.9 7.6 8.3 C-Score Número total de aleatorizações = 1000 Número de aleatorizações maiores que observado = 4 p = (4+1) / (1000+1) = 5/1001 = 0.0049 Ou seja, baixa probabilidade de obter um valor tão alto (8) ao acaso
Procedimento Geral Exemplo co-ocorrência 1. Calcule a estatística para os dados observados; Quem era? 2. Aleatorize os dados segundo o seu modelo nulo; Qual era o modelo? 3. Calcule a estatística novamente, mas agora para os dados aleatorizados; Qual era o valor da 1a aleatorização? O valor da 1a sempre será este? 4. Repita os passos 2 e 3 muitas vezes e guarde o valor da estat. em cada um; Quantas vezes fizemos? 5. Compare o valor observado com os valores obtidos nas aleatorizações; Lembra do histograma? 6. O valor observado é semelhante ou diferente dos valores aleatorizados? Qual era o valor de p? Sempre teremos o mesmo valor de p para estes dados?