Mario de Andrade Lira Junior lira.pro.br\wordpress lira.pro.br\wordpress
Diferença Regressão - equação ligando duas ou mais variáveis Correlação medida do grau de ligação entre duas variáveis Usos Regressão estimar valores intermediários aos realmente estudados durante o experimento Correlação indicar variáveis com comportamento semelhante
É importante diferenciar entre testes de significância e importância Em modelos de regressão avaliar a importância científica costuma ser mais importante do que a significância Em modelos lineares a importância é principalmente definida por: Proporção da variância atribuída ao modelo O tamanho de um ou mais coeficientes de correlação Intervalos de confiança de interesse
Linear Y Polinomial = α + β X + ε i j i i 2 n i j = α + β 1 i + β 2 i + K + β n i + ε i Y X X X Múltiplo Y = α + β X + β Z + ε i j 1 i 2 i i Modelos não-lineares Exponencial Logarítimico
A linear raramente representa bem toda uma série de dados No entanto, costuma representar bem faixas de valores Regressões polinomiais não têm interpretação biológica válida para os parâmetros Mas são úteis como simplificação de situação real Polinomiais cúbicas ou mais complexas raramente são boas descritoras de fatos biológicos
Y variável dependente a y para x =0 b quanto y varia para cada x r coeficiente de correlação Varia de -1 a 1 Quanto da variação de y é explicada por x r 2 coeficiente de determinação Quanto de y é explicado pela regressão Varia de 0 a 1
90 80 Triângulos y = 7,8818x + 1,1364 R² = 0,9451 70 60 50 40 30 Quadrados y = 5,6909x + 8,4545 R² = 0,9938 20 10 0 Losangos y = 1,9909x + 2,3182 R² = 0,986 0 1 2 3 4 5 6 7 8 9 10
Variável independente medida sem erro O valor esperado de Y é descrito pela função linear de X Para cada Xi os Y s têm resíduos Independentes Normalmente distribuídos com média zero Homocedástico variância aproximadamente constante
Médias - variável independente Acaso Valores ajustados e resíduos Valor ajustado - obtido pela equação estimativa da população Resíduo- diferença entre ajustado e real Comparação entre resíduo e variável independente é útil para visualizar ajuste do modelo
Mede o grau de relação linear entre variáveis Interpretação Testes de significância Análise de variância da regressão completa No computador, cada componente é testado pelo teste de t
Model: MODEL1 - Dependent Variable: _800125888 Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 58120 58120 53,45 <,0001 Error 18 19572 1087,32861 Corrected Total 19 77692 Root MSE 32,97467 R-Square 0,7481 Dependent Mean 159,31150 Adj R-Sq 0,7341 Síntese Coeff Var 20,69823 Parameter Estimates Parameter Standard Standardized Variable DF Estimate Error t Value Pr> t Estimate Intercept 1 83,07500 12,77103 6,50 <,0001 0 N 1 0,76237 0,10428 7,31 <,0001 0,86492 Parameter Estimates Variable DF 95% Confidence Limits Intercept 1 56,24405 109,90595 N 1 0,54329 0,98144 ANAVA/ANOVA Estimativa e significância Intervalos de confiança
Em muitos sentidos simplesmente uma extensão da linear simples, com mais variáveis independentes Neste modelo o a (intercepto) é o valor de y quando todas as variáveis independentes têm valor 0 O teste de hipóteses mais comum para avaliar o mérito da RLM é considerar todos os β iguais a zero, ou seja, nenhuma das variáveis prevê y R 2 corrigido estima a fração da variância de y predita pelas variáveis independentes, após correção para o intercepto, enquanto o não corrigido inclui o intercepto, ficando mais parecido com o R 2 da regressão linear simples
Como alguns testes parecem avaliar o mesmo ponto e apresentam resultados diferentes é muito importante checar as diferenças nas premissas e modelos por trás dos testes Quatro tipos básicos de testes Testes gerais medir a contribuição de todos os preditores Adição de uma variável medir a contribuição de um único preditor Interceptos indicar o valor de uma coluna de constantes em prever a resposta Adição de grupos de variáveis - medir a contribuição de dois ou mais preditores dentro de todos os possíveis Hipótese linear generalizada outros testes
Para cada teste se comparam os modelos geral (hipótese alternativa) e reduzido (hipótese nula) Teste geral corrigido H 0 y = a; H a = algum componente da regressão é significativo Teste para adição de uma variável para última variável adicionada comparar dois modelos em que a única diferença é a adição de uma variável H 0 é que o efeito desta última variável é não diferente de 0, ou seja não significativo Para variável adicionada na ordem Semelhante ao tipo anterior, mas em que os modelos são testados sequencialmente
Teste do intercepto Adicionado por fim Define todo o modelo e verifica se a adição do intercepto apresenta efeito significativo Adicionado na ordem Semelhante ao anterior Adição de grupo de variáveis Grupo adicionado por fim Generalização do teste da hipótese adicionado por fim Grupo adicionado em ordem Semelhante aos demais
Técnicas de seleção de modelos podem implicar em grande aumento na chance de erro tipo I. Recomendam-se os seguintes passos: Especificar o modelo máximo (com todas as variáveis) Especificar o critério de escolha Especificar a estratégia de escolha Conduzir a análise Avaliar confiabilidade do modelo escolhido
Modelo único redução da Soma de Quadrados do Resíduo Uma desvantagem é a dependência do tamanho da amostra Aumento do tamanho aumenta SQR Uso do quadrado médio reduz este problema Depende da escala de y O valor de F ou de Pr<F diminuem estes problemas Modelos aninhados (diferem apenas pela adição ou subtração de variáveis) Comparar o valor de F dos modelos
Testar todas as regressões possíveis Grande número de combinações 2número de variáveis possíveis Como exemplo, para 10 variáveis, 1023 possíveis modelos É o único algoritmo que garante uma solução para qualquer conjunto de variáveis Eliminação para trás Começa com todas as p variáveis Testa todos os modelos com p-1 variáveis Para cada modelo, testa o efeito da retirada da última variável Seleciona a variável com menor efeito de retirada Reinicia com o segundo passo Seleção para frente Igual à para trás, ao contrário
Stepwise Mistura de técnicas Começa com um passo de seleção para frente Para cada passo para frente, pode-se retirar uma das variáveis já presentes As probabilidades de F raramente são adequadas Como os programas permitem selecionar valores de probabilidade para uma variável entrar ou sair. recomendação de probabilidades Para entrar 1 (ou 0,99999 se não puder 1) Para sair 0 (ou 0,0000001 se 0 não for possível) Aproxima de todos os modelos Melhor mais variáveis do que menos, em termos de confiabilidade
Conduzir a análise Lembrar de checar colinearidade e premissas da Análise de Variância Avaliar confiabilidade Desenhar bem a coleta de dados Estudo confirmatório desvantagem principal custo Análise em amosta dividida Parte dos dados usada para construir o modelo, a outra para confirmar Os dados devem ser separados aleatoriamente antes da análise
Usualmente processos interativos Bons descritores de fenômenos biológicos Uso bem mais complexo Freqüentemente derivadas de modelagem mecanicista Grande parte dos parâmetros têm significado biológico
Curva de crescimento com fases inicial e final lentas a é a assíntota do crescimento c é a taxa de crescimento b e c são contantes negativas e é a constante neperiana y ( t) = ct be ae
http://en.wikipedia.org/wiki/gompertz_curve
Também modelo de crescimento Crescimento inicial aproximadamente exponencial seguido por redução do crescimento pela competição até estabilização Também pode ajudar no estudo de reações autocatalíticas Alguns modelos específicos são Verhultz crescimento populacional Sigmoidal
Modelo básico para decomposição de matéria orgânica e liberação de nutrientes Casos típicos queda exponencial simples ou dupla bx y = ae a pool de elementos b taxa de decomposição e constante neperiana bx dx y = ae + ce c pool de elementos de decomposição lenta d taxa de decomposição deste segundo pool
Dados originais Queda Exp. Simples Queda Exp. Dupla 30 25 Simples y = 27,7139e R 2 = 0,90 0,0035t 20 Dupla y = 5,4971e R 2 = 0,98 0,0989 t + 24,5988e 0,0025 t 15 10 1 7 13 19 25 31 37 43 49 55 61 67 73 79 85 91 97 103 109 115 121 127 133 139 145 151 157 163 169 175 181 187 193 199 205 211 217 223 229
Adequada para casos em que tende a uma constante As constantes também apresentam interpretação biológica pré-definida Dividem-se em dois tipos básicos Crescimento y = y 0 + Queda y = y 0 + ax b + x ab b + x
Queda Hiperbólica, 3 partes Hiperbole Retangular Simples, 3 componentes 45 40 35 24,9563x y = 15,1203 + 0,4444 + x 30 25 20 24,9563 0,4444 y = 15,1203 + 0,4444 + x 15 10 0 9 18 27 36 45 54 63 72 81 90 99 108 117 126 135 144 153 162 171 180 189 198 207 216 225
Muller e Fetterman Regression and ANOVA. An integrated approach using SAS software Capítulo 2 Capítulo 4 Capítulo 5 Capítulo 11 Mills, J.L. How to torture your data- Artigo no site