Análise estatística Aula de Bioestatística 17/9/2008 (2.ª Parte) Paulo Nogueira
Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão H 0 : Não existe efeito vs. H 1 : Existe efeito Hipótese nula Hipótese alternativa Varia conforme a natureza do problema Ou rejeito a hipótese nula o que significa que existe um efeito de tratamento Ou não rejeito a hipótese nula o que significa que não existem evidências de um efeito de tratamento
Aceitar ou Não rejeitar? Do ponto de vista estatístico puro não se diz Aceito H 0, porque existem sempre erros. O facto de não se rejeitar H 0 pode ter duas causas: Ou o efeito não existe Ou não existe potência para mostrar o efeito.
Interpretação dos p-values O p-value é a probabilidade de observar os dados quando a hipótese nula é verdadeira. Por exemplo num ensaio clínico Estamos interessados na diferença observada entre dois grupos de tratamentos. Relacionamos então os dados com a provável variação numa amostra devida ao acaso quando a hipótese nula é verdadeira na população. Regra geral, Se o p-value > 0,05 Se o p-value < 0,05 Se o p-value < 0,01 o resultado do teste não é significativo o resultado do teste é significativo (rejeita-se a hipótese nula) Pode-se dizer que o resultado é muito significativo
Erros de Tipo I e Tipo II Existem sempre erros ao fazer um teste de hipóteses. Realidade: H 0 Decisão: H 0 Verdadeira Verdadeira confiança 1 α Falsa Erro II β Falsa Erro I α Potência 1 β
[ de tipo I] [ Rejeitar H H é verdadeira] α = P erro = P 0 0 [ de tipo II] [ Não Rejeitar H H é falsa] β = P erro = P 0 0 Potência = = P [ Rejeitar H H é Falsa] 1 β 0 0
1 Análise descritiva Variável numérica Medidas de localização, medidas de disperssão Gráficos» Variável discreta com poucos valores Barras, linhas, sectogramas» Variável contínua Histograma, caixa de bigodes, etc. Variável qualitativa Frequências, moda Gráficos (barras, linhas, sectogramas, etc)
1 Inferência estatística Variável numérica Teste z Teste t Teste para uma variância» A comparação é feita com um valor para o parâmetro populacional externo Variável qualitativa Teste do Qui-quadrado» Teste que avalia a homogeneidade das observações pelas diferentes categorias Teste para uma proporção» Teste que avalia se a proporção observada está de acordo com uma hipótese populacional
2 v. categorial vs v. categorial Análise descritiva bivariada Crosstabs Frequências cruzadas Proporções (por linha, por coluna, totais)
2 v. categorial vs v. categorial Inferência estatística Qui-quadrado Teste de independência (não associação)» Pressupostos: o número esperado em cada célula da tabela é maior que 5 Qui-quadrado com correcção para a continuidade (correcção de Yates) Quando se trata de uma tabela 2x2 Teste exacto de Fisher Quando se trata de uma tabela 2x2, sempre aplicável mesmo quando falha o pressuposto de aplicação do quiquadrado
2 v. numérica vs v. categorial A v. numérica toma o lugar de v. dependente ou v. de teste Análise descritiva bivariada Medidas de localização e de dispersão por cada nível da v. categorial Histogramas por painel Caixas de bigodes paralelas
2 v. numérica vs v. Categorial a v. categorial tem 2 níveis Inferência estatística Teste t Comparação das duas média populacionais Existem dois teste t» 1 teste que assume a igualdade das variâncias populacionais» 1 teste que assume a desigualdades das variâncias populacionais Teste F ou teste de Levene Comparação de duas variâncias populacionais Teste de Mann-Whitney Teste não paramétrico» Compara as duas distribuições
2 v. numérica vs v. Categorial a v. categorial tem mais de 2 níveis Inferência estatística ANOVA Testa a igualdade de todas as médias populacionais Pressupostos:» Todas as amostras são normais» Homocedaticidade: as variâncias de todos os grupos são iguais teste de Levene Testa a igualdade das variâncias» Este teste deve ser sempre feito antes de analisar os resultados da igualdade das médias Teste de Kruskal-Wallis Teste não paramétrico» Compara as distribuições Nota: quando existem diferenças estatísticas usam-se teste de comparações múltiplas para perceber em que níveis ocorrem as diferenças: testes Post-Hoc
2 v. numérica vs v. numérica Coeficiente de correlação de Pearson O teste associado é um teste t e assume normalidade das variáveis para efectuar o teste Coeficiente de correlação de Spearman Teste não paramétrico Usa as ordens dos valores e não os valores
Mais de 2 variáveis Análise multifactorial Temos uma variável dependente e queremos explicar a sua variação usando as restantes variáveis Análise multivariada Queremos estudar a variação conjunta de mais do que uma variável
Mais de 2 variáveis Análise Multifactorial A variável dependente (explicada) é numérica (assumida normal) Regressão linear múltipla Só são admitidas variáveis numéricas» Para variáveis categoriais é necessário usar variáveis mudas/indicadoras» Exemplo: sexo criar uma v. Com 1- Masculino e 0- feiminino ANOVA Multifactorial / MANCOVA São admitidas variáveis categoriais FACTORES Existem factores fixos todos os possíveis valores presentes Existem factores aleatórios não todos os possiveis valores representados São admitidas variáveis numéricas Covariáveis (MANCOVA)
Mais de 2 variáveis Análise Multifactorial A variável dependente (explicada) é dicotómica Regressão logistica (binária) São admitidas variáveis categoriais FACTORES São admitidas variáveis numéricas Covariáveis (MANCOVA) A variável dependente (explicada) é dicotómica e tem associado um tempo até ao evento Análise de Sobrevivência / Regressão de Cox Muito semelhante à regressão logistica
Mais de 2 variáveis Análise Multifactorial Existem outros métodos menos usuais Modelos linear generalizados Regressão de poisson Logit Probit Modelos lineares aditivos etc
Mais de 2 variáveis Análise multivariada Análise exploratória de dados multivariados Não são metodos de inferência estatística Análise factorial Componentes principais Etc.