Testes de Hipóteses Hipótese Estatística de teste Distribuição da estatística de teste Decisão H 0 : Não existe efeito vs. H 1 : Existe efeito Hipótese nula Hipótese alternativa Varia conforme a natureza do problema Ou rejeito a hipótese nula o que significa que existe um efeito de tratamento Ou não rejeito a hipótese nula o que significa que não existem evidências de um efeito de tratamento
Aceitar ou Não rejeitar? Do ponto de vista estatístico puro não se diz Aceito H 0, porque existem sempre erros. O facto de não se rejeitar H 0 pode ter duas causas: Ou o efeito não existe Ou não existe potência para mostrar o efeito.
Interpretação dos p-values O p-value é a probabilidade de observar os dados quando a hipótese nula é verdadeira. Por exemplo num ensaio clínico Estamos interessados na diferença observada entre dois grupos de tratamentos. Relacionamos então os dados com a provável variação numa amostra devida ao acaso quando a hipótese nula é verdadeira na população. Regra geral, Se o p-value > 0,05 Se o p-value < 0,05 Se o p-value < 0,01 o resultado do teste não é significativo o resultado do teste é significativo (rejeita-se a hipótese nula) Pode-se dizer que o resultado é muito significativo
Erros de Tipo I e Tipo II Existem sempre erros ao fazer um teste de hipóteses. Realidade: H 0 Decisão: H 0 Verdadeira Verdadeira confiança 1 α Falsa Erro II β Falsa Erro I α Potência 1 β
[ de tipo I] [ Rejeitar H H é verdadeira] α = P erro = P 0 0 [ de tipo II] [ Não Rejeitar H H é falsa] β = P erro = P 0 0 Potência = = P [ Rejeitar H H é Falsa] 1 β 0 0
Esquema Clássico
Académico Académico Académico
Médias Uma amostra Duas amostras Várias amostras Normalidade da distribuição de cada grupo Não Normalidade da distribuição de pelo menos um grupo / uma das amostra com tamanho muito pequeno (teste não paramétrico) Igualdade de variâncias desigualdade de variâncias Teste t Teste t Teste t (teste de welsh) Teste de Mann-Whitney Igualdade de variâncias ANOVA desigualdade de variâncias Teste de Kruskal-Wallis
Testes de Hipóteses mais usuais Uma amostra ou Duas amostras Média Proporções Variância
Teste do qui-quadrado Pode ser usado como teste de ajustamento Ver se duas (ou mais) distribuições são iguais E pode ser usado como teste de independência/associação entre duas variáveis categoriais Verifica se existe independência entre as variáveis a A e B Hipótese P(A e B) = P(A)*P(B)
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Problemas anteriores idênticos * Sexo Crosstab ANTPRO Total Sim Não Count % within ANTPRO % within SEXO Count % within ANTPRO % within SEXO Count % within ANTPRO % within SEXO SEXO Masculino Feminino Total 14 5 19 73,7% 26,3% 100,0% 7,3% 6,8% 7,2% 177 69 246 72,0% 28,0% 100,0% 92,7% 93,2% 92,8% 191 74 265 72,1% 27,9% 100,0% 100,0% 100,0% 100,0%
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Problemas anteriores idênticos * Sexo Crosstab ANTPRO Total Sim Não Count % within ANTPRO % within SEXO Count % within ANTPRO % within SEXO Count % within ANTPRO % within SEXO SEXO Masculino Feminino Total 14 5 19 73,7% 26,3% 100,0% 7,3% 6,8% 7,2% 177 69 246 72,0% 28,0% 100,0% 92,7% 93,2% 92,8% 191 74 265 72,1% 27,9% 100,0% 100,0% 100,0% 100,0% Chi-Square Tests Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Asymp. Sig. Value df (2-sided),026 b 1,871,000 1 1,000,027 1,870,026 1,871 265 a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided) 1,000,554 b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 5,31.
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Problemas anteriores idênticos * Sexo Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (2-sided),026 b 1,871,000 1 1,000,027 1,870,026 1,871 265 a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided) 1,000,554 b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 5,31. Conclusão: A proporção de problemas idênticos anteriores não diferiu por sexo (p=1,000); Ou Não há evidências de que a distribuição de problemas anteriores idênticos difira por sexo (p=1,000);
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Pouco interesse sexual * Sexo Crosstab POUCO Total Sim Não Count % within POUCO % within SEXO Count % within POUCO % within SEXO Count % within POUCO % within SEXO SEXO Masculino Feminino Total 62 59 121 51,2% 48,8% 100,0% 32,8% 78,7% 45,8% 127 16 143 88,8% 11,2% 100,0% 67,2% 21,3% 54,2% 189 75 264 71,6% 28,4% 100,0% 100,0% 100,0% 100,0% Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (2-sided) 45,490 b 1,000 43,662 1,000 47,203 1,000 45,318 1,000 264 a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided),000,000 b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 34,38.
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Pouco interesse sexual * Sexo Pearson Chi-Square Continuity Correction a Likelihood Ratio Fisher's Exact Test Linear-by-Linear Association N of Valid Cases Chi-Square Tests Asymp. Sig. Value df (2-sided) 45,490 b 1,000 43,662 1,000 47,203 1,000 45,318 1,000 264 a. Computed only for a 2x2 table Exact Sig. (2-sided) Exact Sig. (1-sided),000,000 b. 0 cells (,0%) have expected count less than 5. The minimum expected count is 34,38. Conclusão: A proporção de falta de interesse sexual difere nos dois sexo (p<0,001); Ou A falta de interesse sexual está associado ao género dos indivíduos (p<0,001);
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Pouco interesse sexual * Sexo OR = 0.145 (0.077; 0.275) Os homens apresentam uma reduzida probabilidade de se queixarem de falta de interesse Sexual quando comparados com as mulheres. Invertendo os valores: OR = 6.875 (3.64; 12.99) As mulheres apresentaram um probabilidade de se queixarem de falta de interesse sexual aproximadamente 7 vezes maior que a dos homens.
Comparação de médias Teste t e ANOVA Estes testes dizem-se paramétricos Assumem que as distribuições subjacentes aos dados são normais Quantas populações queremos comparar? Duas teste t Mais de duas ANOVA
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Idade dos indivíduos * Sexo Group Statistics idade sexo Masculino Feminino Std. Error N Mean Std. Deviation Mean 190 51,91 13,749,997 73 35,15 11,273 1,319
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Idade dos indivíduos * Sexo Independent Samples Test idade Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 6,025,015 9,279 261,000 16,755 1,806 13,199 20,310 10,130 158,145,000 16,755 1,654 13,488 20,021 Conclusão: (Não existe homogeneidade das variâncias (p=0.015), temos de usar o teste t para amostras independentes assumindo variâncias diferentes) Rejeita-se a hipótese de igualdade das médias (populacionais) de idade nos dois grupos (p<0,001). Ou A idade dos indivíduos do sexo masculino que se queixam de problemas de disfunção sexual ao médico de família difere estatisticamente da idade das mulheres que apresentam o mesmo tipo de queixas.
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Há quanto tempo apresenta estas queixas * Sexo Group Statistics tempo sexo Masculino Feminino Std. Error N Mean Std. Deviation Mean 171 9,41 19,135 1,463 61 14,64 28,457 3,644
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Há quanto tempo apresenta estas queixas * Sexo Group Statistics tempo sexo Masculino Feminino Std. Error N Mean Std. Deviation Mean 171 9,41 19,135 1,463 61 14,64 28,457 3,644 Independent Samples Test tempo Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 5,224,023-1,598 230,112-5,230 3,274-11,680 1,220-1,332 80,179,187-5,230 3,926-13,043 2,584
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Há quanto tempo apresenta estas queixas * Sexo Independent Samples Test tempo Equal variances assumed Equal variances not assumed Levene's Test for Equality of Variances F Sig. t df Sig. (2-tailed) t-test for Equality of Means Mean Difference 95% Confidence Interval of the Std. Error Difference Difference Lower Upper 5,224,023-1,598 230,112-5,230 3,274-11,680 1,220-1,332 80,179,187-5,230 3,926-13,043 2,584 Conclusão: (Não existe homogeneidade das variâncias (p=0.023), temos de usar o teste t para amostras independentes assumindo variâncias diferentes) Não se rejeita a hipótese de igualdade das médias (populacionais) de tempo de queixas de disfunção sexual nos dois grupos (p=0.187). Não foram encontradas evidências de que a duração das queixas de disfunção difiram por sexos.
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Será que o número de QDS é influenciado pela idade? Número de queixas (1, 2, 3 ou mais)
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Será que o número de QDS é influenciado pela idade? Número de queixas (1, 2, 3 ou mais)
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Será que o número de QDS é influenciado pela idade? Número de queixas (1, 2, 3 ou mais)
Rejeita-se a hipótese de igualdade das variâncias populacionais dos 3 grupos (p=0,016). Está violado um dos prossupostos da ANOVA não tenho garantias de que o resultado da ANOVA seja correcto
O teste de Shapiro-Wilk é o mais apropriado quando o tamanho da amostra é menor que 50. A idade no grupo com apenas uma queixa não segue uma distribuição normal. Não podemos aplicar a ANOVA!
Rejeita-se a hipótese de igualdade da idade pelo número de queixas (p<0,001). Ou Existem evidências de que uma associação entre idade e número de queixas QDS (p<0,001).
Os resultados obtidos pela ANOVA são confirmados pelo teste não paramétrico de Kruskal-Wallis. Não existe evidencia de relação entre numero de queixas e idade na mulher. Nos homens o resultado é borderline.
Exemplo: Queixas de Disfunção Sexual rede médicos sentinela 1998-1999 Será que o número de QDS é influenciado pela idade? Número de queixas (variável numérica)
Correlação negativa. A idade tende a ser mais baixa quando as queixas aumentam. Ou Quando o número de queixas é menor a idade tende a ser mais elevada.