1 / 26 AGA 0505- Análise de Dados em Astronomia I 5. Testes de Hipótese Laerte Sodré Jr. 1o. semestre, 2019
2 / 26 aula de hoje: 1 testes de hipóteses: procedimento básico 2 o valor p 3 erros nos testes de hipótese 4 decisão nos testes de hipótese 5 comparação da média de duas distribuições 6 comparação de variâncias 7 teste do χ 2 : ajuste de funções 8 teste do χ 2 : comparação de distribuições 9 teste do χ 2 : associação entre variáveis nominais 10 comparação de distribuições com Kolmogorov-Smirnov 11 correlação entre duas variáveis 12 coeficiente de correlação de Pearson 13 coeficiente de correlação de Spearman That is the curse of statistics, that it can never prove things, only disprove them! Numerical Recipes- Press, Teukolsky, Vetterling & Flannery
3 / 26 Teste de Hipóteses teste de hipóteses: procedimento básico usando o valor p suponha que queremos saber se, por exemplo, duas amostras têm a mesma média ou a mesma variância para tomar uma decisão aplicamos testes de hipótese método mais usado: procedimento frequentista baseado no valor p: define-se a estatística que se quer usar: média, dispersão,... suponha conhecida a distribuição dessa estatística estabeleça a hipótese nula H 0 que se quer testar escolha um nível de confiança α calcule p: probabilidade de se descartar H 0 dado α: área sob a distribuição correspondente à estatística testada tome uma decisão sobre H 0 comparando p e α
Teste de Hipóteses teste de hipóteses: procedimento básico os dados são consistentes com uma certa hipótese? exemplo: a amostra foi extraída de N(µ, σ)? H 0 : hipótese nula: a amostra é consistente com N(µ, σ) sempre supomos que conhecemos a pdf associada a H 0 C(x): distribuição cumulativa da pdf de x: 0 C(x) 1 qual é a probabilidade de se ter um valor maior que x i? valor p: p = P(x > x i ) = 1 C(x i ) adota-se um nível de significância α ex.: α = 0.05 (5%) compara-se p e α: H 0 é rejeitada se p α note que falhar em rejeitar H 0 não implica que H 0 é verdadeira! ex: nossa amostra pode ser muito pequena para se detectar o efeito 4 / 26
5 / 26 Teste de Hipóteses decisão no teste de hipóteses- o valor p decisão no teste de hipóteses- valor p: p: área sob a distribuição correspondente à estatística testada p: probabilidade sob H 0 de se observar uma estatística teste mais extrema que a observada dado um nível de significância α se p α, rejeita-se H 0 se p > α, H 0 não é rejeitada testes right-sided, left-sided, two-sided para uma hipótese ser rejeitada, p deve ser pequeno!
6 / 26 Teste de Hipóteses duas distribuições têm a mesma média? Student era o pseudônimo de William Sealy Gosset, um químico trabalhando para a cervejaria Guinness na Irlanda ele desenvolveu a estatística t para monitorar a qualidade do stout!
7 / 26 Teste de Hipóteses duas distribuições têm a mesma média? vamos supor que nossa teoria diga que o movimento próprio de um aglomerado estelar seja µ 0 = 0.075 arcsec/yr teoria : H 0 : µ = µ 0 em uma amostra de N=15 estrelas medimos µ = 0.078 arcsec/yr e σ s = 0.005 arcsec/yr a medida é consistente com a teoria? para testar a média de uma população usa-se a estatística t: t = µ µ 0 σ s / N = 2.5, usa-se uma distribuição t com N 1 graus de liberdade para se estimar p teste right-tailed: µ = µ 0 vs µ > µ 0 : p=0.0127 teste two-tailed: µ µ 0 : p=0.0127 + 0.0127 = 0.0254 com nível de confiança α = 0.05, em todos os casos rejeitamos H 0 com α = 0.01, a hipótese nula não seria rejeitada
comparação de variâncias Teste de Hipóteses dados dois conjuntos de dados, {x i } e {y i }, com N e M elementos, respectivamente, queremos testar H 0 : σ x = σ y para distribuições gaussianas a estatística-teste é a F a estatística-teste distribuição F com ν 1 = N 1 e ν 2 = M 1 graus de liberdade: F(x) = Γ( ν 1+ν 2 2 )( ν 1 ν 2 ) ν 1 2 x ν 1 2 1 Γ( ν 1 2 )Γ( ν 2 2 )(1 + ν 1 ν 2 x) ν1+ν 2 2 F = N i=1 (x i x) 2 /(N 1) M j=1 (y i ȳ) 2 /(M 1) = σ2 x σ 2 y segue uma distribuição F com ν 1 = N 1 e ν 2 = M 1 graus de liberdade 8 / 26
9 / 26 Teste de Hipóteses exemplo: a estrela X é variável? considere uma série de imagens CCD de um campo estelar tomadas em diferentes épocas cada imagem tem centenas de estrelas; as magnitudes em cada época são medidas e as variâncias das magnitudes de cada estrela em todas as épocas são medidas como a maioria das estrelas não são variáveis (na escala de tempo considerada) vamos assumir inicialmente que X não é variável: hipótese nula H 0 : X não é variável intuitivamente, nossa decisão sobre X vai depender de como a variância das magnitudes de X (σx 2 ) se compara com as das demais estrelas (σ ) 2 se σ = 0.10 mag, você aceitaria ou rejeitaria H 0 se σ X = 0.08 mag? e se σ X = 0.48?
10 / 26 erros no teste de hipótese Teste de Hipóteses hipótese nula H 0 : H 0 : X não é variável H 1 : uma hipótese alternativa note que: a rejeição de H 0 não implica que H 1 seja verdadeira a não rejeição de H 0 não implica que H 0 seja verdadeira tipos de erro: erro tipo I: H 0 é rejeitada quando é verdadeira (falso positivo) erro tipo II: H 0 não é rejeitada quando é falsa (falso negativo) note que esses erros dependem apenas de H 0, não de H 1 variabilidade verdadeira decisão não variável variável não variável ok! erro tipo II variável erro tipo I ok! verdade decisão H 0 H 1 H 0 ok! erro tipo II H 1 erro tipo I ok!
11 / 26 Teste de Hipóteses Nature, 21/03/2019 uma semana depois:
12 / 26 o χ 2 ajuste de funções: o χ 2 para desvios gaussianos, a estatística χ 2 para o ajuste de uma função de M parâmetros, χ 2 = N (y i f (x i ; w)) 2, i=1 σ 2 i tem uma distribuição χ 2 com ν = N M graus de liberdade fdp da função χ 2 com ν graus de liberdade: x ν/2 1 e x/2 f (x; ν) = 2 ν/2 x > 0 Γ(ν/2) 0 x 0 qualidade do ajuste: pode ser determinado pelo valor p em geral um ajuste razoavelmente bom tem χ 2 ν muitas vezes se aplica este método mesmo sem se saber se os erros são gaussianos...
13 / 26 o χ 2 comparação de duas distribuições: o χ 2 suponha que temos uma distribuição discreta com N i eventos em cada bin e que n i é o número esperado de acordo com uma distribuição conhecida (os N i são inteiros enquanto que os n i podem ser reais 0) nossa hipótese nula é que as distribuições são iguais nesse caso a estatística χ 2 é definida como χ 2 = N bin i=1 (N i n i ) 2 (termos com N i = 0 e n i = 0 devem ser omitidos da soma) se o χ 2 é calculado com os n i determinados pelo modelo (isto é, sem renormalizar tal que n i = N i ), então ν = N bin ; caso contrário ν = N bin 1 n i
o χ 2 comparação de duas distribuições: o χ 2 caso de dois conjuntos binados e com o mesmo número de bins, {N i } e {M i } inteiros χ 2 = N bin i=1 (N i M i ) 2 N i + M i definindo-se um nível de significância, pode se fazer um teste de hipótese usando-se o valor p o teste supõe que os desvios entre N i e n i (ou entre N i e M i ) são devidos a flutuações estatísticas de Poisson que ocorrem por acaso qual é a probabilidade de um valor de χ 2 igual ou maior que o observado? 14 / 26
15 / 26 o χ 2 tipos de variáveis convém distinguir entre 3 tipos de variáveis: nominal: os valores são membros de um conjunto não-ordenado: Ex.: tipos morfológicos de galáxias; os nomes dos estados do Brasil ordinal: os valores são membros de um conjunto ordenado discreto: Ex.: a ordem dos planetas, a sequência de pré-requisitos de uma disciplina o que importa é que os valores estão intrinsecamente ordenados contínua: os valores são números reais Ex.: distâncias, tempo uma variável contínua pode ser transformada em ordinal por binagem e em nominal se a ordem dos bins for desconsiderada
16 / 26 o χ 2 associação entre duas variáveis nominais: o χ 2 tabela de contingência: as linhas correspondem aos valores de uma variável nominal e as colunas aos valores da outra valores da tabela: o número de casos para cada combinação de linha e coluna- N ij Morphological Type x Hα profile type types Central Extended E-S0 29 1 S-early 12 11 S-late 22 11 H 0 : as duas variáveis, x e y, não estão associadas nesse caso, P(x y) = P(x) n ij : número esperado sob H 0 para a célula i, j P(i j) = n ij j i N = P(i) = N ij ij N e, portanto, n ij = ( j N ij)( i N ij) N
o χ 2 associação entre duas variáveis nominais: o χ 2 células nulas não são consideradas na análise a estatística χ 2 = (N ij n ij ) 2 n ij i,j se distribui como χ 2 com ν = LC L C + 1 graus de liberdade, onde L e C são, respectivamente, o número de linhas e o número de colunas neste exemplo temos, para n ij : types Central Extended E-S0 29 1 S-early 12 11 S-late 22 11 valor do χ 2 /ν (com 2 graus de liberdade): 7.17 o que pode dizer de H 0 com esse valor de χ 2? p: 0.0007688102 problema: o χ 2 funciona bem para medir a significância de uma associação, mas não para determinar se a correlação é forte ou não: o significado dos valores numéricos numa tabela de contingência não é óbvio: qual é a distância entre dois tipos morfológicos? 17 / 26
o χ 2 o teste do χ 2 para distribuições discretas o χ 2 foi proposto por Pearson em 1900 e é uma das técnicas de maior impacto na ciência! o χ 2 é fácil de ser computado e de ser interpretado, pois a média do χ 2 é igual ao número de graus de liberdade ν e sua variância é igual a 2ν exemplo: para um número de bins 4, se o valor de χ 2 for da ordem de ν, aceite H 0, se for o dobro disso, você provavelmente deverá rejeitar H 0 é comum usarmos o χ 2 reduzido, χ 2 /ν: se for da ordem da unidade aceita-se H 0, se for muito maior, rejeita-se problemas com este teste: os dados devem ser divididos em intervalos (binados) os intervalos devem ser suficientemente grandes para evitar flutuações estatísticas muito grandes regra: mais de 80% dos intervalos devem ter N i > 5; se necessário, combine intervalos para garantir que isso se verifique (para N pequeno ver Numerical Recipes sec. 14.3.2) 18 / 26
o χ 2 comparação de duas distribuições: teste de Kolmogorov-Smirnov o teste KS se aplica a conjuntos de dados não binados que representam uma certa variável, x S N (x): distribuição cumulativa dos dados (N) elementos sendo x i o conjunto de dados ordenados do menor para o maior, ix S N (x) = i x x i N i x i o teste KS compara duas distribuições calculando a distância máxima entre suas distribuições cumulativas se S t (x) for a distribuição cumulativa de um modelo, calcula-se D = max S N (x) S t (x) para duas distribuições diferentes cumulativas de dados a estatística KS é D = max S N1 (x) S N2 (x) 19 / 26
20 / 26 o χ 2 comparação de duas distribuições: teste de Kolmogorov-Smirnov a estatística D é útil pois sua distribuição pode ser calculada no caso de H 0 : as duas distribuições são iguais, permitindo a aplicação de um teste do valor p KS tem duas vantagens em relação ao χ 2 : não perde informação por conta de agrupamento e funciona bem para amostras pequenas KS não é sensível nos extremos da distribuição: ver NR seção 14.3.4 para versões turbinadas do teste
21 / 26 correlação entre duas variáveis Correlação entre duas variáveis vamos considerar agora medidas de associação entre duas varíaveis uma variável está correlacionada ou depende da outra? o conhecimento de uma variável ajuda a saber o valor da outra? cuidado: correlações podem não significar que as variáveis estejam intrinsecamente correlacionadas exemplo: efeitos de seleção!
correlação entre duas variáveis distribuição de probabilidades bivariada P(x, y)dxdy: probabilidade de se encontrar x entre x e x + dx e y entre y e y + dy médias: µ x = xp(x, y)dxdy µ y = yp(x, y)dxdy P(x, y)dxdy = 1 distribuições marginais: P(x) = yp(x, y)dy P(y) = xp(x, y)dx desvios padrão: σ x = V 1/2 x, σ y = V 1/2 y, σ xy = V xy se x e y são não-correlacionados (σ xy = 0), x e y são independentes: P(x, y) = P(x)P(y) variâncias: V x = (x µ x) 2 P(x, y)dxdy V y = (y µ y) 2 P(x, y)dxdy covariância: Cov(x, y) = V xy = (x µ x)(y µ y)p(x, y)dxdy variância da soma z = x + y: V z = V x + V y + 2V xy variância da subtração w = x y: V w = V x + V y 2V xy 22 / 26
correlação entre duas variáveis distribuição gaussiana bivariada gaussiana bivariada: ( 1 P(x, y µ x, µ y, σ x, σ y, σ xy) = 2πσ exp Z 2 ) xσ y 1 ρ 2 2(1 ρ 2 ) onde Z 2 (x µx)2 (y µy)2 = σx 2 + σy 2 coeficiente de correlação: ρ = σxy σ xσ y (x µx)(y µy) 2ρ σ xσ y contornos P(x, y) = cte: elipses vamos supor que temos um conjunto de N dados {x i, y i } e queremos saber se x e y estão correlacionados o coeficiente de correlação de Pearson é dado por: r = 1 N 1 ( )( ) N xi x yi ȳ i=1 σ s,x σ s,y desvios padrão da amostra: σ 2 s,x = 1 N 1 N (x i x) 2 i=1 σ 2 s,y = 1 N i ȳ) N 1 i=1(y 2 23 / 26
24 / 26 correlação entre duas variáveis coeficiente de correlação linear de Pearson o coeficiente de correlação de Pearson mede a força de uma correlação para se determinar a significância de um valor não nulo de r calcula-se a estatística N 2 t s = r 1 r 2 variáveis independentes e distribuídas como gaussianas bivariadas: t s obedece a distribuição t(ν) de Student com ν = N 2 graus de liberdade
correlação entre duas variáveis coeficiente de correlação não-paramétrico de Spearman testes não-paramétricos: não pressupõem uma forma para a distribuição dos dados suponha que se ordene os dados {x i } e {y i } tal que {X i } e {Y i } representem a posição dos dados na sequência ordenada: 1 < X i < N e 1 < Y i < N coeficiente de correlação de ordem de Spearman: N i=1 r S = 1 6 (X i Y i ) 2 N 3 N Spearman é mais robusto que correlação linear: se a correlação é detectada, provavelmente é real Spearman mede monotonicidade: r s é o mesmo para a relação entre x e y e para log x e log y (por exemplo, para x e y positivos) para N > 30 a estatística t S = r S (N 2)/(1 r 2 S ) se distribui como t(ν = N 2) de Student 25 / 26
26 / 26 correlação entre duas variáveis exercícios 1 Um estudante precisa testar as hipóteses H 0 : µ = 80 e H 1 : µ > 80 com α = 0.05. Analisando a amostra, ele calcula o valor p, 0.214, e conclui que "este resultado prova que H 0 é verdadeiro. Comente esta conclusão e a reescreva corretamente. 2 Aplique o teste F à discussão da página 9. 3 Suponha que se espere que um aglomerado tenha 60% de galáxias elípticas e lenticulares e 40% de espirais. Numa amostra de 100 galáxias se encontra 53 early-types e 47 late-types. Podemos concluir que esta amostra é representativa da ppulação? Use o teste do χ 2 para testar as hipóteses H 0 : a fração de E+S0 é 60% e H 1 : a fração de E+S0 é diferente de 60%, usando um nível de confiança de 0.05. 4 A função ks.test do R permite fazer testes comparando duas amostras (two-sample test) ou comparando os dados com uma distribuição (one-sample test). Considere a sequência de 8 pontos 1.41, 0.26, 1.97, 0.33, 0.55, 0.77, 1.46, 1.18. Existe alguma evidência de que estes dados não resultem de uma distribuição uniforme entre 0 e 2? Faça um teste de Kolmogorov-Smirnov.