Métodos Quantitativos para Ciência da Computação Experimental -Aula#7a- Inferência Estatística: Teste de Hipótese Virgílio A. F. Almeida Maio de 2008 Departamento de Ciência da Computação Universidade Federal de Minas Gerais
Refrescando a memória Parâmetro uma caraterística numérica de uma população, ex., média da população µ Estatística uma caraterística numérica calculada numa amostra, ex: média da amostra x Parametros e estimativa estatísticas são relacionados, mas são a mesma coisa. 2
Refrescando a memória Fonte Parametros População Statistics (estimativas) Amostra Notação Grega (µ, σ) Romana (x, s) Randômica Não Sim Calculada Não Sim 3
Refrescando a memória x é variavel aleatória com uma distribuição ( the SDM ). A SDM tende para a Normal com média µ e desvio padrão SEM x ~ N(µ, SEM) SEM = σ / n SEM: standard error of the mean SDM: sampling distribution of the mean 4
Inferências Estatísticas É o processo de tirar uma conclusão sobre uma população não vista, dado uma amostra relativamente pequena dessa população. Testando Hipóteses Estatísticas, também chamado de teste de significância. Basicamente, responder uma questão sim ou não a respeito de uma população e estimar a probabilidade da resposta estar errada. Estimativa de parâmetros Basicamente, estimar o valor de um parâmetro dado uma hipotese sobre a população 5
Refrescando a memória População todos valores possíveis Amostra um sub-conjunto da população Estatísticas são funções nas amostras Parâmetros são funções nas populações Inferência estatística generalização de uma amostra para a população com certo grau de certeza Duas formas de inferência: Estimativas Teste de Hipótese 6
Tipos de análises de dados Exploratório procura de padrões nos dados Inferência Estatistica de Dados Amostrais Teste de Hipótese Estimativa de parâmetros Construção de modelos matemáticos de dados Data mining Teste de hipóteses estatísticas é similar a prova por contradição, no qual nega-se uma proposição e mostra que uma contradição segue, portanto provando a proposição original. No outro caso, o teste não prova que a HN (hipótese nula) é falsa, mas sim ele limita a probabilidade de afirmar incorretamente que a hipótese nula é falsa. 7
Idéia Geral do Teste de Hipótese Faça uma assertiva sobre um parâmetro Transforme a assertiva numa null hypothesis Procure uma evidencia contra a hipótese nula ( the null hypothesis ) 8
A Lógica do Teste de Hipótese Exemplo: jogue uma moeda 10 vezes, e observa que aconteceram oito caras. A moeda é não viciada (i.e., qual é o comportamento de longo prazo?) e qual a incerteza residual? Voce afirma, Se a moeda fosse honesta, então oito ou mais caras é bem improvável, e portanto penso que a moeda é viciada. Como uma prova por contradição: Faça uma assertiva oposta (a moeda é honesta) mostre que o resultado da amostra ( 8 caras ) tem baixa probabilidade p, rejeite a assertiva, com incerteza residual relacionada a p. Estime p com uma distribuição de amostragem (sampling distribution). 9
Probabilidade de um resultado de uma amostra sob a null hypothesis Se a moeda fosse honesta (p= 0.5, a null hypothesis) qual é a distribuição de probabilidade de r, número de caras, obtida em N jogadas de uma moeda honesta? Obtenha analiticamente ou estime por simulação: Loop K times r := 0 Loop N times Generate a random 0 x 1.0 ;; r is num.heads in N tosses ;; simulate the tosses If x < p increment r ;; p is the probability of a head Push r onto sampling_distribution Print sampling_distribution 10
Distribuições de Amostragens (Sampling distributions) Frequencia (K = 1000) 70 60 50 40 30 20 10 Probabilidade de r = 8 ou mais caras em N = 10 jogadas de uma moeda Honest é 54 / 1000 =.054 0 1 2 3 4 5 6 7 8 9 10 Numero de caras em 10 jogadas Esta é a sampling distribution estimada de r sob a null hypothesis que p = 0.5. A estimativa foi construída por simulação 11
A Lógica do Teste de Hipótese Estabeleça uma null hypothesis : H0: p =.5, a moeda é honesta Estabeleça uma estatística: r, número de caras em N jogadas Estime/construa a sampling distribution de r dado H0 0 1 2 3 4 5 6 7 8 9 10 A sampling distribution vai dizer a probabilidade de p de um resultado pelo menos tão extremo como resultado da amostra, r = 8 Se essa probabilidade é muito baixa, rejeite H0 null hypothesis Incerteza residual é p 12
A parte mais sensível e conseguir a sampling distribution Sampling distributions podem ser derivadas... Exatamente, ex., distribuição binomial para moedas são dados por fórmula. N! r!(n r)! p N Analiticamente, ex., o Teorema do Limite Central diz que a sampling distribution da média aproxima a distribuição Normal quando as amostras crescem para infinito. Estimadas por simulações do processo da null hypothesis 13
Um Teste Estatístico Comum: teste Z para médias diferentes Uma amostra N = 25 de alunos de ciência da computação tem média de QI=135. São eles mais inteligentes que a média? Média da população é 100 com desvio padrão 15 A null hypothesis, H0, é que os estudantes de computação estão na média, i.e., a média do QI da população de estudantes de CC é 100. Qual é a probabilidade p de tirar essa amostra se H0 fosse verdade? Se p é pequeno, então H0 provavelmente é falso. Encontre a sampling distribution da média de uma amostra de tamanho 25, de uma população com média 100 14
Teorema do Limite Central A sampling distribution da média é dada pelo Teorema do Limite Cengtral. A sampling distribution da média de amostras de tamanho N aproxima uma Normal (Gaussian) quando N Tende para infinito. Se as amostras são tiradas de uma população com média µ e desvio padrão σ, então a média da sampling distribution é µ e seu desvio padrão é σ x = σ N qdo N cresce. Essas afirmações valem independement da forma da distribuição original. 15
A sampling distribution para o exemplo dos estudantes de CC Se a amostra de N = 25 estudantes fosse tirada de uma população com média 100 e desvio padrão 15 ( the null hypothesis ) então a sampling distribution da média seria assintoticamente normal com média 100 e desvio padrão s 15 25 = 3 A média dos estudantes de CC cai quase 12 desvios padroes de distância da média da sampling distribution Somente ~1% de uma distribuição normal cai mais que dois desvios padrões de distância da média. 100 135 A probabilidade que os estudantes de CC estão na average é aproximadamemte zero 16
O Teste Z Média da sampling distribution Estatística Da amostra Média da sampling distribution Teste estatistico std=3 std=1.0 100 135 0 11.67 Z = x µ = 135 100 σ 15 N 25 = 35 3 = 11.67 17
Rejeitar a null hypothesis? Geralmente rejeitamos H0 quando a probabilidade de obter uma estatistica da amostra (ex., média = 135) dado que a null hypothesis é baixa, digamos < 0.05. O valor estatística de teste, ex. Z = 11.67, recodifica a estatística da amostra (média = 135) para tornar mais fácil encontrar a probabilidade da estatística da amostra dado H0. Encontramos as probabilidades ao procurá-las nas tabelas, ou são fornecidas pro pacotes. Por exemplo, Pr(Z 1.67) = 0.05; Pr(Z 1.96) = 0.01. Pr(Z 11) e aproximadamente zero, rejeite H0. 18
O Teste t Mesma lógica que o teste Z, quando o desvio padrão da população é desconhecido e amostras são pequenas. Sampling distribution é t, não a normal, mas aproxima a normal a medida que o tamanho das amostras cresce. Teste estatístico tem uma forma muito similar mas as probabilidades do teste estatístico são obtidas pela consulta a tabelas da distribuição t distribution, e não a normal 19
O Teste t Suponha N = 5 estudantes tenham uma média de QI = 135, std = 27 Estime o desvio da sampling distribution usando o desvio padrão da amostra t = x µ = s N 135 100 27 5 = 35 12.1 = 2.89 Média da sampling distribution Estatística da amostra Média da sampling distribution Teste estatistico std=12.1 std=1.0 100 135 0 2.89 20
Sumário do Teste de Hipótese H0 nega o que voce deseja demonstrar! Encontre a probabilidade p da estatística da amostra sob H0 ao comparar o teste da estatítica com a sampling distribution ; se a probabilidade é baixa, rejeite H0 com um resíduo de incerteza proporcional a p. Exemplo: Deseja-se demonstrar que os estudantes de POS de CC (?????) são mais inteligentes que a média. H0 é que eles estão na média. t = 2.89, p 0.022 Nós provamos que os estudantes de CC são mais inteligentes? NÃO! Apenas mostramos que a média = 135 é improvável se eles não são. Nos nunca provamos o que desejamos demonstrar, nós somente rejeitamos H0, com um resíduo de incerteza. E ao falhar em rejeitar H0 não prova H0, também! 21
Cautela! Testes de Significância cobrem somente erros aleatórios. Não são explicativos para: Erro de Medição Erro de Processamento Amostras Viciadas 22
Dois métodos de teste de significância Método Fixo de nivel-α Estabeleça um limite de erro α Veja se a evidência permanece com limite α Tome a decisão sobre a null hypothesis Método da Significância Flexível Não estabeleça um limite α Derive a probabilidade condicional p Pese a evidência contra a null hypothesis com p 23
Passo A: Estabeleça a Hipótese H 0 Null hypothesis uma afirmação de falta de diferença ( no difference ) H 1 Hipótese Alternativa uma afirmação de falta de diferença ( difference ) Notas: Hipotese são baseadas na questão de pesquisa e não nos dados Hipotese refere-se a parâmetros 24
Passo B: nível-α level (teste de nível fixo) α o tipo de taxa de erro que voce aceitável na pesquisa Salte este passo quando o teste de significância for flexível Notas Voce especifica α (não se calcula α) Níveis comuns para α são 0.10, 0.05, & 0.01 25
Passo C: Estatística de Teste Converta os dados para estatistica de teste Vamos usar a estatistica z, que é: x µ 0 zstat = SEM onde µ a média sob a 0 σ SEM = n null hypothesis 26
Passo D: valor de p & conclusão Converta o z stat para um valor p 27
Exemplo Questão de pesquisa:senhorita X alterou um algoritmo de buscas (chamou de W*) e obteve novos valores de recall. O programa de busca é testado contra uma base padrão de palavras. Quer se saber se as modificações feitas pela senhorita X são responsáveis pelo recall maior? Projeto Sabemos que os recall típicos seguem uma Normal com µ = 100 ms e σ = 15 Rodamos o algoritmo W* e obtivemos esses dados {116, 128, 125, 119, 89, 99, 105, 116, 118} 28
Passo A: Algoritmo W* Sob a hipótese de não haver diferença (no difference), µ seria igual 100. Na notação estatística: H 0 : µ = 100 Sob a hipótese alternativa µ seria maior que 100 Na notação estatística : H 1 : µ > 100 29
Passo B: Algoritmo W Passo B só se aplica ao teste de nível fixo. Portanto, passo B é saltado 30
Passo C: Algoritmo W* Qual é a SDM de uma amostra de 9 se a assertiva nula fosse verdadeira? Esboce a curva Normal Marque o eixo x baseado na µ assumida e SEM Onde cai a x-bar de 112.8 nessa curva? x µ = SEM 112.8 100 5 Use fórmula z stat para 0 standardize x-bar zstat = = 2. 56 31
Step D: Algoritmo W* Converta z stat para um valor de p Valor de p área sob a curva além de z stat Para o exemplo, p = Pr(Z > 2.56) =.0052 Portanto, p =.0052 32
Interpretação do valor p Método α-fixo p α rejeite H 0 p > α NÃO rejeite H 0 Teste Flexível Valor de p = probabilidade do dadoif H 0 verdadeiro Assim, pequeno p evidencia forte contra H 0 33
Guidelines para valor de P p > 0.10 not significance 0.05 < p 0.10 marginally significant 0.01 < p.05 significant p 0.01 highly significant 34
A alternativa de um-lado O teste anterior fez a suposição sobre a direção da diferença Teste tinha um one-sided H 1 Olhamos apenas em um lado da SDM 35
A alternativa de dois-lados Um enfoque mais aberto permite conclusões positivas e negativas não-antecipadas. Isso requer um two- sided test O teste de dois-lados olha em ambas as caudas Isso dobra o valor de p 36
Próxima aula: Ler o paper abaixo Um estudo de caso baseado em: An Empirical Study of Dynamic Scheduling on Rings of Processors Gregory, Gao, Rosenberg & Cohen, Proc. of 8th IEEE Symp. on Parallel & Distributed Processing, 1996 citeseer.ist.psu.edu/gregory96empirical.html 37