Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos Lic. Eng. Biomédica e Bioengenharia-2009/2010

Até ao momento, adiantamos um valor razoável, ou um intervalo de valores razoáveis para um parâmetro desconhecido de interesse, tirando partido da informação contida numa amostra recolhida. É altura de tirarmos partido dessa mesma informação para nos pronunciarmos sobre afirmações relativas a esse parâmetro desconhecido ou a outros aspectos da nossa variável de interesse. Exemplo Estamos interessados em comparar a proporção de fumadores entre homens e mulheres. Uma hipótese de investigação seria, e.g., a proporção de fumadores é diferente nos homens e nas mulheres.

Hipótese estatística A qualquer afirmação/conjectura sobre um parâmetro desconhecido; distribuição da v.a de interesse, etc, dá-se o nome de hipótese estatística. Hipótese paramétrica Trata-se de uma afirmação/conjectura sobre um parâmetro desconhecido, assumindo que se conhece a distribuição da v.a. de interesse (a menos de um, ou mais, parâmetros desconhecidos.

Hipótese nula e alternativa De um modo geral confrontamos duas hipóteses paramétricas: a hipótese mais relevante, normalmente designada por hipótese nula e representada por H 0 ; a hipótese dita alternativa, representada por H 1. A estas duas hipóteses paramétricas estão associados dois subespaços disjuntos do espaço paramétrico. Hipótese simples e composta Uma hipótese diz-se simples, caso especifique um único valor para o parâmetro desconhecido; composta, caso contrário.

Hipótese alternativa unilateral e bilateral Uma hipótese alternativa diz-se unilateral inferior, se possuir um sinal de menor; unilateral superior, se possuir um sinal de maior; bilateral, se possuir um sinal de diferente. Exemplo Um preparado farmacêutico com o objectivo de reduzir dores de cabeça, foi administrado a 20 mulheres durante seis semanas, tendo sido registada variação de peso. Sendo H 0 : µ = 0kg (a média de variação de peso na população é zero), podemos considerar as hipóteses alternativas: H 11 : µ > 0, unilateral superior H 12 : µ < 0, unilateral inferior H 13 : µ 0, bilateral

Hipótese alternativa unilateral e bilateral Um teste de hipóteses não passa de um procedimento estatístico que conduz a uma decisão acerca das hipóteses nula e alternativa, tirando partido da informação contida na amostra recolhida. Assim sendo, de um modo geral, tomamos uma de duas decisões: rejeitar H 0 ; não rejeitar H 0. As decisões tomadas podem ou não ser correctas. Decisão H 0 verdadeira H 0 falsa Rejeitar H 0 Erro de 1 a espécie Decisão correcta Não rejeitar H 0 Decisão correcta Erro de 2 a espécie

É habitual delinear o teste de hipóteses de modo a minimizar as probabilidades de ocorrência de erros de 1 a e 2 a espécie. Estas probabilidades costumam ser designadas por α e β, respectivamente, e definem-se por α = P(Erro de 1 a espécie)=p(rejeitar H 0 H 0 é verdadeira) β = P(Erro de 2 a espécie)=p(não rejeitar H 0 H 0 é falsa) Analogia com o teste de diagnóstico: O erro de 1 a espécie é semelhante a um teste falso-positivo (que incorrectamente indica presença da doença quando ela não está presente). Assim sendo, 1 α é análogo à especificidade de teste auxiliar de diagnóstico (proporção de testes negativos em indivíduos não doentes). O erro de 2 a espécie é semelhante a um teste falso-negativo (que incorrectamente indica que não existe doença quando ela está presente). Assim, 1 β é análogo à sensibilidade do teste auxiliar de diagnóstico (proporção de testes positivos em indivíduos doentes).

Nível de significância Normalmente, estabelece-se um limite superior para a probabilidade de ocorrer um erro de 1 a espécie. A esse limite dá-se o nome de nível de significância (n.s.) do teste e representase por α 0 (α 0 (0, 1)). Assim sendo, o teste é delineado de modo a que P(Rejeitar H 0 H 0 é verdadeira) α 0. Os valores mais comuns para o n.s. são 10%, 5% e 1%. Qualquer decisão deverá basear-se na informação recolhida, muito em particular, no valor esperado daquilo a que chamaremos estatística de teste.

Estatística de teste Uma estatística de teste, que daqui em diante será representada por T, e que será utilizada no confronto de um par de hipóteses que digam respeito a um parâmetro desconhecido θ, deverá reflectir a discrepância entre o estimador de θ e o valor conjecturado para θ em H 0 (θ 0 ); poder obter-se à custa da v.a. fulcral Z que usaríamos para construir um intervalo de confiança para θ (substituindo θ por θ 0 em Z); ter distribuição (exacta ou aproximada) conhecida, sob a validade de H 0.

Região de rejeição de H 0 Representa-se por W e é escolhida de modo a que P(Rejeitar H 0 H 0 é verdadeira)= α 0 ( α 0 ); seja um intervalo real (ou uma reunião de intervalos reais) de probabilidade relacionada com α 0 e respeitantes à distribuição da estatística de teste sob H 0 ; o seu aspecto dependa da hipótese alternativa. Decisão Para decidir rejeitar ou não H 0, é necessário calcular t = valor observado da estatística de teste. Deve depois tomar-se uma de duas decisões Rejeitar H 0 ao n.s. α 0 se t W ; Não rejeitar H 0 ao n.s. α 0 se t / W.

Note que 1 Afirmar que H 0 não foi rejeitada ao n.s. α 0, não significa que H 0 seja verdadeira; 2 Afirmar que H 0 foi rejeitada ao n.s. α 0, não significa que H 0 seja falsa, mas que H 0 não é consistente com os dados ao n.s. α 0 ; 3 Podemos rejeitar H 0 ao n.s. α 0 e não rejeitar esta mesma hipótese a outro n.s.

Um teste de hipóteses bilateral com um n.s. α 0 pode ser efectuado a partir de um intervalo de confiança a (1 α 0 ) 100%; A partir de um intervalo de confiança a (1 α 0 ) 100%, rejeitamos todas as hipóteses H 0 associadas a valores das estatísticas de teste observadas, que estejam fora do intervalo.

para a média, variância conhecida Exemplo Voltemos ao exemplo anterior, em que um fármaco para reduzir as dores de cabeça é administrado a um gupo de 20 mulheres durante seis semanas. Verificou-se que a alteração média do peso corporal foi de 1.1Kg. Assumindo que a amostra foi retirada de uma população em que a variação de peso segue uma distribuição normal de desvio padrão σ = 2.8Kg, pretendemos saber se o fármaco tem um efeito significativo na variação de peso dessa população. V.a. de interesse: X = variação de peso na população. X normal (µ, 2.8 2 ), µ desconhecido. Hipóteses H 0 : µ = µ 0 = 0 H 1 : µ 0 Nível de significância: α 0 = 5% (por exemplo) Estatística de teste: T = X µ 0 σ n normal(0, 1)

Exemplo (cont.) Região de rejeição de H 0 : Por estarmos a lidar com um teste bilateral, a região de rejeição de H 0 será uma reunião de intervalos do tipo W = (, c) (c, + ) onde c =P(Rejeitar H 0 H 0 é verdadeira)=α 0, i.e., Decisão: Uma vez que ( c = Φ 1 1 α ) ( 0 = Φ 1 1 0.05 ) = 1.96 2 2 t = X µ 0 σ = 1.1 0 = 1.76 2.8 n 20 e 1.76 / W, devemos aceitar H 0, i.e., não existe evidência de que o fármaco tenha um efeito significativo na variação do peso.

Ao confrontar duas populações independentes, é usual testar a igualdade dos seus valores esperados, sejam eles µ 1 e µ 2. Repare-se que a hipótese de igualdade de valores esperados é equivalente a H 0 : µ 1 = µ 2 H 0 : µ 1 µ 2 = µ 0 = 0. No que respeita a testes de hipóteses sobre a igualdade de duas médias, distinguiremos o caso em que as duas populações independentes têm distribuição normal (caso 1), do caso em que têm distribuição arbitrária (e não normal), e as dimensões das amostras são suficientemente grandes (caso 2).

para a igualdade de duas médias, variâncias conhecidas Exemplo Caso 1. Pretende-se comparar a resistência de dois aparelhos fabricados com materiais diferentes (do tipo I e do tipo II). Para tal recolheram-se duas amostras (uma contendo aparelhos do tipo I e outra contendo aparelhos do tipo II) e registaram-se as respectivas durações (em anos): Tipo I: x 1 = (26, 24, 22, 30) Tipo II: x 2 = (25, 31, 33, 29) Admitindo que a duração (em anos) dos aparelhos de tipo I e II são v.a. independentes, com distribuição normal de desvios-padrão σ 1 = 7 e σ 2 = 3, respectivamente, testemos a hipótese de serem iguais os seus tempos médios de duração, contra a hipótese de ser menor a duração dos aparelhos de tipo I. X V.a. de interesse: 1 =duração do aparelho do tipo I X 2 =duração do aparelho do tipo II X 1 normal(µ 1, 7 2 ), X 2 normal(µ 2, 3 2 ) (µ 1 µ 2 ) desconhecido Hipóteses: H 0 : µ 1 µ 2 = µ 0 = 0 H 1 : µ 1 µ 2 < µ 0 = 0

Exemplo (cont.) Nível de significância: α 0 = 5% Estatística de teste: T = (X 1 X 2 ) µ 0 normal(0, 1) σ 1 2 n1 + σ2 2 n2 Região de rejeição: Tratando-se de um teste unilateral inferior, concluimos que quanto menor for a estimativa de MV de µ 1 µ 2 (que é dada por x 1 x 2 ), mais razões temos para rejeitar H 0, e portanto, a região de rejeição (para valores da estatística de teste) é um intervalo à esquerda: W = (, c) onde c = Φ 1 (α 0 ) = Φ 1 (1 α 0 ) = Φ 1 (1 0.05) = 1.65. Decisão: O valor observado da estatística de teste é t = (25.5 29.5) 0 7 2 4 + 32 4 = 1.05 e como t / W, não devemos rejeitar H 0 ao n.s. de 5%.

para a igualdade de duas médias, variâncias conhecidas Caso 2. Para efectuar um teste de hipóteses sobre a igualdade de valores esperados de populações independentes com distribuição arbitrária, variância conhecida, e dimensão amostral suficientemente grande, procede-se como no exemplo anterior, i.e., considera-se a Estatística de teste: cuja distribuição é, aproximadamente, T = (X 1 X 2 ) µ 0 V 2 (X 1 ) + V 2 (X 2 ) n1 n2 normal(0, 1),

para a média, variância desconhecida É obviamente mais realista efectuar um teste de hipóteses sobre o valor médio assumindo que a variância é igualmente desconhecida. Tal como anteriormente, há que distinguir os caso da amostra ser proveniente de uma população normal do caso em que provém de uma população com distribuição arbitrária e com dimensão amostral suficientemente grande.

para a média, variância desconhecida Exemplo Tendo com objectivo comparar a ingestão energética média diária numa população (que se supõe seguir uma distribuição normal), com o valor recomendado (7725Kj), recolheu-se uma amostra de 11 mulheres saudáveis tendo-se registado uma média e desvio padrão amostrais de 6753.6KJ e 11421Kj, respectivamente. Pretende-se saber se, na população, as mulheres fazem ou não uma ingestão energética diária de acordo com a recomendada. V.a. de interesse: X =ingestão energética diária X normal(µ, σ 2 ), µ e σ desconhecidos Hipóteses H 0 : µ = 7725 H 0 : µ 7725 Nível de significância: α 0 = 5% Estatística de teste: T = X µ 0 s n t (n 1)

Exemplo (cont.) Região de rejeição de H 0 : Por estarmos a lidar com um teste bilateral, será uma reunião de intervalos do tipo W = (, c) (c, + ) onde c =P(Rejeitar H 0 H 0 é verdadeira)=α 0, i.e., ( c = F 1 X Decisão: Uma vez que 1 α 0 2 ) ( = Φ 1 1 0.05 ) = 2.2281 2 (no scilab, cdft( T, 10, 1 0.05 2, 0.05 2 )) t = X µ 0 s = n 6753.6 7725 = 2.821 11421 11 e 2.821 W, devemos rejeitar H 0,ao n.s. de 5%, i.e., a ingestão diária é significativamente diferente da recomendada.

Método alternativo de decisão em testes de hipóteses: cálculo do p-value A decisão pela rejeição ou não da hipótese H 0 depende crucialmente do n.s. α 0 que se tenha considerado. Assim, em vez de fixarmos o n.s. do teste, identificarmos a região de rejeição e verificarmos se a estatística de teste pertence ou não a tal região, podemos simplesmente, determinado t, averiguar para que n.s. de decide pela rejeição de H 0 e para que n.s. de decide pela não rejeição de H 0. p-value Dado o valor observado da estatística de teste, o p-value é o maior nível de significância que leva à não rejeição de H 0. Assim sendo, devemos agir do seguinte modo: não rejeitar H 0 a qualquer n.s. α 0 p-value; rejeitar H 0 a qualquer n.s. α 0 > p-value.

O cálculo do p-value depende obviamente do aspecto da região de rejeição de H 0 (para valores da estatística de teste): W Teste p-value (, c) unilateral inferior P(T < t H 0 ) (c, + ) unilateral superior P(T > t H 0 ) (, c) (c, + ) bilateral T com dist. simétrica em relação à origem P(T < t ou T > t H 0 ) Exemplo No exemplo anterior, como o teste é bilateral e a distribuição de T é de t-student (e portanto simétrica em relação à origem) e t = 2.821: p-value= P(T < 2.821 ou T > 2.821 µ 0 ) = P(T < 2.821 µ 0 ) + P(T > 2.821 µ 0 ) = 0.018. (No scilab: cdft( PQ,-2.821,10)+1-cdft( PQ,2.821,10)) Como α 0 = 0.05 > 0.018, decidimos rejeitar H 0.

sobre a igualdade de médias, variâncias desconhecidas Vamos mais uma vez distinguir o csao em que as amostras provêm de populações normais (caso 1) do caso em que provêm de populações com distribuição arbitrária e em que as dimensões amostrais são suficientemente grandes (caso 2). No âmbito desta disciplina, caso pretendamos confrontar os valores esperados de duas populações normais independentes com variâncias desconhecidas, e estejamos a lidar com amostras de dimensões que não são suficientemente grandes (para justificar o recurso a um resultado assimptótico), teremos que assumir que as variâncias são iguais. Exemplo Caso 1. Foram efectuados estudos em Los Angeles e New York com o objectivo de determinar a concentração de monóxido de carbono (CO) perto das vias rápidas. Para tal, foram recolhidas amostras de ar, para as quais se determinaram as respectivas concentações de CO. Os resultados (em ppm) forma, no período de uma semana: Los Angeles: x 1 = (112.2, 118.4, 114.1) New York: x 2 = (101.1, 102.2, 100.4, 98.6, 88.2) Testemos a hipótese de que a média de concentração de CO em Los Angeles é superior ou igual à de New York.

Exemplo (cont.) X V.a. de interesse: 1 =concentração de CO em Los Angeles X 2 =concentração de CO em New York X 1 normal(µ 1, σ1 2), X 2 normal(µ 2, σ2 2) (µ 1 µ 2 ) e σ 1 = σ 2 = σ desconhecidos Hipóteses: H 0 : µ 1 µ 2 µ 0 = 0 vs. H 1 : µ 1 µ 2 < µ 0 = 0 Estatística de teste: T = (X 1 X 2 ) µ 0 (n 1 1)S 1 2+(n 2 1)S2 2 n 1 +n 2 2 ( 1 n1 + 1 n 2 ) t n 1 +n 2 2 (114.9 98.1) 0 Decisão: t = = 3.237 (3 1) 10.09+(5 1) 32.34 3+5 2 ( 1 3 + 1 ) 5 Como o p-value é, neste caso, dado por p-value= P(T < T µ 1 µ 2 = µ 0 ) = F (3+5 2 (3.237) = 99.11 (no scilab cdft( PQ,3.237,3+5-2)) que é um valor muito alto e portanto não devemos rejeitar H 0 a qualquer nível de significância α 0 99.11%.

Exemplo Caso 2. Para comparar a resistência de dois tipos de utensílios hospitalares, foram instalados no mesmo hospital 81 do 1 o tipo e 121 do 2 o tipo, tendo-se medido o seu desgaste numa escala conveniente. Para os utensílios do 1 o tipo, obteve-se x 1 = 290 e s 1 = 12; para os do 2 o tipo, os resultados foram x 2 = 321 e s 2 = 14. O fabricante dos utensílios do 1 o tipo afirma que o desgaste dos seus aparelhos é inferior ao dos aparelhos do 2 o tipo. Testemos a consistência desta afirmação de acordo com os dados obtidos. X V.a. de interesse: 1 =desgate dos utensílios do 1 o tipo X 2 =desgate dos utensílios do 2 o tipo X i com distribuições arbitrárias (possivelmente normais), i = 1, 2 E(X i ) = µ i, V (X i ) = σ i (µ 1 µ 2 ) desconhecidos σ 1 e σ 2 desconhecidos não necessáriamente iguais n 1 = 81 > 30, n 2 = 121 > 30 suficientemente grandes Hipóteses: H 0 : µ 1 µ 2 = µ 0 = 0 vs. H 1 : µ 1 µ 2 < µ 0 = 0 Nível de significância: α 0 = 1% (por exemplo) Estatística de teste: T = (X 1 X 2 ) µ 0 S 1 2 + S2 2 n 1 n2 normal(0, 1) (aproximadamente)

Exemplo (cont.) Região de rejeição de H 0 : Uma vez que se trata de um teste unilateral inferior, a região de rejeição de H 0 é da forma W = (, c), onde c = Φ 1 (α 0 ) = 2.326. Decisão: O valor observado da estatística de teste é t = (290 321) 0 12 2 81 + 142 121 = 16.2 Como t W, devemos rejeitar H 0 ao n.s. de 1%, i.e., concluir que a este n.s. a afirmação do fabricante é consistente com os dados.

para a variância de uma população normal Exemplo Sabendo que o peso (em gramas) de uma certa espécie de mamífero possui distribuição normal, averiguemos a hipótese de a variância ser igual a 50gr 2, ou se é superior a este valor, à luz da amostra ao n.s. de 5%. (1018, 982, 1015, 1007, 978) V.a. de interesse: X =peso (em gramas) de uma certa espécie de mamíferos. X normal(µ, σ 2 ) µ e σ desconhecidos Hipóteses: H 0 : σ 2 = σ 2 0 = 50 vs. H 1 : σ 2 > σ 2 0 Nível de significância: α 0 = 5% Estatística de teste: T = (n 1)S2 σ 2 0 χ 2 (n 1) (seria χ2 caso µ fosse conhecido) (n)

Exemplo (cont.) Região de rejeição de H 0 : Tratando-se de um teste unilateral superior, a região de rejeição de H 0 será um intervalo do tipo W = (c, + ), onde c : P(Rejeitar H 0 H 0 verdadeira)=α 0, ou seja c = F 1 χ 2 (1 α 0 ) = F 1 χ (n 1) 2 (1 0.05) = 9.488 (cdfchi( X, 4, 0.95, 0.05)) (5 1) Decisão: O valor observado da estatística é t = (5 1) 351.5 50 χ 2 (n 1) = 28.12 e como t W, devemos rejeitar H 0 ao n.s. de 5%.

para uma proporção Exemplo Suponhanhos que se recolheu uma a.a. de dimensão 500, dos nascimentos ocorridos numa certa população, verificou-se que 275 eram rapazes. Será que nessa população a proporção de nascimentos de rapazes é significativamente diferente da proporção de raparigas? { 1, o recém-nascido é rapaz V.a. de interesse X = 0, o recém-nascido é rapariga X Bernoulli(p), p desconhecido n = 500 > 30 suficientemente grande Hipóteses: H 0 = p 0 = 0.50 vs. H 1 p 0 = 0.50 Estatística de teste: T = X p 0 p0 (1 p 0 ) n p-value: O valor observado da estatística de teste é t = p-value é normal(0, 1) (distribuição aproximada) 0.55 0.50 0.5(1 0.5) 500 = 2.24. O P(T < 2.24 ou T > 2.24 H 0 ) = 2 [1 Φ(2.24)] = 0.025 = 2.5% Decisão: Não se deve rejeitar H 0 a qualquer n.s. α 0 0.025 e deve rejeitar-se a qualquer n.s superior a 2.5%

Teste de ajustamento do qui-quadrado Este teste permite verificar a adequação de uma distribuição com todos os parâmetros conhecidos (hipótese simples) uma distribuição com pelo menos um parâmetro desconhecido (hipótese composta) Para ser usado é necessário que haja um grande n o de observações (uma vez que se baseia num resultado assimptótico) os dados estejam agrupados em classes e disponhamos de uma tabela de frequências

Ajustamento a uma distribuição discreta, hipótese simples Exemplo Um dado é lançado 1000 vezes, tendo conduzido à seguinte tabela de frequências Resultado Freq. Obs. 1 174 2 174 3 154 4 179 5 154 6 165 A questão que se coloca é, naturalmente, será este dado perfeito/equilibrado? Vamos responder a esta questão considerando para o efeito um n.s. de, por exemplo, 5%. V.a. de interesse: X =resultado do lançamento do dado Hipóteses: H 0 : X uniforme({1, 2, 3, 4, 5, 6}) vs. H 1 : X uniforme({1, 2, 3, 4, 5, 6}) ou ainda, ao considerarmos p i = P(X = X i ), i = 1,..., 6, H 0 : p i = pi 0 = 1 6, i = 1,..., 6 vs. H 1 : i : p i pi 0

Exemplo (cont.) Nível de significância: α 0 = 5% Estatística de teste: T = k (O i E i ) 2 i=1 χ E 2 i (k β 1) (aproximadamente) onde k = n o de classes em que estão organizados os dados O i = frequência absoluta observada na classe i E i = n pi 0 frequência absoluta esperada, sob H 0, da classe i β =n o de parâmetros a estimar (neste caso note que β = 0 uma vez que temos uma hipótese simples) Região de rejeição de H 0 : Quanto maior for a discrepância entre a frequência absoluta observada na classe i e a frequência esperada sob H 0, menos consistente é a hipótese H 0. Logo a rejeição de rejeição de H 0 é um intervalo à direita W = (c, + ), onde c = F 1 χ 2 (1 α 0 ) (k β 1) Neste caso c = F 1 χ 2 (1 0.05) = 11.07 (6 0 1)

Exemplo (cont.) Decisão: o valor observado da estatística de teste é t = 6 (o i E i ) 2 = (174 1000 1 6 )2 E i=1 i 1000 1 + 6 (174 1000 1 6 )2 1000 1 6 + (154 1000 1 6 )2 1000 1 6 + (179 1000 1 6 )2 1000 1 6 = 3.499 / W + (154 1000 1 6 )2 1000 1 6 + (165 1000 1 6 )2 1000 1 6 Logo não devemos rejeitar a hipótese de estarmos a lidar com um dado perfeito ao n.s. de 5%.

Ajustamento a uma distribuição discreta, hipótese composta Exemplo Pretende-se saber a distribuição de probabilidade do n o de falhas de um dado aparelho uasado em unidades de rastreio. Com esse objectivo, foram recolhidos dados relativos a 500 intervenções de rastreio de doenças cardio-vasculares (missões), tendo-se obtido os seguintes resultados N o de avarias 0 1 2 3 4 N o de missões (com tal n o de falhas) 185 180 95 30 10 Testemos, ao n.s. de 5%, a hipótese de os dados seguirem uma distribuição de Poisson. V.a. de interesse: X =n o de falhas do aparelho Hipóteses: H 0 : X Poisson(λ) vs. H 1 : X Poisson(λ) Nível de significância: α 0 = 0.05 Estatística de teste: T = k (O i E i ) 2 i=1 χ E 2 i (k β 1) (aproximadamente)

Exemplo (cont.) Estimação de λ: É necessária pois as estatísticas de teste não podem conter nenhum valor desconhecido. A estimativa de MV de λ é dada por λ = 0 185 + 1 180 + 2 95 + 3 30 + 4 10 500 Região de rejeição de H 0 : W = (c, + ), onde c = F 1 χ 2 (1 α 0 ) (k β 1) = 1 Neste caso c = F 1 χ 2 (1 0.05) = 7.815 (5 1 1) Decisão: Como λ é desconhecido, o mesmo acontece a pi 0 e com a frequência absoluta esperada, sob H 0, da classe i: n pi 0. Temos assim Classe i Freq. absol. da classe i, o i {0} 185 {1} 180 {2} 95 {3} 30 {4, 5,...} 10

Exemplo (cont.) Ora n p 0 i = n { e λ λ i 1 (i 1)!, i = 1, 2, 3, 4 1 (p 0 1 + p0 2 + p0 3 + p0 4 ), i = 5 Mas uma vez que λ = 1, as estimativas das frequências absolutas esperadas sob H 0 são dadas por { e 1 n p i 0, i = 1, 2, 3, 4 = n (i 1)! 1 (p1 0 + p0 2 + p0 3 + p0 4 ), i = 5 Assim sendo, o valor observado da estatística de teste é t = 0.2321 / W concluindo-se que ao n.s. de 5%, é razoável afirmar que os dados provêm de uma distribuição de Poisson.

Agrupamento de classes Embora hajam autores que defendam que se registarmos, para algum i, E i < 5, devemos agrupar esta classe à classe adjacente com menor frequência absoluta esperada sob H 0, outros autores afirmam que não há a necessidade de qualquer agrupamento de classes se em pelo menos 80% das classes se verificar E i 5 e nas restantes classes E i 1. Será este o critério que vamos utilizar no âmbito desta disciplina.

Para v.a. contínuas, o procedimento de teste deve ser análogo, ou seja, as observações devem estar organizadas em classes, i.e., em intervalos disjuntos que cubram todo o contardomínio da v.a. de interesse.

Teste de independência do qui-quadrado em tabelas de contingência Exemplo Num estudo cĺınico seleccionaram-se aleatóriamente n = 1000 indivíduos para determinar se a presença de daltonismo estava ou não relacionada com o género, tendo-se obtido os seguintes resultados: Masculino Feminino Daltónicos 39 6 Não daltónicos 461 494 V.a. de{ interesse: { 1, indivíduo daltónico 1, indivíduo do género masculino X = Y = 2, c.c 2, c.c p ij = P(X = i, Y = j) desconhecido; p i = P(X = i) desconhecido; p j = P(Y = j) desconhecido; para i = 1,..., r e j = 1,..., s (r = s = 2 neste caso.)

Exemplo (cont.) Hipóteses: H 0 : p ij = p i p j vs. H 1 : (i, j) : p ij p i p j Nível de significância: α 0 = 10% Estatística de teste: T = r i=1 s j=1 ( O ij O ) 2 i O j n O i O j n χ 2 (r 1)(s 1) onde, para i = 1,..., r e j = 1,..., s: O ij =frequência absoluta observada na célula (i, j) da tabela de contingência O i = s j=1 O ij =frequência absoluta observada na linha i da tabela O j = r i=1 O ij =frequência absoluta observada na coluna j da tabela Região de rejeição do H 0 : Quanto maior for a discrepância entre as frequências das células da tabela e a estimativa da frequência absoluta esperada dessa mesma célula, sob a hipótese de independência (dada por o i o j ), mais n inconsisrente será H 0 com os dados. Assim, a região de rejeição é um intervalo à direita: W = (c, + ), onde c = F 1 χ 2 (1 α 0 ) (r 1)(s 1) Neste caso c = F 1 χ 2 (1 0.1) = 2.706. (2 1)(2 1)

Exemplo (cont.) Decisão: O valor observado da estatística de teste é igual a ( ) 39 45 500 2 ( ) 1000 6 45 500 2 1000 t = + 45 500 45 500 1000 1000 ( ) 461 955 500 2 ( ) 1000 499 955 500 2 1000 + + 955 500 955 500 1000 1000 = 25.34 W Concluimos assim, que a presença de daltonismo parece depender do respectivo género a qualquer n.s. superior ou igual a 10%.