Uiversidade Federal da Bahia Istituto de Matemática Departameto de Estatística Estatística IV (MAT027) e Itrodução à Estatística (MAT050) NOTAS DE AULA UNIDADE III INFERÊNCIA ESTATÍSTICA 1
1 INTRODUÇÃO Até o presete mometo, ós apredemos a descrever uma amostra através das medidas de tedêcia cetral e de dispersão, que são parte da chamada estatística descritiva. Com a utilização da iferêcia estatística, desejamos iferir idutivamete propriedades de uma população (ou uiverso) com base os resultados obtidos com a amostra (ou subcojuto do iverso ) o que costitui uma ferrameta muito importate o desevolvimeto de uma disciplia cietífica. Toda a iferêcia a Estatística está baseada a teoria das probabilidades, que ós acabamos de ver. Freqüetemete, devemos tomar decisões sobre populações com base em iformações obtidas em amostras das mesmas. Tais decisões chamam-se decisões estatísticas. Por exemplo, com base em resultados amostrais, podemos querer decidir se determiada droga é eficiete a cura de determiada doeça, se um processo educacioal é melhor do que outro, se um determiado úmero de caixas de um baco é suficiete para um atedimeto rápido ao cliete, etc. Para a tomada de tais decisões utilizaremos a iferêcia estatística. Nesta etapa do osso curso, iiciaremos a discussão falado sobre aspectos fudametais da amostragem, após a qual itroduziremos as oções sobre distribuição amostral da média e da proporção, itervalos de cofiaça e testes de hipóteses para médias e proporções, fializado com um método para avaliação de relações etre variáveis qualitativas, que é o teste qui-quadrado de idepedêcia. 2 AMOSTRAGEM Amostragem é o ato de obter uma amostra de uma população, podedo-se defiir população como um cojuto de elemetos, cada um deles apresetado uma ou mais características em comum. Amostra é, simplesmete, uma parte da população. O levatameto por amostragem, quado comparado com o levatameto total, apreseta certas vatages: custo meor; resultado em meor tempo; objetivos mais amplos; dados mais fidedigos. Há situações em que a amostragem se impõe. Assim, pode-se ter o caso de a população de estudo ser muito grade, sedo impraticável o levatameto total. Em casos em que o processo de ivestigação das características de cada elemeto for destrutivo (teste de resistêcia de materiais, por exemplo), só tem setido trabalhar-se com amostras. Há também os problemas de ordem ética: ovas drogas, vacias, técicas cirúrgicas devem ser testadas iicialmete em amostras, ates de seu uso amplo a população. 2.1 ETAPAS DE UM LEVANTAMENTO POR AMOSTRAGEM Quer a amostragem seja feita detro de um laboratório (por exemplo, para selecioar ratos que serão usados em um experimeto sobre agetes cacerígeos), quer a amostragem seja feita sobre a população geral (por exemplo, para obter iformações sobre aspectos de fertilidade de mulheres moradoras em uma grade cidade, como São Paulo), existem etapas que devem ser seguidas, itimamete ligadas aos pricípios de metodologia de pesquisa cietífica. Tais ites serão cometados com liguagem mais dirigida a levatametos objetivado estimar parâmetros de populações reais de seres humaos. Tais cometários, todavia, são aplicáveis a qualquer situação em que se requeira amostragem, bastado para isso pequeos ajustes, basicamete de forma e ão de coteúdo. As pricipais etapas de um levatameto por amostragem são: 2
1. Explicitação dos objetivos com bastate clareza, a fim de evitar dúvidas posteriores ou mesmo esquecimetos, devedo ficar bem defiida qual a uidade elemetar (elemeto) ou uidade de aálise a ser trabalhada. 2. Defiição da população a ser amostrada. (a) Em certas situações isto pode ser relativamete fácil, como o caso de se desejar tomar uma amostra de uma população de criaças que estejam matriculadas e freqüetado certo grupo escolar. Terse-ia uma situação mais complexa para se estudar gestates que procuram cetros de saúde para fazer pré-atal. 3. Escolha das variáveis a serem observadas em cada uidade de aálise. (a) Deve ser verificado se todos os dados que vão ser levatados são relevates para a pesquisa e se ehum dado relevate foi omitido. Existe uma tedêcia, particularmete ao se trabalhar com populações humaas, usado questioário, de se fazer muitas pergutas, um grade úmero das quais uca são aalisadas. Questioários logos, em geral, levam a dimiuir a qualidade da resposta. 4. Especificação do grau de precisão desejado.os resultados de levatameto por amostragem são sujeitos a icerteza, devido a erros de medida e ao fato de apeas parte da população ser examiada. O grau de icerteza pode ser dimiuído tomado-se amostras maiores e empregado-se melhores técicas ou aparelhos de medida. 5. Escolha dos istrumetos de medida e da forma de abordagem. (a) Em caso de iquéritos sobre utrição, por exemplo, poderá haver escolha etre observação úica ou observação durate sete dias; em estudos atropométricos será decidido o tipo de balaça, calibrador e outros aparelhos a serem usados. Questioários podem ser preechidos pelo próprio idivíduo ou serem aplicados a cada idivíduo por um etrevistador treiado. 6. Escolha da uidade amostral, que é defiida como a meor parte distita e idetificável da população, para fis de eumeração e sorteio da amostra. (a) Uma uidade amostral pode ser o próprio elemeto de estudo (criaça, cobaia, cidade, trecho da estrada) ou um cojuto de elemetos (classe de escola, ihada, Estado, cojuto de trechos cotiuados de estrada). As uidades amostrais devem cobrir toda a população e ão podem apresetar trasvariação, ou seja, um elemeto de estudo ão pode pertecer ao mesmo tempo a mais de uma uidade amostral. À relação, lista ou mapa cotedo todas as uidades amostrais dá-se o ome de sistema de referêcia ou fudametos da pesquisa. 7. Execução de prova experimetal, prova-piloto ou pré-teste. (a) Nesta etapa é feito um verdadeiro esaio do trabalho a ser desevolvido, sedo testados os istrumetos de medida, questioário, pessoal de campo, a sistemática proposta, a reação da população. Orieta os reajustes ecessários e pode dar iformações valiosas sobre possível duração e custo da pesquisa e idicações sobre a variabilidade do feômeo pesquisado, o que permite calcular melhor o tamaho da amostra. 8. Seleção da amostra após decidido qual deve ser o respectivo tamaho. Esta seleção deve ser feita, de preferêcia, por meio de sorteio do tipo lotérico. 3
2.2 TIPOS DE AMOSTRAGEM A amostragem é probabilística quado cada uidade amostral a população tem uma probabilidade cohecida e diferete de zero de pertecer à amostra. De outra forma, a amostragem é dita ão-probabilística. Admita-se, por exemplo, que seja defiida uma população de dez grupos escolares, cada qual com certo úmero de aluos, desejado-se uma amostra de tamaho igual a cico grupos escolares. Se o pesquisador decidiu simplesmete escolher os grupos escolares A, B, C, I, J, ter-se-ia uma amostragem ão-probabilística. É possível, o etato (e mesmo desejável), que o ivestigador obteha o úmero de aluos de cada grupo escolar e faça um sorteio para obteção das cico escolas, cada escola tedo uma probabilidade de ser sorteada proporcioalmete ao seu úmero de aluos; será uma amostragem probabilística. A amostragem ão-probabilística pode prejudicar sesivelmete a validade extera de um estudo, pois muitos fatores podem ifluir a escolha de uma uidade amostral para pertecer à amostra, prejudicado sua represetatividade em relação à população. Mesmo assim, existem situações em que ela é usada, havedo etão iteresse em se cohecer algumas formas de amostragem ão-probabilística: por volutários, que é bastate usada em esaios clíicos para teste de ovos medicametos; itecioal, quado as uidades que compõe a amostra são escolhidas pelo pesquisador; é usada a verificação de poluição de praias; por acesso mais fácil, em que as uidades são escolhidas por estarem em melhores codições de acessibilidade. Veja-se, por exemplo, o caso em que se defia para estudo todo o cojuto de habitates de uma área rural, tedo o domicílio como uidade amostral; se o etrevistador escolheu os dez primeiros domicílios do seu camiho, teremos este tipo de amostragem, tedo sido descosideradas as outras uidades amostrais que também pertecem à população. 2.3 AMOSTRAGEM PROBABILÍSTICA 2.3.1 AMOSTRAGEM CASUAL SIMPLES Também cohecida por amostragem ocasioal, acidetal, casual, radômica, etc. A amostragem simples ao acaso destaca-se por ser um processo de seleção bastate fácil e muito usado. Neste processo, todos os elemetos da população tem igual probabilidade de serem escolhidos, ão só ates de ser iiciado, como também até completar-se o processo de coleta. Eis o procedimeto para seu uso: 1. Devemos umerar todos os elemetos da população. Se, por exemplo, ossa população tem 5.000elemetos, devemos umerá-los de 0000 a 4999 ou, como acotece geralmete, usamos um úmero que já idetifica oelemeto. 2. Devemos efetuar sucessivos sorteios com reposição (ou ão) até completar o tamaho da amostra (). Para realizar este sorteio, podemos usar as tábuas de úmeros aleatórios ou aida preferecialmete, o uso de programas computacioais próprios para estes fis. Se, durate o sorteio, uidades amostrais já sorteadas poderem ser ovamete sorteadas, sedo represetadas uma, duas ou mais vezes a amostra, ter-se-á a chamada amostragem casual simples com reposição. Em geral, dar-se preferêcia ao tipo de amostragem casual simples sem reposição, pricipalmete quado se trata de populações com reduzido úmero de uidades amostrais. 2.3.2 AMOSTRAGEM SISTEMÁTICA Trata-se de uma variação da amostragem simples ao acaso, muito coveiete quado a população está aturalmete ordeada, como fichas em um fichário, listas telefôicas, etc. Procedimeto: 4
Seja N o tamaho da população e o tamaho da amostra. Etão, calcula-se o itervalo de amostragem N ou o iteiro mais próximo que chamaremos de a. Sorteia-se um úmero etre 1 e a esejax esse úmero. Formamos, assim, a amostra dos elemetos correspodetes aos úmeros: x;(x + a); (x + 2a);...;[x +( 1)a]. Exemplos: 1. Seja N =500e =50. Etão, 500 =10,oua =10. 50 Sorteia-se um úmero de 1 a 10. Seja 3 (x =3)o úmero sorteado. Logo, os elemetos umerados por 3; 13; 23; 33;... serão os compoetes da amostra. 2. Para uma população de tamaho N =32, umerada seqüecialmete de 1 a 32, e amostra de tamaho =8,tem-sea =4. O iício casual x deve ser sorteado etre 1, 2, 3 e 4; admita-se que teha sido x =3. Aamostrafica costituída das uidades amostrais de úmero (ou ordem): 3; 7; 11; 15; 19; 23; 27; 31. Pode ser visto que o resultado é obtido somado-se sucessivamete o itervalo de amostragem a =4a cada úmero obtido imediatamete ates. 2.3.3 AMOSTRAGEM ESTRATIFICADA No caso de população heterogêea, a qual podemos distiguir subpopulações mais ou meos homogêeas deomiadas estratos, podemos usar a amostragem estratificada. Estratificar uma população é dividi-la em L subpopulações deomiadas estratos, tais que 1 + 2 +... + L =, ode os estratos são mutuamete exclusivos. Após a determiação dos estratos, selecioa-se uma amostra aleatória de cada subpopulação. Muitas vezes uma população é composta de subpopulações (ou estratos) bem defiidos, havedo maior homogeeidade etre as uidades amostrais detro de cada estrato do que etre as uidades amostrais de estratos diferetes. Sexo, idade, codição sócio-ecoômica, são exemplos típicos. Nestas codições, tais estratos devem ser levados em cosideração e o sorteio da amostra deve ser feito em cada um deles idepedetemete; daí o ome de amostragem estratificada. Um caso muito importate da amostragem estratificada é aquele em que o pesquisador deseja que as subpopulações sejam represetadas a amostra com a mesma proporcioalidade com que compõe a população total. Trata-se da situação deomiada amostragem casual simples estratificada com partilha proporcioal ou simplesmete amostragem estratificada proporcioal. 3 COMPARAÇÃO ENTRE ESTATÍSTICAS E PARÂMETROS Quado estamos trabalhado com dados proveietes de uma amostra, poderemos calcular algumas estatísticas, que 5 são caracterizações da amostra. Por exemplo, pode-se calcular a média ou a variâcia desses dados. Logo, estatística é uma fução dos dados da amostra X 1,X 2,..., X : Temos etão que: X = S 2 = P i=1 T = f(x 1,X 2,..., X ) P x i i=1 (x i x) 2 1 = a média da amostra = a variâcia da amostra 5
que são fuções de X 1,X 2,..., X. X e S 2 são as estatísticas mais comus. Por sua vez, os parâmetros caracterizam a população. Os símbolos mais comus utilizados para distiguir se estamos trabalhado com amostra ou população são dados a tabela a seguir: Discrimiação Estatística Parâmetros Média X µ Variâcia S 2 σ 2 Número de elemetos N Proporção bp p 4 DISTRIBUIÇÕES AMOSTRAIS O problema da Iferêcia Estatística é fazer uma afirmação sobre parâmetros da população através da amostra. 4.1 DISTRIBUIÇÃO AMOSTRAL DA MÉDIA Supoha uma população idetificada pela v.a. X, cujos parâmetros média populacioal µ = E(X) e variâcia populacioal σ 2 = Var(X) são supostamete cohecidos. Vamos retirar todas as possíveis amostras ao acaso simples, de tamaho dessa população, e para cada uma calcular a média X. Vamos supor a seguite população: A população {2, 3, 4, 5} temmédiaµ =3, 5 e variâcia σ 2 =1, 25. Vamos relacioar todas as amostras possíveis de tamaho 2 dessa população: (2, 2) (2, 3) (2, 4) (2, 5) (3, 2) (3, 3) (3, 4) (3, 5) (4, 2) (4, 3) (4, 4) (4, 5) (5, 2) (5, 3) (5, 4) (5, 5) Agora vamos calcular a média de cada amostra acima relacioada. Etão teremos: 2, 0 2, 5 3, 0 3, 5 2, 5 3, 0 3, 5 4, 0 3, 0 3, 5 4, 0 4, 5 3, 5 4, 0 4, 5 5, 0 Por fim, vamos calcular a média das médias, ou seja, 2, 0+2, 5+3, 0+3, 5+... +4, 5+5, 0 E(X) = =3, 5 16 De modo aálogo, vamos calcular a variâcia da média X por: Var(X) = 1 X (x i x) 2 i=1 {z } A P Para o cálculo da parte deotada por A, teremos que: i=1 (x i x) 2 =(x 1 x) 2 +(x 2 x) 2 +(x 3 x) 2 +... +(x x) 2 =(2, 0 3, 5) 2 +(2, 5 3, 5) 2 +... +(5, 0 3, 5) 2 =10 Substituido a fórmula da variâcia, teremos: Var(X) = 1 Var(X) 1, 25 (10) = 0, 625 = = 16 2 6
Teorema: Para amostras casuais simples (X 1,X 2,..., X ), retiradas de uma população com média µ e variâcia σ 2, a distribuição amostral da média = (X 1 + X 2 +... + X ) aproxima-se de uma Distribuição Normal com média µ e variâcia σ2, quado tede ao ifiito. Desta forma: E(X) =µ Var(X) = σ2 Se X N(µ, σ 2 )= X N(µ, σ2 ), >1 Para padroizarmos a v.a.x vamos usar a mesma trasformação em que subtrai-se a média e divide-se pelo desvio-padrão: Z = X σ µ = Z N(0, 1) Exemplo: Uma variável aleatória X tem distribuição ormal, com média 100 e desvio-padrão 10. Se X é a média de uma amostra de 16 elemetos retirados desta população, calcule? 1. P (90 < X<110); 2. Que deveria ser o tamaho da amostra de modo a garatir a que P (90 < X<110) = 95%? Resolução: X N(100, 100) = X N(100; 6, 25) P (90 < X<110) = P 90 σ µ <Z< 110 µ σ = P µ 10 2, 5 10 <Z< = P ( 4 <Z<4) = 1, 0 2, 5-4 -3-2 -1 0 1 2 3 4 Calculado o valor de para a codição dada: P (90 < X<110) = P 10 <Z< 10 10 10 =95% Como o é fixo,etãoteremoszetredoispotossimétricosequeremossaberquepotossãoestesque deixam uma área de 95% etre eles. 7
95 % -Zo - 0 Zo Olhado a tabela da distribuição ormal, teremos que z 0 =1, 96. Etão, P 10 <Z< 10 10 10 =95%= P (z 0 <Z<z 0 )=95%= P ( 1, 96 <Z<1, 96) = 95% Logo, 10 = 1, 96 10 =19, 6 =1, 96 =4, 0 10 4.2 DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO Cosideremos que uma população a proporção de elemetos que possui determiada característica é p. Sabemos etão que a proporção de idivíduos que ão possuem esta característica será (1 p). Seja X a v.a. que cota o úmero de pessoas que possuem a característica de iteresse. Já vimos que esta v.a.tem Distribuição Biomial, com média E(X) =p e variâcia V ar(x) =pq; ode p é a proporção de idivíduos a população que têm a característica. Defiido como bp a proporção de idivíduos portadores da característica a amostra, teremos que, para suficietemete grade, a distribuição amostral da proporção bp será: p(1 p) bp N(p; ) Exemplo: Sabe-se que 20% das peças de um lote são defeituosas. Sorteiam-se 8 peças, com reposição, e calcula-se a proporção bp de peças defeituosas a amostra. Qual será a distribuição de bp? p(1 p) Resolução: Como foi visto bp N(p; ), ode p =20%=0, 2 e =8. (0, 20).(0, 80) Etão, E(bp) =0, 20 e Var(bp) = =0, 02. Logo, bp N(0, 20; 0, 02). 8 5 INTERVALOS DE CONFIANÇA Até o mometo, ós calculamos uma estimativa do parâmetro descohecido através de estimadores potuais (as estatísticas), que especificam um úico valor para o estimador. Por exemplo, quado calculamos a estatística X para uma determiada amostra, o valor que estima µ é úico e o chamaremos de estimativa da média populacioal. Este procedimeto, porém, ão os permite julgar qual a possível magitude do erro que estamos cometedo. Pode haver o iteresse em se obter um idicador de precisão dessa estimativa. Daí surge a idéia de ser feita uma estimativa por itervalo, que cosiste em estabelecer um itervalo de cofiaça para µ, por exemplo. Vamos voltar ao exemplo do item 4.1. De uma população de tamaho 4 foram retiradas todas as amostras possíveis de tamaho 2. Sabemos que a média populacioal µ é 3, 5 eparacadavalorcalculamosoerroetreamédiadaamostraeamédia populacioal. 8
Amostra Elemetos amostrais Média da amostra X Erro =(X µ) 1 (2, 2) 2, 0 1, 5 2 (2, 3) 2, 5 1, 0 3 (2, 4) 3, 0 0, 5 4 (2, 5) 3, 5 0, 0 5 (3, 2) 2, 5 1, 0 6 (3, 3) 3, 0 0, 5 7 (3, 4) 3, 5 0, 0 8 (3, 5) 4, 0 0, 5 9 (4, 2) 3, 0 0, 5 10 (4, 3) 3, 5 0, 0 11 (4, 4) 4, 0 0, 5 12 (4, 5) 4, 5 1, 0 13 (5, 2) 3, 5 0, 0 14 (5, 3) 4, 0 0, 5 15 (5, 4) 4, 5 1, 0 16 (5, 5) 5, 0 1, 5 Verificamos a última colua que, para algumas amostras, o erro etre X e µ foi igual a zero. Etretato, outras amostras apresetaram erros grades de 1, 5 para mais ou para meos em relação à média populacioal. Porém, quado vamos elaborar uma estimativa para um parâmetro populacioal, utilizamos apeas uma dessas possíveis amostras. Iteressa-os costruir um itervalo de cofiaça que garata que essa úica amostra escolhida seja uma detre as amostras que admitimos que o erro cometido ão seja sigificativo para o estudo. No exemplo dado, admitido que o erro amostral máximo desejável seja 0, 5, asamostras 1, 2, 5, 12, 15 e 16 os levariam a estimativas com erro muito grade. Existe portato uma probalidade de 6 16 (ou 37, 5%) de sortearmos uma amostra ão desejável. Nosso objetivo é costruir um itervalo de cofiaça de tal maeira que tehamos uma probabilidade pequea de sortearmos amostras com erros ão desejáveis. Ou seja, admitido que essa probabilidade seja 10%, teremos apeas 10% de amostras que gerarão estimativas cujo o erro amostral superará o valor que estamos admitido como máximo. Existirão, portato, 90% de amostras cujas estimativas serão cosideradas boas, isto é, cujos itervalos gerados a partir dessas estimativas potuais esperamos que coteham o verdadeiro parâmetro populacioal. Chamamos a essa última probabilidade de ível de cofiaça da estimativa e simbolizamos por (1 α). Observem que (1 α) pode ser igual a 99%, 95%, 90%, 80%, etc. Se estabelecermos que desejamos um itervalo de cofiaça (1 α) = 95%, α será igual a 0, 05; o que sigifica que, ao estimarmos o parâmetro, poderemos estar utilizado uma daquelas amostras detre as 5% que geram estimativas itervalares cujos erros amostrais ecotram-se acima do desejável. Resumido, desejamos costruir um itervalo, por exemplo para a média, de tal maeira que P ( média amostral - média populacioal < erro amostral) =95%=1 α 5.1 INTERVALO DE CONFIANÇA para a MÉDIA POPULACIONAL (µ) Quado a VARIÂNCIA POPULACIONAL (σ 2 ) é cohecida. Seja X N(µ, σ 2 ). Como já vimos, X N(µ, σ2 ). Padroizado a variável X, teremos que: Z = X σ µ tem distribuição N(0, 1) Vamos etão cosiderar o itervalo de valores de Z, simétrico em toro da média, tal que a probabilidade de Z assumir valor este itervalo seja igual a (1 α), istoé: 9
P ( z 0 <Z<z 0 )=1 α Coforme o gráfico da distribuição de Z, verifica-se: alfa/2 1- alfa alfa/2 -Zo 0 Zo Se o itervalo de cofiaça é defiido pelo itervalo ( z 0 ; z 0 ), a área em braco é a que forece a probabilidade acima requerida. Logo, a área restate será igual a a. Como temos duas áreas iguais, cada uma delas será igual a α 2. Vamos chamar os potos z 0 de z α e z α, pois eles os forecerão os potos que deixam as caudas da 2 2 distribuição uma área de α 2. Etão, rescrevedo a probabilidade, teríamos que: P ( z α <Z<z α )=1 α 2 2. Logo, P ( z α <Z= X µ <zα 2 σ )=1 α 2 Vamos substituir: Z = X σ µ Rearrajado a expressão etre parêteses, obtemos: P (X z α 2. σ <µ<x + z α 2. σ )=1 α Por defiição, a expressão X z α. σ <µ<x + z α. σ é o itervalo de cofiaça para o parâmetro µ, 2 2 ao ível de cofiaça 1 α, quadoσ écohecidoeoerroamostralédefiido por z α. σ que chamaremos 2 de ε. Exemplo: Seja X a v.a. que represeta a taxa de colesterol o plasma sagüíeo humao. Vamos supor que essa variável tem distribuição aproximadamete ormal com média µ e desvio padrão σ =20mg/100ml de plasma. Vejamos como se obtém o itervalo de cofiaça para o parâmetro µ. Vamos estabelecer o ível de cofiaça (1 α) =0, 95; istoé,umívelde95% de cofiaça. Observe a seguite figura: 2,5% 47,5% 4 7, 5% 2,5% -1,9 6 0 1,9 6 10
Através de uma tabela da Distribuição Normal Zero-Um ou X N(0, 1), obtemos a probabilidade correspodete a área 0, 475, o valor z = 1, 96. Portato, os valores de z = ±1, 96 delimitam a área de probabilidade igual a 0, 95 (0, 475 + 0, 475). Para ecotrarmos o itervalo de cofiaça para µ, supodo amostras de tamaho =25, podemos escrever: P (X 1, 96. 20 25 Portato, a expressão: <µ<x +1, 96.20)=0, 95 = P (X 7, 84 < X +7, 84) = 0, 95. 25 X 7, 84 <µ<x +7, 84 éoitervalodecofiaça ao ível de 95% para a taxa média de colesterol o plasma sagüíeo humao, obtido com base em uma amostra qualquer de tamaho 25. Portato, o erro amostral esse exemplo é de 7,84 mg/100ml de plasma. Para o cálculo dos valores etre os quais se ecotra o verdadeiro valor do parâmetro, teríamos que calcular X e substituir a expressão aterior. Vamos supor que a média da amostra é X = 198mg/100ml de plasma. Etão, o itervalo de 95% de cofiaça, determiado com base essa amostra é 190, 16 <µ<205, 84 Na prática, esperamos que a verdadeira média populacioal esteja cotida este itervalo com 95% de cofiaça, ou seja, que a amostra utilizada para a estimativa seja uma das 95% das amostras possíveis da população cujo erro amostral seja meor ou igual a erro máximo admitido (7,84 mg/100ml de plasma). É importate frisar que o itervalo de cofiaça para µ é um idicador da precisão da estimativa de X. 5.2 INTERVALO DE CONFIANÇA para a MÉDIA POPULACIONAL (µ) Quado a VARIÂNCIA POPULACIONAL (σ 2 ) é descohecida. Neste caso, como ão cohecemos σ 2, precisaremos calcular a estimativa S 2 a partir de uma amostra. Devemos lembrar que: S 2 = P (x i x) 2 i=1 1 Sabemos que X N(µ, σ 2 )= X N(µ, σ2 ) e Z = X σ µ tem distribuição N(0, 1) Agora, vamos cosiderar a variável aleatória T = X µ. S Esta v.a. T tem uma distribuição cohecida como t de Studet com ( 1) graus de liberdade. O gráfico da distribuição t de Studet é simétrico e tem forma similar à curva da Normal, só que meos achatada. Os graus de liberdade de uma distribuição correspodem ao úmero de variáveis idepedetes que estão sedo somadas. Sua represetação gráfica seria a seguite: 11
0 t As probabilidades para uma v.a. T com distribuição t de Studet também ecotram-se tabeladas. Vejamos agora como pode ser obtido um itervalo de cofiaça para µ quado o valor de σ é descohecido. Dispomos de uma estimativa de σ obtida com base em uma amostra casual simples de tamaho e sabedo-se que T tem distribuição t de Studet com ( 1) graus de liberdade, associados a S. O procedimeto a ser adotado é parecido com o adotado para o uso da distribuição Normal. Dada uma amostra de tamaho, imediatamete obtemos o valor ( 1) dos graus de liberdade associados à estimativa S de σ. Etão, defiido o itervalo de cofiaça (1 α), iremos procurar a tabela a seguite probabilidade: P ( t c <T <t c )=1 α Os potos t c e t c vão ser ecotrados da mesma forma verificada para a Distribuição Normal. Já vimos que T = X µ. Etão, podemos escrever P ( t S c <T = X µ <t S c )=1 α. Rearrajado a expressão etre parêteses, obtemos: P (X t c. S <µ<x + t c. S )=1 α. Por defiição, a expressão X t c. S <µ<x + t c. S éoitervalodecofiaça para o parâmetro µ, ao ível de cofiaça 1 α, quado σ é descohecido. Exemplo: Seja X a variável aleatória, que represeta a taxa ormal de colesterol o plasma sagüíeo humao. Supohamos que, com base em uma amostra casual simples de 25 idivíduos ormais, um pesquisador obteve a média X =198mg/100ml de plasma e o desvio-padrão S =30mg/100ml de plasma. Vamos obter, com base essa amostra, o itervalo de 90% de cofiaça para µ. Natabela t de Studet procuraremos o valor t c para ( 1) = 24 graus de liberdade e α =10%. Este valor é t c =1, 71. Etão, escrevemos: 198 1, 71. 30 <µ<198 + 1, 71.30 = 187, 74 <µ<208, 26 25 25 éoitervalode90% decofiaça para µ, obtido com base a amostra. Etão, espera-se que o itervalo calculado seja um dos 90% dos itervalos, para amostras casuais simples de 25, coterão o parâmetro µ. Ou seja, a média da população se ecotra etre 187,74 mg/100ml de plasma e 208,26 mg/100ml de plasma com 90% de cofiaça. 12
5.3 INTERVALO DE CONFIANÇA para PROPORÇÃO p (1 p) Já verificamos que ˆp N ( p, ). ˆp p Padroizado a variável ˆp obteremos Z = r,odez N(0, 1) p (1 p) De maeira aáloga ao itervalo de cofiaça ecotrado para a média populacioal (µ) quado a variâcia (σ 2 ) populacioal é cohecida, teremos que: Logo, P z α < ˆp p r 2 p (1 p) P ( z α <Z<z α )=1 α 2 2 <zα 2 =1 α. Rearrajado a expressão etre parêteses teremos: Ã r p (1 p) P ˆp z α. 2 <p<ˆp + z α 2. r! p (1 p) =1 α Como ão cohecemos o valor p (proporção populacioal) a expressão acima, para defiirmos o itervalo de cofiaça devemos substituí-lo por seu estimador ˆp,temos: r r p (1 p) p (1 p) ˆp z α. <p<ˆp + z α 2. 2 que defie o itervalo de cofiaça para o parâmetro p, ao ível de cofiaça 1 α. Exemplo: Etre 500 pessoas iquiridas a respeito de suas preferêcias eleitorais, 260 mostraram-se favoráveis ao cadidato Y. Calcular um itervalo de cofiaça ao ível de 90% para a porcetagem dos eleitores favoráveis a Y. Resolução: Temos = 500; x =260; 1 α =90% p = x = 260 =0, 52 Ã 500 r r! 0, 52 (1 0, 52) 0, 52 (1 0, 52) P 0, 52 1, 64. <p<0, 521 + 1, 64. =90% 500 500 Ã r r! p (1 p) p (1 p) P ˆp z α. <p<zα 2. =1 α 2 P (0, 488 <p<0, 552) = 90% 6 TESTES DE HIPÓTESES Um dos problemas a serem resolvidos pela Iferêcia Estatística é o de testar uma hipótese. Isto é, feito uma determiada afirmação sobre uma população, usualmete sobre um parâmetro desta, desejamos saber se os resultados de uma amostra cotrariam ou ão tal afirmação. Muitas vezes esta afirmação sobre a população é derivada de teorias desevolvidas o campo substativo do cohecimeto. A adequação ou ão dessateoriaaouiversorealpodeserverificada ou refutada pela amostra. O objetivo do teste estatístico é forecer ferrametas que os permitam validar ou refutar uma hipótese (estatística) através dos resultados da amostra. Por exemplo, de acordo com determiada literatura cosultada pelos pesquisadores, a probabilidade de um idivíduo do sexo femiio cotrair rubéola é 9%. Quer-se saber se esta mesma proporção é verificada etre as mulheres de Salvador. Para chegar a alguma coclusão seria ecessário fazer um testedehipóteses cujo procedimeto veremos a seguir. 13
6.1 HIPÓTESES ESTATÍSTICAS Na tomada de decisões é útil formular hipóteses ou suposições sobre a população em estudo. Tais hipóteses, que podem ou ão ser verdadeiras, chamam-se hipóteses estatísticas e, em geral, cosistem em afirmações sobre o valor de um parâmetro populacioal. São exemplos de hipóteses estatísticas: 1. A proporção de criaças do sexo masculio ascidas em determiada localidade os últimos 5 aos é 0,5, isto é, p =0, 5. 2. A altura média dos brasileiros é 1, 68 m, istoé,µ =1, 68 m. Vamos desigar por H 0 (hipótese ula) a hipótese estatística pricipal, ou seja aquela que primeiro tetaremos validar o teste, e por H 1 (hipótese alterativa) a hipótese que cotraría a hipótese ula. Assim teremos; 1. H 0 : µ =1, 75 = hipótese ula H 1 : µ 6= 1, 75 = hipótese alterativa 2. H 0 : p =0, 10 = hipótese ula H 1 : p 6= 0, 10 = hipótese alterativa 3. H 0 : µ = 210 = hipótese ula H 1 : µ 6= 210 = hipótese alterativa Através dos testes de hipóteses poderemos aceitar ou rejeitar a hipótese ula. A rejeição de H 0 implicará a aceitação de H 1. Usado a termiologia própria, diremos que o pesquisador pretede testar, por exemplo, H 0 : p =0, 7 cotra H 1 : p 6= 0, 7, com base em uma amostra de tamaho. 6.2 ERROS Qualquer que seja a decisão a ser tomada estamos sujeitos a cometer erros. ecessitamos das seguites defiições: Para facilitar a liguagem 6.2.1 ERRO do TIPO I Esse erro ocorre quado rejeitamos H 0 (hipótese ula) quado esta é verdadeira. Chamamos de α a probabilidade de cometer este erro, isto é: α = P (erro do tipoi) =P (rejeitar Ho / Ho é verdadeira) α é deomiado ível de sigificâcia do teste. É claro que esperamos um valor pequeo de α. Naprática, costuma-se adotar um ível de sigificâcia de 0,05 ou de 0,01, embora outros valores possam ser usados. Se, por exemplo, ao deliearmos um teste, escolhermos um ível de sigificâcia de 0,05 (ou 5%), isto sigifica que rejeitaríamos a hipótese ula em 5 chaces detre 100 quado ela deveria ser aceita, ou seja, haveria 95% de cofiaça que teríamos tomado a decisão correta. Em tal caso dizemos que a hipótese foi rejeitada ao ível de 5% de sigificâcia, o que sigifica que podemos ter errado com uma probabilidade de 5%. 14
6.2.2 ERRO do TIPO II Defiimos esse erro quado aceitamos H 0 (hipótese ula) quado esta é falsa. A probabilidade de cometer este erro é idicada por β, Logo, β = P (erro do tipoii) =P (ão rejeitar Ho / Ho éfalsa). A determiação do valor de β já é mais difícil, pois usualmete ão se especificam valores fixos para o parâmetro a situação alterativa. Este procedimeto ão será visto o mometo e estará relacioado com o poder do teste. A tabela a seguir resume as situações em que cometermos os erros do tipo I e tipo II: Realidade Decisão Aceitar H 0 Rejeitar H 0 H 0 é verdadeira Decisão correta Erro tipo I H 0 éfalsa Erro tipo II Decisão correta 6.3 TESTE DE HIPÓTESE para uma MÉDIA Este teste é feito baseado-se as distribuições da média amostral X. Veremos dois testes para a média, que depederão do cohecimeto ou ão do verdadeiro valor da variâcia. 6.3.1 Teste para a Média quado σ 2 é Cohecida (e quado a amostra é grade) O procedimeto para a realização desse teste de hipóteses pode ser resumido os seguites passos: Assim teremos; 1. Eumerar as hipóteses: H 0 : µ = µ 0 H 1 : µ 6= µ 0 2. Determiar a distribuição de X. e, por coseguite, a estatística de teste. Já vimos que X N(µ, σ2 ) = Z = X σ µ N(0, 1) A estatística de teste é uma estatística amostral, usada para tomar uma decisão em relação à hipótese ula. 3. Fixar o ível de sigificâcia α. 4. Determiar a Região de Aceitação e a Região de Rejeição (crítica) que serão defiidas de acordo com o α fixado: Distribuição Normal (0,1) 1 - α α 2 α 2 -z α /2 0 z α /2 15
A região crítica é o cojuto de todos os valores da estatística de teste que levam à rejeição da hipótese ula. Com base o gráfico acima, iremos formular a seguite regra de decisão ou teste de hipótese ou de sigificâcia: RejeitarahipóteseulaaoíveldesigificâciaaseovalordeZformaiorqueovalorde+ z α ou 2 meor que o valor z α. 2 Em caso cotrário, ão rejeitar a hipótese ula. -z α/2 0 z α/2 Z N(0, 1) Reg. Rejeição H 0 Reg. Aceitação de H 0 Reg. Rejeição H 0 Ovalor± z α é chamado valor crítico, separado a região crítica dos valores da estatística de teste que 2 ão levam à rejeição da hipótese ula. Exemplo: Em idivíduos sadios, a taxa de fósforo o sague tem distribuição aproximadamete ormal com média µ =3mg/100cc e desvio-padrão σ =0, 6mg/100cc. Com o objetivo de saber se o artritismo essa taxa média era alterada, um pesquisador tomou uma amostra de 36 doetes e testou sua hipótese ao ível de 5% de sigificâcia; observou-se a amostra a média X =3, 12mg/100cc. Resolução: Os hipóteses serão as seguites: H 0 : µ =3, 0 1. H 1 : µ 6= 3, 0 Usaremos α =0, 05 X N(3; (0, 6) 2 /36) = X N(3; 0, 01) A estatística a ser utilizada será: Z = X σ µ 3, 12 3, 0 = =1, 2 0, 1 As regiões de aceitação e de rejeição serão as seguites: Para α =0, 05 Distribuição Normal (0,1) 9 5% α 2 α 2 0,025 0 -zα z α 2 2 z α/2=1,96 Os potos z a e z a serãoforecidospelatabeladafaixacetraldemaeiraidêticaàqualfoiobservado 2 2 para costrução de itervalos de cofiaça. Logo z 0,025 =1, 96 e z 0,025 = 1, 96. Estes potos serão chamados de potos críticos. A área hachurada correspodeàregiãoderejeiçãodahipóteseula. 16
Se a estatística Z>za ou Z< z a, etão rejeitaremos a hipótese ula. Caso cotrário, aceitaremos-a. 2 2 Como Z =1, 2 <z 0,025 =1, 96 = ão rejeitamos a hipótese de que a taxa de fósforo o sague de pessoas com artritismo seja igual a 3, 0mg/100cc. Etão ão há evidêcia amostral suficiete para rejeitamos a hipótese ao ível de sigificâcia de 5%. 6.3.2 Teste para Média quado σ 2 é Descohecida (e para pequeas amostras) Neste caso, como ão cohecemos σ 2, precisamos calcular a estimativa S 2 a partir de uma amostra. Seguido os mesmos passos do teste aterior para a costrução das hipóteses a serem aalisadas; teremos como úica difereça o fato de agora a estatística a ser utilizada ser: T = X µ t S 1 T tem distribuiçao t de Studet com 1 graus de liberdade. 1. De forma similar ao teste com base da distribuição Normal, agora teremos que: (a) Se t α <t<t α,aceita-seh 0 2 2 (b) Se t>tα, rejeita-se H 0 2 (c) Se t< t α, rejeita-se H 0. 2 Exemplo: Os registros dos últimos aos de um colégio atestam para os calouros admitidos a ota média 115(testevocacioal). Paratestarahipótesedequeamédiadeumaovaturmaéamesma,tirou-se,ao acaso, uma amostra de vite otas, obtedo-se média de 118 e desvio-padrão 20. Admitir que α =0, 05 para efetuar o teste. Resolução: H 0 : µ =115 H 1 : µ 6= 115 α =0, 05; =20 Os graus de liberdade (g.l.) para o teste t de Studet será obtido da seguite forma g.l. = 1=20 1=19. Verificado-se a tabela da t de Studet com 19 graus de libedade e α =0, 05, obteremos os seguites potos t α = t 0,025 = 2, 093 e t α = t 0,025 =2, 093; que irão os forecer as seguites áreas: 2 2 Região de Re jeição Regi ão de Acei tação Região de Re jeição 0 -t = -2,093 t α 2 = 2,093 α 2 AestatísticaT = X µ 118 115 = = S 20 20 3 =0, 6708 1, 4721 Como 2, 093 <t<2, 093 ão rejeita-se a hipótese ula ao ível de sigificâcia de 5%. 17
6.4 TESTE DE HIPÓTESE para a PROPORÇÃO Este tipo de teste será realizado quado temos uma população e uma hipótese sobre a proporção de idivíduos portadores de uma certa característica. Esta hipótese afirma que essa proporção é igual a um certo úmero p 0. Etão, ossas hipóteses poderão ser descritas como: H 0 : p = p 0 H 1 : p 6= p 0 Como já vimos, a estatística ˆp, proporção da amostra, tem uma distribuição ormal, isto é: ˆp N ( p (1 p) p, ). Fixado um valor α, devemos costruir a região crítica para p a suposição de que os parâmetros defiidos em H 0 sejam verdadeiros. A estatística a ser usada este teste será: ˆp p Z = r,odep será a proporção a população e ˆp a proporção a amostra. p (1 p) As ossas regiões de aceitação (RA) e rejeição (RR) serão dadas de maeira similar às defiidas para a média. 1. Daí, poderemos cocluir mais uma vez que: (a) Se z α 2 <Z<z α 2,aceita-seH 0 (b) Se Z< z α 2,rejeita-seH 0. (c) Se Z>zα 2, rejeita-se H 0 Exemplo: As codições de mortalidade de uma região são tais que a proporção de ascidos que sobrevivem até 60 aos é de 0,6. Testar essa hipótese ao ível de 5% se em 1000 ascimetos amostrados aleatoriamete, verificou-se 530 sobrivetes até 60 aos. Resolução: Queremos testar: H 0 : p =0, 6 H 1 : p 6= 0, 6 α =0, 05 será osso ível de sigificâcia. = 1000; p = 530 =0, 53 1000 p (1 p) Como sabemos, ˆp N ( p, ) = ˆp N(0, 6; 0, 00024) Se α =0, 05, ospotoscríticos z α e z α serão os potos ±1, 96. 2 2 Calculado a estatística do teste, teremos: ˆp p 0, 53 0, 60 Z = r = = 4, 52 p (1 p) 0, 00024 ComoZ < 1, 96, rejeita-seh 0 ao ível de 5% de sigificâcia. Etão, poderemos cocluir que há evidêcias de que a proporção de ascidos vivos que sobrevivem até os 60 aos de idade é diferete de 0,60. 6.5 Teste de Hipótese para Comparação etre Médias de duas Populações. É um dos testes mais utilizados por pesquisadores da área biomédica. São bastate comus as ocasiões em que se têm duas populações e se deseja comparar suas médias. Este tipo de teste é aplicado para verificação de existêcia de difereça sigificativa etre as duas médias populacioais. E estas circustâcias iremos utilizar os testes descritos a seguir. 18
6.5.1 Comparação etre Médias de duas Populações Quado as variâcias populacioais σ 2 1 e σ2 2 são Cohecidas. Vamos supor que temos uma amostra X 1,X 2,...,X 1 da população N(µ 1, σ 2 1 ) e uma amostra Y 1,Y 2,..., Y 2 da população N(µ 2, σ 2 2 ), idepedetes. Queremos saber se suas médias diferem sigificativamete. Neste caso, as hipóteses estatisticas são: H 0 : µ 1 = µ 2 H 1 : µ 1 6= µ 2 Como σ 2 1 e σ2 2 são cohecidos, têm-se que a distribuição amostral de (X Y ) é dada por: (X Y ) N( µ 1 µ 2 ; σ2 1 + σ2 2 ); 1 2 Se fixarmos α comooíveldesigificâcia do teste, etão poderemos obter os potos críticos z α e z α, 2 2 respectivamete; defiido desta forma as áreas de aceitação e rejeição da hipotese ula. Para procedermos com o teste, devemos padroizar a variavel aleatoria (X Y ), queresultaráaseguite estatística: Z = (X Y ) (µ 1 µ 2 ) s N(0, 1) σ 2 1 + σ2 2 1 2 Sob a hipótese ula µ 1 = µ 2, logo: Z H0 = s (X Y ) σ 2 1 + σ2 2 1 2 irá os forecer o valor que os permitirá aceitar ou rejeitar a hipótese ula de forma similar aos testes ateriores. Exemplo: Um estudo comparativo do tempo de vida médio de um doete após ter sido detectado o vírus Y o orgaismo humao foi realizado etre homes e mulheres, para os quais temos as seguites distribuições, N(3, 2; 0, 64) e N(3, 7; 0, 81). Deseja-se saber se o tempo de vida médio de pacietes com este tipo de doeça é o mesmo etre homes e mulheres. Para isto, estudou-se uma amostra de 50 homes e 50 mulheres, obtedo-se umtempomédio3,0e3,5aos,respectivamete. Resolução: Queremos testar: H 0 : µ 1 = µ 2 =0 H 1 : µ 1 6= µ 2 6=0 Vamos fixar α =0, 05, logoospotoscríticosserão1, 96 e 1, 96, respectivamete. Temos a seguite distribuição amostral para (X 1 X 2 ): (X 1 X 2 ) N( 0, 5; 0, 034) Calculado o valor da estatística sob H 0, tem-se: Z = 0, 5 = 2, 7116 0, 034 2,5% 47,5% 4 7, 5% 2,5% - 2,71-1,9 6 0 1,9 6 19
Como Z calculado = 2, 71 < 1, 96 = Z tabelado,coformefigura acima, etão rejeitamos H 0,aoívelde 5% de sigificâcia. Logo, poderemos afirmar que existem idícios que o tempo de vida médio etre homes e mulheres que cotraíram o vírus Y ão é igual. Ou seja, os tempos médios de vida diferem sigificativamete etre sexo, ao ível de 5%. 6.5.2 Comparação etre Médias de duas Populações Quado as variâcias populacioais σ 2 1 e σ2 2 Descohecidas. Este teste de hipóteses é cohecido como teste t de Studet para difereça de médias. Quado as variâcias das populações ão são cohecidas, caso muito comum a prática, há ecessidade de estimá-las a partir dos dados amostrais. Neste caso, devemos substituir σ 2 1 e σ2 2 pelosseusestimadoress2 1 e S2 2, obtedo a seguite estatística: ode S c = s ( 1 1)S 2 1 +( 2 1)S 2 2 1 + 2 2 T = (X Y ) (µ 1 µ 2 ) S c r 1 + 2 1. 2 Dizemos que T tem distribuição t de Studet com 1 + 2 2 graus de liberdade. O teste de hipóteses deve ser coduzido de maeira aáloga, lembrado-se da modificação dos valores críticos de t, que vão ter outro úmero de graus de liberdade. Exemplo: Desejamos testar se dois tipos de esio profissioal são igualmete eficazes. Para isso, sortearamse duas amostras de operários; a cada uma, deu-se um dos tipos de treiameto e, o fial, submeteram-se os dois grupos a um mesmo teste. Que tipo de coclusão você poderia tirar, baseado-se os resultados abaixo. Resolução: As hipóteses serão: H 0 : µ 1 = µ 2 H 1 : µ 1 6= µ 2 Vamos fixar α =0, 05. Calcularemos a estatística: ode S c = Sob H 0 =>µ 1 = µ 2 Etão: Amostra N. de elemetos Média Desvio-Padrão Tipo I 12 75 5 Tipo II 10 74 10 s ( 1 1)S 2 1 +( 2 1)S 2 2 1 + 2 2 S c =7, 88954 e T = T = (X Y ) (µ 1 µ 2 ) S c r 1 + 2 1. 2 (75 74) 7, 88954. 0, 026846 = 1 1, 2927 T =0, 7735 Iremos defiirospotoscríticos t a e t a, que serão, respectivamete, 2, 20 e 2, 20. 2 2 Como 2, 20 <T <2, 20, aceitamos a hipótese ula. Com base o teste acima, pode-se cocluir que os dois tipos de testes ão diferem sigificativamete, ao ível de 5%. Logo, qualquer um dos dois tipos de esio profissioal são igualmete eficazes. 20
6.6 TESTESBILATERAISeUNILATERAIS. As caudas de uma distribuição são as regiões extremas delimitadas por valores críticos. Nos exemplos desevolvidos esta apostila os testes de hipótese evolveram testes bilaterais o setido de que a região crítica está situada as duas regiões extremas (caudas) sob a curva. Rejeitamos a hipótese ula se ossa estatística de teste está a região crítica porque isto idica uma discrepâcia sigificativa etre a hipótese ula e os dados amostrais. Algus testes são uilaterais, podedo ser uilaterais esquerdos ou direitos. Os testes uilaterais esquerdo têm a região crítica localizada a região extrema esquerda sob a curva, equato que os uilaterais direitos têmaregiãocríticalocalizadaaregiãoextremadireitasobacurva. Nos testes bilaterais, o ível de sigificâcia é dividido igualmete etre as duas caudas que costituem a região crítica. Em testes uilaterais, a área crítica é igual a α. Afigura a seguir esquematiza estas iformações. Sia l de H1: < Tes te Uilatera l à Es querda Sia l de H1 : > Teste Uilateral à Direita Sial de H1: Tes te Bilateral Exemplo: Determiação de valores críticos: Muitos passageiros de avios de cruzeiro utilizam adesivos que forecem dramamia ao corpo a fim de evitar o ejôo. Testa-se a iformação sobre a quatidade da dosagem média, ao ível de sigificâcia de 0,05. As codições são tais que permitem a utilização da distribuição ormal. 1. Determie o(s) valore(s) crítico(s) de z se o teste é: (a) bilateral; (b) uilateral esquerdo; (c) uilateral direito. Resolução: (a) Em um teste bilateral, o ível de sigificâcia é dividido igualmete etre as duas caudas, o que determia uma área de 0,025 em cada cauda. Podemos ecotrar os valores críticos pelo uso da tabela da ormal padrão através dos valores que correspodem a áreas de 0,475 à direita ou à esquerda de média. Assim, obteremos os valores críticos z = 1, 96 e z =1, 96. 21
(b) Em um teste uilateral esquerdo, oíveldesigificâcia 0,05 é a área da região crítica à esquerda, deformaqueovalorcríticocorrespodeaumaáreade0,45àesquerdadamédia. Recorredoà tabela da ormal padrão, obtemos o valor crítico z = 1, 645. (c) Em um teste uilateral à direita, oíveldesigificâcia0,05aáreadaregiãocríticaàdireita, de formaqueovalorcríticocorrespodeaumaáreade0,45àdireitadamédia.comousodatabela ormal padrão, obtém-se o valor crítico z =1, 645. 6.7 NÍVEL DESCRITO (p-valor). O procedimeto descrito até o mometo é cohecido como procedimeto clássico de testes de hipóteses. Um outro procedimeto que vem sedo muito adotado cosiste em apresetar o ível descritivo (ou p-valor) do teste. A difereça básica etre esses dois procedimetos é que, este último, ão é ecessário costruir a região crítica. Em lugar disto, idica-se a probabilidade de ocorrerem valores da estatística mais extremos que o observado, supodo a hipótese H0 verdadeira. Regra de decisão p-valor > α = aceitar H 0 p-valor α = rejeitar H 0 Etão, o p-valor é a probabilidade, sob a hipótese ula, de se observar um valor igual ou maior que o obtido. Ou seja, um p-valor (ou valor de probabilidade) é a probabilidade de obter um valor da estatística amostral de teste o míimo tão extremo como o que resulta dos dados amostrais, a suposição de a hipótese ula ser verdadeira. Este tipo de procedimeto é usualmete o adotado quado se trabalha com softwares estatísticos para aálise de dados, pois a iformação a respeito do p-valor está dispoível detre os resultados apresetados pelo computador. Com o objetivo de realizar o teste de hipóteses através desse procedimeto, iremos apresetar dois exemplos. Para auxiliar essa aálise usaremos algus resultados apresetados por um pacote estatístico para aálise de dados deomiado Miitab. Exemplo 1 : Uma compahia de cigarros aucia que o ídice médio de icotia dos cigarros que fabrica, apreseta-se abaixo de 23 mg por cigarro. Um laboratório realiza 10 aálises desse ídice, obtedo: 27, 24, 21, 25, 26, 22, 23, 25, 27, 22. Sabe-se que o ídice de icotia se distribui ormalmete. Pode-se aceitar, ao ível de 10%, a afirmação do fabricate? H 0 : µ =23mg vs H 1 : µ 6= 23mg (supoha um teste bilateral) A Estatística do teste é T = X µ 0 = S 24, 2 23 2, 1429 10 =1, 77 O Valor da tabela que servirá de base para comparar com a estatística do teste é t α ( 1) = t 0.10,9 = 1, 383, logo ão podemos rejeitar H 0 ao ível de sigificâcia de 10%. O Miitab utilizacomocritériooíveldescritivodoteste: Test of µ = 23.000 vs µ 23.000 Variable N Mea StDev SE Mea T P-Value C1 10 24.200 2.150 0.680 1.77 0.94 Observa-se que o p-valor > 0, 10 e, portato, aceitamos a hipótese ula. Logo, os dados amostrais ão possuem evidêcia suficiete para aceitarmos a afirmação do fabricate. Exemplo 2: Uma rede de pizzarias deseja testar se o teor médio de gordura em peças de salame produzidas por determiada idústria de alimetos é igual a 15%. De um grade lote que adquiriu retirou uma amostra de 50 peças de salame e os resultados estão a seguir: 22
As hipótese a serem testadas são 19.8 23.4 13.6 6.6 13.7 5.2 14.3 13.3 12.2 14.3 8.5 15.8 16.0 18.3 28.7 11.6 16.4 14.4 26.2 17.0 6.5 10.0 24.5 34.9 19.1 6.9 19.5 11.0 8.9 10.6 9.5 14.0 6.0 18.0 10.8 16.7 18.4 10.1 12.3 6.5 25.4 15.3 12.1 13.1 7.7 17.4 10.7 24.1 14.0 21.4 H 0 : µ =15 versus H 1 : µ 6= 15 Test of µ = 15.000 vs µ 15.000 Variable N Mea StDev SE Mea T P-Value C2 50 14.984 6.387 0.903-0.12 0.91 Como p-valor > 0, 05 etão aceita-se H 0, ou seja, ão existe evidêcia de que o teor de gordura as peças de salame produzidas pela idústria seja diferete de 15% 7 TESTE QUI-QUADRADO Até o mometo ós testamos hipóteses referetes a um parâmetro populacioal ou mesmo à comparação de dois parâmetros. Vamos estudar agora um teste ão-paramétrico, assim chamado por ão depeder dos parâmetros populacioais em de suas respectivas estimativas. Para a realização desses testes ão-paramétricos ós utilizaremos uma ova distribuição estatística chamada Qui-quadrado, cuja medida baseia-se o grau de cocordâcia etre as freqüêcias observadas e as freqüêcias esperadas de acordo com as regras de probabilidade. Supoha um experimeto realizado vezes, ode se observou um cojuto A 1,A 2,..., A k com as respectivas freqüêcias O 1,O 2,..,O k. No etato, de acordo com as regras de probabilidade deveriam apresetar as seguites freqüêcias teóricas ou esperadas e 1,e 2,..., e k. Como ilustração, cosidere o seguite experimeto: Laçameto de um dado 60 vezes. Neste tipo de experimeto temos 6 possíveis evetos (as faces do dado). E sabemos que se o dado é hoesto a probabilidade de cada face ser sorteada é 1 em cada jogada. 6 Os resultados deste experimeto aparecem o quadro a seguir. Evetos 1 2 3 4 5 6 Freq. Observada 15 7 4 11 6 17 Freq. esperada 10 10 10 10 10 10 O modelo que serve para determiar as discrepâcias existetes etre as freqüêcias observadas e esperadas édadopelaestatística: χ 2 = P (O j e j ) 2 = (O 1 e 1 ) 2 + (O 2 e 2 ) 2 +... + (O k e k ) 2 e j e 1 e 2 ode O j é a freqüêcia observada e e j é a freqüêcia esperada, sob a hipótese em estudo. A distribuição amostral da distribuição Qui-quadrado χ 2 terá a seguite forma aproximada: e k 23
0 Qui-quadrado A χ 2,assim como a t de Studet, terá graus de liberdade associados à sua distribuição, que serão defiidos de acordo com o procedimeto a ser adotado. 7.1 TESTE DE INDEPENDÊNCIA Uma importate aplicação do teste χ 2 ocorre quado queremos estudar a relação etre duas ou mais variáveis de classificação. A represetação das freqüêcias observadas, este caso, pode ser feita por meio de uma tabela de cotigêcia. Cosiderado-se dois critérios de classificação, teremos tabelas de dupla etrada de classificação h x k, em que as freqüêcias observadas ocupam h lihas e k coluas. Tabela de cotigêcia (2 x 2) Resultados observados Classificação I II TOTAL A A 1 A 2 N a B B 1 B 2 N b TOTAL N 1 N 2 N Na tabela acima cosideramos duas variáveis. A primeira variável (variável 1) admitimos que seja classificada em duas categorias A e B; a variável também em duas categoria I e II. Uma tabela de cotigêcia é usualmete costruída com o propósito de estudar a relação etre as duas variáveis de classificação. Por meio do teste χ 2 é possível testar a hipótese de que as duas variáveis são idepedetes. No caso do teste de idepedêcia, em particular, o valor da estatística χ 2 será maior quato mais afastadoovalorobservadofordovaloresperadoemaiorseráadepedêcia.emrelaçãoaoúmerodegraus de liberdade, este será defiido por (h 1)(k 1), odeh represeta o úmero de modalidades da variável 1 e k o úmero de modalidades da variável 2. Como o pesquisador está preocupado em testar a associação etre as variáveis, as hipóteses serão formuladas da seguite maeira: H 0 : as variáveis são idepedetes H 1 : as variáveis ão são idepedetes, ou seja, elas apresetam algum grau de associação etre si. Exemplo: Deseja-se verificar a relação etre a classificaçãodadaaoajustametomatrimoialeaoível de escolaridade do casal. Os dados ecotram-se a tabela a seguir: Ajustameto Matrimoial Educação Muito baixo Baixo Alto Muito alto TOTAL 3 o grau 18 (27) 29 (39) 70 (64) 115 (102) 232 2 o grau 17 (13) 28 (19) 30 (32) 41 (51) 116 1 o grau 11 (6) 10 (9) 11 (14) 20 (23) 52 TOTAL 46 67 111 176 400 24
Neste caso queremos testar a hipótese de ão haver relação etre o ível educacioal do idivíduo e o êxito o seu casameto. Para podermos calcular as freqüêcias esperadas para as diversas caselas, sob a suposição de idepedêcia, estaremos esperado que ão haja difereça etre as modalidades, logo poderemos usar os totais margiais: 232, 116 e 52. Assim, ecotraremos a distribuição de escolaridade sem levar em cosideração o ajustameto matrimoial, de forma que: 232 400 =0, 58 ; 116 400 =0, 29 ; 52 =0, 13 400 Aplicaremos estas taxas em todas as caselas da tabela aterior, obtedo as freqüêcias esperadas, que estão represetadas detro dos parêteses da tabela aterior. Nossotesteprocederádoseguitemodo: H 0 : O ajustameto matrimoial é idepedete da educação H 1 :O ajustameto matrimoial ão é idepedete da educação α =5% ϕ = úmero de graus de liberdade =(h 1)(k 1) = (3 1)(4 1) = 2 x 3=6 = χ 2 =12, 6 A estatística do teste, sob H 0,será: χ 2 = P (O j e j ) 2 (18 27)2 (17 13)2 (20 23)2 = + +... + e j 27 13 23 =20, 7 Como χ 2 calculado > 12, 6, rejeita-se a hipótese de idepedêcia. Por ispeção da tabela parece que os idivíduos com alguma educação colegial parecem ajustar-se melhor ao casameto do que aqueles que ão a possuem. 8 EXERCÍCIOS DE FIXAÇÃO 1) Um atropólogo mediu as alturas (em polegadas) de uma amostra aleatória de 100 homes de determiada população, ecotrado a média amostral de 71,3. Se a variâcia da população for σ 2 =9, determie um itervalo de 99% de cofiaçaparaaalturamédiadetodaapopulação. 2) Para os tempos de reação de 30 motoristas selecioados aleatoriamete, ecotrou-se uma média de 0,83 segudos e um desvio-padrão de 0,20 segudos. Determiar um itervalo de 95% de cofiaça para o tempo médio de reação de toda a população de motoristas. 3) Uma amostra aleatória de 400 domicílios mostra que 25% deles são casas de aluguel. Qual é o itervalo de cofiaça que podemos razoavelmete supor que seja o da proporção de casas de aluguel, com um ível de sigificâcia de 2%? 4) Certo tipo de semete cresce, em média, até a altura de 8,5 polegadas, com desvio-padrão de uma polegada. Semeiam-se 100 delas em um solo eriquecido, a fim de testar qual a média a melhora de crescimeto. Se esta amostra, ecotrarmos uma altura média de 8,8 polegadas de altura, qual será ossa coclusão? 5) Estamos descofiados de que a média das receitas muicipais per capita das cidades pequeas (até 20.000 habitates) é maior do que a das receitas do estado, que é de 1.229 uidades. Para comprovar ou ão esta hipótese, sorteamos dez cidades pequeas e obtivemos os seguites resultados: 1.230; 582; 576; 2.093; 2.621; 1.045; 1.439; 717; 1.838; 1.359. O relatório do software Miitab ecotra-se a seguir. Test of µ = 1229 vs µ > 1229 Variable N Mea StDev SE Mea T P-Value Reda 10 1350 676 214 0.57 0.29 25
Com base estas iformações, que coclusões podem ser feitas. Costrua as regiões críticas para este teste de hipóteses e compare este procedimeto com o do uso do p-valor. 6) Duas máquias, A e B, são usadas para empacotar pó de café. A experiêcia passada garate que o desvio adrão de ambas é de 10g. Porém, suspeita-se de que elas têm médias diferetes. Para verificar, sortearam-se duas amostras: uma com 25 pacotes da máquia A e outra com 16 pacotes da máquia B. As médias foram, respectivamete, X A =502, 74g e X B =490, 60g. Com estes úmeros, e ao ível de 5%, qual seriaacoclusãodotesteh 0 : µ A = µ B? 7)Supoha que está sedo realizada uma pesquisa para avaliar diversas características físicas e comportametais dos ursos polares. Algus pesquisadores acreditam que o peso esse grupo de aimais ão difere segudo o sexo. Com o objetivo de se verificar se esta afirmação é verdadeira, 99 ursos do sexo masculio e 44 do sexo femiio foram pesados. Os resultados obtidos ecotram-se a seguir. Com base esses resultados, quecoclusõesvocêpodeobter? Twosample T for Weight Sex N Mea StDev SE Mea 1 99 214 120 12 2 44 143.0 64.5 9.7 95% C.I. for µ1 - µ2: ( 40, 101.5) T - Test µ1 = µ2 (vs ot =): T = 4.59 P = 0.0000 DF = 135 8) Fez-se um estudo de 531 pessoas feridas em acidetes de bicicleta; os resultados de uma amostra aleatória costamdatabelaabaixo. Comoívelde0,05desigificâcia, teste a afirmação de que o uso do capacete ão reduz a possibilidade de ferimetos o rosto. Com base os resultados, acha que o uso do capacete ajuda a reduzir o risco de ferimetos o rosto? Resultados Com capacete Sem capacete Com ferimetos faciais 30 182 Todososferimetosãofaciais 83 236 Fote: A Case-cotrol study of the Effectiveess of bicycle safety helmets i prevetig facial ijury, de Thompso, Thompso, Rivara e Wolf, America Joural of Public Health, vo. 80, o. 12. 9) Um estudo feito para determiar a taxa de fumates etre pessoas de diferetes grupos etários origiou os dados amostrais aleatórios resumidos a tabela a seguir. Com o ível de 0,05 de sigificâcia, teste a afirmação de que o fumo é idepedete do grupo etário. Com base esses dados, tem setido dirigir a propagada de cigarros a grupos etários específicos? Hábito de fumar 20-24 aos 25-34 aos 35-44 aos 45-64 aos Fumate 18 15 17 15 Não fumate 32 35 33 35 TOTAL 50 50 50 50 Fote: Baseado em dados do Cetro Nacioal de Estatísticas em Saúde (E.U.A) 26