Parte II - Amostragem

Universidade Estadual de Santa Cruz UESC Departamento de Ciências Exatas e Tecnológicas Professora: Camila M. L. Nagamine Curso: Licenciatura Biologia- EaD Disciplina: Bioestatística Parte II - Amostragem 1 Introdução Até o presente momento, nós aprendemos a descrever uma amostra através das medidas de tendência central e de dispersão, que são parte da chamada estatística descritiva. Com a utilização da inferência estatística, desejamos inferir indutivamente propriedades de uma população (ou universo) com base nos resultados obtidos com a amostra (ou subconjunto do inverso ) o que constitui uma ferramenta muito importante no desenvolvimento de uma disciplina científica. Toda a inferência na Estatística está baseada na teoria das probabilidades, que nós acabamos de ver. Frequentemente, devemos tomar decisões sobre populações com base em informações obtidas em amostras das mesmas. Tais decisões chamam-se decisões estatísticas. Por exemplo, com base em resultados amostrais, podemos querer decidir se determinada droga é eficiente na cura de determinada doença, se um processo educacional é melhor do que outro, se um determinado número de caixas de um banco é suficiente para um atendimento rápido ao cliente, etc. Para a tomada de tais decisões utilizaremos a inferência estatística. Nesta etapa do nosso curso, iniciaremos a discussão falando sobre aspectos fundamentais da amostragem, após a qual introduziremos as noções sobre distribuição amostral da média e da proporção, intervalos de confiança e testes de hipóteses para médias e proporções, um método para avaliação de relações entre variáveis qualitativas, que é o teste qui-quadrado de independência, finalizando com dois testes não-paramétricos. 2 Amostragem Amostragem é o ato de obter uma amostra de uma população, podendo-se definir população como um conjunto de elementos, cada um deles apresentando uma ou mais características em comum. Amostra é, simplesmente, uma parte da população. O levantamento por amostragem, quando comparado com o levantamento total, apresenta certas vantagens: custo menor; resultado em menor tempo; objetivos mais amplos; dados mais fidedignos.

Há situações em que a amostragem se impõe. Assim, pode-se ter o caso de a população de estudo ser muito grande, sendo impraticável o levantamento total. Em casos em que o processo de investigação das características de cada elemento for destrutivo (teste de resistência de materiais, por exemplo), só tem sentido trabalhar-se com amostras. Há também os problemas de ordem ética: novas drogas, vacinas, técnicas cirúrgicas devem ser testadas inicialmente em amostras, antes de seu uso amplo na população. 2.1 Etapas de um levantamento por amostragem Quer a amostragem seja feita dentro de um laboratório (por exemplo, para selecionar ratos que serão usados em um experimento sobre agentes cancerígenos), quer a amostragem seja feita sobre a população geral (por exemplo, para obter informações sobre aspectos de fertilidade de mulheres moradoras em uma grande cidade, como São Paulo), existem etapas que devem ser seguidas, intimamente ligadas aos princípios de metodologia de pesquisa científica. Tais itens serão comentados com linguagem mais dirigida a levantamentos objetivando estimar parâmetros de populações reais de seres humanos. Tais comentários, todavia, são aplicáveis a qualquer situação em que se requeira amostragem, bastando para isso pequenos ajustes, basicamente de forma e não de conteúdo. As principais etapas de um levantamento por amostragem são: 1. Explicitação dos objetivos com bastante clareza, a fim de evitar dúvidas posteriores ou mesmo esquecimentos, devendo ficar bem definida qual a unidade elementar (elemento) ou unidade de análise a ser trabalhada. 2. Definição da população a ser amostrada. (a) Em certas situações isto pode ser relativamente fácil, como no caso de se desejar tomar uma amostra de uma população de crianças que estejam matriculadas e freqüentando certo grupo escolar. Terse- ia uma situação mais complexa para se estudar gestantes que procuram centros de saúde para fazer pré-natal. 3. Escolha das variáveis a serem observadas em cada unidade de análise. (a) Deve ser verificado se todos os dados que vão ser levantados são relevantes para a pesquisa e se nenhum dado relevante foi omitido. Existe uma tendência, particularmente ao se trabalhar com populações humanas, usando questionário, de se fazer muitas perguntas, um grande número das quais nunca são analisadas. Questionários longos, em geral, levam a diminuir a qualidade da resposta. 4. Especificação do grau de precisão desejado.os resultados de levantamento por amostragem são sujeitos a incerteza, devido a erros de medida e ao fato de apenas parte da população ser examinada. O grau de incerteza pode ser diminuído tomando-se amostras maiores e empregando-se melhores técnicas ou aparelhos de medida. 5. Escolha dos instrumentos de medida e da forma de abordagem. (a) Em caso de inquéritos sobre nutrição, por exemplo, poderá haver escolha entre observação única ou observação durante sete dias; em estudos antropométricos será decidido o tipo de balança, calibrador e outros aparelhos a serem usados. Questionários podem ser preenchidos pelo próprio indivíduo ou serem aplicados a cada indivíduo por um entrevistador treinado. 6. Escolha da unidade amostral, que é definida como a menor parte distinta e identificável da população, para fins de enumeração e sorteio da amostra.

(a) Uma unidade amostral pode ser o próprio elemento de estudo (criança, cobaia, cidade, trecho da estrada) ou um conjunto de elementos (classe de escola, ninhada, Estado, conjunto de trechos continuados de estrada). As unidades amostrais devem cobrir toda a população e não podem apresentar transvariação, ou seja, um elemento de estudo não pode pertencer ao mesmo tempo a mais de uma unidade amostral. À relação, lista ou mapa contendo todas as unidades amostrais dá-se o nome de sistema de referência ou fundamentos da pesquisa. 7. Execução de prova experimental, prova-piloto ou pré-teste. (a) Nesta etapa é feito um verdadeiro ensaio do trabalho a ser desenvolvido, sendo testados os instrumentos de medida, questionário, pessoal de campo, a sistemática proposta, a reação da população. Orienta os reajustes necessários e pode dar informações valiosas sobre possível duração e custo da pesquisa e indicações sobre a variabilidade do fenômeno pesquisado, o que permite calcular melhor o tamanho da amostra. 8. Seleção da amostra após decidido qual deve ser o respectivo tamanho. Esta seleção deve ser feita, de preferência, por meio de sorteio do tipo lotérico. 2.2 Tipos de Amostragem Probabilística A amostragem é probabilística quando cada unidade amostral na população tem uma probabilidade conhecida e diferente de zero de pertencer à amostra. De outra forma, a amostragem é dita não-probabilística. Admita-se, por exemplo, que seja definida uma população de dez grupos escolares, cada qual com certo número de alunos, desejando-se uma amostra de tamanho igual a cinco grupos escolares. Se o pesquisador decidiu simplesmente escolher os grupos escolares A, B, C, I, J, ter-se-ia uma amostragem não-probabilística. É possível, no entanto (e mesmo desejável), que o investigador obtenha o número de alunos de cada grupo escolar e faça um sorteio para obtenção das cinco escolas, cada escola tendo uma probabilidade de ser sorteada proporcionalmente ao seu número de alunos; será uma amostragem probabilística. A amostragem não-probabilística pode prejudicar sensivelmente a validade externa de um estudo, pois muitos fatores podem influir na escolha de uma unidade amostral para pertencer à amostra, prejudicando sua representatividade em relação à população. Mesmo assim, existem situações em que ela é usada, havendo então interesse em se conhecer algumas formas de amostragem não-probabilística: por voluntários, que é bastante usada em ensaios clínicos para teste de novos medicamentos; intencional, quando as unidades que compõe a amostra são escolhidas pelo pesquisador; é usada na verificação de poluição de praias; por acesso mais fácil, em que as unidades são escolhidas por estarem em melhores condições de acessibilidade. Veja-se, por exemplo, o caso em que se defina para estudo todo o conjunto de habitantes de uma área rural, tendo o domicílio como unidade amostral; se o entrevistador escolheu os dez primeiros domicílios do seu caminho, teremos este tipo de amostragem, tendo sido desconsideradas as outras unidades amostrais que também pertencem à população. Os principais métodos de amostragem probabilísticas são:

2.2.1 Amostragem Casual Simples Também conhecida por amostragem ocasional, acidental, casual, randômica, etc. A amostragem simples ao acaso destaca-se por ser um processo de seleção bastante fácil e muito usado. Neste processo, todos os elementos da população tem igual probabilidade de serem escolhidos, não só antes de ser iniciado, como também até completar-se o processo de coleta. Eis o procedimento para seu uso: 1. Devemos numerar todos os elementos da população. Se, por exemplo, nossa população tem 5.000elementos, devemos numerá-los de 0000 a 4999 ou, como acontece geralmente, usamos um número que já identifica o elemento. 2. Devemos efetuar sucessivos sorteios com reposição (ou não) até completar o tamanho da amostra (n). Para realizar este sorteio, podemos usar as tábuas de números aleatórios ou ainda preferencialmente, o uso de programas computacionais próprios para estes fins. Se, durante o sorteio, unidades amostrais já sorteadas poderem ser novamente sorteadas, sendo representadas uma, duas ou mais vezes na amostra, ter-se-á a chamada amostragem casual simples com reposição. Em geral, dar-se preferência ao tipo de amostragem casual simples sem reposição, principalmente quando se trata de populações com reduzido número de unidades amostrais. 2.2.2 Amostragem Sistemática: Trata-se de uma variação da amostragem aleatória simples, conveniente quando a população esta ordenada segundo algum critério, como por exemplo, os prontuários médicos de um hospital, uma linha de produção, os nomes em uma lista telefônica, etc. Consideremos uma população, com elementos ordenados, de tamanho N e dela tiramos uma amostra de tamanho n. Então, calcula-se o intervalo de amostragem N/n ou o inteiro mais próximo que chamaremos de a. Sorteia-se um número entre 1 e a e seja x esse número. Formamos, assim, a amostra dos elementos correspondentes aos números: x; (x + a); (x + 2a);...; [x + (n 1)a]. Exemplo 2.1. Seja N = 500 e 50. Então, a = 500 50 = 10. Sorteia-se um número de 1 a 10. Seja 3 (x = 3) o número sorteado. Logo, os elementos numerados por serão os componentes da amostra. 3; 13; 23; 33;..., 493. Exemplo 2.2. Para uma população de tamanho N = 32, numerada sequencialmente de 1 a 32, e amostra de tamanho 8, tem-se a = 4. O início casual x deve ser sorteado entre 1, 2, 3 e 4; admita-se que tenha sido x = 3. A amostra fica constituída das unidades amostrais de número (ou ordem): 3; 7; 11; 15; 19; 23; 27; 31. Pode ser visto que o resultado é obtido somando-se sucessivamente o intervalo de amostragem a = 4 a cada número obtido imediatamente antes.

2.2.3 Amostragem estratificada: No caso de população heterogênea, na qual podemos distinguir subpopulações mais ou menos homogêneas denominadas estratos, podemos usar a amostragem estratificada. Estratificar uma população é dividi-la em L subpopulações denominadas estratos, tais que n 1 + n 2 +... + n L = n, onde os estratos são mutuamente exclusivos. Após a determinação dos estratos, seleciona-se uma amostra aleatória de cada subpopulação. Muitas vezes uma população é composta de subpopulações (ou estratos) bem definidos, havendo maior homogeneidade entre as unidades amostrais dentro de cada estrato do que entre as unidades amostrais de estratos diferentes. Sexo, idade, condição sócio-econômica, são exemplos típicos. Nestas condições, tais estratos devem ser levados em consideração e o sorteio da amostra deve ser feito em cada um deles independentemente; daí o nome de amostragem estratificada. Um caso muito importante da amostragem estratificada é aquele em que o pesquisador deseja que as subpopulações sejam representadas na amostra com a mesma proporcionalidade com que compõe a população total. Trata-se da situação denominada amostragem casual simples estratificada com partilha proporcional ou simplesmente amostragem estratificada proporcional. A principal vantagem oferecida por este método é a alta precisão que se pode alcançar na estimativa das amostras. O método consiste em dividir a população em grupos relativamente homogêneos e mutuamente exclusivos, chamados estratos, e em selecionar amostras aleatórias simples e independentes de cada estrato. Em seguida, escolher uma amostra aleatória simples separada em cada estrato e combinar essas amostras para formar a amostra estratificada. Por exemplo, suponha-se que se queira fazer um estudo nas indústrias de uma cidade. Sabese que as indústrias foram classificadas em grandes, médias e pequenas. Assim, é conveniente estratificar as indústrias segundo o porte das mesmas, isto é: 1 o grupo: estrato 1- Grandes Indústrias 2 o grupo: estrato 2- Médias Indústrias 3 o grupo: estrato 3- Pequenas Indústrias A seguir, retira-se uma amostra aleatória simples de cada estrato e compõe a amostra estratificada. A estratificação de uma população faz sentido quando é possível identificar sub-populações que variam muito entre si no que diz respeito à variável em estudo, mas que variam pouco dentro de cada estrato. Nestas condições, uma amostra estratificada pode fornecer resultados mais precisos do que uma amostra simples extraída do conjunto da população. 2.2.4 Amostragem por Conglomerados Mais simples seria chamá-la de amostragem por grupos. O termo conglomerados (cluster) designa grupos já existentes na população, e já cadastrados. Se tivermos interessados por exemplo, no salário médio dos operários da indústria automobilística, podemos selecionar uma montadora e, dentro dela, estudar os salários. Há uma mudança fundamental na unidade de sorteio. Passamos de elemento para grupo. Consideramos conglomerados os grupos de elementos com as seguintes características: dentro de cada conglomerado há uma grande heterogeneidade, ou então uma grande variabilidade; entre os conglomerados há uma uma pequena variabilidade, ou então uma grande homogeneidade.

2.3 Determinação do Tamanho da amostra O tamanho da amostra e a maneira de selecionar uma amostra precisa de uma população são duas das principais dificuldades encontradas nos trabalhos de levantamento amostral. A obtenção de uma boa amostra depende basicamente do número de observações amostradas e do método com que essas observações foram selecionadas. A determinação do tamanho de uma amostra é problema de grande importância, porque: Amostras desnecessariamente grandes acarretam desperdício de tempo e de dinheiro; Amostras excessivamente pequenas podem levar a resultados não confiáveis. O tamanho da amostra é fornecido pela relação entre o nível de confiança com que o pesquisador deseja trabalhar, a precisão que requer em sua estimativa e o desvio padrão da população. O tamanho da amostra para estimar a média de uma população pode ser obtida de duas maneiras: 1. População Infinita: ( ) 2 Z σ E tamanho da amostra. Z = valor crítico que corresponde ao nível de confiança desejado da curva normal padrão. σ= desvio-padrão populacional da variável estudada. E = margem de erro ou erro máximo de estimativa. Identifica a diferença máxima entre a média amostral( X) e a verdadeira média populacional (µ), isto é, µ x < E. 2. População Finita: N σ 2 Z 2 (N 1)E 2 + σ 2 (Z 2 ) N = tamanho da população. tamanho da amostra. Z = valor crítico que corresponde ao nível de confiança desejado da curva normal padrão. σ= desvio-padrão populacional da variável estudada. E = margem de erro ou erro máximo de estimativa. Identifica a diferença máxima entre a média amostral( X) e a verdadeira média populacional (µ), isto é, µ x < E. Quando se trabalha com proporções, o cálculo do tamanho da amostra é dado pelas seguintes expressões: 1. População Infinita: Z2ˆpˆq E 2 tamanho da amostra ˆp= estimativa da verdadeira proporção populacional de indivíduos que pertence a categoria que estamos interessados em estudar. ˆq= estimativa da proporção populacional de indivíduos que NÃO pertence à categoria que estamos interessados em estudar (ˆq = 1 ˆp). E = Margem de erro ou erro máximo de estimativa. Identifica a diferença máxima entre a proporção amostral (ˆp)e a verdadeira proporção populacional (p) isto é, p ˆp < E.

2. População Finita: N ˆpˆq Z 2 (N 1)E 2 + ˆpˆq(Z 2 ) N = tamanho da população. tamanho da amostra ˆp= estimativa da verdadeira proporção populacional de indivíduos que pertence a categoria que estamos interessados em estudar. ˆq= estimativa da proporção populacional de indivíduos que NÃO pertence à categoria que estamos interessados em estudar (ˆq = 1 ˆp). E = Margem de erro ou erro máximo de estimativa. Identifica a diferença máxima entre a proporção amostral (ˆp)e a verdadeira proporção populacional (p) isto é, p ˆp < E. Se ˆp e ˆq não forem conhecidos determinamos que se substituam os valores ˆp e ˆq por 0, 5, obtendo a seguinte estimativa: [Z2 ]0, 25 E 2 Para se determinar o tamanho da amostra quando se trabalha com mais de uma variável, deve-se analisar o questionário, e escolher a variável mais importante para o estudo. Se possível, escolha mais de uma variável, calcule o tamanho para cada variável e opte pelo maior n obtido. Eis alguns exemplos: Exemplo 2.3. Suponha que a variável escolhida num estudo seja o peso de certa peça e que a população é infinita. Pelas especificações do produto, o desvio padrão é de 10kg. Logo, admitindo-se uma nível de confiança de 95, 5% e um erro amostral de 1, 5kg, tem-se: σ = 10; E = 1, 5; (1 α)% = 95, 5% Z = 2 ( ) 2 ( ) 2 Z σ 2 10 = = 178 E 1, 5 Assim, uma amostra aleatória simples de 178 peças, há um erro máximo de 1, 5kg para construir um IC para o peso médio, com nível de confiança de 95, 5% Exemplo 2.4. Admita os mesmos dados do exemplo anterior e que a população seja finita de 600 peças. Logo: N σ 2 Z 2 (N 1)E 2 + σ 2 (Z 2 ) = 600 10 2 2 2 (600 1) 1, 5 2 + 10 2 2 2 = 138