1 NOÇÕES DE AMOSTRAGEM 1.1 Introdução Para conhecer algumas características da população de interesse, ao invés de observar todos os elementos desta população, é muito comum observar apenas uma amostra de seus elementos e, usar os resultados amostrais para descrever a população, de forma aproximada. Em geral, não temos tempo nem verba suficiente para observar todos os elementos da população. As vezes, é inconveniente examinar toda a população, como no estudo do tempo de vida de lâmpadas de uma certa marca; ao realizar o experimento, temos que observar o tempo em que a lâmpada fica acesa até se apagar, destruindo a unidade em observação. A amostragem afeta quase todos os aspectos da nossa vida diária. Por exemplo, decidimos se vamos comprar laranjas, ao experimentar um gomo oferecido pelo feirante. A fim de estarem melhor preparados para uma prova, os alunos conversam com alguns colegas que já fizeram a disciplina. Informações vindas de pesquisas amostrais determinam políticas públicas como, por exemplo, a promoção de programas sociais e estratégias de controle da economia. Situações como as que foram apresentadas são objeto da inferência estatística. Para entender o que está envolvido na inferência estatística, é necessário antes, conhecer os conceitos básicos de população e amostra. População é o conjunto de todos os elementos que temos interesse em investigar. O conceito de população em Estatística é bem mais amplo que em Demografia. Pode ser formada por pessoas ou por domicílios, peças de produção, cobaias, ou qualquer outro tipo de elemento que estamos querendo observar. A população pode existir de fato ou ser gerada pela repetição de experimentos. Pode ainda ter tamanhos diferentes, ser pequena, grande ou mesmo ser infinita. Notemos que a população é definida em função do nosso objetivo. Se há interesse em predizer o resultado de uma eleição presidencial, por exemplo, a população de estudo poderia ser todos os eleitores do país. Amostra é qualquer subconjunto da população. Quando uma amostra é selecionada da população, os resultados amostrais são usados para estimar os dados populacionais. Como exemplo, consideremos uma pesquisa para estimar a idade média para todos os funcionários de uma certa empresa, composta de 1000 funcionários. Para tanto, são selecionados 80 funcionários da empresa e anotam-se suas idades. Neste exemplo, a população é formada pelos N = 1000 funcionários da empresa e a amostra pelos n = 80 funcionários. A idade média entre os 80 funcionários pode ser usada para estimar a idade média entre todos os funcionários da empresa. 1
Há situações em que alguns elementos da população não são acessíveis. Suponha que em uma universidade, há interesse em verificar a satisfação dos alunos no curso que estão fazendo. Para tanto, podemos selecionar uma amostra de alunos a partir da lista de matrícula, porem nem todos os alunos matriculados estão freqüentando as aula. Os alunos que não estão assistindo as aulas, não podem ser entrevistados. Obtemos uma amostra que representa a opnião dos alunos que estão cursando a faculdade. Os alunos ausentes são inacessíveis, e podem estar mais insatisfeitos com o curso, fazendo com que a amostra tenda a superestimar o nível de satisfação dos alunos com relação ao curso. Uma forma de evitar qualquer tendenciosidade, devemos deixar claro que a população sendo estimada é a que é ascessível. Neste exemplo, estamos estimando o grau de satisfação dos alunos que estão presentes nas salas de aula. A inferência estatística proporciona meios para responder questões sobre a população, a partir de informações coletadas da amostra, com uma certa garantia de que as respostas sejam válidas. O objetivo de uma amostragem é produzir resultados que forneçam boas estimativas com o menor custo. Tão importante quanto analisar os dados corretamente é selecionar adequadamente a amostra. Para fazer uma amostragem deve-se, primeiramente, ter bem definidos os objetivos da pesquisa, para daí caracterizar a população a ser amostrada, bem como o que vai ser estimado, para atingir estes objetivos. Nesta etapa, também precisamos responder as seguintes perguntas: quanto e como vamos selecionar elementos da população; isto é, precisamos determinar o tamanho da amostra e a forma de seleção dos elementos da população. O tamanho de amostra necessário para obtermos uma boa estimativa, é determinado levando em consideração os princípios da inferência estatística. As fórmulas para o cálculo do tamanho da amostra são discutidos na Seção??. Outra parte importante na amostragem é decidir a maneira de selecionar os elementos da população. Dependendo da situação, existe uma técnica de amostragem (forma de seleção) mais adequada para extrair a amostra. Nas próximas seções apresentaremos as formas mais básicas e freqüentes de técnicas amostrais. As técnicas de amostragem podem ser classificados em dois grandes grupos: amostragem aleatória e amostragem não aleatória. A amostragem aleatória é também referida como amostragem probabilística, porque todos os elementos da população tem probabiliade conhecida de pertencer a amostra. Na amostragem não aleatória, os elementos da população são selecionados considerando outros critérios que não são probabilísticos, como seleção por conveniência. Desta forma não há como associar probabilidades ao processo de seleção. 2
1.2 Amostragem Aleatória A seleção da amostra é feita por alguma forma de sorteio, o que permite associar a cada uma das possíveis amostras, uma probabilidade conhecida de obter a amostra. A condição para o uso da amostragem aleatória é a possibilidade de listar as unidades de amostragem, ou seja, é necessário a existência de um cadastro com as unidades de amostragem. Sempre que possível, usar algum tipo de amostragem aleatória para garantir que a inferência estatística seja aplicada adequadamente. Os principais tipos de amostragem aleatória são: 1. Amostragem Aleatória Simples O modo mais fácil para selecionarmos uma amostra aleatória é por meio da amostragem aleatória simples. O conhecimento adquirido com esse procedimento servirá como base para outros tipos de amostragem, pois o seu procedimento pode ser aplicado em outros planos, em um estágio intermediário. Neste plano, seleciona-se cada unidade amostral com igual probabilidade, de tal forma que cada amostra tenha a mesma chance de ser selecionada. A amostragem aleatória simples pode ser feita com reposição (após selecionar um elemento, é recolocado na população; sendo que o mesmo elemento pode ser selecionado novamente), ou sem reposição (cada elemento só pode ser selecionado uma única vez, pois não é recolocado na população após ser selecionado). De forma geral, cada elemento da população deve ser enumerado. O sorteio de uma amostra de tamanho n de uma população de tamanho N, pode ser realizado por meio de algum dos procedimentos a seguir, sendo que n é menor do que N. (a) O processo mais rudimentar seria o de identificar e enumerar os elementos da população em N pedaços de papel, colocá-los em uma urna e retirar, ao acaso, n papéis; (b) enumerar os elementos da população e usando uma tabela de números aleatórios: i. escolher uma linha para iniciar a seleção; ii. selecionar os números, desprezando os valores fora da enumeração e os valores repetidos; iii. formar a amostra, com os elementos da população correspondentes aos números selecionados. (c) um processo mais sofisticado consiste em enumerar os elementos da população e gerar números aleatórios na calculadora ou em programas de computadores para selecionar os números. 3
Exemplo 1 Uma firma de contabilidade tem N = 50 clientes comerciantes. Seu proprietário pretende entrevistar uma amostra de 10 clientes para ver como melhorar os atendimentos. Escolha uma amostra aleatória simples de tamanho n = 10. Primeiro passo: atribuir a cada cliente um número entre 1 e 50. Segundo passo: recorrer à tabela de números aleatórios para selecionar aleatorimente 10 números de 1 a 50. Os clientes identificados pelos números selecionados vão compor a amostra. 2. Amostragem Sistemática Pode ser utilizada quando os elementos da população apresentam-se em seqüência e a retirada dos elementos da população é feita em intervalos sistemáticos. O processo é bem mais rápido que da amostragem aleatória simples. A idéia é selecionarmos aleatoriamente um único número, correspondente ao primeiro elemento a compor a amostra. Deixamos passar k elementos em seqüência, e o próximo da seqüência fará parte da amostra. Os intervalos ou saltos são feitos sistematicamente, até completar a amostra. Utiliza-se então, um intervalo de seleção entre os elementos da população, denotado por k. (a) enumerar os elementos da população; (b) calcular o intervalo de seleção k (se necessário, alterar o valor de n para que k seja inteiro); (c) sortear o ponto de partida (primeiro elemento da amostra), ou seja, selecionando um número entre 1 e k, usando, por exemplo, uma tabela de números aleatórios; (d) para selecionar os demais elementos da amostra, a cada k elementos, selecionar um elemento, até atingir n. Exemplo 2 Uma escola tem um arquivo com 5000 fichas de alunos e para selecionar uma amostra de 1000 alunos será selecionada, sistematicamente, uma ficha a cada 5. Somente o ponto de partida (primeiro elemento da amostra) é sorteado, dentre as 5 primeiras fichas do arquivo. Digamos que foi sorteado o número 2, então a amostra é formada pelas fichas 2, 7, 12, 17, 22,..., 4982, 4987, 4992, 4977 (N = 5000; n = 1000; k = 5). A aplicação da amostragem sistemática não apresenta problemas quando os elementos da população estão em uma seqüência aleatória, como, por exemplo, estimar o número médio de prescrições por médico, aplicando amostragem sistemática em um cadastro alfabético dos médicos. 4
Mesmo quando os elementos de uma população estão ordenados, de alguma forma, com relação a variável de estudo, não ocorrem problemas de estimação. É o que acontece quando é selecionada uma amostra sistemática de uma lista dos alunos ordenado por nota, para avaliar os professores segundo a opinião dos alunos. Problemas podem surgir quando a população é periódica, ou seja, quando os elementos da população têm variações cíclicas. Consideremos um estudo sobre o volume de vendas diário de uma cadeia de lojas de guloseimas. A população de vendas diárias é periódica porque há um ápice das vendas ocorre no final de semana. A efetividade da amostragem sistemática depende do valor escolhido para o intervalo de seleção. Se k = 7 poderíamos sub ou superestimar volume médio de vendas, dependendo do dia da semana selecionado para a amostra. Neste caso, o problema pode ser resolvido, mudando para k = 9, por exemplo. 3. Amostragem Aleatória Estratificada Deve ser usada quando a população é muito heterogênea em relação a variável de estudo, porém é possível dividir os elementos da população em estratos (grupos) mais homogêneos, por exemplo, por sexo, renda ou bairro. Os resultados são mais precisos se comparados com a amostragem aleatória simples. (a) dividir a população em estratos homogêneos; (b) selecionar uma amostra aleatória simples ou sistemática de cada estrato; (c) formar a amostra pela união das subamostras em cada estrato. Exemplo 3 População de alunos da UFPR: Para estimar a altura média dos alunos, dividir a população em 2 estratos: homens e mulheres e tirar uma amostra aleatória simples de cada estrato. Exemplo 4 Pesquisa de Opinião: Estimar a proporção de eleitores favoráveis ao aumento de impostos para melhorar o serviço de ambulância; Retirar uma amostra da população adulta residente na região, formada por dois centros urbanos (cidades A e B) e uma área rural. Cidade A tem hospital, cidade B não tem hospital e na área rural as opiniões são variadas; criar 3 estratos: cidade A, cidade B e área rural; tirar uma amostra aleatória simples de cada estrato. Exemplo 5 Estimar o ganho de peso de pacientes em dieta internados no hospital: Estratificar por sexo e idade para obter estimativas mais precisas (já que sexo e idade influenciam no ganho de peso). 5
Uma etapa importante da amostragem aleatória estratificada é alocação da amostra pelos estratos, ou seja, quantos elementos da amostra serão do estrato 1, quantos do estrato 2,..., até o último estrato. A alocação uniforme determina que cada estrato contribuirá com o mesmo número de elementos para a amostra. Outro tipo de alocação, a proporcional, leva em conta o tamanho dos estratos, assim um estrato maior contribuirá com mais elementos para amostra. [FALTA EXEMPLOS] 4. Amostragem por Conglomerados As técnicas amostrais vistas anteriormente podem ter um custo alto. Em muitas situações, podem ser impossíveis de serem implementados, pois para usar essas técnicas precisamos de um cadastro completo dos elementos da população. A amostragem por conglomerados pode ser usada quando há poucos recursos para observar as unidades amostrais, muitas vezes porque a população está espalhada em uma grande região. A região é dividida em áreas menores, formando os conglomerados. Devemos usar a amostragem por conglomerados quando o cadastro dos elementos pode ser mais facilmente obtido dos conglomerados, como escolas (fácil ascesso a lista de alunos) e cidades (fácil acesso a lista de bairros). Os resultados são menos precisos em relação a amostragem aleatória simples, mas há um menor custo devido a deslocamentos. (a) dividir a população em conglomerados; (b) selecionar alguns conglomerados por amostragem aleatória simples; (c) a amostra é formada por todos os elementos dos conglomerados sorteados em (b) ou a amostra é formada selecionando alguns elementos dos conglomerados sorteados em (b), por amostragem aleatória simples ou sistemática (amostragem por conglomerado em 2 estágios). Exemplo 6 Pesquisa sócio-econômica municipal: unidade amostral = domicílio e conglomerados = quarteirões da cidade; Exemplo 7 Pesquisa eleitoral para presidente: unidade amostral = eleitor e conglomerados = cidades. 1.3 Amostragem não aleatória Usada quando há dificuldade em obter uma listagem (cadastro) dos elementos da população. Os tipos de amostragem aleatória são: 6
(a) Amostragem por cotas É parecida com a Amostragem Aleatória Estratificada Proporcional: A população é dividida em grupos e seleciona-se uma cota de cada grupo, proporcional ao seu tamanho. A seleção não é aleatória. A falta de aleatoriedade é compensada, dividindo-se a população em vários grupos. Exemplo 8 Considere uma pesquisa eleitoral. A população é dividia por sexo, grupo etário (menos de 35 anos; maior ou igual a 35 anos) e renda (menos de 5 salários mínimos; maior ou igual a 5 salários mínimos). (b) Amostragem por julgamento São escolhidos os elementos mais típicos da população. Resultados não valem necessariamente para toda população. Exemplo 9 Estudo sobre a produção científica dos departamentos de uma universidade (mais ou menos 50 departamentos). Selecionar os que melhor representam a universidade. Resultados da pesquisa não necessariamente valem para todos os departamentos da universidade. (c) Amostragem por conveniência Os resultados não valem necessariamente para toda população. Exemplo 10 Decisões baseadas em entrevistas feitas em lojas de conveniencia podem não refletir a preferência de todos os consumidores que frequentam diferentes tipos de lojas. Uma amostra de voluntários pode ter resultados diferentes comparados com a população. Uma amostra de um único hospital pode representar bem todos os hospitais que tem características semelhantes ao hospital que foi amostrado. 7