PROCESSOS DE AMOSTRAGEM 3 3. CONCEITOS BÁSICOS 3.1 População e amostra População (N) é o conjunto de todos os elementos relativos a um determinado fenômeno que possuem pelo menos uma característica em comum. A população é o conjunto universo. Pode variar quanto à sua origem (conjunto de pessoas, de objetos, de acontecimentos, etc.), à sua natureza (existente ou real ou, hipotética ou não totalmente inexistente) Pode ser defina como: Finita: Apresenta um número limitado de observações, que é passível de contagem. Infinita: Apresenta um número ilimitado de observações que é impossível de contar e geralmente esta associada a processos. A consideração da população como finita ou infinita ira depende do número de processos operacionais envolvidos na obtenção dos dados amostrais e este dependerá do tamanho da amostra. Se a frequência relativa entre amostra e população for inferior 5% ela é considerada infinita, se a frequência relativa for superior a 5% ela é considerada finita. Prof. M. Sc Aquino 21
Amostra (n) corresponde a um subconjunto finito da população, devendo ser selecionada seguindo critérios que a façam representativa segundo as características da população. Para exemplificar, tomado a figura exposta no início deste item como sendo o conjunto de distribuição e concentração de habitação de um determinado estado, poderia ser representativa da população a amostra 2? Qual seria o melhor grupo de amostragem a ser utilizado? Em resposta, a amostra 2 se observada mostra um grupo extremamente concentrado em comparação aos demais grupos de trabalho, ficando como melhor grupo de amostragem a ser definido entre 1 e o 4. 3.2 Censo e amostragem Denomina-se censo uma coleta exaustiva de informações das "N" unidades populacionais e a amostragem é o processo de retirada de informações dos "n" elementos amostragem. Por exemplo, retornando a figura do universo N de pessoas, se for realizado um censo para definir o número de pessoas com idade entre 10 e 20 anos, deverão ser questionadas a cada uma delas dentro de todo o universo definido. Para realizar uma amostragem das pessoas que possuem idade entre 10 e 20 anos que represente o universo, basta amostra uma parte da população que melhor represente o universo. 3.3 Processos de dimensionamento da amostragem é uma técnica onde uma fração da amostra que garanta o acaso na escolha, isto é, sem dar tendência a escolha, é aplicada de forma a extrair uma parte da amostra a ser analisada. Sendo a amostragem uma parte da amostra não será necessário avaliar toda a amostra, entretanto é de bom tom para garantir o resultado da avaliação da amostra que seja realizada mais de uma amostragem. Em geral a amostragem em triplicata, ou seja, um conjunto de três amostragens da amostra garante um bom resultado. Prof. M. Sc Aquino 22
A amostragem de informações pode ser tomada sobre dois aspectos diferentes, amostragem por relação, onde na pesquisa o indivíduo é exposto a um fator o impacto da exposição é avaliado, como por exemplo, perguntar se em relação a um jornal o indivíduo gosta ou não. Outro método é a amostragem por exposição indireta ou não relacionada, como por exemplo, expor os indivíduos a vários produtos diferenciados e questionando qual mais agrada. Neste caso avalia-se o impacto desta exposição antes e depois. No processo de amostragem, se a população é homogênea, é possível utilizar uma fração desta população cujas características refletem a característica ao qual se deseja estudar em relação à população. O tamanho da amostra pode ser dimensionado de forma a conduzir a resultados satisfatórios para a inferência que se deseja realizar. Algumas formas são apresentadas nesta seção. Para isto é necessário avaliar alguns pontos relevantes: Avaliar o instrumento de coleta de dados (questionários, métodos etc.) julgando as variáveis mais importantes da coleta, ou se importância desta é ou o grupo de variáveis mais significativas Analisar se é ordinal, intervalar ou nominal Verificar se a população é finita ou infinita Definida a amostra, o processo de amostragem pode seguir dois processos diferenciados, o não probabilístico e o probabilístico. O caso não probabilístico envolve processos fracionários ou não aleatórios na escolha, neste método o resultado pode ser tendênciado. O probabilístico assegura que os indivíduos sejam escolhidos sem interferência do avaliador, assegurando assim a não tendenciosidade da amostragem. Neste caso é assegurada a boa inferência estatística sobre o resultado final. 3.3.1 acidental, casual, aleatória ou conveniência Aplicável a estudos de cunho exploratório, onde é desejado testar o acaso. Neste caso é retirada de forma aleatória ou acidental uma determinada parcela do que se deseja analisar ou, o tamanho desta amostra é definido por pura Prof. M. Sc Aquino 23
conveniência. Neste processo a retirada de informações é feita a partir de um sorteio aleatório da amostra coletada, escolhendo um k número entre toda a amostra coletada. Sua principal aplicação é na avaliação de produtos em série, teste de qualidade de produtos destinado ao mercado entre outros onde a regularidade da amostra não importa e sim o acaso como é o caso do produto que será comprado. Exemplo 1: Pesquisa da estatura dos alunos de uma sala de aula. Sendo a população total de 50 alunos, o que representa uma amostra de 10% de entrevistados em relação a população? Solução: Fazendo 10% dobre a população: 50 0,10= 5 O valor correspondente ao tamanho da amostra será de 5 alunos e dentre estes a amostragem é baseada no sorteio 1 entre os 5 alunos. O aluno sorteado será a amostragem. 3.3.2 estratificada, intencional ou sistemática É escolhido para a pesquisa grupos específico cujas características a serem avaliadas são o objetivo que se deseja atingir ou analisar. Neste caso as perguntas são direcionadas ao que se deseja e o tamanho da amostra é definido conforme o desejo do pesquisador. É indicada para pesquisa de produtos específicos, como carros, medicamentos etc. Este processo pressupõe que exista uma organização prévia a partir da amostra já organizada dispensando sistemas de referência, pois a escolha é feita a partir de um padrão pré-estabelecido. Exemplo 2: A amostragem feita a partir da ordem de chamada de pauta, considerando grupos de 5 alunos onde o aluno de número mediano será o aluno amostral: Grupo de alunos por chamada Aluno médio Altura 1-5 3 1,56 6-10 8 1,66 11-15 13 1,58 15-20 18 1,62 Total / Média 4 alunos 1,60 A amostragem mostra que a faixa de estatura da sala de aula está entre 1,56m a 1,66m com uma média de altura de 1,60m. Prof. M. Sc Aquino 24
3.3.4 proporcional, estratificada ou quotificada Consiste em amostrar segundo uma subdivisão da população, ou seja, sub-população, também denominada estratos. Pode ser considerada similar ao item anterior, entretanto, este item se difere por definir de forma intencional uma determinada proporção ou quota da amostra a ser avaliado. Exemplo 3: Considerando uma população homogênea de 100 indivíduos, quantos deverão ser analisados se for retirada uma amostra de 12%? Solução, aplicando a porcentagem sobre a população, tem-se que: amostragem= 100 * 0,12= 12 indivíduos a serem avaliados. Exemplo 4: Pesquisa da estatura dos alunos de uma sala de aula separados por sexo: Sexo População retirada M 15 10% F 35 10% Total 50 20% A separação da população é feita em estratos dividindo a população por sexo feminino ou masculino. Cada sub-população é um extrato. 3.3.5 Não proporcional Aplicável quando a analise a ser realizada é aplicada a populações de tamanhos diferentes, neste caso, deve haver um fator de ponderação que estabeleça a proporcionalidade entre as populações tornando as assim proporcionalmente equivalentes. Neste caso o fator de ponderação é aplicado segundo a expressão linear: = f Amostra Onde f é o fator de ponderação que representa a fração da amostra percentual a qual a amostragem percentual deve ter. Prof. M. Sc Aquino 25
Exemplo 5: Duas empresas, A e B, representam fatias de participação no mercado como sendo de 60% e 40% respectivamente. Considerando que uma pesquisa possui 400 entrevistados e deseja-se dividir a amostra igualmente para ambas, Pergunta-se: a) Se ambas tivessem a mesma participação, Quantos indivíduos devem ser direcionados a cada empresa de forma que a população destinada seja a metade? Solução: Só há uma forma, 50% para A 50% para B%, logo 200individuos para A e 200indivíduos para B. b) Considerando que cada uma tenha participação diferente no mercado, qual o fator de ponderação para cada empresa e, quantos indivíduos devem ser entrevistados para que se tenha a mesma fração significativa: Solução: aplicando a expressão para o fator de ponderação, este é 60% 40% determinado por: f A = = 1, 2 e f B = = 0, 8 50% 50% Logo, A = 200 1,2 = 240 e B = 200 0,8= 160 240 indivíduos para A e 160 para B, 240+160=400 indivíduos. 3.3.6 Aleatória simples, estratificada e conglomerado A amostragem aleatória simples é aplicada a população homogênea, considerando que os indivíduos analisados na amostragem foram selecionados puramente ao acaso ou por sorteio. A amostragem estratificada por sua vez, é aplicada a população heterogênea onde neste caso o sorteio é feito somente em indivíduos do mesmo estrato. Quando as características não são suficientes para definir se a população é ou não homogênea, pode aplicar o conglomerado. Nesta técnica, os indivíduos são selecionados por blocos de amostragem que são estudados separados para que seja obtida uma característica comum para a população. 3.4 Dados e variáveis É definido como dado qualquer característica que possa ser observada ou medida de alguma maneira. Esta informação será a matéria prima da avaliação estatística. Serão denominados pelo termo observáveis. Prof. M. Sc Aquino 26
As características dos dados são: Centro: um valor representativo ou médio, que indica onde está localizado o meio do conjunto de dados Variação: medida de quanto os valores dos dados varia entre eles Distribuição: a natureza ou forma de distribuição dos dados Tempo: características dos dados que mudam com o tempo Uma variável é tudo aquilo que se deseja observar para se tirar algum tipo de conclusão. Os símbolos utilizados para representar estatisticamente as variáveis são as letras maiúsculas do alfabeto, tais como X, Y, Z,..., que podem assumir qualquer valor de um conjunto de dados. As variáveis podem ser classificadas dos seguintes modos: Qualitativas (ou atributos ou categóricos): São características que não podem ser medidas, ou seja, são não numéricas. o Nominal: Utilizados nomes, rótulos ou símbolos para representar determinados tipos de dados, mostrando, assim, a qual grupo ou categoria eles pertencem como, por exemplo, a cor da flor, que pode ser rosa, branca ou vermelha. o Ordinal ou por postos: quando uma classificação for dividida em categorias ordenadas em graus convencionados, havendo uma relação entre as categorias do tipo maior do que, menor do que, igual a, os dados por postos consistem de valores relativos atribuídos para denotar a ordem de primeiro, segundo, terceiro e, assim, sucessivamente. Um exemplo que pode ser dado: A resistência a inseto, que pode ser suscetível, parcialmente resistente e resistente. Quantitativas: São características que podem ser contadas ou medidas, sendo classificadas em discretas e contínuas. o Discretas: são aquelas variáveis que podem assumir somente valores inteiros num conjunto de valores. É gerada pelo processo de contagem. Por exemplo: O número de folhas por planta; número de carrapatos por animal; etc. Prof. M. Sc Aquino 27
o Contínuas: são aquelas variáveis que podem assumir um valor dentro de um intervalo de valores. É gerada pelo processo de medição ou mensuração. Por exemplo: O volume de água em um reservatório; peso de raiz; diâmetro do caule; produção; produtividade; etc. 3.5 Parâmetros, estimadores e estimativa Parâmetro é uma medida numérica que descreve alguma característica da população. É o resumo da variável observada na população. Por exemplo, média, variância e desvio padrão. Cada parâmetro é representado por um símbolo ou letra. No exemplo tem-se que para a média, a variância e o desvio padrão as letras gregas µ (mi),σ 2 (sigma ao quadrado) e σ (sigma). Não é possível fazer inferências baseada em parâmetro, uma vez que toda a população foi investigada. Estimador (também chamado de Estatística) é uma medida numérica que descreve alguma característica de uma amostra. É obtido a partir do resumo da variável observada na amostra. Neste caso, é possível utilizarmos as teorias de inferências para que, com base na amostra, possamos obter conclusões sobre a população. Cada estimador também é representado por um símbolo ou letra conforme representado na tabela abaixo: Parâmetro (valores reais) População Estimador (valores estimados) Amostra Média µ X Variância 2 2 S σ Desvio padrão σ S Proporção - p Estimativa é o valor numérico assumido pelo estimador, isto é, valor aproximado do parâmetro, calculado com base na amostra. Prof. M. Sc Aquino 28
3.6 Dados Brutos e ROL Núcleo das Ciências Biológicas e da Saúde É dito dados brutos o conjunto dos dados numéricos obtidos após a crítica dos valores coletados. Criticar os valore significa, por exemplo, excluir valores que sejam tendenciosos ou que de alguma forma estejam em desacordo com a representatividade da população. No intuito de estabelecer uma organização entre os dados coletados é feito o ROL dos dados. Esta é uma forma de organizar os dados em forma crescente ou decrescente. Em geral é utilizado o ROL em forma crescente. O ROL facilita a visualização dos dados e será necessário em várias etapas do estudo estatístico. Exemplo 3: Foram coletados dados referentes à idade de uma determinada população de 100 pessoas, registrados a ermo conforme o conjunto abaixo; {30, 35, 29, 29, 40, 33, 28, 28, 90, 34, 28, 37, 30, 33, 28, 28, 39, 12} a) organize os dados em forma de ROL b) a partir da organização elimine as idades extremas na organização Solução: a) organizando os dados em forma sequencial (ROL) tem-se: {12, 30, 35, 29, 29, 40, 33, 28, 28, 34, 28, 37, 30, 33, 28, 28, 39, 90} b) Observado a amostra coletada, é pretendido manter apenas as idades em uma faixa aproximada de idade. Observa-se então que as idades de 12 e 90 anos destoam da população avaliada e serão considerados não representativos podendo ser excluídos. Logo, a amostra criticada que melhor representa a faixa etária da população avaliada fica definida como: {30, 35, 29, 29, 40, 33, 28, 28, 34, 28, 37, 30, 33, 28, 28, 39} Prof. M. Sc Aquino 29
APENDICE A - Exercícios resolvidos 1) Considere os dados obtidos sobra altura de uma população de 100 indivíduos: 182, 182, 183, 184, 185, 186, 187, 188, 190, 190, 161, 162, 163, 163, 163, 164, 165, 165, 165, 166, 173, 173, 174, 174, 174, 175, 175, 175, 175, 176, 169, 169, 169, 169, 169, 170, 170, 170, 170, 170, 166, 166, 166, 167, 167, 167, 167, 167, 168, 168, 170, 170, 171, 171, 171, 171, 172, 172, 172, 173, 176, 176, 176, 177, 177, 177, 177, 178, 178, 178, 168, 168, 168, 168, 168, 168, 168, 168, 169, 169, 151, 152, 154, 155, 158, 159, 159, 160, 161, 161, 179, 179, 180, 180, 180, 180, 181, 181, 181, 182 Organize os dados acima em forma de ROL e considerando apenas a faixa de valore entre 170 e 179 como uma amostra, qual o percentual em relação a população? Solução: A população, como dita no problema é de 100 indivíduos logo, n=100 Organizando em forma de ROL: 151,152,154,155,158,159,159,160,161,161, 161,162,163,163,163,164,165,165,165,166, 166,166,166,167,167,167,167,167,168,168, 168,168,168,168,168,168,168,168,169,169, 169,169,169,169,169,170,170,170,170,170,170,170,171,171,171,171,172,172,172,173, 173,173,174,174,174,175,175,175,175,176,176,176,176,177,177,177,177,178,178,178, 179,179,180,180,180,180,181,181,181,182,182,182,183,184,185,186,187,188,190,190 Selecionando apenas a faixa de dados solicitada, temos 37 indivíduos. O percentual relativo de 37 para 100 indivíduos é de 37%. 2) Em um mercado de telefones celulares, considerando uma fatia de mercado meramente ilustrativa, obtiveram-se os resultados conforme descritos a seguir: Marcas Participação no Elementos da Pesos Entrevistados mercado Amostra % Nokia 60% 50 25% Ericson 20% 50 25% Gradiente 15% 50 25% Philips 5% 50 25% Total 100% 200 100% Se for desejado obter pesos para cada fração acima em relação a todo o mercado, quais serão os valores obtidos para os pesos e quantos indivíduos deverão ser entrevistados para cada operadora de forma que a amostra seja igualitária? Solução: Sendo que: = f Amostra f = Amostra A amostragem deve corresponder a participação no mercado logo, os pesos, que são os fatores de ponderação devem ser: 60% 20% 15% 5% f NOKIA = = 2,4 ; f ERIKSON = = 0, 8; f GRADIENTE = = 0, 6 ; f PHILIPS = = 0, 2 25% 25% 25% 25% Com os pesos determinados, o número de entrevistados é obtido aplicando diretamente o peso sobre a fração de elementos da amostra: = 2,4 50= 120 NOKIA ERIKSON GRADIENTE PHILIPS = 0,8 50= 40 = 0,6 50= 30 = 0,2 50= 10 TOTAL= 120+ 40+ 30+ 10= 200 Que correspondem aos indivíduos entrevistados em relação a participação no mercado de cada operadora. Somadas as quantidades temos exatamente 200 indivíduos que corresponde ao total de entrevistados. Prof. M. Sc Aquino 30