DEPARTAMENTO DE GEOCIÊNCIAS GCN 7901 ANÁLISE ESTATÍSTICA EM GEOCIÊNCIAS PROFESSOR: Dr. ALBERTO FRANKE CONTATO: alberto.franke@ufsc.br F: 3721 8595 CAPÍTULO 3 POPULAÇÃO E AMOSTRA
As pesquisas de opinião induzem os eleitores? Por quê? Quais induzem? agosto/2014 Prof. Franke 2
População: CONCEITOS É o conjunto de elementos sobre os quais se desejam informações, ou seja, nosso universo de estudo. As populações podem ser finitas, como a população dos alunos matriculados na Geografia, ou infinitas, como a população dos resultados que podem ser obtidos quando se joga um dado sucessivamente. Parâmetro: Característica numérica da população. Normalmente é desconhecido! Amostra: É todo subconjunto de elementos retirado de uma população, para obter informações sobre essa população. As amostras são coletadas e estudadas para trazer informação sobre a população. Estatística: Característica numérica da amostra. Toda amostra permite calcular uma estatística. Distinção entre parâmetro e estatística? agosto/2014 Prof. Franke 3
Relação entre amostragem e inferência Fonte: ANDRIOTTI. Fundamentos de estatística e geoestatística. São Leopoldo, Unisinos, 2009. agosto/2014 Prof. Franke 4
Censo: CONCEITOS É o conjunto de dados que descrevem as características da população. É a coleta de dados sobre todos os elementos da população e recebe o nome de recenseamento. Variável: São as características que podem ser observadas (ou medidas) em cada elemento da população. Qualitativa: quando seus valores são expressos por atributos: sexo (masculino feminino), cor da pele (preta, parda, branca, amarela, vermelha), etc. Quantitativa: quando seus valores são expressos por números (peso, altura, ph, etc.) Variável contínua: quando puder assumir qualquer valor num intervalo. Variável discreta: quando só pode assumir valores pertencentes a um conjunto enumerável. Ex.: peso dos alunos (variável contínua), nº de alunos (variável discreta). Normalmente, as medições dão origem a variáveis contínuas e as contagens ou enumerações, a variáveis discretas. agosto/2014 Prof. Franke 5
Dados: CONCEITOS Pode ser considerado como uma informação necessária para auxiliar numa decisão Por que dados são necessários? Dados categorizados São os possíveis resultados de variáveis observadas em forma de categorias. Tabela 1 Distribuição de 300 pessoas classificadas segundo sexo (gênero) e tabagismo. Tabagismo Sexo Masculino Feminino Total Fumante 92 (46%) 38 (38%) 130 (43,3%) Não-fumante 108 (54%) 62 (62%) 170 (56,7%) Total 200 (100%) 100 (100%) 300 (100%) Fonte: Autor (2013) agosto/2014 Prof. Franke 6
CLASSIFICAÇÃO DOS DADOS Tipo de dados Quantitativos: quando os possíveis resultados são números de uma certa escala, dizemos que este é um dado quantitativo. Qualitativos: quando os possíveis resultados são atributos ou qualidades, dizemos que o dado é qualitativo. Figura 1 Classificação das variáveis e dos dados em termos do nível de mensuração. Adaptado de BARBETTA (2012, p. 30). agosto/2014 Prof. Franke 7
1. Amostragem: TÉCNICAS DE AMOSTRAGEM É o processo de seleção da amostra Se uma estatística é usada para avaliar ou estimar o valor de algum parâmetro, é chamada de estimador. A qualidade de uma estimativa depende basicamente da representatividade da amostra. O que é representatividade de uma amostra? 2. Por que fazemos amostragem? Economia Tempo Confiabilidade dos dados Operacionalidade 3. Quando o uso da amostragem não é interessante? População pequena Características de fácil mensuração Necessidade de alta precisão agosto/2014 Prof. Franke 8
TÉCNICAS DE AMOSTRAGEM 4. Tipos de amostras: Uma amostra não-probabilística é aquela na qual os itens ou indivíduos incluídos são escolhidos sem levar em conta a probabilidade de sua ocorrência. Uma amostra probabilística é aquela na qual os sujeitos da amostra são escolhidos com base em probabilidade conhecidas. Figura 2 Tipos de amostras. Fonte: LEVINE et al. (2005, p. 11) agosto/2014 Prof. Franke 9
TÉCNICAS DE AMOSTRAGEM 4.1. Amostras probabilísticas 4.1.1. Amostra aleatória simples É aquela em que cada indivíduo da população possui a mesma chance de ser selecionado do que cada um dos outros indivíduos. Ou seja, a seleção dos elementos que farão parte da amostra serão sorteados. Na amostragem aleatória simples, n é usado para representar o tamanho da amostra e N representar o tamanho da população. Todo item ou pessoa na população é numerado de 1 a N. A chance de qualquer membro em particular desta população ser selecionado no primeiro sorteio é de 1/N. As amostragens aleatórias são muito úteis por permitirem a utilização das técnicas clássicas de inferência estatística, facilitando a análise dos dados e fornecendo maior segurança na generalização dos resultados da amostra para a população. agosto/2014 Prof. Franke 10
Tabela 2 - Números aleatórios. Fonte LEVINE et al. (2005, p.770) agosto/2014 Prof. Franke 11
TÉCNICAS DE AMOSTRAGEM 4.1.1. Amostra aleatória simples Amostragem com reposição Significa que, após um indivíduo da população ser selecionado, ele retorna para a população, onde tem a mesma probabilidade de ser novamente selecionado. Amostragem sem reposição Significa que, após um indivíduo da população ser selecionado, ele não retorna para a população e, assim, não pode ser novamente selecionado A chance de qualquer membro da população ser selecionado no 1º sorteio é de 1 N A chance de qualquer indivíduo não previamente selecionado ser escolhido no 2º 1 sorteio é de N 1 O processo é repetido até ser alcançado o tamanho n, o desejado da amostra. Atividade: sortear, entre os alunos da turma, amostra de tamanho n = 6 com uso de urna e de tabela de números aleatórios. Cada um começa o sorteio onde quiser! Fazer com e sem reposição. agosto/2014 Prof. Franke 12
TÉCNICAS DE AMOSTRAGEM 4.1.2. Amostra aleatória sistemática Numa amostra sistemática, os N indivíduos ou itens na população são divididos em k grupos, pela divisão da população N pelo tamanho n da amostra. k = N n Onde k é chamado de intervalo de seleção. O 1º indivíduo a ser selecionado é escolhido aleatoriamente (sorteio) do primeiro grupo fracionado da população, o restante da amostra é obtido selecionando cada k-enésimo indivíduo na população total. Exemplo: alunos que chegam para aula Cuidados com a amostra aleatória simples ou sistemática! São menos eficientes que outros métodos probabilísticos de amostragem. Não é possível saber se as amostras obtidas são de fato representativas da população. A possibilidade de haver viés de seleção ou falta de representatividade das características de população é maior na amostragem sistemática. Se existir padrão na população, podem resultar graves vieses de seleção. agosto/2014 Prof. Franke 13
TÉCNICAS DE AMOSTRAGEM 4.1.3. Amostragem estratificada Consiste em dividir a população em subgrupos, que são denominados de estratos. Os estratos devem ser internamente mais homogêneos do que a população toda, com respeito às principais variáveis em estudo. Sobre os diversos estratos da população, são realizadas seleções aleatórias, de forma independente. A amostra é obtida através reunião das amostras de cada estrato. Amostragem estratificada proporcional A proporcionalidade do tamanho de cada estrato da população é mantida na amostra Amostragem estratificada uniforme Seleciona-se a mesma quantidade de elementos em cada estrato A amostragem estratificada uniforme costuma ser usada em situações em que o maior interesse é obter estimativas separadas para cada estrato, ou quando se deseja comparar os diversos estratos. agosto/2014 Prof. Franke 14
TÉCNICAS DE AMOSTRAGEM Figura 3 Esquema de obtenção de uma amostragem estratificada. Fonte: BARBETTA (2012, p. 49). Figura 4 Exemplo de uma amostragem estratificada proporcional. Fonte: BARBETTA (2012, p. 49). agosto/2014 Prof. Franke 15
TÉCNICAS DE AMOSTRAGEM 4.1.4. Amostragem de conglomerados (Cluster) Chama-se de conglomerados a um agrupamentos de elementos da população. Ex.: numa população de domicílios residenciais de uma cidade, os quarteirões formam conglomerados residenciais de uma cidade. Figura 5 Processo de amostragem de conglomerados em dois estágios. Fonte: BARBETTA (2012, p. 51). agosto/2014 Prof. Franke 16
TÉCNICAS DE AMOSTRAGEM 4.2. Amostragem não aleatória (não probabilística) Podem ser empregadas quando a seleção de uma amostra aleatória é muito difícil ou impossível. O principal problema é obtenção de uma lista elementos da população. 4.2.1 Amostragem por cotas Assemelha-se com a amostragem estratificada proporcional. A população é vista de forma segregada e dividida em diversos subgrupos com grande homogeneidade para compensar a falta de aleatoriedade. Seleciona-se uma cota de cada subgrupo proporcional ao seu tamanho. Ex.: Numa pesquisa socioeconômica, a população pode ser dividida por localidade, por nível de instrução, faixa de renda, etc. 4.2.2. Amostragem por julgamento Os elementos escolhidos (não sorteados) são aqueles julgados como típicos da população que se deseja estudar. O pesquisador precisa ter um grande conhecimento da estrutura da população agosto/2014 Prof. Franke 17
Relação entre amostragem e inferência Fonte: ANDRIOTTI. Fundamentos de estatística e geoestatística. São Leopoldo, Unisinos, 2009. agosto/2014 Prof. Franke 18
RESUMO DO CAPÍTULO Fonte: LEVINE et al. (2005, p. 11) agosto/2014 Prof. Franke 19
TAMANHO MÍNIMO DE UMA AMOSTRA É um problema complexo. Muitas vezes o tamanho da amostra fica restrita aos recursos financeiros disponíveis. A heterogeneidade da população e os tipos de parâmetros que se quer estimar são pontos importantes na determinação da amostra 1. Conceito de erro amostral Erro amostral é a diferença entre uma estatística e o parâmetro que se quer estimar. 2. Erro amostral tolerável É quanto o pesquisador admite errar na estimação dos parâmetros de interesse. Para determinar o tamanho da amostra, o pesquisador precisa especificá-lo. Ex.: Pesquisas eleitorais mostram o erro do levantamento normalmente ± 2% A especificação do erro amostral tolerável deve ser feito sob um enfoque probabilístico. Qual a influência do erro amostral no tamanho da amostra? agosto/2014 Prof. Franke 20
TAMANHO MÍNIMO DE UMA AMOSTRA 3. Baseado no erro amostral tolerável Onde: n = tamanho mínimo de uma amostra E = erro amostral tolerável (nº decimal do erro) Obs.: utiliza-se este cálculo inicial, mesmo não conhecendo o tamanho da população 4. Baseado no tamanho da população Onde: n c = tamanho mínimo da amostra corrigido em função da população N = tamanho da população Obs.: Se a população for muito grande, então n pode ser adotado como tamanho da amostra. Caso contrário, usa-se a correção baseado no tamanho da população. agosto/2014 Prof. Franke 21
TAMANHO MÍNIMO DE UMA AMOSTRA 5. Baseado no nível de confiabilidade desejado Quantas observações são necessárias para 90% de confiabilidade? Onde: n = tamanho mínimo de uma amostra e = erro amostral tolerado = desvio-padrão da população z = valor correspondente ao nível de confiabilidade desejado (distribuição normal padronizada z) Obs.: Deve-se notar que n (tamanho da amostra) depende do grau de confiança desejado, da dispersão dos dados e do erro tolerável, mas não do tamanho da população. agosto/2014 Prof. Franke 22
FONTES DE ERROS EM LEVANTAMENTOS POR AMOSTRAGEM O erro amostral, definido como a diferença entre uma estatística e o verdadeiro valor do parâmetro, parte do princípio de que as n observações da amostra são obtidas sem erros. Havendo erros ou desvios nos dados da própria amostra, a diferença entre a estatística e o parâmetro pode ser maior que o limite tolerável, E. Exemplos de erros não amostrais: 1º População acessível diferente da população-alvo (viés de seleção). 2º Falta de resposta (viés por falta de resposta) 3º Erros de amostragem 4º Erros de mensuração Obs.: erros de mensuração refere-se à falta de exatidão das respostas registradas, o que ocorre devido a deficiências na formulação da pergunta, um efeito causado pela influência do entrevistador sobre o entrevistado, ou no resultado do esforço do entrevistado. agosto/2014 Prof. Franke 23