13 de Março de 2011
Amostra e População
Introdução Queremos analisar uma variável: anos de estudo dos professores universitários brasileiros. Geralmente não é possível estudar todo o conjunto de dados de interesse. Seja por questões de tempo ou custo. Selecionamos uma parte desse conjunto: amostra. Os nossos dados de interesse constituem a população.
Amostra aleatória Selecionamos a amostra para obter informação sobre a população. Se queremos investigar as alturas dos alunos: selecionamos alguns deles aleatoriamente e medimos suas alturas. Esse tipo de procedimento é chamado amostragem aleatória. São desenvolvidos modelos para descrever esse tipo de situação.
A seleção da amostra pode ser feita de várias maneiras. O seu tamanho vai ser determinado a partir do erro máximo permitido. E também pelas características da população. Depende da variabilidade: grande heterogeneidade tamanho de amostra maior. Também do custo de coleta. A amostra deve representar a população da melhor forma possível.
Outros tipos de amostragem: Amostragem sistemática Um elemento é escolhido a cada k elementos. Não é recomendada quando os dados têm sazonalidade. Amostragem Estratificada Divide a população em estratos de elementos que dividem uma característica. Seleciona-se uma amostra em cada grupo. Melhora a precisão das estimativas. Controla fatores que podem influenciar nas respostas dos elementos. Exemplo: divide-se a população por faixa etária.
Amostragem por conglomerado Divide a população em unidades: conglomerados. Seleciona-se alguns deles. Todos elementos do conglomerado vão fazer parte da amostra. Conglomerados podem reduzir o custo de coleta. A variabilidade dentro do conglomerado > variabilidade entre os conglomerados. Exemplo: seleção de lotes de produtos em uma fábrica.
Descobrindo o óbvio? o que você vê nessa foto? Simplismente um conjunto de grãos de café?
Descobrindo o óbvio? o que você vê nessa foto? Simplismente um conjunto de grãos de café? Existe a face de um homem entre os grãos.
O olho humano tem dificuldade de identificar padrões ou falta de padrão. Precisamos de medidas para resumir a informação. Usamos as estatísticas descritivas.
Exemplo: Em 1969 foi realizado um estudo em um determinado país. 7683 indivíduos foram pesquisados. Foram medidas as seguintes variáveis: nível educacional; peso (kg); altura (cm); idade (anos) glicemia (mg/dl); colesterol sérico (mg/dl); pressão sistólica (mmhg).
Sumários e apresentação de dados são essenciais para bom julgamento estatístico. Podemos assim focar nas características importantes dos dados. É útil descrever numericamente as características dos dados.
Precisamos de ferramentas para ter uma visão geral dos valores assumidos pelas variáveis. Algumas dessas ferramentas são: tabelas; gráficos.
Tabela conjunto de observações organizadas e distribuídas num quadro. Devemos descrever as informações da tabela. Veja um exemplo a seguir. Tabela 1: Título Cabeçalho (variável A) Cabeçalho (variável B) Conjunto de linhas Conjunto de linhas indincando os valores de A inidicando os valores de B No rodapé deve ser colocada a fonte (quando houver).
Série estatística tabela que apresenta um conjunto de dados distribuídos em função da época, local e espécie. As séries estatísticas podem ser: temporais; geográficas; específicas.
Séries temporais Representa evolução cronológica. O tempo varia, enquanto o fato e o local permanecem constantes. Tabela 2: Entradas de argentinos no Brasil Ano Número de turistas 1994 787.117 1998 1.467.922 1999 1.548.571 Fonte: OMT. Fato: entrada dos argentinos (constante). Local: Brasil (constante). Tempo: 1994, 1998, 1999 (variável).
Séries Geográficas A discriminação é feita segundo regiões. O tempo e o fato permanecem constante. Tabela 3: Onde falta água encanada. Continente Valor percentual (%) África 28 América Latina 7 Ásia 63 Europa 2 Fonte: OMS. Fato: falta de água encanada (constante). Local: África, América Latina, Ásia e Europa (variável). Tempo: ano 2000 (constante).
Séries específicas ou categóricas A discriminação é feita segundo categorias ou espécies. O tempo e o local permanecem constante. Tabela 4: O que vai fazer com o 13 0 salário (consumidores paulistas - dez 2000) Opções Valor percentual (%) Pagar dívidas 53 Fazer compras 14 Poupar ou guardar 14 Investir ou aplicar 7 Gastar nas férias 6 Outros 6 Fonte: InformEstado.
Fato: pagar dívidas, fazer compras, poupar ou guardar, investir ou aplicar, gastar nas férias (variável). Local: São Paulo (constante). Tempo: Dezembro de 2000 (constante).
Séries conjugadas (tabelas de dupla entrada) São séries mistas. Podem variar simultaneamente tempo, lugar e o fato. Tabela 5: Terminais telefônicos em serviço (1991-1993). Regiões 1991 1992 1993 Norte 342.938 375.658 403.494 Nordeste 1.287.813 1.379.101 1.486.649 Sudeste 6.234.501 6.729.467 7.231.634 Sul 1.497.315 1.608.989 1.746.232 Centro-oeste 713.357 778.935 884.822 Fonte: Ministério das Comunicações.
Dados absolutos obtidos diretamente da fonte. Exemplo: 1000 turistas chegaram em Ouro Preto. Dados relativos obtidos por razões dad dados absolutos; estabeleccem comparações entre quantidades; expressos em porcentagens, índices, coeficientes e taxas. Exemplo: 50% dos turistas que chegaram em Ouro Preto eram mineiros.
Exemplo: 31% dos turistas que entraram no Brasil em 1998 vieram da Argentina. A cada 100 turistas que entram no Brasil, 31 são argentinos. Considerem que entram 1200 turistas no Brasil. Quanto se espera de argentinos? 100% 1200 31% X X = 31 1200 100 = 372.
Exemplo: (continuação) Ou ainda X = 31%de1200 = 31 1200 = 372 100 Dos 1200 turistas, espera-se que 372 sejam argentinos.
Exemplo: Uma cidade A tem 123.820 habitantes. Desse total, 36.850 são menores de idade. A cidae B tem 306.470 habitantes. Desse total, 84.980 são menores de idade. Qual cidade tem, relativamente, maior quantidade pessoas com menos de 18 anos?
Exemplo: (continuação) Os dados absolutos são os seguintes: Tabela 6: Distribuição da população por cidade. Cidade População Menores de 18 A 123.820 36.850 B 306.470 84.980 Os dados relativos são: Tabela 7: Distribuição relativa da população por cidade. Cidade População Menores de 18 % A 123.820 36.850 29,8 B 306.470 84.980 27,7 A cidade A tem relativamente mais pessoas com menos de 18 anos.