Conceitos básicos Revisão de estatística descritiva Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais
Alguns conceitos básicos População: é o conjunto de todos os elementos ou resultados sob investigação. Amostra: qualquer subconjunto da população. Subpopulação: estrato da população que partilha alguma característica comum. Parâmetro: é uma medida numérica que descreve uma população. Estatística: é uma medida numérica que descreve uma amostra. Estimador: é uma estatística da amostra usada para se aproimar de um parâmetro da população.
Eemplo Foram feitos dois pequenos levantamentos amostrais sobre a quantidade de disciplinas cursadas no último ano em alunos de dois períodos de um curso em uma universidade federal. Como podemos resumir e comparar essas amostras? Amostra Manhã: 2; 4; 5; 6; 7; 8; 10 Amostra Noite: 2; 3; 4; 6; 10 3
Estatística descritiva É utilizada para resumir, descrever e organizar os dados. É uma etapa inicial da análise. Permite uma primeira percepção das características principais dos dados e dos caminhos de análise. Utiliza índices e gráficos. MEDIDAS Tendência central: Média Mediana Moda Posição: Mínimo e Máimo Quartis e Percentis Outlier (dado discrepante) Dispersão: Amplitude (range) Desvio Variância e Desvio Padrão Intervalo-Interquartil 4
Medidas de tendência central Média: soma dos dados dividida pelo número de observações. Na população n i 1 N i Na amostra Mediana: valor que está no meio do conjunto de dados quando estes são ordenados, dividindo-o em duas partes iguais. Moda: observação do conjunto que ocorre com maior freqüência. n i 1 n i Observações: A média é calculada com facilidade, mas pode ser muito afetada por outliers. A mediana é pouco afetada por dados discrepantes, mas sua determinação computacional é mais complea. A moda é mais utilizada para dados categóricos, ordinais ou intervalares.
6
Posição: mínimo, máimo, outlier Máimo: a maior observação da amostra Mínimo: a menor observação da amostra Outlier (valor discrepante): observação muito distinta das demais Fonte: Renze, John. "Outlier." From MathWorld--A Wolfram Web Resource, created by Eric W. Weisstein. http://mathworld.wolfram.com/outlier.html 7
Medidas de posição: Quartis e percentis Quartil: divide os dados em 4 intervalos de tamanhos iguais, contendo 25% do total de elementos.. Q 1; Q 2 (mediana); Q 3; Q 4 (valor máimo) Isso é um boplot! Intervalo-Interquartil (d): diferença entre o terceiro e o primeiro quartil (d= Q 3 -Q 1 ) Percentil: dividem a amostra em intervalos que contém determinada porcentagem do total de dados.
cones desenvolvidos por WPZOOM, disponível em www.iconfinder.com Ícones desenvolvidos por Freepik, disponíveis em www.flaticon.com Qual a melhor medida para definir uma referência média... 1 45.000 1 15.000 Baseado em Huff, Darrel. Como mentir com estatísticas. 1963.... dos salários? 2 10.000 1 5.700 média... do custo dos tratamentos? 3 5.000 4 3.700 1 3.000 mediana 12 2.000 moda
Medidas de dispersão Desvio: diferença entre a observação e a média da população ou da amostra. Desvio ( amostra) i Variância: Na população Na amostra S 2 n i n 2 i 1 1 i i N n 1 2 2 ou S 2 n i 1 2 i n n 1 2 Desvio Padrão: Desvio Padrão S Variância Amplitude: diferença entre a menor e a maior observação de uma amostra.
Prática 2: no laboratório Acessar o banco de dados Municípios estimativas IBGE 2018 e determinar em relação ao número de habitantes: (a) Média, mediana, desvio-padrão, quartis (1, 2, 3, 4 ). (b) Os mesmos dados ecluindo a cidade de São Paulo. COM a cidade de São Paulo SEM a cidade de São Paulo Média Mediana Dpad Quartil 1 Quartil 2 Quartil 3 Quartil 4
Distribuição de freqüências Utilizada para avaliar a distribuição de freqüência dos dados. Classes com tamanhos iguais facilitam o tratamento estatístico, mas nem sempre isso é possível ou desejável. de até - 2.000 123 2.000 4.000 748 4.000 8.000 1246 8.000 10.000 343 10.000 15.000 804 15.000 20.000 544 20.000 50.000 1096 50.000 100.000 349 100.000 200.000 164 200.000 500.000 107 500.000 1.000.000 29 1.000.000 5.000.000 15 5.000.000 10.000.000 1 Acima de 10.000.000 1
Histograma Diagrama de barras que representa a distribuição de freqüência de um conjunto de dados