Estatística Descritiva (I)
O que é Estatística Para muitos, a Estatística não passa de conjuntos de tabelas de dados numéricos. Os estatísticos são as pessoas que coletam esses dados. A Estatística originou-se com a coleta e construção de tabelas de dados para o governo. A situação evoluiu e esta coleta de dados representa somente um dos aspectos da Estatística.
Definição de Estatística A Estatística é uma ciência ( ou método) baseada na teoria das probabilidades, cujo objetivo principal é nos auxiliar a tomar decisões ou tirar conclusões em situações de incerteza, a partir de informações numéricas.
Estatística População Características Técnicas de amostragem Amostra Análise descritiva Conclusões sobre as características da população Inferência estatística Informações contidas nos dados
Amostragem Uma área importante em muitas aplicações da Estatística é a da tecnologia da amostragem. Exemplos de utilização: Pesquisa de mercado, pesquisa de opinião pública, ensaios de medicamentos e em praticamente todo experimento.
Estatística Descritiva Etapa inicial da análise utilizada para descrever e resumir os dados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou esta área da Estatística.
Inferência Estatística A inferência estatística procura, com base nos dados amostrais, tirar conclusões sobre a população.
Probabilidade A teoria das probabilidades nos permite descrever os fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza.
Exemplo 1: Numa pesquisa eleitoral, um instituto de pesquisa tem como objetivo prever o resultado da eleição, utilizando uma amostra da população.
Considere o Candidato A : Denomine por p a proporção de pessoas (na população) que votarão em A na eleição. ^ Denomine por p a proporção de pessoas no levantamento de opinião que expressam intenção de voto em A. Estimação: Podemos usar o valor de p para estimar a proporção p da população. ^
Na eleição presidencial, para governadores e prefeitos, os institutos de pesquisa de opinião colhem periodicamente amostras de eleitores para obter as estimativas de intenção de voto da população. As estimativas são fornecidas com um valor e uma margem de erro. O quadro do DATAFOLHA a seguir refere-se à intenção de voto no 2 o. turno das eleições para o governo de São Paulo em 1998.
Intenção de Voto Para Governador de São Paulo - 1998 Resposta estimulada e única, em % do total de votos A última pesquisa ouviu 3.389 eleitores - Margem de erro de 2% 44 40 46 39 45 Covas PSDB 41 Maluf PPB 8 9 6 8 Em branco/ nulo 7 Não sabe 9. out. 15 e 16.out. 20. out.
Estatítica Descritiva O que fazer com as observações que coletamos? Primeira Etapa: Resumo dos dados = Estatística descritiva
Variável: Qualquer característica associada a uma população. Classificação das variáveis: QUALITATIVA NOMINAL ORDINAL sexo, cor dos olhos classe social, grau de instrução QUANTITATIVA CONTÍNUA DISCRETA peso, altura, salário, idade número de filhos, número de carros
Variáveis Quantitativas MEDIDAS DE POSIÇÃO: Mínimo, Máximo, Moda, Média, Mediana, Percentis MEDIDAS DE DISPERSÃO: Amplitude, Intervalo-Interquartil, Variância, Desvio Padrão, Coeficiente de Variação.
Medidas de Posição Máximo (max): a maior observação Mínimo (min): a menor observação Moda (mo): é o valor (ou atributo) que ocorre com maior freqüência. Dados: 4, 5, 4, 6, 5, 8, 4 max = 8 min = 4 mo = 4
Média: x x + x + x +... 1 2 3 = n = i = 1 n + x n n x i Dados: 2, 5, 3, 7, 8 x = 2 + 5 + 3 5 + 7 + 8 = 5
Mediana: A mediana é o valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Posição da mediana: n+1 2
Exemplos: Dados: 2, 6, 3, 7, 8 Dados ordenados: 2 3 6 7 8 Posição da Mediana n = 5 (ímpar) 5+1 = 3 2 Md=6 Dados: 4, 8, 2, 1, 9, 6 n = 6 (par) Dados ordenados: 1 2 4 6 8 9 Md Md = (4 + 6) / 2 = 5 6+1 = 3,5 2
Percentis: O percentil de ordem p 100 (0 < p < 1), em um conjunto de dados de tamanho n, é o valor da variável que ocupa a posição p (n + 1) do conjunto de dados ordenados. Casos particulares: percentil 50 = mediana ou segundo quartil (Md) percentil 25 = primeiro quartil (Q 1 ) percentil 75 = terceiro quartil (Q 3 ) percentil 10 = primeiro decil
Dados: 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7 n=10 Posição de Md: 0,5(n+1)= 0,5 11= 5,5 Posição de Q1: 0,25 (11) = 2,75 Posição de Q3: 0,75 (11) = 8,25 Md = (3 + 3,1)/2 = 3,05 Q 1 =( 2+2,1)/2=2,05 Q 3 =(3,7+6,1)/2=4,9 Md = 3,05 Q 1 = 2,05 Q 3 = 4,9 Dados: 0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6 n=11 Md = 5,3 Q1 = 1,7 Q3 = 12,9
Exemplo 2: Considere as notas de um teste de 3 grupos de alunos Grupo 1: 3,4,5,6,7 Grupo 2: 1, 3, 5, 7, 9 Grupo 3: 5,5,5,5,5 G 1 G 2 * * * * * * * * * * G 3 * * * * * 0 5 10 _ Temos: x 1 = x 2 = x 3 = 5 e md 1 = md 2 = md 3 = 5
Medidas de Dispersão Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados Amplitude (A):( A = máx - min Para os grupos anteriores, temos: Grupo 1, A = 4 Grupo 2, A = 8 Grupo 3, A = 0
Intervalo-Interquartil: É a diferença entre o terceiro quartil e o primeiro quartil, ou seja, Q3 - Q1. Dados: 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7 Q1 = 2,05 e Q3= 4,9 Q3 - Q1 = 4,9-2,05 = 2,85
= = + + + = = n i i n n x x n x x x x x x s Variância 1 2 2 2 2 2 1 2 1 1 ) ( ) (... ) ( ) ( Variância Padrão Desvio = = s Variância: Variância: Desvio padrão: Desvio padrão:
Cálculo para os grupos: G1: s 2 =(3-5) 2 +(4-5) 2 + (5-5) 2 + (6-5) 2 + (7-5) 2 4 s 2 = 10/4= 2,5 s = 1,58 G2: s 2 = 10 s = 3,16 G3: s 2 = 0 s = 0
Fórmula alternativa: S 2 = n i = 1 X 2 i nx 2 ( n 1) Em G1: ΣX i2 = 9 + 16 + 25 + 36 +49 = 135 S 2 = 135-5 (5) 2 = 2,5 4
Coeficiente de Variação (CV( CV) - é uma medida de dispersão relativa - elimina o efeito da magnitude dos dados - exprime a variabilidade em relação à média CV = x s 100 %
Exemplo 3: Altura e peso de alunos Média Desvio Padrão Coef. de Variação Altura 1,143m 0,063m 5,5% Peso 50 kg 6kg 12% Conclusão: Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto à altura.
Exemplo 4: Altura (em cm) de uma amostra de recémnascidos e de uma amostra de adolescentes Média Desvio padrão Coef. de variação Recém-nascidos 50 6 12% Adolescentes 160 16 10% Conclusão: Em relação às médias, as alturas dos adolescentes e dos recém-nascidos apresentam variabilidade quase iguais.
Exemplo 5 : Arquivo PULSE do Minitab Refere-se a um experimento feito por alunos. Cada um deles registrou sua altura, peso, sexo, hábito de fumar e nível de atividade física. Depois, todos eles jogaram moedas e aqueles que tiraram CARA fizeram corrida estacionária por 1 minuto, registrando a pulsação antes de correr e a pulsação depois de correr. Os demais registraram a pulsação após 1 minuto, mesmo sem ter corrido.
Saída do MINITAB TM Colunm Count Name C1 92 Pulse1 C2 92 Pulse2 Pulso antes de correr Pulso após um minuto C3 92 Run 1 - Fez corrida estacionária 2 - Não fez corrida estacionária C4 92 Smokes C5 92 Sex C6 92 Height C7 92 Weight C8 92 Activity 1 - Fuma regularmente 2 - Não fuma regularmente 1 - Masculino 2 - Feminino Em polegadas Em libras 0- não tem 1 - leve 2 - moderada 3 - intensa
Saída do MINITAB TM Row Pulse1 Pulse2 Ran Smokes Sex Height Weight Activity 1 64 88 1 2 1 66,00 140 2 2 58 70 1 2 1 72,00 145 2 3 62 76 1 1 1 73,50 160 3 4 66 78 1 1 1 73,00 190 1 5 64 80 1 2 1 69,00 155 2 6 74 84 1 2 1 73,00 165 1 7 84 84 1 2 1 72,00 150 3 8 68 72 1 2 1 74,00 190 2
MTB > describe c1 c6 c7 Descriptive Statistics Variable N Mean Median Tr Mean StDev SE Mean Pulse1 92 72,87 71 72,61 11,01 1,15 Height 92 68,72 69 68,784 3,659 0,382 Weight 92 145,15 145 144,52 23,74 2,48 Variable Min Max Q1 Q3 Pulse1 48 100 64 80 Height 61 75 66 72 Weight 95 215 125 156,5 CV 11,01/72,87=0,15 3,659/68,717=0,05 23,74/145,15=0,16
Alguns comentários: 50% dos indivíduos tem uma pulsação menor ou igual a 71 batimentos por minuto; 25% dos indivíduos tem altura igual ou menor a 66 pés; 75% dos indivíduos tem peso igual ou menor a 156,5 libras; a variável com menor dispersão em relação a média é a altura; Pulsação e peso apresentam dispersão em relação a média praticamente iguais e o triplo da dispersão da altura.
MTB > describe c1; SUBC > by c3. Descriptive Statistics Variable Ran N Mean Median Tr Mean StDev SE Mean Pulse1 1 35 73,60 70 72,97 11,44 1,93 2 57 72,42 72 72,47 10,82 1,43 Variable Ran Min Max Q1 Q3 Pulse1 1 58 100 64 80 2 48 94 64 81
MTB > describe c2; c SUBC> by c3. Descriptive Statistics Variable Ran N Mean Median Tr Mean StDev SE Mean Pulse2 1 35 92,51 88 91,68 18,94 3,20 2 57 72,32 70 72,24 9,95 1,32 Variable Ran Min Max Q1 Q3 Pulse2 1 58 140 76 106 2 50 94 66 79
Alguns comentários: Com relação às medidas de posição, os dois grupos antes de correr tem o mesmo comportamento; O grupo que correu tem valores de Pulse2 maiores do que o grupo que não correu. Com relação às medidas de dispersão, os dois grupos antes da corrida apresentam valores semelhantes; O grupo que correu apresenta um desvio padrão aproximadamente o dobro do que o que não correu.