Estatística Descritiva (aula 2) Curso de Farmácia Prof. Hemílio Fernandes 1
Estatística População Características Técnicas de amostragem Amostra Análise descritiva Conclusões sobre as características da população Inferência estatística Informações contidas nos dados 2
Amostragem Associada a coleta de dados, a tecnologia da amostragem desenvolveu um conjunto de técnicas para obtenção de amostras representativas da população de interesse Exemplos de utilização: Pesquisa de mercado, pesquisa de opinião pública, ensaios de medicamentos e em praticamente todo experimento. 3
Estatística Descritiva Etapa inicial da análise utilizada para descrever, organizar e resumir os dados coletados. A disponibilidade de uma grande quantidade de dados e de métodos computacionais muito eficientes revigorou esta área da Estatística. 4
Probabilidade A teoria das probabilidades nos permite modelar fenômenos aleatórios, ou seja, aqueles em que está presente a incerteza. É uma ferramenta fundamental para inferência estatística. 5
Inferência Estatística Um conjunto de técnicas baseadas em probabilidade, que a partir de dados amostrais nos permite tirar conclusões sobre a população de interesse. 6
Estatística Descritiva O que fazer com as observações que coletamos? Primeira Etapa: Resumo dos dados de variáveis de interesse = Estatística descritiva 7
Variável: Qualquer característica associada a uma população. Classificação das variáveis quanto a natureza: QUALITATIVA NOMINAL ORDINAL sexo, cor dos olhos classe social, grau de instrução QUANTITATIVA CONTÍNUA DISCRETA peso, altura, salário, idade número de filhos, número de carros 8
Tipos de Variáveis Dependente ou variável resposta Independente ou explicativa 9
Variáveis Explicativas e Variáveis Resposta. Entre os objetivos da estatística está o de provar se existe ou não relação entre duas ou mais variáveis e formular algum modelo matemático para explicar esta relação. Variáveis Explicativas Variáveis Resposta 10
Suponha que desejássemos realizar uma investigação sobre a ocorrência de anemia numa comunidade: seria interessante poder estimar a concentração de hemoglobina no sangue pela medida do hematócrito 11
Variável Dependente É a variável que mede o fenômeno que se estuda e que se quer explicar; ex.: asma, que poderia ser medida categoricamente (nominal: presente ou ausente; ordinal: asma leve, moderada ou grave) ou continuamente (alguma métrica da função respiratória). 12
Variável independente É uma variável que se considera candidata a explicar a variável dependente; ex.: alergia, que poderia ser medida categoricamente (nominal: a ácaro, a leite de vaca, etc.; ordinal: a 1 alérgeno, a 2 alérgenos, etc.) ou continuamente (dosagens séricas de anticorpos). 13
Tipos de variáveis independentes de Interesse : São aquelas cuja associação com a variável dependente constituem o principal objetivo de um estudo. de Controle : Usada em um experimento para garantir representatividade de estratos da população na amostra. de Confusão : É uma variável cujo efeito distorce a relação entre variáveis dependente e independentes, podendo levar a conclusões errôneas, tais como não se detectar associações existentes ou detectar associações que não existem. 14
Representação dos dados de variáveis qualitativas em tabelas e gráficos 15
O gráfico estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é o de produzir, no investigador ou no público em geral, uma impressão rápida e viva do fenômeno em estudo, já que os gráficos falam mais rápidos que as tabelas. 16
REQUISITOS FUNDAMENTAIS a) Simplicidade b) Clareza c) Veracidade OBS: Os títulos de tabelas(ou Quadros) e gráficos devem responder 3 perguntas: O que é o dado? Quando foi observado? Onde foi observado? 17
Os dados podem ser resumidos construindo-se uma tabela de distribuição de freqüências, que quantifica a freqüência das distintas categorias. 18
Exemplo: Suponha que uma pesquisa foi realizada com 1124 indivíduos. A distribuição dos indivíduos segundo a variável sexo do chefe familiar é apresenta na tabela a seguir. Tabela 1: Distribuição dos indivíduos pesquisados segundo sexo do chefe familiar SEXO Frequência Frequência (%) Masculino 737 65,57 Feminino 387 34,43 TOTAL 1124 100 Fonte: Dados Hipotéticos 19
Exemplo: Suponha que uma pesquisa foi realizada com 200 alunos da UFPB. A distribuição dos alunos, segundo curso é apresentada pela tabela a seguir. Tabela 2: Distribuição dos alunos pesquisados segundo curso CURSO Frequência Frequência (%) Farmácia 40 20,0 Estatística 15 7,5 História 22 11,0 Arquivologia 30 15,0 Fisioterapia 30 15,0 Pedagogia 23 11,5 Nutrição 40 20,0 TOTAL 200 100,00 Fonte: Dados Hipotéticos 20
Exemplo: O HEMOCENTRO de João Pessoa sempre possui interesse em verificar a distribuição dos tipos de sangue que estão disponíveis para doação. Tabela 3: Distribuição dos registros de doação, segundo tipo sanguíneo TIPO Frequência Frequência (%) A- 35 6,7 A+ 60 11,4 AB- 90 17,2 AB+ 100 19,0 B+ 25 4,8 B- 70 13,3 O+ 85 16,2 O- 60 11,4 TOTAL 525 100,00 Fonte: Dados Hipotéticos 21
Exemplo: Considere uma pesquisa em que são pesquisadas 1126 em João Pessoa. A distribuição dos pesquisados segundo etnia é apresentada na tabela a seguir. Tabela 4: Distribuição dos registros de doação, segundo etnia ETNIA Frequência Frequência (%) Branca 456 40,5 Parda 531 47,2 Negra 127 11,3 Outra 12 1,1 TOTAL 1126 100,0 Fonte: Dados Hipotéticos 22
Gráfico de setores Um círculo é dividido em tantos setores quantas forem as categorias da variável. A área de cada setor é proporcional à freqüência da categoria 23
Gráfico 1- Distribuição da amostra por sexo do provedor da família. 24
Gráfico 2- Distribuição dos alunos da UFPB segundo curso 25
Gráfico 3- Distribuição dos registros do HEMOCENTRO segundo tipo sanguíneo 26
Gráfico 4 - Distribuição dos indivíduos pesquisados segundo etnia em João Pessoa. 27
Como fazer um gráfico de setores? Resposta: Regra de três simples. Passo 1: Associe o total da tabela ao valor total da medida, em graus de uma circunferência (360º). Passo 2: O tamanho de cada fatia do gráfico é uma medida x, obtida da seguinte forma para cada categoria da tabela: TOTAL DA TABELA 360º CATEGORIA xº 28
Exemplo: Para os dados da tabela 1, por exemplo, temos que: 737360 Categoria masculino : x 236 1124 Categoria feminino : x 387360 124 1124 29
Gráfico de barras (ou colunas) Sobre um eixo, são representados retângulos, um para cada categoria da variável. A altura do retângulo é proporcional à freqüência da categoria 30
Gráfico 5- Distribuição da amostra por sexo do provedor da família. 70,00% 65,57% 60,00% 50,00% 40,00% 30,00% 34,43% Masculino Feminino 20,00% 10,00% 0,00% Masculino Feminino 31
Gráfico 6- Distribuição dos alunos da UFPB segundo curso 32
Gráfico 7 - Distribuição dos registros do HEMOCENTRO segundo tipo sanguíneo 120 100 80 60 40 20 0 A- A+ AB- AB+ B+ B- O+ O- 33
Gráfico 8 - Distribuição dos indivíduos pesquisados segundo etnia em João Pessoa. Outra Negra Parda Branca Parda Negra Outra Branca 0,0% 5,0% 10,0% 15,0% 20,0% 25,0% 30,0% 35,0% 40,0% 45,0% 50,0% 34
Como fazer um gráfico de barras? Passo 1: Indique as categorias em um dos eixos do gráfico (X ou Y); Passo 2: Crie retângulos para cada categoria. Cada retângulo terá tamanho igual ao valor da categoria na tabela. Se preferir, você pode fazer este mesmo procedimento utilizando os percentuais das categorias. 35
Podemos também construir tabelas de freqüências conjuntas (tabelas de contingência), relacionando duas variáveis qualitativas. Exemplo 1: Há indícios de associação entre Sexo e raça do provedor da família? Qual o significado dos valores desta tabela? Como concluir? 36
Verificar associação através da: - porcentagem segundo as colunas, ou - porcentagem segundo as linhas? Qual o significado dos valores desta tabela? Como concluir? 37
Gráfico 9- Distribuição da amostra segundo raça e sexo do provedor da família. João Pessoa, 2007. 500 450 431 400 350 300 250 200 208 321 Branca Parda Preta Outra 150 91 100 50 0 Masculino 7 25 Feminino 36 5 38
Gráfico 10 - Distribuição da amostra segundo raça e sexo do provedor da família. João Pessoa, 2007. 500 450 400 350 300 250 200 150 100 50 0 431 321 208 91 25 36 7 5 branca parda preta outra masculino feminino 39
Variáveis Quantitativas MEDIDAS DE POSIÇÃO: Mínimo, Máximo, Moda, Média, Mediana, Percentis MEDIDAS DE DISPERSÃO: Amplitude, Variância, Desvio Padrão, Coeficiente de Variação. 40
Medidas de Posição Máximo (max): a maior observação Mínimo (min): a menor observação Moda (mo): é o valor (ou atributo) que ocorre com maior freqüência. Dados: 4, 5, 4, 6, 5, 8, 4 max = 8 min = 4 mo = 4 41
Média: x x x x... 1 2 3 n i1 n x n n x i Dados: 2, 5, 3, 7, 8 x 2 5 3 5 7 8 5 42
Mediana: A mediana é o valor da variável que ocupa a posição central de um conjunto de n dados ordenados. Posição da mediana: n+1 2 43
Exemplos: Dados: 2, 6, 3, 7, 8 Dados ordenados: 2 3 6 7 8 Posição da Mediana n = 5 (ímpar) 5+1 = 3 2 Md=6 Dados: 4, 8, 2, 1, 9, 6 n = 6 (par) Dados ordenados: 1 2 4 6 8 9 Md Md = (4 + 6) / 2 = 5 6+1 = 3,5 2 44
Percentis: O percentil de ordem p 100 (0 < p < 1), em um conjunto de dados de tamanho n, é o valor da variável que ocupa a posição p (n + 1) do conjunto de dados ordenados. Casos particulares: percentil 50 = mediana ou segundo quartil (Md) percentil 25 = primeiro quartil (Q 1 ) percentil 75 = terceiro quartil (Q 3 ) percentil 10 = primeiro decil 45
Dados: 1,9 2,0 2,1 2,5 3,0 3,1 3,3 3,7 6,1 7,7 n=10 Posição de Md: 0,5(n+1)= 0,511= 5,5 Md = (3 + 3,1)/2 = 3,05 Posição de Q1: 0,25 (11) = 2,75 Q 1 =( 2+2,1)/2=2,05 Posição de Q3: 0,75 (11) = 8,25 Q 3 =(3,7+6,1)/2=4,9 Md = 3,05 Q 1 = 2,05 Q 3 = 4,9 Dados: 0,9 1,0 1,7 2,9 3,1 5,3 5,5 12,2 12,9 14,0 33,6 n=11 Md = 5,3 Q1 = 1,7 Q3 = 12,9 46
Exemplo 2: Considere as notas de um teste de 3 grupos de alunos Grupo 1: 3,4,5,6,7 Grupo 2: 1, 3, 5, 7, 9 Grupo 3: 5,5,5,5,5 G 1 G 2 * * * * * * * * * * G 3 * * * * * 0 5 10 _ Temos: x 1 = x 2 = x 3 = 5 e md 1 = md 2 = md 3 = 5 47
Medidas de Dispersão Finalidade: encontrar um valor que resuma a variabilidade de um conjunto de dados Amplitude (A): A = máx - min Para os grupos anteriores, temos: Grupo 1, A = 4 Grupo 2, A = 8 Grupo 3, A = 0 48
49 n i i n n x x n x x x x x x s Variância 1 2 2 2 2 2 1 2 1 1 ) ( ) (... ) ( ) ( Variância Padrão Desvio s Variância: Desvio padrão:
Cálculo para os grupos: G1: s 2 =(3-5) 2 +(4-5) 2 + (5-5) 2 + (6-5) 2 + (7-5) 2 4 s 2 = 10/4= 2,5 s = 1,58 G2: s 2 = 10 s = 3,16 G3: s 2 = 0 s = 0 50
Fórmula alternativa: S 2 n i 1 X 2 i nx 2 ( n 1) Em G1: X i 2 = 9 + 16 + 25 + 36 +49 = 135 S 2 = 135-5(5) 2 = 2,5 4 51
Como fazer os cálculos sem dificuldade? Resposta: Basta lembrar das tabelas a seguir: 52
Esta construção permite a compreensão adequada das fórmulas. A grande maioria das fórmulas são escritas em funções de somas. 53
Coeficiente de Variação (CV) - é uma medida de dispersão relativa - elimina o efeito da magnitude dos dados - exprime a variabilidade em relação à média CV x s 100% 54
Exemplo 3: Altura e peso de alunos Média Desvio Padrão Coef. de Variação Altura 1,143m 0,063m 5,5% Peso 50 kg 6kg 12% Conclusão: Os alunos são, aproximadamente, duas vezes mais dispersos quanto ao peso do que quanto à altura. 55
Exemplo 4: Altura (em cm) de uma amostra de recémnascidos e de uma amostra de adolescentes Média Desvio padrão Coef. de variação Recém-nascidos 50 6 12% Adolescentes 160 16 10% Conclusão: Em relação às médias, as alturas dos adolescentes e dos recém-nascidos apresentam variabilidade quase iguais. 56