Estatística Descritiva Tabela s Gráficos Números x, s 2, s, m o, Q 1, Q 2, Q 3,...etc. 1
Estatística Descritiva 3. Números 3.1. Medidas de posição (ou tendência ) 3.2. Medidas de dispersão 2
3.1. Medidas de posição (ou medidas de tendência central) a) Moda b) Média c) Separatrizes (Mediana, Quartis e percentis) 3
a) Moda (Mo) Valor que apresenta maior freqüência (que ocorre mais vezes) no conjunto de dados (amostra). Exemplo 1 a) 1, 3, 5, 7, 8, 9 ^ Mo=? amodal b) 1, 3, 5, 5, 5, 8, 8, 9 ^ Mo=5 unimodal c) 0, 0, 1, 2, 4, 4, 5, 7, 9 Mo= 0 e 4 bimodal Logo, um conjunto de dados pode ter mais do que uma moda. ^ 4
Para variáveis qualitativas: é a classe ou categoria de maior frequência. Exemplo 2 Tabela 1. Variedades de cana-de-açúcar cultivadas nas fazendas que abastecem a usina A Variedade n. de talhões CB40-13 12 CB41-76 40 CB46-47 4 IAC48-65 2 IAC51-205 6 IAC52-179 21 NA56-62 10 Total 95 ^ Mo= Variedade CB41-76 5
Para dados quantitativos: o ponto médio da classe com maior frequência é chamado de moda bruta. Exemplo 3 f ^ Moda bruta: Mo = 25 cm 40 30 20 10 10 20 30 40 50 ^ Mo X Diâmetro (cm) 6
Exemplo 4 0 1 2 3 4 5 6 7 8 9 10 ^ Mo= 10 No caso de dados não agrupados, a moda nem sempre tem utilidade como elemento representativo do conjunto de dados. 7
b) Média Dentre as medidas de posição é considerada a mais importante. Média de uma população: Média de uma amostra: x OBS: Pode-se também ter interesse na obtenção da média associada a alguma outra variável. Por exemplo, média por curso. Como calcular a média? b.1) Aritmética simples; b.2) Ponderada; e b.3) Dados agrupados 8
b.1) Média Aritmética simples: Definição: Se x 1,..., x n são os valores (distintos ou não) da variável X, a média aritmética de X é dada por: Exemplo 1 Suponha que uma empresa possui 5 funcionários. Seus salários mensais são: R$ 400,00; R$ 545,00; R$ 610,00; R$475,00; R$5500,00. média salarial: R$ 1506,00 x n x i i 1 Somando-se todos os valores de um conjunto e dividindo-se esta n soma pelo número de valores. PROBLEMA: a média não é uma medida adequada para a representação deste conjunto! 9
Calculadora, como usar? Modelo Cassio fx-82ms 1) Limpar a memória: SHIFT CLR 3 = = 2) Mudar para o módulo estatístico (SD): MODE 3) Entrar com os dados número M+ número M+ 4) Pedir a função: SHIFT 1 SHIFT 2... 10
Calculadora, como usar? Modelo Cassio fx-83wa 1) Limpar a memória: SHIFT Scl = 2) Mudar para o módulo estatístico (SD): MODE 3) Entrar com os dados... número M+ número M+ 4) Pedir a função (ver capa!) 11
Exemplo 2 Interpretação da média Seja X a variável n. de ovos por folha e os seguintes valores observados: 0, 2, 3, 1, 0, 1, 2, 2, 3, 1, 2, 3, 2, 1 Pesos 0 1 2 3 Trave CUIDADO: A média aritmética nem sempre está no centro. Ponto de equilíbrio ou Centro de gravidade x 0 2 3... 3 2 1 14 23 14 1,64 ovos por folha 12
Exemplo 3 Seja X a variável número de ovos por folha e os seguintes valores observados: 0, 2, 3, 1, 0, 1, 2, 2, 3, 1, 2, 3, 2, 25 Todos os valores, exceto um (25), estão abaixo da média! 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 x 0 2 3... 3 14 2 25 3,36 ovos por folha Inconveniente da média: Ser muito sensível a valores extremos 13
Inconveniente da média: Pode não ser uma medida de posição indicada quando a distribuição dos dados é assimétrica, bimodal ou multimodal. A média é melhor para medidas mais simétricas. 14
b.2) Média aritmética ponderada: Definição: A média ponderada dos números x 1,..., x n, com pesos p 1,..., p n, representada por, é dado por: x p n i1 n x p p i1 i x p i i Exemplo 4 Um professor resolve passar um trabalho para ser feito em casa. Suponha que a prova tenha peso 7,0 e o trabalho tenha peso 3,0. Tendo um aluno obtido nota 6,0 na prova e 9,0 no trabalho, qual será a sua média nesta disciplina? x p (6,0 7,0) (9,0 3,0) 7,0 3,0 69,0 10,0 6,9 15
Exemplo 5 30 residências de um certo bairro foram sorteadas e visitadas por um entrevistador que, dentre outras questões, perguntou sobre o número de televisores em cada residência. Tabela 2. n. de televisores por residência N 0 de TV s (x i ) N o de residências ( f i ) x i f i 0 1 0 1 6 6 2 13 26 3 10 30 Total 30 62 Interpretação: Neste bairro cada residência tem em média 2,1 televisores. 16
b.3) Média de dados agrupados em tabelas de distribuição de frequências Definição: A média de uma variável quantitativa discretas agrupados em uma tabela de distribuição de frequências é dada: k i1 k sendo k o número de diferentes valores que a variável assume. x x i1 i f i f i Soma dos produtos dos valores da variável (x) pelas respectivas frequências (f) simples, dividida pela soma das frequências simples. 17
Exemplo 6 Com os dados agrupados em classes, perde-se informação sobre cada observação individual Sempre que possível devemos trabalhar com os dados originais. Tabela: Salário mínimo de professores do ensino fundamental da rede privada de uma determinada cidade. Salário Mínimo (X) N o de professores (f) Ponto médio (m) m f 1 3 14 2 28 3 5 25 4 100 5 7 18 6 108 7 9 9 8 72 9 11 4 10 40 Total 70-348 Salários mínimos 18
Definição: A média de uma variável quantitativa contínua agrupada em classes apresentada em uma tabela de distribuição de frequências é dada: i1 k sendo k o número de classes e m i o ponto médio da i-ésima classe. x k m i1 i f i f i 19
Estatística de ordem Se x 1,..., x n são os valores (distintos ou não) da variável X. Considere as observações ordenadas. Denotaremos a menor observação por x (1), a segunda por x (2), e assim por diante, obtendo-se: x (1) x (2)... x (n 1) x (n) Que são chamadas de estatística de ordem. 20
c) Separatrizes São medidas de posição que permitem calcularmos valores da variável que dividem ou separam a distribuição em partes iguais. Temos quatro tipos de separatrizes: i) a mediana; ii) os quartis; iii) os decis; iii) os percentis. 21
c1) Mediana (Md X ) É o valor central de um conjunto de dados ordenados (crescente ou decrescente), ou seja, é o valor que divide o conjunto em 2 partes iguais: 50% dos valores observados são inferiores a M d 50% são valores superiores a esse valor M d Definição (dados originais): Seja n o tamanho da amostra. Se n é ímpar n é par onde x (i) é a observação que ocupa a i-ésima posição no conjunto de dados colocados em ordem crescente ou decrescente. Md Md X X x x n 2 n1 2 x 2 n 1 2 22
Exemplo 1: Número de estacas de roseira enraizadas por 5 estacas Exemplo 2: Número de estacas de roseira enraizadas por 5 estacas X={ 0, 1, 0, 2, 0, 1, 0} Y={ 0, 1, 0, 2, 0, 1, 0, 0} Dados ordenados: 0, 0, 0, 0, 1, 1, 2 Dados ordenados: 0, 0, 0, 0, 0, 1, 1, 2 Md X = 0 Md Y = (0 + 0)/2 = 0 Resumindo: Se o número de observações é ímpar: é o valor do meio. Se o número de observações é par: é média dos 2 valores centrais. 23
Exemplo 1 Calcular a média e a mediana dos conjuntos de dados a seguir: a) {20, 10, 15, 9, 30, 12, 18, 32} ^ m^ a = 18,25 b) {20, 10, 15, 9, 30, 12, 18, 200} ^ ^ m b = 39,25 md a = 16,5 md b = 16,5 c) {20, 10, 15, 9, 30, 12, 18} m^ c = 16,28571 ^mdc = 15,0 A mediana é pouco afetada por valores extremos ou discrepantes, ou seja, a mediana é uma medida mais robusta do que a média aritmética. Além disso, representa melhor dados assimétricos. No software R: a<- c(20, 10, 15, 9, 30, 12, 18, 32) b<- c(20, 10, 15, 9, 30, 12, 18, 200) c<- c(20, 10, 15, 9, 30, 12, 18) sort(a); sort(b); sort(c) mean(a); mean(b); mean(c) median(a); median(b); median(c) max(a); max(b); max(c) min(a); min(b); min(c) Tarefa 1 1 ) Repira o Exercício 1 fazendo os cálculos com a planilha do Excel. 24
Caso só tenhamos acesso aos dados agrupados em uma tabela de distribuição de frequências em classes e não aos dados originais, podemos calcular a mediana a partir de uma ogiva. Ou então: Classe f f a f r (%) f ra (%) Inicialmente identifica-se o retângulo que deve conter a mediana. 40,0 50,0 8 8 16,0 16,0 50,0 60,0 22 30 44,0 60,0 60,0 70,0 8 38 16,0 76,0 70,0 80,0 6 44 12,0 88,0 80,0 90,0 5 49 10,0 98,0 90,0 100,0 1 50 2,0 100,0 % 0,44 Total 50-100,0-0,16 0,16 0,12 0,10 Usando a f ra (%) resulta que a mediana pertence ao intervalo [50; 60), uma vez que até o valor 60 acumulou-se 60% das observações. 0,02 40 50 60 70 80 90 100 25
Dentro deste intervalo necessita-se de uma área de 34%, que é o que falta para atingir o valor 50%. % 44% 44% 34% 10% 16% 16% 12% 10% 2% 40 50 60 70 80 90 100 50 Md 60 Com o uso de proporções, estabelece-se a seguinte igualdade: Md 50 60 50 X Md 0,34 0,44 X 57,73 26
Tarefa 2 Os dados a seguir mostram os resultados de 25 medidas de peso em kg efetuados em pacientes que consultaram em um posto de saúde. 63 73 70 64 77 72 79 76 62 69 73 75 65 71 67 74 75 69 61 71 73 67 72 70 62 a) Determinar a média, mediana e moda da amostra. b) Utilizando os mesmos dados, construa uma tabela de distribuição de frequências para os dados acima, considerando 6 classes. c) Em seguida, considere que você não tem mais acesso aos dados originais, desta maneira, obtenha baseado na tabela de frequências: a média, mediana e moda. Os valores são iguais? Porque isso ocorre? 27
c.2) Quartis Dividem um conjunto de dados em quatro partes iguais, isto é, 25% dos elementos deve estar em cada parte. Amostra ordenada 25% 50% 75% Q 1 Q 2 Q 3 em que: Q 1 = 1 o quartil, deixa 25% dos elementos; Q 2 = 2 o quartil, deixa 50% dos elementos (coincide com a mediana); Q 3 = 3 o quartil, deixa 75% dos elementos. 28
Tarefa 3 Para dados agrupados em Tabelas de frequência Determine o primeiro, segundo e terceiro quartil deste conjunto de dados, além do P 67. Tabela: Distribuição dos pesos dos pacientes X f f r f ac 61 64 4 0,16 0,16 64 67 2 0,08 0,24 67 70 4 0,16 0,40 70 73 6 0,24 0,64 73 76 6 0,24 0,88 76 79 3 0,12 1 Total 25 1 Q 1 = 67,19 Q 2 =? Q 3 = 74,38 P 67 =? 29
Como obter os quartis para dados não agrupados em tabelas? Os métodos usados para calcular os quartis têm pequenas diferenças (VIEIRA, 2012) Apresentaremos apenas dois deles: 30
a) Método dos quartis a.1) Conjunto com número ímpar de dados Os dados: X = {1, 2, 3, 4, 5, 5, 7, 9, 10} 1) Q 2 =? 1, 2, 3, 4, 5, 5, 7, 9, 10 2) Q 1 =? 3) Q 3 =? 1, 2, 3, 4 5, 7, 9, 10 Q 2 = 5 Q 1 = (2+3)/2 = 2,5 a.2) Conjunto com número par de dados Os dados: X = {1, 2, 2, 5, 5, 7, 8, 10, 11, 11} 1) Q 2 =? 1, 2, 2, 5, 5, 7, 8, 10, 11, 11 2) Q 1 =? 3) Q 3 =? 1, 2, 2, 2 5, 5 7, 8, 10, 11, 11 Q 2 = (5+7)/2 = 6 Q 1 = 2 Q 3 = (7+9)/2 = 8 Q 3 = 10 31
Para dados não agrupados (dados originais) E agora? Os dados a seguir mostram os resultados de 25 medidas de peso em kg efetuados em pacientes que consultaram em um posto de saúde. 63 73 70 64 77 72 79 76 62 69 73 75 65 71 67 74 75 69 61 71 73 67 72 70 62 Como determinar o primeiro, segundo e terceiro quartil deste conjunto de dados? Ordenando os dados: 61 62 62 63 64 65 67 67 69 69 70 70 71 71 72 72 73 73 73 74 75 75 76 77 79 n=25 Q 2 = n (13) = 71 Q 1 =? Q 3 =? 32
c.3) Decis Dividem um conjunto de dados em 10 partes iguais. 33
c.4) Percentis Permitem dividir o conjunto de dados em cem partes iguais, isto é, 1% dos elementos deve estar em cada parte. em que: P 1 = 1º percentil, deixa 1% dos elementos abaixo dele; P 2 = 2º percentil; deixa 2% dos elementos abaixo dele;... P 25 = 25º percentil, deixa 25% dos elementos abaixo dele (coincide com o Q 1 );... P 50 = 50º percentil, deixa 50% dos elementos abaixo dele(coincide com a M d );... P 75 = 75º percentil, deixa 75% dos elementos abaixo dele (coincide com o Q 3 );... P 99 = 99º percentil, deixa 99% dos elementos abaixo dele. 34
b) Método do maior inteiro O cálculo do percentil de ordem 100p (P 100p ) para dados não agrupados em tabelas é feito baseado na seguinte regra: Definição: Se n.p é inteiro: P 100 p x ( np) 2 x ( np1) n.p é não inteiro: P x 100 p (int[ np] 1) sendo: x (i) é a observação que ocupa a i-ésima posição no conjunto de dados colocados em ordem crescente ou decrescente; 0 < p < 1 ; n o tamanho da amostra; e int[.] é a função que arredonda um número para o inteiro mais próximo. 35
Tarefa 4 a) Considere o conjunto de dados da Tabela 1. Obtenha o percentil que separa a produção das 10% seringueiras mais produtivas das demais, utilize o método do maior inteiro. Tabela 1. Dados de produção de borracha seca por sangria, por seringueira, em g, na área A 10,2 10,2 10,3 10,6 10,8 11,0 11,6 11,8 11,9 12,0 20,3 20,3 21,9 22,0 22,2 22,4 22,8 23,3 23,5 23,8 14,0 14,9 15,2 15,3 15,3 15,4 15,8 16,0 16,2 16,3 24,2 24,5 24,6 24,9 25,1 25,5 26,0 26,3 26,8 28,1 16,9 17,7 18,1 18,3 18,4 18,7 19,6 19,8 19,9 20,0 12,4 12,6 12,6 12,8 12,8 13,0 13,1 13,2 13,4 13,5 Não esqueça de ordenar os dados!!! No software R: x<- c(10.2, 10.2, 10.3, 10.6, 10.8, 11.0, 11.6, 11.8, 11.9, 12.0, 20.3, 20.3, 21.9, 22.0, 22.2, 22.4, 22.8, 23.3, 23.5, 23.8, 14.0, 14.9, 15.2, 15.3, 15.3, 15.4, 15.8, 16.0, 16.2, 16.3, 24.2, 24.5, 24.6, 24.9, 25.1, 25.5, 26.0, 26.3, 26.8, 28.1, 16.9, 17.7, 18.1, 18.3, 18.4, 18.7, 19.6, 19.8, 19.9, 20.0, 12.4, 12.6, 12.6, 12.8, 12.8, 13.0, 13.1, 13.2, 13.4, 13.5) sort(x) b) Calcule também: Q 1, Q 2, Q 3, P 2,5 e P 97,5. Respostas: a) P 90 = 25,0; b) P 2,5 = 10,2 ; P 97,5 = 26,8 36
Assim, para o cálculo da: Moda: precisamos apenas da distribuição de frequências (contagem); Mediana: necessitamos minimamente ordenar as realizações da variável; Média: só pode ser calculada para variáveis quantitativas. É possível calcular moda, média e media para TODOS os tipos de variáveis? Estas condições limitam bastante o cálculo para variáveis qualitativas: Para as nominais somente podemos trabalhar com a moda; Para as ordinais, além da moda, podemos usar também a mediana. Daqui em diante, por este fato, iremos trabalhar com as variáveis quantitativas, que permitem o uso de operações aritméticas com seus valores. 37
Caracterização de uma distribuição por meio das medidas de posição (simetria e assimetria) 38
Avaliação de assimetria por média, mediana e moda Quando uma distribuição é simétrica, as três medidas coincidem freq. Quando os valores são diferentes a distribuição é assimétrica Assimétrica à esquerda Assimétrica à direita 39
Avaliação de assimetria por mediana e quartis Em distribuições dispersas os valores dos quartis e extremos ficam mais afastados da mediana. (a) Menor dispersão do que em (b) (b) Maior dispersão do que em (a) Em distribuições assimétricas, a distância entre a Md e Q 1 ou Min é diferente da distância entre Md e Q 3 ou Max. (c) Assimetria à direita (d) Assimetria à esquerda 40
50% das obs. Para uma distribuição simétrica ou aproximadamente simétrica, deveríamos ter: a) Q 2 x (1) x (n) Q 2, isto é, a dispersão inferior seja aproximadamente igual a dispersão superior. b) Q 2 Q 1 Q 3 Q 2 ; c) Q 1 x (1) x (n) Q 3 ; OBS: Os três primeiros itens são válidos para qualquer que seja a distribuição simétrica. Já o item d) é esperado para distribuições aproximadamente normais. d) Distâncias entre : Md e Q 1 ; e Md e Q 3 devem ser menores do que distâncias entre extremo (x (1) ) e Q 1, e extremo (x (n) ) e Q 3. Chamada de distribuição normal ou gaussiana x (1) Q 1 Q 2 Q 3 x (n) 41