Notas de Aula Estatística Elementar 10ª Edição by Mario F. Triola Tradução: Denis Santos Slide 1
Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados 3-1 Visão Geral 3-2 Medidas de Centro 3-3 Medidas de Dispersão 3-4 Medidas de Forma da Distribuição 3-5 Análise Exploratória de Dados (EDA) Slide 2
Seção 3-1 Visão Geral Created by Tom Wegleitner, Centreville, Virginia Slide 3
Visão Geral Estatísticas Descritivas resume ou descreve as características importantes de um conjunto de dados conhecido Estatística Inferencial usa dados amostrais para fazer inferências uma população (ou generalizações) sobre Slide 4
Seção 3-2 Medidas de Tendência Central Created by Tom Wegleitner, Centreville, Virginia Slide 5
Ponto Chave Quando descrevemos, exploramos e comparamos conjuntos de dados, estas características são geralmente extremamente importante: centro, variação, distribuição, outliers e mudanças ao longo do tempo Slide 6
Definição Medida de Tendência Central o valor localizado no centro (meio) de um conjunto de dados Slide 7
Definição Média Aritmética (média) a medida central obtida somando-se todos os valores e dividindo o total pela quantidade de valores Slide 8
Notação Σ denota a soma de um conjunto de valores. x é a variável geralmente usada para representar os valores individuais dos dados. n representa a quantidade de valores em uma amostra. N representa a quantidade de valores em uma população. Slide 9
Notação x Pronuncia-se x-barra e denota a média de um conjunto de valores amostrais x = Σ x n µ pronuncia-se mi e a média de todos os valores em uma população µ = Σ x N Slide 10
Definições Mediana é o valor central quando os valores originais são organizados em ordem ascendente ou descendente de magnitude geralmente denotada por x (pronuncia- se x-til ) Não é afetado por valores extremos ~ Slide 11
Encontrando a Mediana Se a quantidade de valores é ímpar, a mediana é o número localizado exatamente no centro da lista de valores ordenados. Se a quantidade de valores é par, a mediana é a média dos dois valores centrais. Slide 12
5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 (valores ordenados número par de valores sem valor central exato, média de dois números) 0.73 + 1.10 2 MEDIANA=0.915 5.40 1.10 0.42 0.73 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 (valores ordenados número ímpar de valores ) exact middle MEDIANA=0.73 Slide 13
Definições Moda é o valor que aparece com mais freqüência. Nem sempre é única. Um conjunto de dados pode ser: Bimodal Multimodal Sem Moda A moda é a única medida de tendência central que pode ser usada com dados nominais. Slide 14
Moda - Exemplos a. 5.40 1.10 0.42 0.73 0.48 1.10 b. 27 27 27 55 55 55 88 88 99 c. 1 2 3 6 7 8 9 10 Moda=1.10 Bimodal - 27 e 55 Sem moda Slide 15
Definição Ponto Médio é o valor no meio dos valores máximo e mínimo dos dados originais. Ponto Médio = Valor máximo + valor mínimo 2 Slide 16
Regra de Arredondamento para Medidas de Tendência Central Arredonde os valores com uma casa decimal a mais que os dados originais. Slide 17
Média de uma Distribuição de Freqüência Assume que em cada classe, todos os valores amostrais são iguais ao ponto médio. Slide 18
Média de uma Distribuição de Freqüência use o ponto médio de cada classe para a variável x Slide 19
Média Ponderada Em alguns casos, os valores têm grau de importância diferenciados, sendo então ponderados de acordo com esta importância. x = Σ (w x) Σ w Slide 20
Melhor Medida de Tendência Central Slide 21
Definições Simetria a distribuição de dados é dita simétrica se a metade esquerda de seu histograma é aproximadamente uma imagem especular de seu lado direito. Caso a distribuição se estende mais para um lado do que para o outro, ela é dita assimétrica. Slide 22
Assimetria Slide 23
Recapitulando Nesta seção nós estudamos: Tipos de Medidas de Centro Média Mediana Moda Média de uma distribuição de freqüência Médias ponderadas Melhor Medida de Centro Assimetria Slide 24
Seção 3-3 Medidas de Dispersão Created by Tom Wegleitner, Centreville, Virginia Slide 25
Ponto Chave Devido a esta seção introduzir o conceito de variação, que é crucial em estatística, esta pode ser considerada uma das seções mais importante deste livro. Priorize como interpretar valores de desvio padrão Slide 26
Definição A amplitude de um conjunto de dados é a diferença entre os valores máximo e mínimo. Amplitude = (valor máximo) (valor mínimo) Slide 27
Definição O desvio padrão de uma amostra é uma medida de dispersão dos valores em relação à média. Slide 28
Fórmula do Desvio Padrão Amostral Σ (x - x) 2 s = n - 1 Slide 29
Desvio Padrão Amostral (Fórmula Reduzida) s = nσ(x 2 ) - (Σx) 2 n (n - 1) Slide 30
Desvio Padrão - Propriedades Importantes O desvio padrão é uma medida de dispersão de todos os valores a partir da média. O valor do desvio padrão s é usualmente positivo. O valor do desvio padrão s pode aumentar drasticamente com a inclusão de um ou mais outliers. A unidade do desvio padrão s é a mesma dos dados originais. Slide 31
Desvio Padrão Populacional σ = 2 Σ (x - µ) N Esta fórmula é semelhante à anterior, porém utiliza a média e tamanho populacionais no lugar dos seus valores amostrais. Slide 32
Definição A variância de um conjunto de dados é uma medida de dispersão igual ao quadrado do desvio padrão. Variância amostral: Quadrado do desvio padrão amostral s Variância populacional: Quadrado do desvio padrão populacional σ Slide 33
Variância - Notação Desvio padrão ao quadrado Notação } s σ 2 2 Variância Amostral Variância Populacional Slide 34
Regra de Arredondamento para Medidas de Dispersão Arredonde os valores com uma casa decimal a mais que os dados originais. Arredonde apenas a resposta final, e não os valores cálculo intermediário. Slide 35
Estimação do Desvio Padrão Regra Empírica da Amplitude Para estimar o desvio padrão s, use s amplitude 4 onde amplitude = (valor máximo) (valor mínimo) Slide 36
Estimação do Desvio padrão Regra Empírica da Amplitude Para interpretar um valor conhecido do desvio padrão s, encontre uma estimativa robusta dos valores máximo e mínimo amostrais usuais usando: Valor Mínimo usual = (média) 2 X (Desvio padrão) Valor Máximo usual = (média) + 2 X (Desvio padrão) Slide 37
Definição Regra Empírica (68-95-99.7) Para conjuntos de dados com distribuição aproximadamente normal, a seguinte propriedade é válida: Aproximadamente 68% de todos os valores estão a 1 desvio padrão da média. Aproximadamente 95% de todos os valores estão a 2 desvios padrões da média. Aproximadamente 99.7% de todos os valores estão a 3 desvios padrões da média. Slide 38
Regra Empírica Slide 39
Regra Empírica Slide 40
Regra Empírica Slide 41
Definição Teorema de Chebyshev A proporção (ou fração) de qualquer conjunto de dados que se situa a K desvios padrões da média é sempre no mínimo 1-1/K 2, onde K é qualquer número inteiro positivo maior que 1. Para K = 2, no mínimo 3/4 (ou 75%) de todos os valores se localizam a 2 desvios padrões da média. Para K = 3, no mínimo 8/9 (ou 89%) de todos os valores se localizam a 3 desvios padrões da média. Slide 42
Razão para usar n-1 versus n No final da Seção 3-3 temos uma explicação detalhada de por que usase n 1 ao invés de n. Slide 43
Definição O coeficiente de variação (ou CV) de um conjunto de dados amostrais ou populacionais, expressado em percentual, descreve o desvio padrão em relação a média. amostr a população s CV = 100% CV = x σ 100% µ Slide 44
Recapitulando Nesta seção nós estudamos: Amplitude Desvio padrão de uma amostra ou população Variância de uma amostra ou população Regra empírica da amplitude Distribuição empírica Teorema de Chebyshev Coeficiente de variação (CV) Slide 45
Seção 3-4 Medidas de Forma da Distribuição Created by Tom Wegleitner, Centreville, Virginia Slide 46
Ponto Chave Esta seção introduz algumas medidas que podem ser usadas para comparar valores de diferentes conjuntos de dados, ou comparálos dentro do mesmo conjunto de dados. A mais importante destas medidas é o conceito de escore z. Slide 47
Definição Escore z (ou valor padronizado) é o número de desvios padrões um dado valor x está acima ou abaixo da média Slide 48
Medida de Posição Relativa Escore z amostra população z = x - x s z = x - µ σ Arredonde z com 2 casas decimais Slide 49
Interpretando Escore Z Sempre que um valor é menor que a média, seu z escore correspondente é negativo. Valores usuais : escore z entre 2 e 2 Valores não-usuais: escore z< -2 ou escore z > 2 Slide 50
Definição Q 1 (Primeiro Quartil) separa os 25% inferiores dos valores ordenados dos 75% superiores. Q 2 (Segundo Quartil) mesmo que a mediana; separa os 50% inferiores dos valores ordenados dos 50% superiores. Q 1 (Terceiro Quartil) separa os 75% inferiores dos valores ordenados dos 25% superiores. Slide 51
Quartis Q, Q, Q 1 2 3 Divide os valores ordenados em quatro partes iguais 25% 25% 25% 25% (mínimo) Q Q Q 1 2 3 (mediana) (máximo) Slide 52
Percentis Assim como há três quartis separando os dados em quatro partes, há também 99 percentis denominados P 1, P 2,... P 99, os quais dividem os dados em 100 grupos. Slide 53
Como Encontrar o Percentil de um Dado Valor Número de valores menores que x Percentil do valor x = 100 Número total de valores Slide 54
Convertendo o k-ésimo Percentil em seu Valor Correspondente Notação k L = n 100 n k L número total de valores no conjunto de dados percentil usado localizador que indica a posição de um valor P k k-ésimo percentil Slide 55
Convertendo o k-ésimo Percentil em seu Valor Correspondente Slide 56
Algumas Outras Estatísticas Intervalo Interquartílico (ou IIQ):Q 3 - Q 1 Intervalo Semi-interquartil : Midquartile: Q + Q 3 1 2 Q 3 - Q 1 2 10-90 Percentile amplitude: P 90 - P 10 Slide 57
Recapitulando Nesta seção nós estudamos: Escore z Escore z e valores não-usuais Quartis Percentis Convertendo um percentil no seu valor correspondente Outras estatísticas Slide 58
Seção 3-5 Análise Exploratória de Dados (AED) Created by Tom Wegleitner, Centreville, Virginia Slide 59
Ponto Chave Esta seção discute outliers, então introduz um novo gráfico estatístico chamado boxplot, o qual é útil para visualização da distribuição dos dados. Slide 60
Definição Análise Exploratória de Dados (AED) é o processo de utilizar ferramentas estatísticas (tais como gráficos, medidas de centro e medidas de dispersão) para investigação de conjuntos de dados com o objetivo de se compreenderem suas importantes características Slide 61
Definição Um outlier é um valor que está localizado muito afastado de quase todos os demais valores. Slide 62
Princípios Importantes Um outlier pode ter um efeito dramático sobre a média. Um outlier pode ter um efeito dramático sobre o desvio padrão. Um outlier pode ter um efeito dramático sobre a escala de um histograma, de modo que a real natureza de sua distribuição ser totalmente obscurecida. Slide 63
Definições Para um conjunto de dados, o resumo dos 5 números consiste no valor mínimo; no primeiro quartil Q 1 ; na mediana (ou segundo quartil Q 2 ); no terceiro quartil, Q 3 ; e no valor máximo. Um boxplot ( ou diagrama de caixa) é um gráfico de um conjunto de dados que consiste em uma linha que se estende do valor mínimo ao valor máximo, e uma caixa com linhas traçadas no primeiro quartil, Q 1, na mediana, e no terceiro quartil, Q 3. Slide 64
Boxplots Slide 65
Boxplots - cont Slide 66
Boxplots - cont Slide 67
Boxplots - cont Slide 68
Boxplots Modificados Alguns pacotes estatísticos fornecem boxplots modificados os quais representam outliers com pontos especiais. Um valor é um outlier se ele está acima de Q 3 por uma quantidade maior que 1.5 X IIQ ou abaixo de Q 1 por uma quantidade menor que 1.5 X IIQ Slide 69
Construção de um Boxplot Modificado Um boxplot modificado é construído com estas especificações: Um símbolo especial (tal como um asterisco) é usado para identificar os outliers. A linha horizontal sólida se estende apenas até onde o valor mínimo que não é outlier e até o valor máximo que também não é outlier. Slide 70
Boxplots Modificado - Exemplo Slide 71
Recapitulando Nesta seção nós estudamos: Análise Exploratória de Dados Efeitos dos outliers resumo dos cinco números Boxplots e boxplots modificados Slide 72