Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Documentos relacionados
Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

3 Estatística p/ Descrição, Exploração e Comparação de Dados (Triola 10 a ed.)

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

AULA 01 Estatísticas Descritivas

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

Medidas de Variação ou Dispersão

Elementos de Estatística

Capítulo 5 Distribuições de Probabilidades. Seção 5-1 Visão Geral. Visão Geral. distribuições de probabilidades discretas

AULA 01 Introdução e estatísticas descritivas

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

2. Estatística Descritiva

Medidas de dispersão. 23 de agosto de 2018

Notas de Aula. Copyright 2007 Pearson Education, Inc Publishing as Pearson Addison-Wesley.

Métodos Estocásticos da Engenharia II

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Capítulo 2 Resumindo Dados e Gráficos. Seção 2-1 Visão Geral. Visão Geral Características Importantes dos Dados

Fernando de Pol Mayer

Estatística Descritiva

Eng a. Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Análise Exploratória e Estimação PARA COMPUTAÇÃO

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

MÉTODOS QUANTITATIVOS APLICADOS. Prof. Danilo Monte-Mor

Medida de Tendência Central

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

Análise Descritiva de Dados

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Medidas de Posição ou Tendência Central

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

Estatística descritiva

x n 3.3. Medidas descritiva de variáveis quantitativas: Medidas de Posição: Considere uma amostra com n observações: x 1, x 2,..., x n.

Prof. Dr. Engenharia Ambiental, UNESP

Seção 2.3 Uma Variável Quantitativa: Medidas de Dispersão

AULAS 04 E 05 Estatísticas Descritivas

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

Estatística Descritiva

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

Distribuição de frequências:

Probabilidade e Estatística

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Estatística e Probabilidade

Unidade III Medidas Descritivas

Métodos Experimentais em Ciências Mecânicas

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo

Estatísticas Descritivas. Estatística

Medidas Estatísticas NILO FERNANDES VARELA

Estatística Descritiva

Estatística Descritiva

Estatística Aplicada a Negócios

Estatística I Aula 3. Prof.: Patricia Maria Bortolon, D. Sc.

Estatística

Tutorial para o desenvolvimento das Oficinas

Seção 2.1. Distribuições de freqüência e seus gráficos

Estatística Descritiva. Prof. Paulo Cesar F. de Oliveira, BSc, PhD

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

Morgana Pizzolato, Dr a. Aula 02 Revisão de Estatística DPS1037 SISTEMAS DA QUALIDADE II ENGENHARIA DE PRODUÇÃO CT/UFSM

Módulo III Medidas de Tendência Central ESTATÍSTICA

Introdução à Bioestatística

Revisão de estatística descritiva

Medidas resumo numéricas

Estatística Descritiva

ENGENHARIA DA QUALIDADE A ENG AULA 2 REVISÃO DE ESTATÍSTICA

UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Aula 4: Medidas Resumo

SCC0173 Mineração de Dados Biológicos

Capítulo 4 Inferência Estatística

SUMÁRIO. 1.1 Introdução, Conceitos Fundamentais, 2

Conceitos básicos Revisão de estatística descritiva

Bioestatística. October 28, UFOP October 28, / 57

Estatística 1. Resumo Teórico

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO


Revisão de estatística descritiva

Para caracterizar um conjunto de dados é importante não só a média, mas também a dispersão dos valores em torno da média

Cap. 6 Medidas descritivas

ESTATÍSTICA. June 4, UFOP June 4, / 87

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

AULA 07 Inferência a Partir de Duas Amostras

Stela Adami Vayego DEST/UFPR

Introdução à probabilidade e estatística I

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Estatística Descritiva (I)

Estatística Descritiva (I)

n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

André Arruda e Rafael Medeiros

Estatística Computacional Profª Karine Sato da Silva

MEDIDAS DE DISPERSÃO. Os dados a seguir referem-se ao índice pluviométrico de três cidades no Estado de São Paulo, em 3 diferentes ocasiões

Sumário. Estatistica.indb 11 16/08/ :47:41

ESTATÍSTICA DESCRITIVA

Estatística Descritiva

Representação de dados

MEDIDAS DE TENDÊNCIA CENTRAL

SS714 - Bioestatística

Medidas de tendência central,dispersão, posição, associação e boxplot

Inferência Estatística. Medidas de Tendência Central Medidas de Variação Medidas de Posição

Transcrição:

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados 3-1 Visão Geral 3-2 Medidas de Centro 3-3 Medidas de Dispersão 3-4 Medidas de Forma da Distribuição 3-5 Análise Exploratória de Dados (EDA) Slide 2 Seção 3-1 Visão Geral 1 Created by Tom Wegleitner, Centreville, Virginia Slide 3 Visão Geral Estatísticas Descritivas resume ou descreve as características importantes de um conjunto de dados conhecido Estatística Inferencial usa dados amostrais para fazer inferências (ou generalizações) sobre uma população Slide 4

Seção 3-2 Medidas de Tendência Central Created by Tom Wegleitner, Centreville, Virginia Slide 5 Ponto Chave Quando descrevemos, exploramos e comparamos conjuntos de dados, estas características são geralmente extremamente importante: centro, variação, distribuição, outliers e mudanças ao longo do tempo 2 Slide 6 Medida de Tendência Central o valor localizado no centro (meio) de um conjunto de dados Slide 7

Média Aritmética (média) a medida central obtida somando-se todos os valores e dividindo o total pela quantidade de valores Slide 8 Notação Σ denota a soma de um conjunto de valores. x é a variável geralmente usada para representar os valores individuais dos dados. n representa a quantidade de valores em uma amostra. 3 N representa a quantidade de valores em uma população. Slide 9 x Notação Pronuncia-se x-barra e denota a média de um conjunto de valores amostrais x = Σ x n µ pronuncia-se mi e a média de todos os valores em uma população µ = Σ x N Slide 10

Mediana Definições é o valor central quando os valores originais são organizados em ordem ascendente ou descendente de magnitude geralmente denotada por x ~ (pronunciase x-til ) Não é afetado por valores extremos Slide 11 Encontrando a Mediana Se a quantidade de valores é ímpar, a mediana é o número localizado exatamente no centro da lista de valores ordenados. Se a quantidade de valores é par, a mediana é a média dos dois valores centrais. 4 Slide 12 5.40 1.10 0.42 0.73 0.48 1.10 0.42 0.48 0.73 1.10 1.10 5.40 (valores ordenados número par de valores sem valor central exato, média de dois números) 0.73 + 1.10 2 MEDIANA=0.915 5.40 1.10 0.42 0.73 0.48 1.10 0.66 0.42 0.48 0.66 0.73 1.10 1.10 5.40 (valores ordenados número ímpar de valores ) exact middle MEDIANA=0.73 Slide 13

Moda Definições é o valor que aparece com mais freqüência. Nem sempre é única. Um conjunto de dados pode ser: Bimodal Multimodal Sem Moda A moda é a única medida de tendência central que pode ser usada com dados nominais. Slide 14 Moda - Exemplos a. 5.40 1.10 0.42 0.73 0.48 1.10 b. 27 27 27 55 55 55 88 88 99 c. 1 2 3 6 7 8 9 10 Moda=1.10 Bimodal - 27 e 55 Sem moda 5 Slide 15 Ponto Médio é o valor no meio dos valores máximo e mínimo dos dados originais. Ponto Médio = Valor máximo + valor mínimo 2 Slide 16

Regra de Arredondamento para Medidas de Tendência Central Arredonde os valores com uma casa decimal a mais que os dados originais. Slide 17 Média de uma Distribuição de Freqüência Assume que em cada classe, todos os valores amostrais são iguais ao ponto médio. 6 Slide 18 Média de uma Distribuição de Freqüência use o ponto médio de cada classe para a variável x Slide 19

Média Ponderada Em alguns casos, os valores têm grau de importância diferenciados, sendo então ponderados de acordo com esta importância. x = Σ (w x) Σ w Slide 20 Melhor Medida de Tendência Central 7 Slide 21 Simetria Definições a distribuição de dados é dita simétrica se a metade esquerda de seu histograma é aproximadamente uma imagem especular de seu lado direito. Caso a distribuição se estende mais para um lado do que para o outro, ela é dita assimétrica. Slide 22

Assimetria Slide 23 Recapitulando Nesta seção nós estudamos: Tipos de Medidas de Centro Média Mediana Moda Média de uma distribuição de freqüência 8 Médias ponderadas Melhor Medida de Centro Assimetria Slide 24 Seção 3-3 Medidas de Dispersão Created by Tom Wegleitner, Centreville, Virginia Slide 25

Ponto Chave Devido a esta seção introduzir o conceito de variação, que é crucial em estatística, esta pode ser considerada uma das seções mais importante deste livro. Priorize como interpretar valores de desvio padrão Slide 26 A amplitude de um conjunto de dados é a diferença entre os valores máximo e mínimo. Amplitude = (valor máximo) (valor mínimo) 9 Slide 27 O desvio padrão de uma amostra é uma medida de dispersão dos valores em relação à média. Slide 28

Fórmula do Desvio Padrão Amostral s = Σ (x - x) 2 n - 1 Slide 29 Desvio Padrão Amostral (Fórmula Reduzida) s = nσ(x 2 ) - (Σx) 2 n (n - 1) 10 Slide 30 Desvio Padrão - Propriedades Importantes O desvio padrão é uma medida de dispersão de todos os valores a partir da média. O valor do desvio padrão s é usualmente positivo. O valor do desvio padrão s pode aumentar drasticamente com a inclusão de um ou mais outliers. A unidade do desvio padrão s é a mesma dos dados originais. Slide 31

Desvio Padrão Populacional σ = 2 Σ (x - µ) N Esta fórmula é semelhante à anterior, porém utiliza a média e tamanho populacionais no lugar dos seus valores amostrais. Slide 32 A variância de um conjunto de dados é uma medida de dispersão igual ao quadrado do desvio padrão. Variância amostral: Quadrado do desvio padrão amostral s 11 Variância populacional: Quadrado do desvio padrão populacional σ Slide 33 Variância - Notação Desvio padrão ao quadrado Notação } s σ 2 2 Variância Amostral Variância Populacional Slide 34

Regra de Arredondamento para Medidas de Dispersão Arredonde os valores com uma casa decimal a mais que os dados originais. Arredonde apenas a resposta final, e não os valores cálculo intermediário. Slide 35 Estimação do Desvio Padrão Regra Empírica da Amplitude Para estimar o desvio padrão s, use amplitude s 4 12 onde amplitude = (valor máximo) (valor mínimo) Slide 36 Estimação do Desvio padrão Regra Empírica da Amplitude Para interpretar um valor conhecido do desvio padrão s, encontre uma estimativa robusta dos valores máximo e mínimo amostrais usuais usando: Valor Mínimo usual = (média) 2 X (Desvio padrão) Valor Máximo usual = (média) + 2 X (Desvio padrão) Slide 37

Regra Empírica (68-95-99.7) Para conjuntos de dados com distribuição aproximadamente normal, a seguinte propriedade é válida: Aproximadamente 68% de todos os valores estão a 1 desvio padrão da média. Aproximadamente 95% de todos os valores estão a 2 desvios padrões da média. Aproximadamente 99.7% de todos os valores estão a 3 desvios padrões da média. Slide 38 Regra Empírica 13 Slide 39 Regra Empírica Slide 40

Regra Empírica Slide 41 Teorema de Chebyshev A proporção (ou fração) de qualquer conjunto de dados que se situa a K desvios padrões da média é sempre no mínimo 1-1/K 2, onde K é qualquer número inteiro positivo maior que 1. Para K = 2, no mínimo 3/4 (ou 75%) de todos os valores se localizam a 2 desvios padrões da média. Para K = 3, no mínimo 8/9 (ou 89%) de todos os valores se localizam a 3 desvios padrões da média. 14 Slide 42 Razão para usar n-1 versus n No final da Seção 3-3 temos uma explicação detalhada de por que usase n 1 ao invés de n. Slide 43

O coeficiente de variação (ou CV) de um conjunto de dados amostrais ou populacionais, expressado em percentual, descreve o desvio padrão em relação a média. amostr a s CV = 100% x CV = população σ 100% µ Slide 44 Recapitulando Nesta seção nós estudamos: Amplitude Desvio padrão de uma amostra ou população Variância de uma amostra ou população Regra empírica da amplitude Distribuição empírica Teorema de Chebyshev Coeficiente de variação (CV) 15 Slide 45 Seção 3-4 Medidas de Forma da Distribuição Created by Tom Wegleitner, Centreville, Virginia Slide 46

Ponto Chave Esta seção introduz algumas medidas que podem ser usadas para comparar valores de diferentes conjuntos de dados, ou comparálos dentro do mesmo conjunto de dados. A mais importante destas medidas é o conceito de escore z. Slide 47 Escore z (ou valor padronizado) é o número de desvios padrões um dado valor x está acima ou abaixo da média 16 Slide 48 Medida de Posição Relativa Escore z amostra população z = x - x s z = x - µ σ Arredonde z com 2 casas decimais Slide 49

Interpretando Escore Z Sempre que um valor é menor que a média, seu z escore correspondente é negativo. Valores usuais : escore z entre 2 e 2 Valores não-usuais: escore z< -2 ou escore z > 2 Slide 50 Q 1 (Primeiro Quartil) separa os 25% inferiores dos valores ordenados dos 75% superiores. Q 2 (Segundo Quartil) mesmo que a mediana; separa os 50% inferiores dos valores ordenados dos 50% superiores. 17 Q 1 (Terceiro Quartil) separa os 75% inferiores dos valores ordenados dos 25% superiores. Slide 51 Quartis Q 1, Q 2, Q 3 Divide os valores ordenados em quatro partes iguais 25% 25% 25% 25% (mínimo) Q 1 Q 2 Q 3 (mediana) (máximo) Slide 52

Percentis Assim como há três quartis separando os dados em quatro partes, há também 99 percentis denominados P 1, P 2,... P 99, os quais dividem os dados em 100 grupos. Slide 53 Como Encontrar o Percentil de um Dado Valor Número de valores menores que x Percentil do valor x = 100 Número total de valores 18 Slide 54 Convertendo o k-ésimo Percentil em seu Valor Correspondente Notação L = k 100 n n número total de valores no conjunto de dados k percentil usado L localizador que indica a posição de um valor P k k-ésimo percentil Slide 55

Convertendo o k-ésimo Percentil em seu Valor Correspondente Slide 56 Algumas Outras Estatísticas Intervalo Interquartílico (ou IIQ):Q 3 - Q 1 Q Intervalo Semi-interquartil : 3 - Q 1 2 Midquartile: Q 3 + Q 1 2 10-90 Percentile amplitude: P 90 - P 10 19 Slide 57 Recapitulando Nesta seção nós estudamos: Escore z Escore z e valores não-usuais Quartis Percentis Convertendo um percentil no seu valor correspondente Outras estatísticas Slide 58

Seção 3-5 Análise Exploratória de Dados (AED) Created by Tom Wegleitner, Centreville, Virginia Slide 59 Ponto Chave Esta seção discute outliers, então introduz um novo gráfico estatístico chamado boxplot, o qual é útil para visualização da distribuição dos dados. 20 Slide 60 Análise Exploratória de Dados (AED) é o processo de utilizar ferramentas estatísticas (tais como gráficos, medidas de centro e medidas de dispersão) para investigação de conjuntos de dados com o objetivo de se compreenderem suas importantes características Slide 61

Um outlier é um valor que está localizado muito afastado de quase todos os demais valores. Slide 62 Princípios Importantes Um outlier pode ter um efeito dramático sobre a média. Um outlier pode ter um efeito dramático sobre o desvio padrão. Um outlier pode ter um efeito dramático sobre a escala de um histograma, de modo que a real natureza de sua distribuição ser totalmente obscurecida. 21 Slide 63 Definições Para um conjunto de dados, o resumo dos 5 números consiste no valor mínimo; no primeiro quartil Q 1 ; na mediana (ou segundo quartil Q 2 ); no terceiro quartil, Q 3 ; e no valor máximo. Um boxplot ( ou diagrama de caixa) é um gráfico de um conjunto de dados que consiste em uma linha que se estende do valor mínimo ao valor máximo, e uma caixa com linhas traçadas no primeiro quartil, Q 1, na mediana, e no terceiro quartil, Q 3. Slide 64

Boxplots Slide 65 Boxplots - cont 22 Slide 66 Boxplots - cont Slide 67

Boxplots - cont Slide 68 Boxplots Modificados Alguns pacotes estatísticos fornecem boxplots modificados os quais representam outliers com pontos especiais. Um valor é um outlier se ele está ou acima de Q 3 por uma quantidade maior que 1.5 X IIQ abaixo de Q 1 por uma quantidade menor que 1.5 X IIQ 23 Slide 69 Construção de um Boxplot Modificado Um boxplot modificado é construído com estas especificações: Um símbolo especial (tal como um asterisco) é usado para identificar os outliers. A linha horizontal sólida se estende apenas até onde o valor mínimo que não é outlier e até o valor máximo que também não é outlier. Slide 70

Boxplots Modificado - Exemplo Slide 71 Recapitulando Nesta seção nós estudamos: Análise Exploratória de Dados Efeitos dos outliers 24 resumo dos cinco números Boxplots e boxplots modificados Slide 72