Prof. Lorí Viali, Dr.

Documentos relacionados
Apresentação Caule e Folha. Exemplo. Ramo e Folha. Análise Exploratória de Dados

Apresentação Caule e Folha. Exemplo

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Estatística para Cursos de Engenharia e Informática

Stela Adami Vayego DEST/UFPR

Aula 4: Medidas Resumo

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Ferramentas da Qualidade UDESC/CCT

REPRESENTAÇÃO GRÁFICA E INTERPRETAÇÃO DE DADOS

Cap. 6 Medidas descritivas

Gráfico de Pareto. Ferramentas da Qualidade

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Estatística

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPTO. DE ESTATÍSTICA LISTA 1-BIOESTATÍSTICA II (CE020)

Escola Superior de Agricultura Luiz de Queiroz Universidade de São Paulo. Estatística Descritiva

2. Faça cada um dos cálculos indicados a seguir, apresentando os resultados com

Lista de Exercícios Cap. 2

BIOESTATÍSTICA AULA 2. Anderson Castro Soares de Oliveira Jose Nilton da Cruz. Departamento de Estatística/ICET/UFMT

3 Estatística p/ Descrição, Exploração e Comparação de Dados (Triola 10 a ed.)

Capítulo 1. Análise Exploratória de Dados

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Engenharia da Qualidade I Aula 4

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Tutorial para o desenvolvimento das Oficinas

Sumário. Introdução } 24/05/16 } 1. } Estatística: ciência que trata da coleta, processamento e disposição de dados.

Estatística Descritiva

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

Estatística Descritiva

Bioestatística Aula 2

Revisão de estatística descritiva

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Revisão de estatística descritiva

TADI Tratamento e Análise de Dados/Informações Prof. Camilo Rodrigues Neto

Medidas de Posição ou Tendência Central

Introdução à Estatística Estatística Descritiva 22

Estatística Descritiva

Seção 2.3 Uma Variável Quantitativa: Medidas de Dispersão

Lista de exercicios 1 Prof.: Marcus Guimaraes Disciplina: Introdução a Estatística Econômica

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

PROBABILIDADE E ESTATÍSTICA. Profa. Dra. Yara de Souza Tadano

Representação de dados

Seção 2.1. Distribuições de freqüência e seus gráficos

Descrevendo Distribuições com Números TADI

SCC0173 Mineração de Dados Biológicos

Distribuição Normal. Apontamentos para a disciplina de Estatística I. Tomás da Silva, 2003/2006

Unidade III Medidas Descritivas

CC-226 Introdução à Análise de Padrões

MAE Estatística Descritiva - 1 o semestre de 2017 Professora: Márcia D Elia Branco Gabarito - Lista 1. x i = 19, 01 (1) x = 1 15

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: medidas resumo Nome: GABARITO

Estatística-2018/2. Turma: Geografia

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

Domingo Braile FAMERP & UNICAMP

1. ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

GET00116 Fundamentos de Estatística Aplicada Gabarito da Lista de exercícios Estatística Descritiva Profa. Ana Maria Lima de Farias

Análise de dados em Geociências

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Análise exploratória de dados

Métodos Experimentais em Ciências Mecânicas

DIAGRAMA DE PARETO GRUPO: ALEX DO AMARAL ALISSON FELIPE ANTONIO SILVINO

Estatística Computacional Profª Karine Sato da Silva

Elementos de Estatística

ESTATÍSTICA PARA GEOGRAFIA AULA DE 23/08/2017

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Amostragem Aleatória e Descrição de Dados - parte II

LISTA DE EXERCÍCIOS 1 INE PROF. MARCELO MENEZES REIS ANÁLISE EXPLORATÓRIA DE DADOS GABARITO

Sintetizando dados qualitativos e quantitativos

Estatística Descritiva

Prof. Lorí Viali, Dr.

Capítulo 2 Resumindo Dados e Gráficos. Seção 2-1 Visão Geral. Visão Geral Características Importantes dos Dados

Fernando de Pol Mayer

Introdução à probabilidade e estatística I

PLANO CURRICULAR DISCIPLINAR. MATEMÁTICA 7º Ano

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

DIAGRAMA DE PARETO. Agenda 05/10/2017

Encontre o conjunto solução de cada uma das inequações a seguir: 6 x

Estatística Aplicada

ESTATÍSTICA. Tabelas e Gráficos. Elisabeti Kira - IME USP. Beti Kira (IME-USP) Estatística 18.abril.

PARTE II ANÁLISE INICIAL DE DADOS

Conceitos básicos Revisão de estatística descritiva

Elementos de Estatística

Errata. Mattos/Konrath/Azambuja Introdução à Estatística - Aplicações em Ciências Exatas 1ª Edição/2017 1ª Impressão

1 2 3 Média (kg) Desvio Padrão (kg) 10 3,3 11

Aula 2 Planejamento e Análise de Experimentos

Introdução à análise exploratória de dados

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

Agrupamento de Escolas de Águeda Escola Básica Fernando Caldeira

Métodos Estocásticos da Engenharia II

DISCIPLINA: ESTATÍSTICA I (CÓD. ENEC60015) PERÍODO: 3º PERÍODO

à Análise de Padrões

Ensino de Estatística. Tratamento da Informação. Ensino de Estatística Profs. L. Bessegato e R. Bastos Estatística/ UFJF 1.

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

2 - Gráfico de Caixa - BoxPlot

1. Registou-se o número de assoalhadas de 100 apartamentos vendidos num bairro residencial

Transcrição:

Prof. Lorí Viali, Dr. viali@mat.ufrgs.br http://www.mat.ufrgs.br/~viali/

Análise Exploratória de Dados As técnicas de análise exploratória de dados consistem em gráficos simples de desenhar que podem ser utilizados para resumir rapidamente um conjunto de dados. Uma destas técnicas é uma forma de apresentação de dados conhecida como Caule e Folha.

Apresentação Caule e Folha Para ilustrar esta forma de apresentação vamos supor que o conjunto a seguir é o resultado de um teste do tipo Psicotécnico de 100 questões aplicados a 40 candidatos a um emprego em uma grande organização industrial.

Exemplo Resultado de um teste do tipo Psicotécnico de 100 questões aplicados a 40 candidatos. 44 53 67 89 98 37 60 55 48 88 47 65 82 85 90 74 41 61 72 73 77 81 60 89 52 90 62 64 66 59 50 65 50 40 93 79 55 49 56 73

Ramo e Folha 3 7 4 0 1 4 7 8 9 9 5 0 0 2 3 5 5 6 9 6 0 0 1 2 4 5 5 6 7 7 2 3 3 3 4 7 9 8 1 2 5 5 8 8 9 9 0 0 3 8

Girando a representação 90 graus tem-se um diagrama semelhante a um histograma. Esta representação possui duas vantagens sobre o histograma: É mais fácil de construir; Apresenta os dados reais.

Exercício Faça um representação utilizando a dezena como unidade de folha. 1565 1790 1644 1679 2008 1675 1900 1832 1756 1766 1580 1945 1733 1922 1854 1975 1870 1812 1954 1888 1634 1785 1855 2044 1965

BoxPlot Caixa e Bigode Outra forma de ter uma idéia do conjunto de dados é utilizar a regra dos cinco itens. Nem sempre a média e o desvio padrão são as melhores alternativas para resumir um conjunto de dados.

A média e o desvio padrão podem sofrer forte influência de valores extremos e além disso não fornecem uma idéia da assimetria do conjunto de dados. Como alternativa as seguintes cinco medidas são sugeridas (Tukey, 1977):

(i) A mediana; (ii) Os extremos (máximo e mínimo); (iii) Os quartis. Estas cinco medidas são denominadas de estatísticas de ordem e são resistentes de posição de uma distribuição.

Representação A informação fornecida por estes cinco números pode ser representada em um diagrama denominado de Diagrama Caixa e Bigode (BoxPlot). O desenho fornece uma idéia da posição, dispersão, assimetria e dados discrepantes do conjunto (outliers).

Traçar um retângulo tendo como extremos os quartis e englobando a mediana. Calcular a distância interquartil, isto é: D Q = Q 3 Q 1 Determinar os limites dos pontos discrepantes: Q 1 1,5 D Q Q 3 + 1,5 D Q

Qualquer valor abaixo de Q1 1,5 DQ ou acima de Q3 + 1,5 DQ será considerado um valor discrepante (outlier). Para obter o diagrama caixa e bigode (boxplot) traçar duas linhas a partir do centro do retângulo e em lados opostos até o último ponto do conjunto que não seja um ponto discrepante.

BoxPlot Q 1-1,5D Q D Q Q 3 +1,5D Q x x x Q 1 Q 2 Q 3

Exemplo Obtenha o diagrama Caixa e Bigode para o número de paradas semanais para manutenção de uma máquina. 3 5 7 5 3 6 8 5 2 4 5 5 6 9 8 6 8 1 7 12 4 8 7 4 6

Exemplo Os cinco valores são: Mínimo 1 Quartil um 4 Mediana 6 Quartil três 7 Os demais são: D 7 4 = 3 Q 1-1,5D -0,5 Q 3 + 1,5D 11,5 Outlier 12 Máximo 12

BoxPlot -0,5=Q -1,5D Q 1 D Q = 3 Q 3 +1,5D Q = 11,5 1 9 12 Q 1 = 4 Q 2 = 6 = 7 Q 3

Wilfredo Pareto O Diagrama de Pareto é uma homenagem ao engenheiro, filósofo, sociólogo e economista italiano Vilfredo Frederico Samaso Pareto (1848-1923). Pareto foi um dos pioneiros na aplicação de análises matemáticas ao estudo dos fenômenos sócio-econômicos.

Wilfredo enunciou, em 1897, o que passou a ser conhecido como Principio de Pareto que afirma: 80% das dificuldades tem origem em 20% dos problemas. Este principio poderia ser colocado como existem muitos itens triviais mas poucos vitais.

Diagrama O Diagrama de Pareto é um gráfico de colunas simples, onde a variável está em ordem de importância freqüência de ocorrência ou custo) dos problemas ou defeitos.

Diagrama Normalmente o diagrama envolve a freqüência simples combinada com a freqüência acumulada em um único gráfico. É, também, comum a colocação de um sistemas de eixos X Y auxiliares.

Exemplo Diagrama de Pareto E 44 0,3 B 39 0,57 C 140 35 0,81 F 120 12 0,89 D 8 0,95 A 100 3 0,97 H 803 0,99 I 2 60 1 Número de erros 40 20 Vitais Triviais 1 0,75 0,5 0,25 0 E B C F D A H I Tipo de erro 0

Exercício Considerando os dados sobre o Número de defeitos numa linha de produção de azulejos, construa o Diagrama de Pareto para a distribuição dada.

Defeitos Número de Azulejos Desenho 71 Esmalte 95 Lascado 97 Maior 70 Menor 83 Torto 57 Trincado 27 Total 500

Solução Ordenando as freqüências dadas e calculando as freqüências relativas e relativas acumuladas, tem-se:

Ordenando as freqüências, tem-se: Defeitos Número de Azulejos Lascado 97 Esmalte 95 Menor 83 Desenho 71 Maior 70 Torto 57 Trincado 27 Total 500

Calculando as demais freqüências: Defeitos % de azulejos Freq. acumulada Lascado 19,4 19,4 Esmalte 19,0 38,4 Menor 16,6 55,0 Desenho 14,2 69,2 Maior 14,0 83,2 Torto 11,4 94,6 Trincado 5,4 100,0 Total 100 ----

Diagrama de Pareto 20 18 16 14 12 10 8 6 4 2 0 80% 20% Lascado Esmalte Menor Desenho Maior Torto Trincado 100 90 80 70 60 50 40 30 20 10 0

Posições Relativas A média e o desvio padrão são as duas principais medidas utilizadas para descrever um conjunto de dados. Elas, também, podem ser utilizadas para comparações, isto é, para fornecer a posição relativa de um valor em relação ao conjunto como um todo.

O escore z Seja (x 1, x 2,..., x n ) uma amostra de n observações. Sejam x e s a média e o desvio padrão da amostra. Então o escore z i é o valor que fornece a posição relativa de cada x i da amostra, tendo como ponto de referência a média e como medida de afastamento o desvio padrão.

O escore z zi= x i - s x O escore z fornece o número de desvios padrão que cada valor está acima ou abaixo da média. O escore 1,5, significa que este valor está um desvio e meio abaixo da média.

O escore Z é também uma variável, que é obtida pela transformação da amostra original. Ela apresenta média igual a zero e desvio padrão igual a um.

Exemplo Considere o seguinte amostra: 36 39 38 41 45 44 35 48 35 40 40 40 36 41 37 38 37 39 39 44 42 42 39 43 42 41 39 41 35 40 44 36 40 37 40 36 39 47 40 43 34 45 38 42 46 41 43 37 38 38

7 6 5 Assimetria= 0,33 Curtose= - 0,37 4 3 2 1 0 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48

Calcular os escores z para cada valor da amostra. Representar os valores da amostras e os escores em diagramas para verificar se houve alteração no formato da distribuição dos dados.

Solução: A média e o desvio padrão da amostra são: 40 e 3,2619. Então os escores padronizados serão: 0,3066 0,9197-0,9197-0,6131-0,6131-1,2263-0,3066-0,6131 0,3066 1,5328 1,2263-1,5328 2,4526-1,5328 0,0000 0,0000 0,0000-1,2263 0,3066-0,9197-0,6131-0,9197-0,3066-0,3066 1,2263 0,6131 0,6131-0,3066 0,9197 0,6131 0,3066-0,3066 0,3066-1,5328 0,0000 1,2263-1,2263 0,0000-0,9197 0,0000-1,2263-0,3066 2,1460 0,0000 0,9197-1,8394 1,5328-0,6131 0,6131 1,8394

7 6 5 Assimetria= 0,37 Curtose= - 0,31 4 3 2 1 0-1,84-1,23-0,61 0,00 0,61 1,23 1,84 2,45

Propriedades A média do escore padronizado é zero; O desvio padrão do escore padronizado é um. A forma da distribuição do escore padronizado é a mesma dos dados originais.

Escalas O escore Z não é utilizado normalmente da forma como é calculado. É comum a utilização de uma escala linear de transformação. As duas mais utilizadas são:

Escalas A escala T que é obtida através da seguinte transformação T = 10.Z + 50 A escala A que é utilizada nos vestibulares é obtida por: A = 100.Z + 500

Teorema de Chebyshev O teorema de Chebyshev permite verificar qual é o percentual mínimo de valores de um conjunto de dados que deve estar um certo número de desvios em torno da média.

Em qualquer conjunto de dados com desvio padrão s, pelo menos (1 1/z 2 ) dos valores do conjunto devem estar entre z desvios em torno da média, onde z é um valor tal que z > 1.

Exemplos: Assim pelo menos: 75% dos valores estão dentro de z = 2 desvios a partir da média; 89% dos valores estão dentro de z = 3 desvios a contar da média; 94% dos valores estão dentro de z = 4 desvios a contar da média.

X - X < 2S 1-1/4 = 75%.