ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Documentos relacionados
n = 25) e o elemento (pois = 19) e terá o valor 8. Verifique que antes e depois do 19 o elemento, teremos 18 elementos.

Unidade III Medidas Descritivas

ESTATÍSTICA Medidas de Síntese

Estatística Aplicada a Negócios

ASSIMETRIA E CURTOSE

Medidas resumo numéricas

Medidas de Posição ou Tendência Central

Estatística Descritiva

Aula 03. Medidas Descritivas de Variáveis Quantitativas. Parte 1 Medidas de Tendência Central

Distribuição de frequências:

Estatística. 1 Medidas de Tendência Central 2 Medidas de Posição 3 Medidas de Dispersão. Renata Souza

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. PUCRS FAMAT: Departamento de Estatística

ASSIMETRIA E CURTOSE

Cap. 6 Medidas descritivas

5.1 Introdução: As distribuições de freqüências não diferem apenas quanto ao valor médio e a variabilidade, mas também quanto a sua forma.

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

Estatística Computacional Profª Karine Sato da Silva

Estatística para Cursos de Engenharia e Informática


Métodos Estatísticos Básicos

Elementos de Estatística

ESTATÍSTICA COMPUTACIONAL AULA 5 ASSIMETRIA E CURTOSE

Assimetria e Curtose

Capítulo 3 Estatísticas para Descrição, Exploração e Comparação de Dados. Seção 3-1 Visão Geral. Visão Geral. Estatísticas Descritivas

Métodos Experimentais em Ciências Mecânicas

Notas de Aula. Estatística Elementar. by Mario F. Triola. Tradução: Denis Santos

ESTATÍSTICA APLICADA PARA PESQUISA EM MARKETING E COMUNICAÇÃO BASEADO NO LIVRO ESTATÍSTICA FÁCIL ANTÔNIO ARNOT CRESPO

Errata. Mattos/Konrath/Azambuja Introdução à Estatística - Aplicações em Ciências Exatas 1ª Edição/2017 1ª Impressão

12/06/14. Estatística Descritiva. Estatística Descritiva. Medidas de tendência central. Medidas de dispersão. Separatrizes. Resumindo numericamente

AULA 2 UNIDADE 1 DISTRIBUIÇÃO DE FREQUÊNCIAS 1.1 INTRODUÇÃO

Estatística Aplicada

Aula 2 Planejamento e Análise de Experimentos

Stela Adami Vayego DEST/UFPR

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

Prof. Dr. Engenharia Ambiental, UNESP

ESTATÍSTICA DESCRITIVA

Unidade III Medidas Descritivas

I.1. Seleccionado um passageiro ao acaso, qual a probabilidade de ter idade no intervalo [20 a 50) anos e ser fraudulento?

1. Registou-se o número de assoalhadas de 100 apartamentos vendidos num bairro residencial

MEDIDAS DE TENDÊNCIA CENTRAL

3 Estatística p/ Descrição, Exploração e Comparação de Dados (Triola 10 a ed.)

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana Análise de Assimetria Separatrizes

ESTATÍSTICA. Estatística é o conjunto de métodos para a obtenção, organização, resumo, análise e interpretação dos dados.

INTRODUÇÃO À ESTATÍSTICA

Estatística Descritiva

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Medidas de dispersão. 23 de agosto de 2018

Unidade II ESTATÍSTICA. Prof. Celso Guidugli

Aula 3 MEDIDAS DE DISPERSÃO, ASSIMETRIA E CURTOSE.

ESTATÍSTICA. na Contabilidade Parte 6. Medidas Estatísticas

Autores: Fernando Sebastião e Helena Silva

ANÁLISE EXPLORATÓRIA E ESTATÍSTICA DESCRITIVA

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

Inferência Estatística: Conceitos Básicos I

Aula 4: Medidas Resumo

Prof. Lorí Viali, Dr.

Lista de exercicios 1 Prof.: Marcus Guimaraes Disciplina: Introdução a Estatística Econômica

Análise Descritiva de Dados

ESTATÍSTICA DESCRITIVA APLICADA NA SAÚDE. Hospital Universitário Prof. Edgard Santos UFBA Unidade de Planejamento Julho de 2016

Introdução à Bioestatística Turma Nutrição Aula 3 Análise Descritiva: Medidas de Tendência Central Medidas de Variabilidade

PARTE 1. Profa. Dra. Alessandra de Ávila Montini

Coeficiente de Assimetria

Prof. Lorí Viali, Dr.

SCC0173 Mineração de Dados Biológicos

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

Ensino de Estatística. Tratamento da Informação. Ensino de Estatística Profs. L. Bessegato e R. Bastos Estatística/ UFJF 1.

Apresentação Caule e Folha. Exemplo. Ramo e Folha. Análise Exploratória de Dados

Medidas de localização (ou de tendência central) Média: definida como o centro de massa (ou ponto de equilíbrio) do conjunto.

SIMULADO da 4ª PROVA BIMESTRAL de INTRODUÇÃO À ESTATÍSTICA

Probabilidade e Estatística

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

2. Estatística Descritiva

Métodos Estocásticos da Engenharia II

Tutorial para o desenvolvimento das Oficinas

PLANO DE ENSINO. Disciplina: Estatística e Probabilidade Carga Horária: 40h Período: 1º. Ementa

Padronização. Momentos. Coeficiente de Assimetria

Estatística

SS714 - Bioestatística

Prof. Estevam Martins

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

Variável Salário: Quantitativa contínua. Para construir os histogramas solicitados temos,

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

Transcrição:

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE 1

Medidas de síntese TERCEIRA maneira de resumir um conjunto de dados referente a uma variável quantitativa. Separatrizes Locação x % x % x % x % Dispersão Forma da distribuição: assimetria, curtose 2

Medidas de síntese Medidas de tendência central, locação ou de posição: Média Aritmética, Mediana e Moda. Medidas de dispersão ou de variabilidade: Intervalo, variância, desvio padrão, coeficiente de variação. Separatrizes: dividem o conjunto em um certo número de partes iguais: quartis, decis, centis. Medidas de curtose e assimetria: forma da distribuição. 3

Média aritmética simples CENTRO DE MASSA do conjunto de dados. SEMPRE há média para um conjunto de dados e ela é ÚNICA. Pode ser distorcida por valores discrepantes (outliers). x n i 1 n x i 4

Média aritmética simples Deseja-se estudar o número de falhas a cada 10000 mensagens enviadas, considerando três algoritmos diferentes para o envio dos pacotes: Algoritmo A Algoritmo B Algoritmo C (8 observações) 20 21 21 22 22 23 23 24 (8 observações) 16 18 20 22 22 24 26 28 (7 observações) 15 22 23 23 23 24 24 Média = 22 Média = 22 Média = 22 5

Diagramas de Pontos Algoritmo A B C 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Número de falhas 6

Mediana Divide o conjunto de dados em duas partes iguais: METADE (50%) dos dados é menor do que a mediana e a outra metade é maior do que a mediana. PMd = (n+1)/2 Elemento que está na posição da mediana. Se PMd for fracionário: faz-se a média entre os valores nas posições imediatamente anterior e posterior. 7

Mediana Deseja-se estudar o número de falhas a cada 10000 mensagens, considerando três algoritmos diferentes para o envio dos pacotes: Algoritmo A Algoritmo B Algoritmo C (8 observações) 20 21 21 22 22 23 23 24 (8 observações) 16 18 20 22 22 24 26 28 (7 observações) 15 22 23 23 23 24 24 Mediana = 22 Mediana = 22 Mediana = 23 8

Separatrizes: Quartis Q I M d Q S Quartil inferior mediana Quartil superior 9

Moda Moda é o valor mais frequente do conjunto de dados. Teoricamente é o valor mais provável. Única moda, várias modas ou nenhuma moda. Costuma ser utilizada em conjunção com média e mediana para avaliar a simetria do conjunto de dados. 10

Avaliação de assimetria por média, mediana e moda freq Assimétrica à esquerda ou negativa freq. Assimétrica à direita ou positiva Média Mediana Moda Moda Mediana Média freq. Simétrica Moda = Média = Mediana 11

Avaliação da assimetria por mediana e quartis Assimétrica à direita ou positiva Q I M d Q S Quartil inferior mediana Quartil superior 12

Avaliação da assimetria por mediana e quartis Simétrica Q I M d Q S Quartil inferior mediana Quartil superior 13

Como medir a dispersão? Exemplo: A ( 20 21 21 22 22 23 23 24 ) Intervalo: diferença entre extremos 20 21 22 23 24 distância (desvio) em relação à média 14

Desvios Valores X 20 21 21 22 22 23 23 24 Média X 22 Desvios (X - X) -2-1 -1 0 0 1 1 2 20 21 22 23 24 Desvios: -2-1 0 1 2 Soma = 0 15

Desvios quadráticos Soma Valores X 20 21 21 22 22 23 23 24 176 Média X 22 - Desvios X - X -2-1 -1 0 0 1 1 2 0 Desvios quadráticos (X-X) 2 4 1 1 0 0 1 1 4 12 16

Variância (S 2 ) A variância (S 2 ) é uma média dos desvios quadráticos. Por conveniência, usa-se (n-1) no denominador ao invés de n, quando se trata de AMOSTRA! S No exemplo, algoritmo A: 2 X n 1 S2 = X 12 7 2 = 1,71 17

Desvio padrão Raiz quadrada positiva da variância. Possui a mesma unidade que a variável e a média. S = S 2 No exemplo, algoritmo A: S = 1,71 = 1,31 18

Comparação dos três algoritmos pela média e desvio padrão Algoritmo falhas X S A 20 21 21 22 22 23 23 24 22 1,31 B 16 18 20 22 22 24 26 28 22 4,00 C 15 22 23 23 23 24 24 22 3,16 19

Diagramas de pontos e valores de S Algoritmo A (S = 1,31) Algoritmo B (S = 4,00) Algoritmo C (S = 3,16) 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Número de falhas 20

Coeficiente de Variação Percentual Medida de dispersão relativa. Permite comparar a dispersão de conjuntos de dados com médias e desvios padrões diferentes. Indica se os dados estão mais ou menos concentrados em torno da média: s c. v.% 100 x 21

Exemplo X 1 : 1 2 3 X 2 : 100 101 102 X 3 : 100 200 300 média = 2 desvio padrão = 1 coeficiente de variação = 0,5 média = 101 desvio padrão = 1 coeficiente de variação = 0,01 média = 200 desvio padrão = 100 coeficiente de variação = 0,5 22

Escores z (padronizados) Escore z = (valor - média do conj.) /desvio padrão do conj. Identificar valores discrepantes (outliers) ou raros e valores usuais. Desigualdade de Chebyshev: pelo menos 75% dos dados estão a até 2 desvios padrões da média, pelo menos 89% dos dados estão a até 3 desvios padrões da média. 23

Escores z 24

Escores z 25

Diagrama em caixas 26

Diagrama em Caixas 27

Assimetria Quando média e mediana são diferentes: há assimetria. Medida de assimetria: Assimetria n n i1 x x ( n 1) ( n 2) s i 3 3 Se assimetria = 0, a distribuição é SIMÉTRICA. Assimetria > 0, a distribuição é assimétrica positiva ou à direita. Assimetria < 0, a distribuição é assimétrica negativa ou à esquerda 28

29 Curtose Medida do achatamento da distribuição: Mesocúrtica: achatamento equivalente ao da curva normal, curtose = 0. Leptocúrtica: curva afilada, com pico elevado, curtose > 0. Platicúrtica: curva bem achatada, curtose < 0. 4 1 2 1 2 1 4 3) ( 2) ( 1) ( 1) ( 3 1) ( s n n n n x x x x x x n n Curtose n i i n i i n i i

Breakdown Análise categorizada de uma variável quantitativa (chamada de variável de agrupamento, independente, ou fator): Comportamento da variável em função dos valores de uma ou mais variáveis qualitativas. Cálculo de medidas de síntese por grupo definido em função dos valores da variável qualitativa. Construção de gráficos por grupo definido em função dos valores da variável qualitativa. 30

Breakdown 31

Breakdown No of obs 24 22 20 18 16 14 12 10 8 6 4 2 0 24 22 20 18 16 14 12 10 8 6 4 2 0 Histogram: SALARY: Yearly Salary 10000 20000 30000 40000 50000 10000 20000 30000 40000 50000 15000 25000 35000 45000 15000 25000 35000 45000 DEPART: Bake DEPART: Package 10000 20000 30000 40000 50000 15000 25000 35000 45000 DEPART: Ship SALARY 32