FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE DADOS 1ª PARTE

Documentos relacionados
FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE DADOS 1ª PARTE

FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE DADOS 1ª PARTE

ANÁLISE EXPLORATÓRIA DE DADOS

Estatística Aplicada

Capítulo 1. Análise Exploratória de Dados

Adilson Cunha Rusteiko

Organização Descrição Quantificação de variabilidade Identificação de valores típicos e atípicos

SS714 - Bioestatística

1 Estatística Descritiva

6 - Apresentação de Dados em Gráficos

LISTA DE EXERCÍCIOS 1 INE PROF. MARCELO MENEZES REIS ANÁLISE EXPLORATÓRIA DE DADOS GABARITO

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

ESTATÍSTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

ESTATÍSTICA DESCRITIVA

Introdução à análise exploratória de dados

Unidade I ESTATÍSTICA. Prof. Celso Ribeiro Campos

LISTA DE EXERCÍCIOS 1 INE PROF. MARCELO MENEZES REIS ANÁLISE EXPLORATÓRIA DE DADOS GABARITO

SINTETIZANDO DADOS QUALITATIVOS E QUANTITATIVOS

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

um conjunto de métodos e processos quantitativos que servem para estudar e medir os fenômenos coletivos Aplicações em quase todas as áreas de

de uma variável em função da outra, por exemplo: Quantas TV Philips são vendidas na região Norte? Quantos homens são fumantes?

Módulo IV Sumarização dos Dados ESTATÍSTICA

Estatística para Cursos de Engenharia e Informática

Estatística. 1 Introdução 2 Tabelas Estatísticas 3 População, Amostra e Variáveis 4 Gráficos e Distribuição de Freqüências.

Bioestatística. Luiz Ricardo Nakamura Cristiane Mariana Rodrigues da Silva. Ciências biológicas a USP ESALQ. Estatística

Análise Descritiva de Dados

ESTATÍSTICA COMPUTACIONAL AULA 1 RESUMO DE DADOS

Unidade I. Profa. Ana Carolina Bueno

Princípios de Bioestatística Estatística Descritiva/Exploratória

Profa. Lidia Rodella UFPE-CAA

Introdução. Quem nunca ouviu a palavra estatística referindo-se a um número ou conjunto de números?

Genética Quantitativa. Recursos Computacionais. Estatística. no Processo da Pesquisa. Desenvolvimento Avícola. Nutrição Manejo. Modelos Estatísticos

Gráfico de Pareto. Ferramentas da Qualidade

Introdução à análise exploratória de dados

2EMA007 ESTATÍSTICA A

Unidade I ESTATÍSTICA DESCRITIVA. Profa. Isabel Espinosa

Prof.Letícia Garcia Polac. 28 de agosto de 2017

Bioestatística UNESP. Prof. Dr. Carlos Roberto Padovani Prof. Titular de Bioestatística IB-UNESP/Botucatu-SP

Estatística Descritiva (II)

TIPOS DE VARIÁVEIS E RESUMO DE DADOS

Linha Excelente Aceitável Retrabalho Refugo. Linha Excelente Aceitável Retrabalho Refugo

RANILDO LOPES. Estatística

Estatística Aplicada

GET00116 Fundamentos de Estatística Aplicada Gabarito da Lista de exercícios Estatística Descritiva Profa. Ana Maria Lima de Farias

Estatística descritiva básica: Tabelas e Gráficos

Para analisar os dados, pode-se tabular o número de vezes que cada quantidade de palavras ocorreu, que é a freqüência de cada quantidade:

Conceito de Estatística

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Aula 2: Resumo de Dados

Estatística Computacional Profª Karine Sato da Silva

CE001 Bioestatística. Prof. Cesar Augusto Taconeli. Curitiba-PR 2015

Medidas-Resumo. Tipos de Variáveis

Universidade Federal de Mato Grosso - UFMT ESTATÍSTICA Lista 1. 1) Defina POPULAÇÃO e AMOSTRA e cite pelo menos 3 vantagens da amostragem.

12/06/14. Estatística Descritiva. Estatística Descritiva. Estatística Descritiva. Estatística Analítica (Inferência estatística/estatística indutiva)

ESCOLA SECUNDÁRIA DR. JOSÉ AFONSO

Estatística I Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

Estatística Descritiva. Estatística. 2 - Estatística Descritiva. UNESP FEG DPD Prof. Edgard

Estatística Descritiva/Exploratória

Estatística Descritiva. Objetivos de Aprendizagem. 6.1 Sumário de Dados. Cap. 6 - Estatística Descritiva 1. UFMG-ICEx-EST. Média da amostra: Exemplo:

Elementos de Estatística

Estatística e Probabilidade Curso: Tecnólogo em Gestão Ambiental Semestre 2012/2

Métodos Quantitativos

Sumário dos exemplos:

Estatística: Conceitos e Organização de Dados

Domingo Braile FAMERP & UNICAMP

Lista de Exercícios Cap. 2

TIPOS DE VARIÁVEIS E RESUMO DE DADOS

Estatística Descritiva

Estatística Descritiva (II)

Estatística Descritiva

Revisão de estatística descritiva

ESTATÍSTICA Medidas de Síntese

UNIVERSIDADE FEDERAL DO PARANÁ SETOR DE CIÊNCIAS EXATAS DEPTO. DE ESTATÍSTICA LISTA 1-BIOESTATÍSTICA II (CE020)

Prof. Lorí Viali, Dr.

Grupo A - 1 semestre de 2012 Lista de exercícios 2 - Estatística Descritiva II C A S A (gabarito)

HEP Bioestatística

APONTAMENTOS DE SPSS

Apresentação Caule e Folha. Exemplo. Ramo e Folha. Análise Exploratória de Dados

Seminário interdisciplinar II. Estudo do projeto 2 Como son los alumnos de la classe? da autora Carmem Batanero

Análise Exploratória Unidimensional

Número de erros de impressão durante 50 dias

Revisão de estatística descritiva

Cap. 6 Medidas descritivas

Amostragem Aleatória e Descrição de Dados - parte II

CONCEITOS BASICOS, ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS, DISTRIBUIÇÃO DE FREQUÊNCIA

ESTATÍSTICA APLICADA

Estatística Fácil. Prof.º Mario César Castro 2015

GET00170 Estatística Básica para Ciências Humanas II Turma E1 Lista de Exercícios 2/2017 Profa. Ana Maria Farias

Organização de dados

Estatística Descritiva: organização dos dados. 1 - Distribuição de frequências

Universidade Federal Fluminense INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE ESTATÍSTICA

CAPÍTULO 4 CONCEITOS BÁSICOS DE ESTATÍSTICA E PROBABILIDADES

Estatística Descritiva

Centro de Ciências e Tecnologia Agroalimentar - Campus Pombal Disciplina: Estatística Básica Aula 1 Professor: Carlos Sérgio

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ CAMPUS PONTA GROSSA METROLOGIA II

Sumário. Introdução } 24/05/16 } 1. } Estatística: ciência que trata da coleta, processamento e disposição de dados.

Unidade I ESTATÍSTICA. Prof. Fernando Rodrigues

Transcrição:

FONTES DE ERRO, HIPÓTESES, ANÁLISE EXPLORATÓRIA DE DADOS 1ª PARTE 1

Fontes de erro Mesmos dados População incorreta 2

Prescrição Objetivos: 1º passo Formular hipóteses ANTES Listar fontes de variação Definir população 3

Hipóteses de Pesquisa Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica. Para homens acima de 40 anos com hipertensão crônica, uma dose diária de 100 mg desta nova droga reduzirá em 10 mm de mercúrio (em média) a pressão sanguínea diastólica comparada a uma dose equivalente de metropolol. Esta nova variedade de tijolo refratário apresentará um ponto de fusão 200º C maior (em média) do que a variedade atualmente usada. 4

AED - Conceito Necessário resumi-los! Necessário organizá-los! Interpretação e tomada de decisões. 5

Objetivo Estudar comportamento INDIVIDUAL das variáveis. Estudar RELACIONAMENTO entre as variáveis. 6

Escolha das técnicas de AED Nível de mensuração das variáveis. Objetivo da análise: Comportamento individual da variável. Comportamento da variável em função de uma ou mais variáveis (ferramentas múltiplas). Número de variáveis envolvidas. Tamanho do conjunto de dados. Tempo disponível para a apresentação dos resultados. Grau de conhecimento estatístico do público alvo. 7

Nível de mensuração Qualitativas Tabelas de freqüência ou percentuais Gráficos (colunas, setores, linhas) Quantitativas Tabelas de freqüência ou percentuais Gráficos (diagrama de pontos, histograma, diagrama em caixas, linhas) Medidas de síntese: média, mediana, desvio padrão 8

Nível de mensuração Variáveis QUANTITATIVAS: Discretas - lista finita (geralmente, números inteiros). Exemplo: quantidade de máquinas ligadas. Contínuas - infinitos resultados possíveis (um intervalo dos números reais). Exemplo: tempo de resposta (em segundos). 9

Mensuração de variáveis Como medir satisfação com o trabalho? classificar: satisfeito / não satisfeito grau de satisfação: escala de 0 a 10 grau de satisfação: escala de 1 a 5 associada a adjetivos grau de satisfação: escala construída com vários itens de um questionário 10

Mensuração de variáveis Como medir qualidade de um algoritmo? Medir tempo de processamento (comparando com algoritmos existentes). Registrar percentual de acertos (comparando com algoritmos existentes). Como definir/medir acertos. 11

Variáveis intervenientes Refletir sobre quais variáveis podem influenciar a variável de resposta. Pressão arterial diastólica pode ser influenciada por... Sexo do paciente? Idade do paciente? Hábitos alimentares? Hábitos de atividade física? Outras condições médicas pré-existentes? 12

Pré-análise dos dados Dados perdidos: não foram registrados para um ou mais dos integrantes do conjunto. Até 5% aceitável. Erros de registro: problemas de ortografia, digitação (facilmente identificáveis), valores discrepantes (quando resultante de erros). Inconsistências: sua identificação já faz parte da análise dos dados. Importante para mineração de dados. 13

Recodificação e Transformação Criar novas variáveis usando condições fixadas. Recodificação: Qualitativa para qualitativa. Quantitativa para qualitativa (categorização). Quantitativa contínua para classes (agrupamento em classes) Transformação: Quantitativa para quantitativa (operação matemática). 14

Distribuição de frequências Valores possíveis da variável Número de ocorrências de cada valor 15

Distribuição de frequências - variáveis qualitativas Tipo de seguro contratado em 5000 sinistros Fonte: hipotética 16

Gráfico de colunas Tipo de seguro contratado 2600 2400 2200 2000 1800 1600 1400 1200 1000 800 600 Simples Terceiros Total 17

Gráfico de colunas 2600 2400 2200 2000 1800 1600 1400 1200 1000 800 600 400 200 0 Tipo de seguro contratado Simples Terceiros Total 18

Gráfico em setores (circular ou pizza) Tipo de seguro contratado 20,30% 30,36% 49,34% Simples Terceiros Total 19

Distribuição de frequências - variáveis quantitativas Nível de mensuração da variável quantitativa: DISCRETA: semelhante às variáveis qualitativas. Tabela de frequências e histograma para dados não agrupados. CONTÍNUA: necessário agrupar os dados para possibilitar o resumo do conjunto e melhor visualização. Tabelas de frequências e histograma para dados agrupados, diagramas em caixa. 20

Tabela de frequências: dados não agrupados Máquinas em uso 20 21 22 23 24 25 26 Total Frequência (absoluta) 2 4 6 5 2 0 1 20 Proporção 0,10 (10%) 0,20 (20%) 0,30 (30%) 0,25 (25%) 0,10 (10%) 0 0,05 ( 5%) 1 (100%) 21

Histograma 0,20 0,30 0,25 0,10 0,10 0,05 20 21 22 23 24 25 26 Máquinas em uso 22

Tabela de frequências para dados agrupados Recomendável para grande conjuntos de variáveis QUANTITATIVAS. PERDE-SE informação sobre o conjunto original para obter sua compactação. 23

Tabela de frequências para dados agrupados Passos para construção: Determinar o intervalo do conjunto. Dividir o intervalo em k classes: k = 5 log 10 n (para n > 100) Obter limites das classes. Contar frequências dentro das classes. Renda de uma amostra de clientes de uma seguradora (5000 observações): k = 5 log 10 5000 = 18,49485 => k = 18 Mínimo = 3 salários mínimos; Máximo = 47,88 salários mínimos Amplitude classes = (47,88 3)/2,49333 => 2,50 24

Renda dos clientes de uma seguradora (salários mínimos) Limite Inferior Limite superior Frequência % Freq. Acumulada % acumulado 3 5,50 2723 54,50% 2723 54,50% 5,50 8,00 1601 32,05% 4324 86,55% 8,00 10,50 318 6,37% 4642 92,91% 10,50 13,00 160 3,20% 4802 96,12% 13,00 15,50 82 1,64% 4884 97,76% 15,50 18,00 51 1,02% 4935 98,78% 18,00 20,50 28 0,56% 4963 99,34% 20,50 23,00 15 0,30% 4978 99,64% 23,00 25,50 11 0,22% 4989 99,86% 25,50 28,00 3 0,06% 4992 99,92% 28,00 30,50 2 0,04% 4994 99,96% 30,50 33,00 0 0,00% 4994 99,96% 33,00 35,50 1 0,02% 4995 99,98% 35,50 38,00 0 0,00% 4995 99,98% 38,00 40,50 0 0,00% 4995 99,98% 40,50 43,00 0 0,00% 4995 99,98% 43,00 45,50 0 0,00% 4995 99,98% 45,50 48,00 1 0,02% 4996 100% Total 4996 100% - - 25

Frequência Renda dos clientes de uma seguradora 2750 2500 2250 2000 1750 1500 1250 1000 750 500 250 0 5,50 8,00 10,50 13,00 15,50 18,00 20,50 23,00 25,50 28,00 30,50 33,00 35,50 38,00 40,50 43,00 45,50 48,00 3 5,50 8,00 10,50 13,00 15,50 18,00 20,50 23,00 25,50 28,00 30,50 33,00 35,50 38,00 40,50 43,00 45,50 Renda (salários mínimos) 26

Diagrama de pontos 4,5 Distribution for variable: Falhas 4,0 3,5 3,0 2,5 2,0 1,5 1,0 0,5 0,0 4 6 8 10 12 14 16 18 20 Falhas 27

Gráfico de linhas 700 Companhia aérea 700 600 600 Número de passageiros 500 400 300 200 500 400 300 200 100 100 0 0 0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 Meses 28

Gastos comalimentação (R$) Diagrama de Dispersão Gastos com alimentação x Gastos totais 14000 12000 y = 0,1846x + 2101,8 R² = 0,8715 10000 8000 6000 4000 2000 0 y = -0,00000263x 2 + 0,31968319x + 865,73037153 R² = 0,90050669 0 10000 20000 30000 40000 50000 60000 Gastos totais (R$) 29

Distribuição de frequência múltipla Tabulação Cruzada Dupla Classificação Tabela de Contingências Valores variável 2 Valores variável 1 Frequências cruzamentos 30

Tabela de contingências Sinistro Cor do veículo Hospitalares Materiais PerdaTotal Terceiros Total Geral Metálica Frequência 712 1839 204 468 3223 % linha 22,09% 57,06% 6,33% 14,52% 100,00% % coluna 73,40% 72,09% 30,09% 59,54% 64,65% Perolizada Frequência 85 89 95 113 382 % linha 22,25% 23,30% 24,87% 29,58% 100,00% % coluna 8,76% 3,49% 14,01% 14,38% 7,66% Sólida Frequência 35 551 3 589 % linha 5,94% 93,55% 0,00% 0,51% 100,00% % coluna 3,61% 21,60% 0,00% 0,38% 11,82% Vermelha Frequência 138 72 379 202 791 % linha 17,45% 9,10% 47,91% 25,54% 100,00% % coluna 14,23% 2,82% 55,90% 25,70% 15,87% Total Frequência 970 2551 678 786 4985 Total % linha 19,46% 51,17% 13,60% 15,77% 100,00% Total % coluna 100,00% 100,00% 100,00% 100,00% 100,00% 31

Frequência Apresentação gráfica Tipo de sinistro por cor do veículo 2000 1800 1600 1400 1200 1000 800 600 Hospitalares Materiais PerdaTotal Terceiros 400 200 0 Metálica Perolizada Sólida Vermelha Cor do Veículo 32

Frequência Apresentação gráfica Tipo de sinistro por cor do veículo 100% 90% 80% 70% 60% 50% 40% 30% Terceiros PerdaTotal Materiais Hospitalares 20% 10% 0% Metálica Perolizada Sólida Vermelha Cor do Veículo 33

Apresentação gráfica Tipo de sinistro por cor do veículo Metálica Perolizada 0%/100% 0%/100% 75% 25% 75% 25% 50% Sólida 0%/100% 50% Vermelha 0%/100% Sinistro Hospitalares Materiais PerdaTotal Terceiros 75% 25% 75% 25% 50% 50% 34

Tabela com 3 variáveis Sexo Feminino Sexo Masculino Sinistro Cor do veículo Hospitalares Materiais PerdaTotal Terceiros Total Geral Metálica Frequência 168 1403 2 18 1591 % linha 10,56% 88,18% 0,13% 1,13% 100,00% % coluna 84,85% 70,08% 100,00% 75,00% 71,47% Perolizada Frequência 6 51 3 60 % linha 10,00% 85,00% 0,00% 5,00% 100,00% % coluna 3,03% 2,55% 0,00% 12,50% 2,70% Sólida Frequência 16 525 541 % linha 2,96% 97,04% 0,00% 0,00% 100,00% % coluna 8,08% 26,22% 0,00% 0,00% 24,30% Vermelha Frequência 8 23 3 34 % linha 23,53% 67,65% 0,00% 8,82% 100,00% % coluna 4,04% 1,15% 0,00% 12,50% 1,53% Total Frequência 198 2002 2 24 2226 Total % linha 8,89% 89,94% 0,09% 1,08% 100,00% Total % coluna 100,00% 100,00% 100,00% 100,00% 100,00% Sinistro Cor do veículo Hospitalares Materiais PerdaTotal Terceiros Total Geral Metálica Frequência 544 434 202 450 1630 % linha 33,37% 26,63% 12,39% 27,61% 100,00% % coluna 70,47% 79,49% 30,01% 59,13% 59,23% Perolizada Frequência 79 38 94 110 321 % linha 24,61% 11,84% 29,28% 34,27% 100,00% % coluna 10,23% 6,96% 13,97% 14,45% 11,66% Sólida Frequência 19 26 3 48 % linha 39,58% 54,17% 0,00% 6,25% 100,00% % coluna 2,46% 4,76% 0,00% 0,39% 1,74% Vermelha Frequência 130 48 377 198 753 % linha 17,26% 6,37% 50,07% 26,29% 100,00% % coluna 16,84% 8,79% 56,02% 26,02% 27,36% Total Frequência 772 546 673 761 2752 Total % linha 28,05% 19,84% 24,45% 27,65% 100,00% Total % coluna 100,00% 100,00% 100,00% 100,00% 100,00% 35

Gráficos com 3 variáveis 100% Tipo de sinistro por cor do veículo - Sexo feminino 100% Tipo de sinistro por cor do veículo - Sexo masculino 90% 90% 80% 80% 70% 70% 60% 50% 40% 30% 20% 10% 0% Metálica Perolizada Sólida Vermelha Cor do veículo Terceiros PerdaTotal Materiais Hospitalares 60% 50% 40% 30% 20% 10% 0% Metálica Perolizada Sólida Vermelha Cor do veículo Terceiros PerdaTotal Materiais Hospitalares 36