Análise Exploratória de Dados



Documentos relacionados
QUALITATIVA VARIÁVEL QUANTITATIVA

ORGANIZAÇÃO DESTINATÁRIOS

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Estatística Aplicada. Gestão de TI. Evanivaldo Castro Silva Júnior

Escola Secundária Gabriel Pereira Évora Matemática A 10º ano. Planificação da Unidade Geometria

Stela Adami Vayego - DEST/UFPR 1

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

O que é a estatística?

Revisão: Noções básicas de estatística aplicada a avaliações de imóveis

Guia do professor. Ministério da Ciência e Tecnologia. Ministério da Educação. Secretaria de Educação a Distância.

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Distribuição de Freqüências

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Capítulo 7 Medidas de dispersão

EXERCÍCIOS EXERCÍCIOS. Definições Básicas. Definições Básicas. Definições Básicas. Introdução à Estatística. Dados: valores de variáveis observadas.

AULAS 04 E 05 Estatísticas Descritivas

CRITÉRIOS PARA A DETERMINAÇÃO DOS INTERVALOS DE CLASSE

Estatística Aplicada ao Serviço Social

Distribuição de Freqüência

MEDIDAS DE DISPERSÃO


Aula 4 Estatística Conceitos básicos

Áurea Sousa /Deptº. Matemática U.A. Áurea Sousa /Deptº. Matemática U.A.

Análise descritiva de Dados. a) Média: (ou média aritmética) é representada por x e é dada soma das observações, divida pelo número de observações.

Universidade da Beira Interior - Departamento de Matemática ESTATÍSTICA APLICADA À PSICOLOGIA I

CÁLCULO DO TAMANHO DA AMOSTRA PARA UMA PESQUISA ELEITORAL. Raquel Oliveira dos Santos, Luis Felipe Dias Lopes

Matemática Aplicada às Ciências Sociais


QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

Probabilidade. Renata Souza. Introdução. Tabelas Estatísticas. População, Amostra e Variáveis. Gráficos e Distribuição de Freqüências

Métodos Matemáticos para Gestão da Informação

DELEGAÇÃO DE TETE CAPACITAÇÃO INTERNA DO CORPO DOCENTE/ FEVEREIRO DE 2015


PROPOSTA DE FORMAÇÃO FORMAÇÃO NÍVEL I

Introdução. Existem situações nas quais há interesse em estudar o comportamento conjunto de uma ou mais variáveis;

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE E TRATAMENTO DE DADOS Ano Lectivo 2015/2016

Omatematico.com ESTATÍSTICA DESCRITIVA

ESTATÍSTICA. O que é Estatística? É o ramo da Matemática que se encarrega de coletar dados sobre determinado assunto,

Análise exploratória de dados univariados. Introdução à Análise Estatística com. Natureza dos dados (e respectiva variável) Dados no R.

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Revisão de Estatística Básica:

ESCOLA SECUNDÁRIA/3 da RAINHA SANTA ISABEL ESTREMOZ PLANIFICAÇÃO ANUAL DA DISCIPLINA DE MATEMÁTICA APLICADA ÀS CIÊNCIAS SOCIAIS (MACS) 10º ANO

Linguagem R R-Gui e R-Commander

FUNÇÃO REAL DE UMA VARIÁVEL REAL

ESTATÍSTICA. aula 1. Insper Ibmec São Paulo. Prof. Dr. Marco Antonio Leonel Caetano

MÓDULO 1. I - Estatística Básica

Universidade Federal da Paraíba Departamento de Estatística 1 a. Lista de Exercícios de Estatística III

CAPÍTULO 1- OPERAÇÕES COM NÚMEROS INTEIROS Indicadores de aprendizagem Verifica se sabes: Identificar o conjunto dos números inteiros.

4 Avaliação Econômica

Estatística I Aula 1. Prof.: Patricia Maria Bortolon, D. Sc.

Só Matemática O seu portal matemático FUNÇÕES

O Que São Dados? Mundo sensorial: Provar um alimento Medir: aroma Instrumento de medição: provadores Medida: ruim, regular bom excelente

TÉCNICAS DE COLETA E ANÁLISE DE DADOS EM ARQUITETURA. Prof. MSc. Francisco Zacaron Werneck

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Estatística Descritiva

Análise Exploratória de Dados

Elementos de Estatística

Método dos mínimos quadrados - ajuste linear

UNIVERSIDADE DOS AÇORES Mestrado em Gestão (MBA)

Decidir como medir cada característica. Definir as características de qualidade. Estabelecer padrões de qualidade

Projeto Supervisionado

Por que o quadrado de terminados em 5 e ta o fa cil? Ex.: 15²=225, 75²=5625,...

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

UNIVERSIDADE DOS AÇORES

Análise de Regressão. Tópicos Avançados em Avaliação de Desempenho. Cleber Moura Edson Samuel Jr

Distribuições de Probabilidade Distribuição Normal

Medidas de Variação ou Dispersão

Correlação e Regressão Linear

CURSO ONLINE REGULAR ESTATÍSTICA BÁSICA PROF. SÉRGIO CARVALHO AULA 13 RELAÇÃO DOS EXERCÍCIOS FINAIS

Apresentação de Dados em Tabelas e Gráficos

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

CAPÍTULO 5 APRESENTAÇÃO E ANÁLISE DOS RESULTADOS

COMPARAÇÃO DOS TESTES DE ADERÊNCIA À NORMALIDADE KOLMOGOROV- SMIRNOV, ANDERSON-DARLING, CRAMER VON MISES E SHAPIRO-WILK POR SIMULAÇÃO

O comportamento conjunto de duas variáveis quantitativas pode ser observado por meio de um gráfico, denominado diagrama de dispersão.

CURSO ON-LINE PROFESSOR GUILHERME NEVES

Resoluções comentadas das questões de Estatística da prova para. ANALISTA DE GERENCIAMENTO DE PROJETOS E METAS da PREFEITURA/RJ

MODIFICAÇÃO DO TESTE DE NORMALIDADE DE SHAPIRO-WILK MULTIVARIADO DO SOFTWARE ESTATÍSTICO R

Plano Curricular de Matemática 9º ano /2015-3º Ciclo

NOTAS DE AULA Capítulo 1 Introdução à Análise Exploratória de dados

INE Procedimentos de Análise Bidimensional de variáveis QUANTITATIVAS utilizando o Microsoft Excel. Professor Marcelo Menezes Reis

Atividade 4 - Acerte no alvo

Gráficos estatísticos: histograma. Série Software ferramenta

Ferramentas da Qualidade. Professor: Leandro Zvirtes UDESC/CCT

Introdução Visão Geral Processos de gerenciamento de qualidade. Entradas Ferramentas e Técnicas Saídas

Medidas de tendência central: onde a maior parte dos indivíduos se encontra?

Introdução à Estatística

Metodologia Científica Aula 1. Prof.ª Ma. Ana Paula Diniz

Conceito de pesquisa

Sumário. Parte l. 1. Introdução à pesquisa qualitativa e quantitativa em marketing Pesquisa qualitativa Pesquisa quantitativa 3

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

Linguagem R R-Gui e R-Commander

(Modelo de) Relatório: 1-Introdução. 2-Materiais e métodos. 3-Análise descritiva dos dados

ANÁLISE DA INSPEÇÃO DA LARGURA DOS TECIDOS DE POLIPROPILENO DA INDÚSTRIA TÊXTIL OESTE LTDA

Lista de Exercícios 1 - Estatística Descritiva

Matemática - UEL Compilada em 18 de Março de Prof. Ulysses Sodré Matemática Essencial:

CONTROLE ESTATÍSTICO DA QUALIDADE

PESQUISA QUANTITATIVA e QUALITATIVA

NOÇÕES BÁSICAS DE ESTATÍSTICA

Transcrição:

Análise Exploratória de Dados Profª Alcione Miranda dos Santos Departamento de Saúde Pública UFMA Programa de Pós-graduação em Saúde Coletiva email: alcione.miranda@gmail.com Introdução O primeiro passo em qualquer análise de dados consiste em explorar os dados coletados. A análise exploratória nos fornece uma idéia de como os nossos dados se distribuem e qual a forma que apresentam. Além disso, na análise exploratória podemos verificar se os pressupostos teóricos exigidos para a análise que escolhemos são ou não verificados. 2 1

Classificação das variáveis As variáveis, de acordo a sua natureza se classificam em quantitativas (discretas e contínuas) e qualitativas (nominal e ordinal). De acordo a sua função em variáveis dependentes e independentes. Independentes: variáveis que o pesquisador seleciona para verificar sua relação com o comportamento de outras variáveis. Dependentes ou Resposta: variável que o pesquisador quer investigar, cujos efeitos provocados pela variável independente, interessam ao pesquisador medir. 3 Classificação das variáveis Exemplo: Qual a relação entre IMC e o que uma pessoa come? Variáveis Variáveis independentes: número de vezes que a pessoa come por dia, tipo de alimento, idade. Variável dependente: IMC 4 2

Análise das relações entre variáveis Análise univariada cada variável é tratada isoladamente Análise bivariada estabelecem-se relações entre duas variáveis. Análise multivariada - estabelecem-se relações entre três ou mais variáveis. 5 Análise Univariada Objetivo: apresentar característica ou tendência dos dados de uma variável. Tabulação de variáveis Representação gráfica Medidas de Tendência Central (Média, Mediana, Moda, Percentis) Medidas de Dispersão (amplitude, variância, desvio-padrão) 6 3

Exemplo de tabela de frequências Tabela 1: Distribuição dos recém-nascidos segundo o sexo, São Luís-MA Sexo Freqüências Percentual (%) Feminino 249 54,61 Masculino 207 45,39 Total 456 100,00 7 Exemplo de tabela de frequências Tabela 2: Tempo de Internação (em dias) de 160 pacientes no Hospital X Tempo de Internação (dias) N o de pacientes 10 --- 20 38 20 --- 30 45 30 --- 40 30 40 --- 50 22 50 --- 60 10 60 --- 70 15 Total 160 8 4

Representação Gráfica Vendas das marcas Freqüência 850 750 650 550 450 350 250 150 Gradiente Panasonic Phillips Samsung Toshiba Marcas 9 Representação Gráfica Número de observações Histograma: Renda por Estado Civil 500 450 400 350 300 250 200 150 100 50 0 0.68 6.46 12.24 18.02 23.80 29.58 0.68 6.46 12.24 18.02 23.80 29.58 3.57 9.35 15.13 20.91 26.69 3.57 9.35 15.13 20.91 26.69 Solteiro Divorciado 500 450 400 350 300 250 200 150 100 50 0 0.68 6.46 12.24 18.02 23.80 29.58 0.68 6.46 12.24 18.02 23.80 29.58 3.57 9.35 15.13 20.91 26.69 3.57 9.35 15.13 20.91 26.69 Outros Renda Casado 10 5

Representação Gráfica 210 Box Plot das Alturas 200 190 180 170 160 150 140 130 ALTURA 11 Representação Gráfica 12 6

Avaliação de assimetria freq Assimétrica à esquerda ou negativa freq. Assimétrica à direita ou positiva Média Moda Mediana Moda Mediana Média freq. Simétrica Moda = Média = Mediana 13 Medidas de assimetria 1. Coeficiente de assimetria de Pearson: As 3( x med) = s média desvio-padrão mediana Nota: Se AS estiver contido no intervalo [-0,5; 0,5], podemos assumir que a variável em estudo tem distribuição simétrica 14 7

Análise Bivariada Variáveis qualitativas: realizações são atributos. Análise de duas variáveis qualitativas: Avaliar se existe associação entre elas. Avaliar a força do relacionamento entre elas. Teste de associação: Teste Qui-Quadrado Coeficiente de associação: Coeficiente de contingência. 15 Tabela de Contingência TABELA 3. Tipo de parto segundo categoria de internação em nascidos vivos de parto único. São Luís - MA, 1997/98 Fonte: Silva et al (2001) 16 8

Análise Bivariada Variáveis quantitativas: valores numéricos Análise de duas variáveis quantitativas: Avaliar se existe correlação entre elas. Avaliar a força do relacionamento entre elas. Representação gráfica: Diagrama de Dispersão Coeficiente de correlação: Coeficiente de Pearson ou Coeficiente de Spearman. 17 Gráfico de Dispersão 90 80 Peso 70 60 50 40 1,45 1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85 1,9 Altura 18 9

Coeficiente de Correlação de Pearson A correlação é calculada independente da unidade de medida das variáveis. A técnica usada para calcular este coeficiente, supõe que a associação entre as variáveis seja linear, ou seja, expressa por uma reta ou linha. Se a relação apresentada no diagrama de dispersão não for do tipo linear, o coeficiente de correlação de Pearson não deve ser calculado. Fórmula: r = n i= 1 n i= 1 i ( x x)( y i 2 ( x x) n i i= 1 y) 2 ( y y) i 19 Coeficiente de Correlação de Pearson Interpretando o valor de r r 1 r - assume valores entre 1 e + 1. associação linear negativa forte; x y r 0 ausência de associação linear; r + 1 associação linear positiva forte; x y 20 10

Coeficiente de Correlação Linear de Pearson 20 15 10 5 0 0 5 10 Relação perfeita r = +1 r - 0,80 30 25 20 15 10 5 20 15 10 0 0 5 10 5 0 0 5 10 r + 0,80 30 25 20 15 10 5 60 50 40 30 20 10 0 0 5 10 0 0 5 10 r 0 Relação perfeita r = - 1 21 Normalidade 22 11

Teste de Normalidade Teste Shapiro-Wilk ou Kolmogorov-Simirnov O que se pretende testar é então: H o : A população tem distribuição normal H 1 : A população não tem distribuição normal Assim, valores grandes do p-valor conduzem à aceitação da hipótese nula. É importante ressaltar que esses testes são extremamente rigorosos e facilmente rejeitam a hipótese de normalidade. Portanto, devemos ter cautela, e não basear a decisão apenas no valor p desses testes. 23 Recodificação e Transformação Criar novas variáveis usando condições fixadas. Recodificação: Criar novos valores para uma variável qualitativa. Agrupar os valores de uma variável quantitativa contínua em classes, através de expressões numéricas que têm como resultados caracteres. Transformação: Criar novas variáveis quantitativas através da aplicação de operações matemáticas às variáveis existentes. 24 12

Transformação Diversas técnicas estatísticas são baseadas na suposição de que os dados provêm de uma distribuição normal ou, pelo menos, aproximadamente simétrica. Porém, em muitas situações, os dados em que estamos interessados apresentam assimetria e/ou podem conter valores atípicos. Existem métodos estatísticos que são desenvolvidos para dados não normais (Testes não paramétricos). Se quisermos utilizar algum método para dados normais, quando os dados não parecem ter esse tipo de comportamento, o que se pode fazer é uma transformação desses dados visando simetria. 25 Transformação A transformação logarítmica é a mais comum e geralmente resolve os problemas de assimetria. Existem outras transformações que podem ser utilizadas dependendo da característica dos dados. Por exemplo, a transformação raiz quadrada é mais usada quando a variável é uma contagem. A transformação recíproca (1/x) tem um efeito muito mais drástico do que tomar o logaritmo e pode ser útil se os dados observados têm uma distribuição extremamente assimétrica. 26 13

Observações atípicas Dados atípicos (outliers) em relação aos demais, influenciam enormemente as médias e a variabilidade dos dados, podendo até mesmo distorcer conclusões. É fundamental sua detecção e tratamento. Possíveis causas de valores espúrios: Erro na fase de mensuração viés de aferição. Erro na transcrição ou anotação do registro. Mudanças reais não-controláveis nas condições experimentais. Característica da variável 27 Observações Atípicas Detectando Observações atípicas (Outliers) Nesta etapa de análise dos dados, as técnicas de estatística descritiva são de extrema utilidade, pois permitem a inspeção visual da distribuição dos dados. Assim, para este fim, utilizam-se os seguintes recursos: Box-plots Gráficos de dispersão (bivariado). 28 14