Capítulo 1. Análise Exploratória de Dados

Documentos relacionados
Medidas Descritivas de Posição, Tendência Central e Variabilidade

Conceito de Estatística

Vimos que é possível sintetizar os dados sob a forma de distribuições de frequência e gráficos. Pode ser de interesse apresentar esses dados através d

Unidade I ESTATÍSTICA APLICADA. Prof. Luiz Felix

Estatística Descritiva

Adilson Cunha Rusteiko

Estatística descritiva básica: Tabelas e Gráficos

Resumo de Dados. Tipos de Variáveis

Elementos de Estatística

Estatística Descritiva (I)

Elementos de Estatística

ESTATÍSTICA Medidas de Síntese

AMEI Escolar Matemática 8º Ano Estatística: Organização e Tratamento de Dados

CAP1: Estatística Descritiva para análise da variabilidade uma amostra de dados quantitativos

Distribuição de frequências:

CURSO DE ESTATÍSTICA STICA DESCRITIVA Adriano Mendonça Souza Departamento de Estatística - UFSM -

INTRODUÇÃO À ESTATÍSTICA: Medidas de Tendência Central e Medidas de Dispersão. Prof. Dr. Guanis de Barros Vilela Junior

QUESTÕES DE CONCURSOS PÚBLICOS ESTATÍSTICA DESCRITIVA

Estatística descritiva básica: Medidas de tendência central

MEDIDAS DE TENDÊNCIA CENTRAL

Medidas Estatísticas NILO FERNANDES VARELA

Prof. Lorí Viali, Dr.

Prof. Dr. Engenharia Ambiental, UNESP

Técnicas Computacionais em Probabilidade e Estatística I. Aula I

Unidade I ESTATÍSTICA. Prof. Celso Ribeiro Campos

ESTATÍSTICA. PROF. RANILDO LOPES U.E PROF EDGAR TITO

AULA 5 MEDIDAS DESCRITIVAS DOCENTE: CIRA SOUZA PITOMBO

Introdução à Estatística Estatística Descritiva 22

Autores: Fernando Sebastião e Helena Silva

Departamento de Estatística

CURSO DE SPSS AULA 2 MEDIDAS DESCRITIVAS. UFBA/FACED José Albertino Lordello Sheila Regina Pereira

Estatística I Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.

AT = Maior valor Menor valor

MAE116 Noções de Estatística

Unidade I. Profa. Ana Carolina Bueno

Fernando de Pol Mayer

CAD. 8 SETOR A AULAS 45-48

Bioestatística CE001 Prof. Fernando de Pol Mayer Departamento de Estatística DEST Exercícios: medidas resumo Nome: GABARITO

Métodos Experimentais em Ciências Mecânicas

INTRODUÇÃO A ESTATISTICA PROF. RANILDO LOPES

3.1 - Medidas de Posição Medidas de Dispersão Quantis Empiricos Box-plots Graficos de simetria 3.

PLANO DE ENSINO. Disciplina: Estatística e Probabilidade Carga Horária: 40h Período: 1º. Ementa

GERÊNCIA DE ENSINO E PESQUISA - GEP SETOR DE GESTÃO DA PESQUISA E INOVAÇÃO TECNOLOGICA ESTATÍSTICA ALICADA NO EXCEL. Estatística Descritiva

ANÁLISE EXPLORATÓRIA DE DADOS 2ª PARTE

Planificação Anual. Matemática Dinâmica 7º ano Luísa Faria; Luís Guerreiro Porto Editora. 1 Números inteiros. 10 Sequências e Regularidades

ESTATÍSTICA DESCRITIVA E PREVISÃO INDICE

Cálculo das Probabilidades e Estatística I

MAIS SOBRE MEDIDAS RESUMO. * é muito influenciada por valor atípico

PROBABILIDADE E ESTATÍSTICA ESTATÍSTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA

IFF FLUMINENSE CST EM MANUTENÇÃO INDUSTRIAL

Sumário. Estatistica.indb 11 16/08/ :47:41

Processos Hidrológicos CST 318 / SER 456. Tema 9 -Métodos estatísticos aplicados à hidrologia ANO 2016

Determinação de medidas de posição a partir de dados agrupados

Estatística Descritiva (I)

Estatística


Medidas de Tendência Central

Ensino de Estatística. Tratamento da Informação. Ensino de Estatística Profs. L. Bessegato e R. Bastos Estatística/ UFJF 1.

DISTRIBUIÇÃO DE FREQUÊNCIAS

DISCIPLINA: PROBABILIDADE E ESTATÍSTICA TURMA: Informática de Gestão

MEDIDAS DE POSIÇÃO E DE DISPERSÃO. Profª Andréa H Dâmaso

Centro de Ciências e Tecnologia Agroalimentar - Campus Pombal Disciplina: Estatística Básica Aula 1 Professor: Carlos Sérgio

(tabelas, gráficos e sumários estatísticos, de posição e de dispersão)

Bioestatística. Aula 3. MEDIDAS SEPARATRIZES Quartis, Decis e percentis. Profa. Alessandra Bussador

ESTATÍSTICA. Prof.º Mário Castro

Negócios II - Estatística -- Séries Estatísticas Slide 1 de 34

Amostragem Aleatória e Descrição de Dados - parte II

PLANO CURRICULAR DISCIPLINAR. MATEMÁTICA 7º Ano

UNIVERSIDADE FEDERAL DA PARAÍBA MEDIDAS DESCRITIVAS

Estatística Descritiva: organização dos dados 1 SÉRIES ESTATÍSTICAS

Medidas de Dispersão ou variabilidade

A Estatística é aplicada como auxílio nas tomadas de decisão diante de incertezas para justificar cientificamente as decisões

Estatística Descritiva: organização dos dados. 1 - Distribuição de frequências

Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

HEP Bioestatística

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Plano de Ensino Docente. TURMA: 2º semestre

ESTATÍSTICA DESCRITIVA

ESTATÍSTICA DESCRITIVA APLICADA NA SAÚDE. Hospital Universitário Prof. Edgard Santos UFBA Unidade de Planejamento Julho de 2016

Estatística e Probabilidade

Engenharia da Qualidade. Profa. Luciana Rosa Leite

u unidades elementares, i = 1, 2,..., N.

Estatística. Apresentação de Dados em Gráficos

Agrupamento de Escolas de Águeda Escola Básica Fernando Caldeira

Distribuição de Frequências

N o. Grau de Instrução 2 0 grau. No de filhos -

A UTILIZAÇÃO DE MÉTODOS ESTATÍSTICOS NO PLANEJAMENTO E ANÁLISE DE ESTUDOS EXPERIMENTAIS EM ENGENHARIA DE SOFTWARE (FONTE:

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

Tipos de Gráficos. Estatística Aplicada à Gestão. (Gráfico Estatístico) Gráfico Estatístico 07/08/2016. Prof. Me. Reginaldo César Izelli

Aula 2: Tipos de variáveis

UNIVERSIDADE FEDERAL DA PARAÍBA CÁLCULO DAS PROBABILIDADES E ESTATÍSTICA I

Inferência Estatística: Conceitos Básicos I

Curso de Estatística para Engenheiros

NOÇÕES BÁSICAS DE ESTATÍSTICA

INTRODUÇÃO À ESTATÍSTICA RANILDO LOPES

Aula 2 Planejamento e Análise de Experimentos

Transcrição:

Capítulo 1 Análise Exploratória de Dados

Introdução A finalidade da Análise Exploratória de Dados (AED) é examinar os dados previamente à aplicação de qualquer técnica estatística. Desta forma o analista consegue um entendimento básico de seus dados e das relações existentes entre as variáveis analisadas. Após a coleta e a digitação de dados em um banco de dados apropriado, o próximo passo é a análise descritiva. Esta etapa é fundamental, pois uma análise descritiva detalhada permite ao pesquisador familiarizar-se com os dados, organizá-los e sintetizá-los de forma a obter as informações necessárias do conjunto de dados para responder as questões que estão sendo estudadas.

Etapas da AED Para realizar uma AED recomenda-se seguir as seguintes etapas: preparar os dados para serem acessíveis a qualquer técnica estatística; realizar um exame gráfico da natureza das variáveis individuais a analizar e uma análise descritiva que permita quantificar alguns aspectos gráficos dos dados; realizar um exame gráfico das relações entre as variáveis analisadas e uma análise descritiva que quantifique o grau de inter-relação entre elas; identificar os possíveis casos atípicos (outliers); avaliar, se for necesário, a presença de dados ausentes (missing); avaliar, se for necesário, algumas suposições básicas, como normalidade, lineariedade e homocedasticidade.

Etapas da AED A AED extrai informações de um conjunto de dados sem o peso das suposições de um modelo probabilístico. As técnicas gráficas desempenham um importante papel nesta forma de abordagem. Para que a AED possa ser compreendida, a seguir mostramos a estratégia de análise da Estatística Clássica, Estatística Bayesiana e estas duas são confrontadas com a Análise Exploratória de Dados.

Etapas da AED Abordagem Estatística Clássica Estatística Bayesiana EDA Estratégia Problema Dados Modelo Análise Problema Dados Modelo Priori Análise Problema Dados Análise Modelo De acordo com o quadro acima, diferentemente do que é feito na Estatística Clássica e Estatística Bayesiana, na Análise Exploratória de Dados não há a imposição de um modelo aos dados, mas sim um trabalho de mineração nos dados que pode eventualmente indicar qual o melhor modelo. A AED vai além do uso descritivo da estatística, procura olhar de forma mais profunda os dados, sem resumir muito a quantidade de informações.

Técnicas Gráficas e Resumos Numéricos Os gráficos constituem uma das formas mais eficientes de apresentação de dados. Um gráfico é, essencialmente, uma figura constituída a partir de uma tabela, pois é quase sempre possível localizar um dado tabulado num gráfico. Enquanto as tabelas fornecem uma idéia mais precisa e possibilitam um tratamento mais rigoroso aos dados, os gráficos são mais indicados em situações cujo objetivo é dar uma visão mais rápida e fácil das variáveis às quais se referem os dados. Portanto, a qualidade na representação gráfica deve ser pautada na clareza, simplicidade e autoexplicação. As técnicas gráficas desempenham um papel fundamental na AED.

Escalas de Mensuração As técnicas a serem utilizadas dependem da natureza de mensuração das variáveis de interesse: Nominal: as variáveis são medidas em classes discretas, mas não é possível estabelecer ordem. Ordinal: as variáveis são medidas em classes discretas entre as quais é possível definir uma ordem, segundo uma relação descritível mas não quantificável. Intervalar: as variáveis assumem valores quantitativos, não possuem zero absoluto, i.e. não possuem uma medida de ausência de atributo. Razão: as variáveis assumem valores quantitativos, cuja relação exata entre estes é possível definir porque esta escala possui um zero absoluto.

Escalas de Mensuração O tipo da análise que pode ser realizado depende da escala de medida da variável analizada. Na tabela a seguir se sugerem as representações gráficas e resumos descritivos numéricos mais recomendáveis para realizar essa análise. Escala de Representações Medidas de Medidas de medida Gráficas tendência central dispersão Diagrama de barras Nominal Diagrama de linhas Moda Diagrama de pizza Ordinal Boxplot Mediana Intervalo Interquartílico Histogramas Intervalo Polígono de frequências Média Desvio padrão Razão Média Geométrica Coeficiente de Variação

Tipos de variáveis Variável: Qualquer característica associada a uma população Classificação: Qualitativa: são aquelas que apresentam como possíveis realizações uma qualidade ou atributo do indivíduo pesquisado Nominal: sexo, cor dos olhos Ordinal: classe social, grau de instrução Quantitativa: são aquelas que apresentam como possíveis realizações números resultantes de uma contagem ou mensuração Contínua: peso, altura Discreta: número de filhos, número de carros

Variáveis Quantitativas Medidas de posição: valor ao redor do qual os dados estão distribuídos. Máximo (max): a maior observação Mínimo (min): a menor observação Moda (Mo): é o valor (ou atributo) que ocorre com maior frequência. Média ( X): soma de todos os valores da variável dividida pelo número de observações. Mediana (Me): valor que deixa 50% das observações à sua esquerda Quartis: divide um conjunto de valores dispostos em forma crescente em quatro partes. Primeiro Quartil (Q1): valor que deixa 25% das observações à sua esquerda. Terceiro Quartil (Q3): valor que deixa 75% das observações à sua esquerda.

Variáveis Quantitativas Medidas de Dispersão: A finalidade é encontrar um valor que resuma a variabilidade de um conjunto de dados Amplitude: diferença entre o valor máximo e o valor mínimo Intervalo-Interquartil: É a diferença entre o terceiro quartil e o primeiro quartil, ou seja, Q3 - Q1 Variância: média dos quadrados dos desvios em relação à média aritmética Desvio Padrão: mede a variabilidade independente do núemro de observações e com a mesma unidade de medida da média Coeficiente de Variação: mede a variabilidade numaescala percentual independente da unidade de medida ou da ordem de grandeza da variável CV = s X 100%

Exame Gráfico dos Dados Distribuição: Histograma, ramo-e-folhas Relação entre as variáveis: Diagrama de dispersão Diferenças entre grupos: Box-plot (observações atípicas podem aparecer somente após agrupamento)

Descrição dos dados É importante conhecer e saber construir os principais tipos de tabelas, gráficos e medidas resumo para realizar uma boa análise descritiva dos dados. Cada ferramenta fornece um tipo de informação e o seu uso depende, em geral, do tipo de variável que está sendo investigada. variável qualitativa* tabela de frequências gráfico de barras diagrama circular (pizza) variável quantitativa medidas de posição: média, mediana, moda medidas de dispersão: variância, desvio-padrão, amplitude, coeficiente de variação tabela de frequências histograma boxplot gráfico de linha ou sequência polígono de frequências *Esta abordagem também pode ser interessante para as variáveis quantitativas discretas.

Tabela de frequências Como o nome indica, conterá os valores da variável e suas respectivas contagens, as quais são denominadas frequências absolutas ou simplesmente, frequências. No caso de variáveis qualitativas ou quantitativas discretas, a tabela de frequência consiste em listar os valores possíveis da variável, numéricos ou não, e fazer a contagem na tabela de dados brutos do número de suas ocorrências. A frequência do valor i será representada por n i, a frequência total por n e a frequência relativa por h i = h i /n.

Tabela de frequências Para variáveis cujos valores possuem ordenação natural (qualitativas ordinais e quantitativas em geral), faz sentido incluirmos também uma coluna contendo as frequências acumuladas N i e H i, obtidas pela soma das frequências de todos os valores da variável, menores ou iguais ao valor considerado. No caso das variáveis quantitativas contínuas, que podem assumir infinitos valores diferentes, a tabela de frequência precissa de classes ou faixas de valores e contamos o número de ocorrências em cada faixa. Apesar de não adotarmos nenhuma regra formal para estabelecer as faixas, utilizaremos em geral, de 5 a 8 faixas com mesma amplitude. Eventualmente, faixas de tamanho desigual podem ser convenientes para representar valores nas extremidades da tabela.

Tabela de frequências Frequência Frequência Frequência Frequência Classes Intervalos absoluta relativa absoluta relativa acumulada acumulada C (LI i LS i ) n i h i N i H i c 1 (LI 1 LS 1 ) n 1 h 1 = n 1 n N 1 = n 1 H 1 = N 1 n = h 1.................. c j (LI j LS j ) n j h j = n j N n j = n 1 + n 2 +... + n j H j = N j n.................. = h 1 + h 2 +... + h j c k (LI k LS k ) n k h k = n k n N k = n H k = 1

Medidas de posição no caso de dados agrupados Média: Sejam y 1, y 2,..., y k os pontos médios de cada intevalo de classe de uma distribuição de frequência de k classes k j=1 Ȳ = n iy i n Mediana: Me = LI j = c( (n/2) N j 1 ) n j Moda: n j n j 1 Mo = LI j + c( (n j n j 1 ) + (n j n j+1 ) )

Exemplo Adaptado do dataset Household Expenditures (Aitchison, 1986): Gastos domiciliares de 38 domicílios (HK$) em quatro grupos de despesas: 1 Moradia, gás, luz, etc 2 Alimentação, incluindo bebidas e tabaco 3 Outros bens, incluindo vestuário e bens duráveis 4 Servicos, incluindo transporte e veículos Dataset: sex: sexo do chefe da família (male/female) children: número de filhos (adaptado por Marcelo Lauretto) housing, foodstuffs, othergoods, services: gastos mensais em cada grupo de despesas

Gráfico de barras Para construir um gráfico de barras, representamos os valores da variável no eixo das abscissas e suas frequências ou porcentagens no eixo das ordenadas. Para cada valor da variável desenhamos uma barra com altura correspondendo à sua frequência ou porcentagem. Este tipo de gráfico é interessante para as variáveis qualitativas ordinais ou quantitativas discretas, pois permite investigar a presença de tendência nos dados.

Gráfico de Barras Figura: Número de filhos por sexo do chefe de familia

Diagrama Circular Para construir um diagrama circular ou gráfico de pizza, repartimos um disco em setores circulares correspondentes às porcentagens de cada valor (calculadas multiplicando-se a frequência relativa por 100). Este tipo de gráfico adapta-se muito bem para as variáveis qualitativas nominais.

Diagrama Circular Figura: Esq: Percentual de domicílios por sexo do chefe de familia; Dir: Percentual de domicílios por número de filhos

Diagrama Circular Figura: Percentuais de domicílios por número de filhos (segmentação por sexo)

Histograma O histograma consiste em retângulos contíguos com base nas faixas de valores da variável e com área igual à frequência relativa da respectiva faixa. Desta forma, a altura de cada retângulo é denominada densidade de frequência ou simplesmente densidade definida pelo quociente da área pela amplitude da faixa. Alguns autores utilizam a frequência absoluta ou a porcentagem na construção do histograma, o que pode ocasionar distorções (e, consequentemente, más interpretações) quando amplitudes diferentes são utilizadas nas faixas.

Histograma

Boxplot Para construí-lo, desenhamos uma caixa com o nível superior dado pelo terceiro quartil (Q3) e o nível inferior pelo primeiro quartil (Q1). A mediana (Q2) é representada por um traço no interior da caixa e segmentos de reta são colocados da caixa até os valores máximo e mínimo, que não sejam observações discrepantes. O critério para decidir se uma observação é discrepante pode variar; chamaremos de discrepante os valores maiores do que Q3 + 1, 5 (Q3 Q1) ou menores do que Q1 1, 5 (Q3 Q1). O Boxplot fornece informações sobre posição, dispersão, assimetria, caudas e valores discrepantes.

Boxplot Figura: Consumos domiciliares por grupo de despesa, em escala natural (esq) e logarítmica (dir)

Gráfico de linha ou sequência Adequados para apresentar observações medidas ao longo do tempo, enfatizando sua tendência ou periodicidade.

Polígono de frequências Semelhante ao histograma, mas construído a partir dos pontos médios das classes.

Diagrama de dispersão Adequado para descrever o comportamento conjunto de duas variáveis quantitativas. Cada ponto do gráfico representa um par de valores observados.