ANÁLISE EXPLORATÓRIA DE DADOS

Documentos relacionados
Variáveis Frequências Gráficos Medidas de Posição Medidas de Dispersão Medidas Complementares Inferência

Os dados quantitativos também podem ser de natureza discreta ou contínua.

Medidas de Localização

DISTRIBUIÇÃO DE FREQUÊNCIA DE VARIÁVEIS QUALITATIVAS E QUANTITATIVAS DISCRETAS (TABELAS E GRÁFICOS)

Estatística. Slide 0. Ana M. Abreu /07

1. Estatística Descritiva

BIOESTATÍSTICA. Parte 1 - Estatística descritiva e análise exploratória dos dados

Aula 4 Gráficos e Distribuição de Frequências

Medidas de dispersão e assimetria

x = xi n x = xifi fi 1. MÉDIA Exercício: Quando a distribuição é simétrica, a média e a mediana coincidem.

Plano de Ensino PROBABILIDADE E ESTATÍSTICA APLICADA À ENGENHARIA - CCE0292

Estatística. Conjunto de métodos e processos quantitativos que serve para estudar e medir os fenômenos coletivos ou de massa.

Estatística Computacional Profª Karine Sato da Silva

DISCIPLINA DE ESTATÍSTICA

Medidas de Tendência Central. Introdução Média Aritmética Moda Mediana

Estatística Computacional Profª Karine Sato da Silva

ESCOLA SECUNDÁRIA DE CALDAS DAS TAIPAS PLANIFICAÇÃO ANUAL. Ano letivo 2014 / 2015

Medida de Tendência Central

FATEC GT/FATEC SJC. Prof. MSc. Herivelto Tiago Marcondes dos Santos [ESTATÍSTICA I]

Escola Básica e Secundária de Velas Planificação Anual

Matemática Básica Intervalos

Escola Secundária com 3º CEB de Lousada. Ficha de Trabalho de Matemática do 8º ano N.º 29 Assunto: Estatística

Apresentação de Dados

Estatística - exestatmedposic.doc 25/02/09

Aula 1 Assimetria e Curtose

ESTATÍSTICA DESCRITIVA:

Planificação Anual de Matemática 5º Ano

MEDIDAS DE DISPERSÃO. o grau de variabilidade, ou dispersão, dos valores em torno da média.

Estatística AMOSTRAGEM

Relatório das Provas da 2ª. Fase - Vestibular 2016

n Xi = X1 + X2 + X Xn i = 1 n Xi, deve ser lida soma dos valores xi, para i variando de 1 até n. i = 1

Desvio Padrão ou Erro Padrão

Aula 6 Medidas de Tendência Central

CONHECIMENTOS ESPECÍFICOS

Administração Central Unidade de Ensino Médio e Técnico - Cetec. Ensino Técnico. Qualificação: Assistente Administrativo

PLANO DE ESTUDOS DE MATEMÁTICA 5.º ANO

Medidas de Tendência Central

PLANO DE AULA I. Escrito por Eliani Pereira de Souza Nascimento. Supervisionado por Rosana Silva Bonfim

Unidade Medidas de Posição ou de Tendência Central

======================================================================

Análise de Regressão. Notas de Aula

Aula 1 Variáveis aleatórias contínuas

Carta de controle para o desvio-padrão

Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira INEP Ministério da Educação MEC. Cálculo do Conceito ENADE

AMOSTRAGEM: DIMENSIONAMENTO DE AMOSTRAS. SELEÇÃO DOS ELEMENTOS DE UMA AMOSTRA. ESTIMATIVA DA CARACTERÍSTICA TOTAL DA POPULAÇÃO INVESTIGADA

A vida sem reflexão não merece ser vivida Sócrates Disciplina: ESTATÍSTICA e PROBABILIDADE

Stela Adami Vayego DEST/UFPR

Lição 5 Medidas Descritivas Medidas de Dispersão

Conteúdo. 1 Introdução. Histograma do Quinto Sorteio da Nota Fiscal Paraná 065/16. Quinto Sorteio Eletrônico da Nota Fiscal Paraná

Conteúdo. 1 Introdução. Histograma do 1o Sorteio da Nota Fiscal Paraná 152/15. 1º Sorteio Eletrônico da Nota Fiscal Paraná

MEDIDAS DE TENDÊNCIA CENTRAL II

2) Escreva um algoritmo que leia um conjunto de 10 notas, armazene-as em uma variável composta chamada NOTA e calcule e imprima a sua média.

MATEMÁTICA B 10ºANO ANO LETIVO 2015/2016 Módulo Inicial

Ferramenta 5W2H. ferramentas apresentadas. Definir: 10/03/2011

Aula 1 Estatística e Probabilidade

Erros e Incertezas. Rafael Alves Batista Instituto de Física Gleb Wataghin Universidade Estadual de Campinas (Dated: 10 de Julho de 2011.

Matemática Aplicada às Ciências Sociais

FERRAMENTAS DA QUALIDADE

Sobre o Boxplot no GeoGebra

A medida psicométrica

As sete ferramentas da qualidade (Seven Tools)

CIRCULAR TÉCNICA N o 171 NOVEMBRO 1989 TABELAS PARA CLASSIFICAÇÃO DO COEFICIENTE DE VARIAÇÃO

Análise estatística. Aula de Bioestatística. 17/9/2008 (2.ª Parte) Paulo Nogueira

Coeficiente de Assimetria e Curtose. Rinaldo Artes. Padronização., tem as seguintes propriedades: Momentos

Preparação para o teste intermédio de Matemática 8º ano

IND 1115 Inferência Estatística Aula 8

AULA 11 Experimentos Multinomiais e Tabelas de Contingência

Eixo Temático ITema 1: Conjuntos Numéricos. Números e Operações

AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO

Planificação a longo prazo

ESTATÍSTICA PARTE 1 OBJETIVO DA DISCIPLINA

CAPÍTULO 4 DESCRIÇÃO E EXPLORAÇÃO DOS DADOS 2ª parte

Estatística. Professora: Eliana Carvalho Estatística e Probabilidade 1

Objetivo. tica 3º ano EM. Oficina de Matemática

Agrupamento de Escolas Júlio Dantas Escola Básica Tecnopolis

AGRUPAMENTO DE ESCOLAS DA SÉ GUARDA. MATEMÁTICA B Curso de Artes Visuais

índice Introdução Estatística Descritiva Capítulo 1 Capítulo 2 O que é a Estatística Escalas de medida Escalas Nominais Escalas Ordinais

PROJETO MEDIDAS ESTATÍSTICAS RESUMO. Palavras Chaves: Medidas Estatísticas. Planilhas Eletrônicas. Matemática.

I COLIFORMES E ph MÉDIAS ARITMÉTICAS, MÉDIAS GEOMÉTRICAS E MEDIANAS

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Teoria da medida. Aspectos Gerais

PLANO DE ENSINO CONTEÚDO PROGRAMÁTICO. Unidade 1: MEDIDAS E GRANDEZAS Introdução Padrões usados para avaliar grandezas físicas

Professores colaboradores: Claudemir, David Cardoso Siqueira, Edilson Araujo do Nascimento, Emerson, Glaucia, Luciene Maria da Silva Oliveira

Prova Final de Matemática

Aula 00. Raciocínio Lógico Quantitativo para IBGE. Raciocínio Lógico Quantitativo Professor: Guilherme Neves

Métodos Quantitativos Aplicados

Capítulo 4 Inferência Estatística

3 Modelos de Simulação

CONCEITOS BÁSICOS EM METODOLOGIA QUANTITATIVA

AGRUPAMENTO DE ESCOLAS RAINHA D. LEONOR ESCOLA BÁSICA 2/3 EUGÉNIO DOS SANTOS Matemática Conteúdos 8ºAno de Escolaridade Ano Letivo 2013/14

ESTATÍSTICA DESCRITIVA. Aula 07 Estatística Descritiva

Árvores Parte 1. Aleardo Manacero Jr. DCCE/UNESP Grupo de Sistemas Paralelos e Distribuídos

Avaliação e Desempenho Aula 1 - Simulação

Distribuições Conjuntas (Tabelas de Contingência)

População e Amostra POPULAÇÃO AMOSTRA AMOSTRAGEM TIPOS DE AMOSTRAGEM I. Amostra probabilística: II. Amostra não-probabilística

Métodos Numéricos e Estatísticos Parte II-Métodos Estatísticos

Alfabetização matemática e direitos de aprendizagem no 1º ciclo. Luciana Tenuta lutenuta@gmail.com

Programa de Ciências Experimentais

Modelos de Probabilidade e Inferência Estatística

Transcrição:

ANÁLISE EXPLORATÓRIA DE DADOS 1.0 Conceitos A estatística descritiva tem o objetivo de organizar, resumir e apresentar de forma adequada os dados, para que estes se tornem informativos. A análise exploratória de dados descreve os dados e busca conhecer algumas características do processo, com base nos dados. Com o uso adequado de tabelas, gráficos e medidas, podemos descobrir certas estruturas que não eram evidentes nos dados brutos. Mineração de dados (data mining) significa a busca por relacionamentos não triviais, que podem estar escondidos em grandes massas de dados, utilizando-se de técnicas estatísticas e computacionais. 2.0 Dados e variáveis Depois de realizado um levantamento de dados, eles são colocados em arquivos, sob a forma de matrizes. As linhas dessas matrizes correspondem ao que se observou em cada elemento pesquisado, enquanto as colunas correspondem às características (variáveis) levantadas. Os dados podem ser observações de variáveis qualitativas ou de variáveis quantitativas, e as técnicas de análise são diferentes para cada caso. Quando os possíveis resultados de uma variável são números de certa escala, dizemos que essa variável é quantitativa, e quando são atributos ou qualidade, a variável é dita qualitativa. Distribuição de frequências consiste na organização dos dados de acordo com as ocorrências dos diferentes resultados observados. A contagem de quantos elementos existem em cada categoria forma uma distribuição de frequência dos dados dessa variável, que pode ser apresentada em uma tabela ou um gráfico. Elas podem ser apresentadas de forma absoluta ou de forma relativa. Frequência absoluta é preferida quando o número de observações é pequeno. Por outro lado, utiliza-se frequência relativa quando deseja-se fazer comparações.

3.0 Análise de variáveis qualitativas Variáveis qualitativas são aquelas cujos possíveis resultados são observados na forma de categoria. Para construir uma distribuição de frequências com os dados de uma variável qualitativa, basta contar a quantidade de resultados observados em cada categoria. Numa tabela de frequência, a primeira coluna mostra todas as categorias previamente estabelecidas de uma variável. A segunda coluna resulta da contagem de quantas observações se identificam com cada categoria (frequências absolutas). A terceira coluna apresenta uma medida relativa da frequência de cada categoria, definida por: As frequências relativas são particularmente importantes para comparar distribuições de frequências. Categorias Frequência Frequência relativa (%) A x 100*x/t B y 100*y/t......... N z 100*z/t Total t (x+y+...+z) 100% As representações gráficas fornecem, em geral, visualização mais sugestiva do que as tabelas. São formas alternativas de apresentar uma distribuição de frequências. Da mesma forma que tabelas, os gráficos devem conter um título, contendo as informações pertinentes. Eles costumam ser referenciados num texto como figuras. A posição do título de uma figura deve ser embaixo dela. No gráfico de colunas as categorias são representadas por uma coluna e a frequência (absoluta ou relativa) é colocada o eixo vertical. Alternativamente, o eixo horizontal poderia representar a escala das frequências e o eixo vertical, as categorias. Estaríamos construindo o gráfico de barras.

O gráfico de setores é construído através de uma relação linear (regra de 3) entre as frequências e comprimentos (em graus) de setores de um círculo. É particularmente útil quando o número de categorias não é grande e não obedecem a alguma ordem específica. Diagrama de Pareto corresponde ao gráfico de colunas ou de barras, mas as categorias são ordenadas decrescentemente pelas frequências observadas. É usado nos processos produtivos, em postos de avaliação da qualidade, colocando hierarquicamente os problemas encontrados pela falta de qualidade. É mais comum priorizar os problemas da qualidade em termos financeiros. 4.0 Análise de variáveis quantitativas Uma variável é dita quantitativa quando os possíveis resultados são números em certa escala. As observações dessas variáveis são dados quantitativos. A distribuição de frequências de variáveis discretas pode ser feita de forma análoga à distribuição de frequências de variáveis qualitativas, mas como os valores da variável formam uma escala numérica, temos, graficamente, um par de eixos cartesianos. Por convenção o eixo horizontal representa a variável e o eixo vertical, as frequências. Normalmente 3 informações principais são procuradas quando estamos explorando uma variável quantitativa: Faixa em que os valores ocorrem com maior frequência (faixa de valores típicos). Valores discrepantes, que podem ter sido originados de erros de mensuração ou digitação, mas também podem corresponder a elementos que apresentam comportamento muito diferente dos demais. Forma da distribuição, a fim de compará-la com modelos probabilísticos, o que nos permite usar técnicas mais avançadas de análise. A distribuição de frequências de variáveis contínuas é feita dividindo a amplitude total dos dados (diferença entre o maior e o menor valor) em vários intervalos, denominados classes. Esses intervalos devem ser mutuamente exclusivos, exaustivos e de preferência ter o mesmo tamanho.

O número de classes a ser usado na tabela de frequências é uma escolha arbitrária. Quanto maior o conjunto de dados, mais classes podem ser usadas. Em geral, são empregadas de 5 a 20 classes, dependendo da quantidade de dados e dos objetivos. Dentro dessa faixa, é sugestão usar aproximadamente Onde n representa a quantidade de valores observados. O passo seguinte é contar quantos valores encontram-se em cada classe previamente estabelecida. Como os dados são arredondados para um número finito de decimais, podem ocorrer valores exatamente no limite entre duas classes. Por convenção considera-se sempre o intervalo fechado no limite inferior e aberto no limite superior. O ponto médio das classes é a média dos limites de cada classe; ele representa o valor típico da classe. A frequência relativa acumulada é obtida por: Histograma é a forma mais usual de apresentação de distribuições de frequências de variáveis contínuas. São retângulos justapostos, feitos sobre as classes de variável em estudo. A área dos retângulos é igual ou proporcional à frequência observada da correspondente classe. O histograma pode ser feito usando percentagens no eixo vertical, mas sua forma não mudaria.

Diagrama de pontos é uma forma simples de observar poucas observações se distribuem, onde representa-se cada valor como um ponto na reta de números reais. Essa estratégia torna-se inadequada quando o número de observações é grande. 4.1 Características de uma distribuição Ao confrontarmos a distribuição observada com vários modelos teóricos existentes, temos uma idéia de qual modelo seria o mais adequado para explicar o comportamento da variável estudada. Na investigação sobre a forma da distribuição, várias características devem ser observadas. As principais são: Posição central: informa onde se localiza o centro da distribuição. Dispersão: se refere à variabilidade dos dados. Assimetria: representa a concentração dos valores em um dos extremos da distribuição. Curtose: grau de achatamento da distribuição. 5.0 Medidas descritivas Média aritmética: resume os dados de forma a torná-los mais informativos. Indica o centro de um conjunto de valores, considerando o conceito físico de centro de gravidade. Ela resume o conjunto de dados, em termos de posição central, ou de valor típico, mas não fornece qualquer informação sobre outros aspectos da distribuição. Além disso, ela perde sua função quando existem valores discrepantes.

5.1 Medidas de dispersão Amplitude: diferença entre o maior e menor valor: Como ela é calculado usando apenas 2 valores mais extremos, ela pode levar a conclusões errôneas quando existirem valores discrepantes. Medidas mais adequadas são a variância e o desvio padrão. A variância e o desvio padrão são medidas que fornecem informações complementares à informação contida na média aritmética. Essas medidas avaliam a dispersão do conjunto de valores em análise. O desvio padrão será sempre não negativo e será tão maior quanto mais dispersos forem os valores observados. Para evitar erros de arredondamento, podemos usar a seguinte fórmula alternativa para o cálculo do desvio padrão, que é matematicamente equivalente à: Prova: 5.2 Medidas baseadas na ordenação dos dados Mediana: avalia o centro de um conjunto de valores, sob o critério de ser o valor que divide a distribuição ao meio, deixando os 50% menores valores de um lado e os 50% maiores valores do outro lado. É o valor que ocupa a posição (n+1)/2, considerando os dados ordenados. Se o valor dessa expressão for fracionário, a mediana é definida como a média dos 2 valores de posições mais próximas a (n+1)/2. Entre a média e a mediana, para variáveis com distribuições razoavelmente simétricas, a média é a medida de posição central mais adequada, porque usa o máximo da informação contida nos dados, ela sua propriamente a magnitude dos valores, enquanto a mediana utiliza somente a ordenação dos valores.

5.3 Quartis e extremos Extremo inferior: menor valor do conjunto de valores, o. Extremo superior: maior valor do conjunto de valores, o. Primeiro quartil ou quartil inferior (qi): valor que delimita os 25% menores valores. Terceiro quartil ou quartil superior (qs): valor que delimita os 25% maiores valores. Segundo quartil ou quartil do meio é a própria mediana, que separa os 50% menores e maiores valores. Quando os resultados das operações acima são fracionários, fazemos uma interpolação linear com os valores de posições vizinhas ao resultado da fração. 5.4 Diagrama em caixas Desvio interquartílico é dado por: O diagrama de caixas é um retângulo que representa o desvio interquartílico. Este retângulo representa a faixa dos 50% dos valores mais típicos de distribuição. O retângulo é dividido no valor correspondente a mediana, assim ele indica o quartil inferior, a mediana e o quartil superior. Entre os quartis e os extremos são traçadas linhas e, caso existam valores discrepantes (além de 1,5dq), a linha é traçada até o último valor não discrepante, e os valores discrepantes são indicados por pontos. Eventuais pontos muito distantes (além de 3dq) são normalmente representados por símbolos diferentes para serem bem destacados.