Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR



Documentos relacionados
Análise Exploratória de Dados

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

UNIDADE 4 - ESTRUTURA CRISTALINA

EXERCÍCIOS EXERCÍCIOS. Definições Básicas. Definições Básicas. Definições Básicas. Introdução à Estatística. Dados: valores de variáveis observadas.

Modelo de dados do Data Warehouse

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ANÁLISE E TRATAMENTO DE DADOS Ano Lectivo 2015/2016

AULAS 04 E 05 Estatísticas Descritivas

Lidar com números e estatísticas não é fácil. Reunir esses números numa apresentação pode ser ainda mais complicado.

Data Mining: Conceitos e Técnicas

Estatística descritiva. Também designada Análise exploratória de dados ou Análise preliminar de dados

Estatística Aplicada. Gestão de TI. Evanivaldo Castro Silva Júnior

Introdução. Capítulo. 1.1 Considerações Iniciais

TRATAMENTO DA INFORMAÇÃO/ANÁLISE DE DADOS AULA 09. Universidade Federal Fluminense

5 Extraindo listas de produtos em sites de comércio eletrônico

AULA 15 Plugin Preenchimento de Células

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Tópicos de Estatística Espacial Visualização de Dados


Universidade Federal de Santa Catarina CAPÍTULO 6 GRÁFICOS NO EXCEL.

Microsoft Office 2010

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

ESTATÍSTICA. aula 1. Insper Ibmec São Paulo. Prof. Dr. Marco Antonio Leonel Caetano

Processamento de Imagem. Prof. MSc. André Yoshimi Kusumoto

Distribuição de Freqüência

FERRAMENTAS DA QUALIDADE

Revisão de Estatística Básica:

Tarefa Orientada 18 Tabelas dinâmicas

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

AULA 6 - Operações Espaciais

NÍVEL BÁSICO CAPÍTULO III

Localização dos inquéritos de rua para Arroios e Gulbenkian

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

AULA 3 Ferramentas de Análise Básicas

1 Inicie um novo. Guia de Referência Rápida de Gerenciamento de Projeto para o Project projeto

ArcGIS 1: Introdução ao GIS (10.2)

EXCEL Público Alvo: Arquitetos Engenheiros Civis Técnicos em Edificações Projetistas Estudantes das áreas de Arquitetura, Decoração e Engenharia

Stela Adami Vayego - DEST/UFPR 1

Engenharia de Software II

O mundo à nossa volta é povoado de formas as mais variadas tanto nos elementos da natureza como nos de objetos construídos pelo homem.

Guia de Início Rápido

Desenho e Projeto de tubulação Industrial

Decidir como medir cada característica. Definir as características de qualidade. Estabelecer padrões de qualidade

MÉTODOS DE REPRESENTAÇÃO

Construção do Boxplot utilizando o Excel 2007

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

O BOXPLOT. Ana Maria Lima de Farias Departamento de Estatística (GET/UFF)

Modelode Domínio: Identificando. Prof. Anderson Cavalcanti UFRN-CT-DCA

Medidas de Variação ou Dispersão

Guia do professor. Ministério da Ciência e Tecnologia. Ministério da Educação. Secretaria de Educação a Distância.

Computação Científica com MATLAB. Melissa Weber Mendonça

APLICAÇÃO DE TÉCNICAS ESTATÍSTICAS UTILIZANDO O SISVAR

Filtragem. pixel. perfil de linha. Coluna de pixels. Imagem. Linha. Primeiro pixel na linha

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Aula 02: Conceitos Fundamentais

ADM041 / EPR806 Sistemas de Informação

IMES Catanduva. Probabilidades e Estatística. no Excel. Matemática. Bertolo, L.A.

AULA 3 Ferramentas de Análise Básicas

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados


Por que o quadrado de terminados em 5 e ta o fa cil? Ex.: 15²=225, 75²=5625,...

ESCOLA SECUNDÁRIA/3 da RAINHA SANTA ISABEL ESTREMOZ PLANIFICAÇÃO ANUAL DA DISCIPLINA DE MATEMÁTICA APLICADA ÀS CIÊNCIAS SOCIAIS (MACS) 10º ANO

QualiQuantiSoft Versão 1.3c

Omatematico.com ESTATÍSTICA DESCRITIVA

PROCESSAMENTO DOS DADOS AVHRR DO SATÉLITE NOAA E APLICAÇÃO SOBRE A REGIÃO SUL DO BRASIL. Leonid Bakst Yoshihiro Yamazaki

Programação Estruturada e Orientada a Objetos. Fundamentos Orientação a Objetos

APLICATIVOS GRÁFICOS (AULA 3)

3 Classificação Resumo do algoritmo proposto

Termovisor FLIR E6. Foco Fixo Microbolômetro não refrigerado Tela LCD colorido 3.0 pol Frequência da Imagem

CRITÉRIOS PARA A DETERMINAÇÃO DOS INTERVALOS DE CLASSE

ANÁLISE MATEMÁTICA II

1. Registou-se o número de assoalhadas da população de 100 apartamentos vendidos num bairro residencial

Atividade 4 - Acerte no alvo

CALDsoft7 - Software de planificação em caldeiraria

Gerenciamento Incidentes, Problemas e de Nível de Serviço. Treinamento OTRS ITSM

Aprendendo a Interpretar Dados Financeiros de uma Empresa Usando Estatística de Forma Simples e Prática

INTRODUÇÃO AOS MÉTODOS FACTORIAIS

AVALIAÇÃO DO MODELO DE ONDAS

Pré processamento de dados II. Mineração de Dados 2012

Pesquisa em Marketing

ActivALEA. active e actualize a sua literacia

EXPERIMENTO N o 6 LENTES CONVERGENTES INTRODUÇÃO

CAPÍTULO 1 Introduzindo SIG

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining

Desenhador de Escadas

Oficina de Construção de Páginas Web

Universidade Federal de Goiás Instituto de Informática Processamento Digital de Imagens

Linguagem R R-Gui e R-Commander

27/06/14. Tabelas e Gráficos. Tabelas e Gráficos

A coleta de requisitos se refere ao processo de determinar, documentar e gerenciar as necessidades e requisitos das partes interessadas;

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

GERAÇÃO DE VIAGENS. 1.Introdução

Extração de Conhecimento & Mineração de Dados

Transcrição:

Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise Fazer uso das habilidades humanas de reconhecimento de padrões Pessoas podem reconhecer padrões não capturados pelas técnicas de análise de dados Relacionado à área de Análise Exploratória de Dados (EDA) Criada pelo estatístico John Tukey Livro seminal: Exploratory Data Analysis escrito por Tukey Uma boa introdução online pode ser encontrada no capítulo 1 do NIST Engineering Statistics Handbook http://www.itl.nist.gov/div898/handbook/index.htm

Em EDA, como originalmente definido por Tukey O foco está na visualização Agrupamento e detecção de anomalias eram vistos como técnicas exploratórias Em mineração de dados, agrupamento e detecção de anomalias são grandes áreas de interesse, e não são vistas apenas como exploração Nesta discussão de exploração de dados, o foco está em Estatística Sumária Visualização Online Analytical Processing (OLAP)

Muitas das técnicas de exploração de dados são ilustradas com o conjunto de dados da planta Iris. Pode ser obtido do UCI Machine Learning Repository http://www.ics.uci.edu/~mlearn/mlrepository.html Criada pelo estatístico Douglas Fisher Três tipos de flores (classes): Setosa Virginica Versicolour Quatro atributos (não-classes) Sepal width e length Petal width e length Virginica. Robert H. Mohlenbrock. USDA NRCS. 1995. Northeast wetland flora: Field office guide to plant species. Northeast National Technical Center, Chester, PA. Courtesy of USDA NRCS Wetland Science Institute.

!" Estatística Sumária são números que resumem as propriedades dos dados Propriedades sumarizadas incluem freqüência, posição e dispersão Exemplos: posição média dispersão desvio padrão A maioria das estatísticas sumárias pode ser calculada em um único passo através dos dados

#$% A freqüência do valor de um atributo é a percentagem do tempo em que o valor ocorre no conjunto de dados Por exemplo, dado o atributo gênero e uma população representativa de pessoas, o gênero feminino ocorre cerca de 50% do tempo. A moda de um atributo é o valor mais freqüente do atributo As noções de freqüência e moda são usadas tipicamente com dados categóricos

& Para dados contínuos, a noção de percentil é mais útil. Dados um atributo contínuo ou ordinal x e um número p entre 0 e 100, x p o p-ésimo percentil é um valor x p de x tal que p% dos valores observados de x são menores que x p. Por exemplo, o percentil 50 é o valor x 50% tal que 50% de todos os valores de x são menores que x 50%.

A média é a medida mais comum de posição de um conjunto de pontos. Entretanto, a média é muito sensitiva a outliers. Então, a mediana ou uma mediana ajustada é usada comumente.

#'( Faixa é a diferença entre o máximo e mínimo A variância ou desvio padrão é a medida mais comum de desvio de um conjunto de pontos. Entretanto, elas são sensitivas a outliers, e outras medidas são freqüentemente utilizadas.

') Visualização é a conversão dos dados para um formato visual ou tabular de tal forma que as características dos dados e os relacionamentos entre itens de dados ou atributos possa ser analisada ou reportada. Visualização de dados é uma das técnicas de maior apelo e poder para exploração de dados. Os seres humanos tem uma habilidade bem desenvolvida de analisar grandes quantidades de informação que seja apresentada visualmente Pode detectar padrões gerais e tendências Pode detectar outliers e padrões não usuais

!! * Abaixo tem-se a Temperatura da Superfície do Mar em Julho de 1982 Dezenas de milhares de pontos de dados estão sumarizados em uma única figura

+ É o mapeamento da informação em um formato visual Objetos de dados, seus atributos e as relações entre objetos de dados são traduzidos em elementos gráficos tais como pontos, linhas, formatos e cores. Exemplo: Objetos são representados freqüentemente como pontos Seus valores de atributo podem ser representados como a posição dos pontos ou as características dos pontos, e.g., cor, tamanho e formato Se a posição é usada, então os relacionamentos entre os pontos, i.e., se eles formam grupos ou um ponto é um outlier, são facilmente percebidos.

, É a colocação de elementos visuais dentro de um display Pode fazer uma grande diferença no quão fácil é para compreender os dados Exemplo:

É a eliminação ou a tirada de ênfase de certos objetos e atributos Seleção pode envolver a escolha de um subconjunto de atributos Redução de dimensionalidade é muito usada para reduzir o número de dimensões para duas ou três De outra forma, pares de atributos podem ser usados Seleção também pode envolver escolher um subconjunto de objetos Uma região da tela mostra um número fixo de pontos Pode-se amostrar, mas querer preservar pontos em áreas esparsas

') -.! Histograma Usualmente mostra distribuição de valores de uma variável Divide os valores em faixas e mostra um gráfico de barras do número de objetos em cada faixa. A altura de cada barra indica o número de objetos Formato do histograma depende do número de faixas Exemplo: Petal Width (10 e 20 faixas, respectivamente)

-.!/0! Mostra a distribuição conjunta dos valores de dois atributos Exemplo: petal width e petal length O que isto nos mostra?

') 1"* Gráficos de Caixa Inventados por J. Tukey Outra forma de indicar a distribuição dos dados Figura mostra a parte básica de um gráfico de caixa Outlier Percentil 90 Percentil 75 Percentil 50 Percentil 25 Percentil 10

! 1"* Gráficos de Caixa podem ser usados para comparar atributos

') 1"* Gráficos de Dispersão Valores dos atributos determinam a posição Gráficos de dispersão bidimensionais são mais comuns, mas também há gráficos tridimensionais Freqüentemente atributos adicionais podem ser mostrados usando tamanho, forma e cor dos marcadores que representam os objetos É útil ter arranjos de gráficos de dispersão para sumarizar de maneira compacta os relacionamentos de vários pares de atributos Exemplo a seguir

, 1"*,2

') 1"* Gráficos de Contorno Útil quando um atributo contínuo é medido em uma grade espacial Particionam o plano em regiões de valores similares Linhas de contorno que formam os limites destas regiões conectam pontos com valores iguais O exemplo mais comum são os mapas de contorno de elevação Também pode indicar temperatura, precipitação, pressão do ar, etc. Exemplo para Temperatura da Superfície do mar a seguir

! 1"* 34556 Celsius

') 1"* Gráficos Matriciais Podem plotar a matriz de dados Pode ser útil quando os objetos são ordenados de acordo com a classe Normalmente os atributos são normalizados para evitar que um atributo domine o gráfico Gráficos de similaridade ou matrizes de distância também podem ser úteis para visualizar os relacionamentos entre objetos Exemplos de gráficos matriciais estão a seguir

') ) standard deviation

') )

') & Coordenadas Paralelas Usadas para plotar os valores dos atributos de dados de alta dimensionalidade Em lugar de eixos perpendiculares, usa-se um conjunto de eixos paralelos Valores dos atributos de cada objeto são plotados como um ponto em cada um dos eixos coordenados correspondentes e os pontos são ligados por linhas Então, cada objeto é representado como uma linha Freqüentemente linhas representam uma classe distinta de objetos agrupados, ao menos para alguns atributos Ordenar atributos é importante para ver os grupos

1"* &

') Gráficos Estrela Abordagem similar a coordenadas paralelas, mas eixos irradiam a partir de um ponto central A linha conectando os valores de um objeto é um polígono Faces de Chernoff Abordagem criada por Herman Chernoff Esta abordagem associa cada atributo com a característica de uma face Valores de cada atributo determinam a aparência da característica facial correspondente Cada objeto torna-se uma face separada Baseia-se na habilidade humana de distinguir faces

1"* Setosa Versicolour Virginica

#7 * Setosa Versicolour Virginica