Clustering - agrupamento. Baseado no capítulo 8 de. Introduction to Data Mining



Documentos relacionados
Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Recuperação de Informação em Bases de Texto. Aula 10

Clustering: K-means and Aglomerative

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Agrupamento de dados

Aprendizagem de Máquina

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

Pré processamento de dados II. Mineração de Dados 2012

Técnicas de Clustering: Algoritmos K-means e Aglomerative

Algoritmos de Agrupamento - Aprendizado Não Supervisionado. Fabrício Jailson Barth

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

UTILIZANDO O SOFTWARE WEKA

Descoberta de Conhecimento em Bases de Dados. Classificação

Anexo 2 Análise de clusters método K-means

CONCURSO DE FOTOGRAFIA

INF 1771 Inteligência Artificial

SUMÁRIO. Introdução... 3

ORGANIZAÇÃO DO TRABALHO

Reconhecimento de Padrões

Factor Analysis (FACAN) Abrir o arquivo ven_car.sav. Clique Extraction. Utilizar as 10 variáveis a partir de Vehicle Type.

Instituto Superior de Engenharia do Porto. Agrupamento Clustering

Data, Text and Web Mining

Algoritmos de pesquisa. Tabelas de dispersão/hash

Classificação - avaliação de resultados - 1. Mineração de Dados 2013

AULA 6 - Operações Espaciais

PRIORIDADES EM SERVIÇOS E ORGANIZAÇÃO DO TRABALHO. Professora Andréia Ribas rp_andreiaribas@hotmail.com

Informática e Sistemas de Informação Aplicados em Economia

Possui como idéia central a divisão de um universo de dados a ser organizado em subconjuntos mais gerenciáveis.

Palavras-Chaves: Agrupamento Hierárquico; Acordo de Resultados.

Cadastro de Franquias. Cadastro de Tipo. Configuração da Exportação

Data Mining: Conceitos e Técnicas

Web Data Mining com R

5.2 - Armazenamento em Disco

CADEX. Consultoria em Logística Interna. Layout de armazém. Objectivos. Popularidade. Semelhança. Tamanho. Características

2. Método de Monte Carlo

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Apresentação do programa e bibliografia. Objectivos da disciplina e sua inserção no curso.

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha

Comparação entre as Técnicas de Agrupamento K-Means e Fuzzy C-Means para Segmentação de Imagens Coloridas

PROVA MODELO Duração da prova: 120 minutos

Prof. Celia Corigliano. Unidade II GERENCIAMENTO DE PROJETOS

Como fazer busca de imagem no Google?

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Sistema de Informação de Licenciamento de Operações de Gestão de Resíduos

Diagrama de transição de Estados (DTE)

Reconhecimento de Padrões. Reconhecimento de Padrões

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

3.1 Definições Uma classe é a descrição de um tipo de objeto.

DESENVOLVENDO O SISTEMA

REQUISITOS DE SISTEMAS

Exemplos de aplicação. Mineração de Dados 2013

4 Aplicativo para Análise de Agrupamentos

Aprendizagem de Máquina

LIVRO ENGENHARIA DE SOFTWARE FUNDAMENTOS, MÉTODOS E PADRÕES CAPÍTULO ATIVIDADES, PAG. 138 A 150

UNIDADE 4 - ESTRUTURA CRISTALINA

Introdução ao Paradigma Orientado a Objetos. Principais conceitos

EGEA ESAPL - IPVC. Orçamentos Anuais Parciais de Actividade

Regulamento das Atividades Acadêmicas Complementares. Curso: Gestão da Tecnologia da Informação

Organogramas. Há um grande número de técnicas de representação. Estrutural, circular ou radial, funcional, estruturalfuncional,

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010

Sistemas Operacionais

Treinando a sua equipe para aumentar a competitividade da sua empresa.

UFGD FCA PROF. OMAR DANIEL BLOCO 6 CLASSIFICAÇÃO DE IMAGENS

Big Data. Como utilizar melhor e mais rápido seus dados e informações utilizando metodologias e tecnologias GED/ECM

Projetos. Universidade Federal do Espírito Santo - UFES. Mestrado em Informática 2004/1. O Projeto. 1. Introdução. 2.

Desenho e Modelação de Esquemas de Bases de Dados

A Preparação dos Dados

Computação Paralela. Desenvolvimento de Aplicações Paralelas João Luís Ferreira Sobral Departamento do Informática Universidade do Minho.

Vetor Quantização e Aglomeramento (Clustering)

Observatório da Web: Uma Plataforma para Monitoramento de Eventos em Tempo Real. Gisele L. Pappa Outubro/2013

Art. 1º - Aprovar o Regulamento das Atividades Complementares do Curso de Turismo da Faculdade de Sinop FASIP, nos termos abaixo expostos.

Segmentação de Imagens

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Unidade 7: Middleware JDBC e Java DB Prof. Daniel Caetano (Fonte: Tutorial Oficial do NetBeans)

Redes Complexas Aula 2

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Programação não Linear Conteúdos da Seção Programação Não Linear Aplicações Solução Gráfica Resolução no Excel Controle de Eestoque Modelo do Lote

Extração de Conhecimento & Mineração de Dados

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

CAPÍTULO 3. Sistemas com Vários Componentes (Multicomponentes) em Modelos Markovianos de Decisão

Parte 4-B Mais Exemplos. (específicos - redes de computadores)

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Sistema Multi-Agente Mediação Electrónica de Seguros

Estruturas (registros)

COTAÇÃO PRÉVIA Nº 14/2013

4 Metodologia Tipo de pesquisa

Estudo de parâmetros relacionados à energia elétrica utilizando análise de agrupamento (cluster analysis) na Universidade Federal de Lavras

Universidade Federal Rural de Pernambuco Departamento de Estatística e Informática

SISTEMA DE CLUSTERIZAÇÃO PARA DESLOCAMENTO DE PESSOAS EM GRUPO

TOTVS BA Guia de Customização Linha Logix

Art. 1º Dar nova redação aos art. 4º e 5º da Portaria Inmetro n.º 105/2012, que passarão a vigorar com a seguinte redação:

Padrões de projeto 1

Lista de Exercícios Engenharia de Software 29/08/2012. Grupo de 4 Pessoas, atividade para ser entregue em aula

Linguagem algorítmica: Portugol

BUSCA LOCAL ITERADA (ILS ITERATED LOCAL SEARCH)

Gerenciamento de Riscos do Projeto Eventos Adversos

AULA 5 Sistemas Operacionais

2 Comportamento Termodinâmico de Fluidos no Reservatório

Transcrição:

Clustering - agrupamento Baseado no capítulo 8 de Introduction to Data Mining de Tan, Steinbach, Kumar Clustering - agrupamento 1

O que é Clustering? Encontar grupos de objectos tal que os objectos dentro de um grupo são similares entre si, enquanto objetos de grupos diferentes são dissimilares. Distância Intra-cluster é mínima Distância Inter-cluster é máxima Clustering - agrupamento 2

Aplicações de Clustering Compreensão Grupos de documentos relacionados entre si, grupos de genes similares, ou grupos de ações com comportamentos similares 1 2 3 4 Discovered Clusters Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific -Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton -HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Industry Group Technology1-DOWN Technology2-DOWN Financial-DOWN Oil-UP Sumário/síntese Reduzir a dimensão de conjuntos de dados de gandes dimensões Chuva na Australia Clustering - agrupamento 3

O que não é clustering? Classificação supervisionada Existe uma classe Simples segmentação Dividir alunos por ordem alfabética do nome, ou por ordem de notas, ou por idade Resultados de uma query Resultado de uma especificação (ou conjunto de especificações previamente definidas) Clustering - agrupamento 4

Definição de Cluster/grupo pode ser ambígua Quantos clusters? Seis Clusters Dois Clusters Quatro Clusters Clustering - agrupamento 5

Tipos de Clustering O clustering é o conjunto de grupos(clusters) Clustering de partição Divisão de objetos em conjuntos não sobrepostos Clustering hierárquico e Conjunto de grupos organizado segundo uma árvore hierárquica Clustering - agrupamento 6

Clustering de partição Pontos originais clustering de partição Clustering - agrupamento 7

Clustering hierárquico p1 p3 p4 p2 p1 p2 p3 p4 Clustering hierárquico Traditional Dendrogram p1 p3 p4 p2 p1 p2 p3 p4 Non-traditional Hierarchical Clustering Non-traditional Dendrogram Clustering - agrupamento 8

Tipos de clusters Exclusivos versus não-exclusivos Em clusters não exclusivos alguns pontos podem pertencer a múltiplos clusters Fuzzy versus não-fuzzy No clustering fuzzy, um ponto pertence a todos os clusters com um certo grau (entre 0 e 1) Parcial versus completo Clustering de parte dos dados Heterogénio versus homogénio Heterogénio - Clustering com dimensões formas e/ou densidades diversas Clustering - agrupamento 9

Tipos de Clusters Clusters bem separados clusters Clusters basedos em centros Clusters Contíguos Clusters baseados em densidade Clustering - agrupamento 10

Tipos de Clusters: Bem separados Cada elemento está mais perto dos pontos do seu cluster do que de qualquer outros pontos 3 clusters bem separados Clustering - agrupamento 11

Tipos de Clusters: Baseados em centros Cada elemento está mais perto do centro do cluster do que de qualquer outro centro 4 clusters baseado em centros Clustering - agrupamento 12

Tipos de Clusters: Contíguos Zonas contínuas ou próximas de zonas contínuas 8 clusters contíguos Clustering - agrupamento 13

Tipos de Clusters: conceito/propriedade Mesma forma.... 2 Círculos Clustering - agrupamento 14

K-means K-means é um algoritmo que gera clusters: - Dijuntos, determinísticos, planos. Algoritmo: 1. Escolher o número de clusters K 2. Escolher o centro dos clusters (início pode ser aleatório) 3. Atribuir as instâncias aos clusters baseado nas distâncias aos centros dos clusters 4. calcular os centroides (média) dos clusters 5. voltar para passo 2 até o centroide convergir 15

K-means Distância entre as instâncias e os centroides - erro quadrático ou distência euclideana centros Pode ficar preso em mínimos locais iniciais dos clusters instâncias Mínimos globais podem ser atingidos usando outros centros iniciais instâncias centros com distância mínima Diversas variantes (hierárquico/recursivo) 16

K-means Exemplos de mínimos locais. Sensibilidade à transformação de coordenadas centros iniciais dos clusters centros com distância mínima instâncias instâncias 17

K-means Transformação linear de coordenadas 18

Centroides iniciais e evolução 3 Iteration 1 3 Iteration 2 3 Iteration 3 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 y y y 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x 3 Iteration 4 3 Iteration 5 3 Iteration 6 2.5 2.5 2.5 2 2 2 1.5 1.5 1.5 y y y 1 1 1 0.5 0.5 0.5 0 0 0-2 -1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x -2-1.5-1 -0.5 0 0.5 1 1.5 2 x Clustering - agrupamento 19