SCC5895 Análise de Agrupamento de Dados

Documentos relacionados
SCC5895 Análise de Agrupamento de Dados

Tópicos Avançados em IA. Prof. Eduardo R. Hruschka

Créditos. SCC0173 Mineração de Dados Biológicos. Conteúdo. Motivação. Agrupamento de Dados Partes I & II: Conceituação e Métodos Hierárquicos

Mineração de Dados - Introdução. Elaine Ribeiro de Faria UFU 2018

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

SCC5895 Análise de Agrupamento de Dados

SCC0173 Mineração de Dados Biológicos

SCC5895 Análise de Agrupamento de Dados

Créditos. SCC5895 Análise de Agrupamento de Dados. Relembrando... Aula de Hoje. Algoritmos Hierárquicos: Parte I. [ x ] T. Algoritmos Hierárquicos

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos

SCC5895 Análise de Agrupamento de Dados

Mineração em Data Streams - Clustering. Profa. Elaine Faria UFU

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

ANÁLISE DE AGRUPAMENTOS

Introdução às Redes Neurais Artificiais

Redes Neurais (Inteligência Artificial)

Agrupamento de Dados. (Clustering)

SCC5895 Análise de Agrupamento de Dados

Aprendizado de Máquina (Machine Learning)

Introdução a Sistemas Inteligentes

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

SCC5895 Análise de Agrupamento de Dados

INF 1771 Inteligência Artificial

6. QUADRIMESTRE IDEAL 7. NÍVEL Graduação 8. Nº. MÁXIMO DE ALUNOS POR TURMA

Aprendizagem de Máquina

Inteligência Artificial

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Algarve. A2 Aprendizagem Automática ML Machine Learning 7/15/2013

Aprendizagem de Máquina

Aprendizagem de Máquina

INF 1771 Inteligência Artificial

Aprendizado de Máquina

IA: Aprendizado IV. Professor Paulo Gurgel Pinheiro. 30 de Setembro de 2010

Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos

Aprendizado de Máquina para a Automação da Aquisicão de Conhecimento

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

CC-226 Introdução à Análise de Padrões

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

Descoberta de conhecimento em redes sociais e bases de dados públicas

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Inteligência nos Negócios (Business Inteligente)

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Aprendizado de Máquina

Classificação. Eduardo Raul Hruschka

K-MEANS COM ÁRVORES KD

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Algoritmo CLIQUE (Clustering In QUEst)

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Inteligência nos Negócios (Business Inteligente)

Mineração de Dados em Biologia Molecular

Redes Neurais não Supervisionadas: SOM

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Aprendizado de Máquina

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

Redes Neurais (Inteligência Artificial)

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

2COP229 Inteligência Computacional. Aula 3. Clusterização.

Aprendizado de Máquina. Combinando Classificadores

Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14

Aprendizagem de Máquinas

MCZA Processamento de Linguagem Natural Classificação de textos

Aprendizado de Máquina

CLASSIFICADORES ELEMENTARES

Informática Parte 19 Prof. Márcio Hunecke

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013

Mineração de Dados: Panorama, Aplicações e Tendências. Eduardo R. Hruschka

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Aprendizado de Máquina (Machine Learning)

Métodos de Agrupamento (Clustering) Aula 18

Prof. Heitor Silvério Lopes

Fundamentos de Inteligência Artificial [5COP099]

Aprendizado de Máquina

Aprendizagem de Máquina

Clustering (k-means, SOM e hierárquicos)

Bernardo Pereira Nunes. Classificação automática de dados semi-estruturados. Dissertação de Mestrado

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

SCC0173 Mineração de Dados Biológicos

CLARA. Resumo. Introdução. Artigo de Referência [1] Introdução PAM. Modelagem como grafo CLARANS. Comparação de eficiência Conclusão

Mineração de Dados Aplicada no Contexto Educacional

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Mapas Auto Organizáveis SOMs Mapas de Kohonen

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Instituto de Pesquisas Tecnológicas do Estado de São Paulo Weslley Gomes de Moura

APRENDIZAGEM DE MÁQUINA

INF 1771 Inteligência Artificial

( ) Aula de Hoje. Introdução a Sistemas Inteligentes. Modelo RBF (revisão) Modelo RBF (revisão)

Introdução ao Reconhecimento de Padrões e aplicações em problemas de Bioinformática

Chapter 4: Unsupervised Learning

Reconhecimento de Padrões

Mineração em Data Streams - Avaliação. Profa. Elaine Faria UFU

KDD E MINERAÇÃO DE DADOS

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos

Aprendizado de Máquina Aula 1 - Introdução

Transcrição:

SCC5895 Análise de Agrupamento de Dados Introdução Prof. Eduardo Raul Hruschka PPG-CCMC / ICMC / USP

Créditos O material a seguir consiste de adaptações e extensões dos originais: Elaborados por Eduardo R. Hruschka e Ricardo J. G. B. Campello de (Tan et al., 2006) de E. Keogh (SBBD 2003) de G. Piatetsky-Shapiro (KDNuggets) 2

Aula de Hoje Motivação Conceitos Básicos 3

Motivação Humanos se interessam por categorizações Música: erudita, popular, religiosa, etc. Filmes: Animação, Aventura, Comédia, Drama, etc. 4

Diversas ciências se baseiam na organização de objetos de acordo com suas similaridades Biologia: Reino: Animalia Ramo: Chordata Classe: Mammalia Ordem: Primatas Família: Hominidae Gênero: Homo (homem moderno e parentes) Espécie: Homo sapiens

No entanto... Existem muitas situações nas quais não sabemos de antemão uma maneira apropriada de agrupar uma coleção de objetos de acordo com suas similaridades massas de dados, possivelmente descritas por várias características (atributos) diferentes... Frequentemente não sabemos sequer se existe algum agrupamento natural dos objetos segundo um conjunto de características que descrevem esses objetos que possa ser representativo de um ou mais fenômenos de interesse por trás dos dados em questão 6

O que é um agrupamento natural entre os seguintes objetos? Grupo é um conceito subjetivo! Família Empregados da Escola Mulheres Homens Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus.

O que é um Grupo ou Cluster? Definições subjetivas: Semelhanças entre objetos... Por ex., quais atributos devemos considerar (e como) para avaliar similaridades? Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus. 8

Definições Subjetivas Data Clustering: Finding groups of objects such that the objects in a group are similar (or related) to one another and different from (or unrelated to) the objects in other groups (Tan et al., 2006) A statistical classification technique for discovering whether the individuals of a population fall into different groups by making quantitative comparisons of multiple characteristics (Merriam-Webster Online Dictionary, 2008) 9

(Uma) Visão Matemática Intra-cluster distances are minimized Inter-cluster distances are maximized Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 nº

Abordagem matemática em geral considera: Homogeneidade (coesão interna) Heterogeneidade (separação) Mesmo nesse caso, subjetividade ainda presente... 180 160 140 120 100 80 60 40 20 0 0 50 100 150 (Ruspini, 1970) 11

Apesar de todas as dificuldades, a literatura sobre Análise de Agrupamento de Dados é rica e muito bem estabelecida; Trabalhos importantes datam da década de 50. P. ex., vide A. K. Jain, Data Clustering: 50 Years Beyond K-Means, Pattern Recognition Letters, 2010 according to JSTOR [jst, 2009], data clustering first appeared in the title of a 1954 article dealing with anthropological data Há medidas de dis(similaridade) bem estudadas e fundamentadas para diversos tipos de dados e domínios de aplicação: Dados Numéricos, Categóricos/Nominais, Binários,... 12

Por exemplo, em Mineração de Textos: Grupos: C 1 Documentos... C k Documento: Bag-of-words Vetor de Palavras 1 t 13

Agrupamento de Dados (AD) é uma técnica importante para Análise Exploratória de Dados : Engenharia Biologia Psicologia Medicina Administração (Marketing, Finanças,...) Ciência da Computação: Bioinformática Componentes de sistemas inteligentes Componentes de algoritmos para aprendizado de máquina,... Nota: Data clustering is also known as Q-analysis, typology, clumping, and taxonomy, depending on the field where it is applied [Jain & Dubes, 1988]

Exemplos de Aplicações Marketing: descobrir grupos de clientes / nichos de mercado e usá-los para marketing direcionado Astronomia: encontrar grupos de estrelas e galáxias Bioinformática: encontrar grupos de genes com expressões semelhantes Mineração de Textos: categorização de documentos Vários Outros: proc. imagens, controle, det. anomalias,...

Kdnuggets Pool: Data mining/analytic methods you used frequently in the past 12 months [203 voters] http://www.kdnuggets.com/polls/2007/data_mining_methods.htm Decision Trees/Rules (127) 62.6% Regression (104) 51.2% Clustering (102) 50.2% Statistics (descriptive) (94) 46.3% Visualization (66) 32.5% Association rules (53) 26.1% Sequence/Time series analysis (35) 17.2% Neural Nets (35) 17.2% SVM (32) 15.8% Bayesian (32) 15.8% Boosting (30) 14.8% Nearest Neighbor (26) 12.8% Hybrid methods (24) 11.8% Other (23) 11.3% Genetic algorithms (23) 11.3% Bagging (22) 10.8% (Resultados mudaram pouco em 2011 --- http://www.kdnuggets.com/polls/2011/algorithms-analytics-data-mining.html) 16

IEEE ICDM and ACM SIGKDD Poll 2 Algoritmos (k-means e EM) listados entre os Top 10 Most Influential Algorithms in DM: Wu, X. and Kumar, V. (Editors), The Top Ten Algorithms in Data Mining, CRC Press, 2009 X. Wu et al., Top 10 Algorithms in Data Mining, Knowledge and Info. Systems, vol. 14, pp. 1-37, 2008 17

- Gan et al. (2007) reportam uma vasta literatura sobre agrupamento de dados, que inclui: 13 surveys 10 livros (de 1963 em diante) 76 periódicos que publicam artigos sobre ADs 45 conferências que publicam sobre ADs - Xu & Wunsch (2009): Web of Science revela mais de 12.000 artigos usando o termo cluster analysis no título, ou nas palavras chaves, ou no resumo (oriundos de mais de 3.000 journals diferentes) Área de pesquisa importante e fortemente ativa. 18

Conceitos Básicos Algumas Definições (Everitt, 1974): Um cluster (grupo) é um conjunto de entidades semelhantes e entidades pertencentes a diferentes clusters não são semelhantes; Um grupo é uma aglomeração de pontos no espaço tal que a distância entre quaisquer dois pontos no grupo é menor do que a distância entre qualquer ponto no grupo e qualquer ponto fora deste; Grupos podem ser descritos como regiões conectadas de um espaço multidimensional contendo uma densidade de pontos relativamente alta, separada de outras tais regiões por uma região contendo uma densidade relativamente baixa de pontos; Humanos reconhecem clusters no plano quando os vêem, sem saber explicar exatamente porquê (Jain & Dubes, 1988)... 19

Quais são os grupos? 9-Gauss Dataset: http://www.icmc.usp.br/~campello/sub_pages/jh.htm 20

Quais são os grupos?... Aplicações práticas? I. Zhang, Density-Based Clustering Algorithms, cs.hku.hk/~dbgroup/seminar/ 21

Algoritmos de clustering induzem clusters; Os clusters a serem induzidos dependem de uma série de fatores, além dos dados propriamente ditos: medidas de dis(similaridade), índices de avaliação, parâmetros def. pelo usuário, etc. fortemente dependente do domínio / problema relação c/ bias indutivo em aprendizado de máquina Perspectiva de Aprendizado de Máquina: projetista define o que o computador pode aprender existem centenas de algoritmos... 22

Abordagens de Clustering Muitos métodos / algoritmos diferentes: Para dados numéricos e/ou simbólicos Para dados relacionais ou não relacionais Para obter partições ou hierarquias de partições Partição: conjunto de clusters que compreendem os dados Partições mutuamente exclusivas ou sobrepostas... 23

Métodos Relacionais vs Não Relacionais Métodos Não Relacionais: Requerem os objetos a serem agrupados (dados originais) Métodos Relacionais: Requerem apenas as (dis)similaridades entre os objetos Vantagens: Abordagem unificada para tratamento de atributos mistos Dados sigilosos Domínios de aplicação subjetivos (e.g. ciências sociais) Desvantagem: Custo computacional em geral mais elevado 24

Métodos Particionais vs Hierárquicos Métodos Particionais: constroem uma partição dos dados Métodos Hierárquicos: constroem uma hierarquia de partições Hierárquicos Particionais Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus. 25

Partições x Hierarquias Figura por Lucas Vendramin 3 4 2 1 Partição Cada um tem suas características próprias, assim como vantagens e desvantagens Hierarquia (dendrograma) 26

Partições com e sem Sobreposição Sem sobreposição Com sobreposição a d k g j h e i f c b a d k g j h e i f c b Cada um tem suas características próprias, assim como vantagens e desvantagens Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em http://www.kdnuggets.com 27

O que não é análise de agrupamento? Classificação Supervisionada Disponibilidade de rótulos de classes Segmentação Simples Dividir estudantes em diferentes grupos alfabeticamente Resultados de uma consulta (query) Grupos são resultado de uma especificação externa Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 nº

Classificação X Clustering Classificação: Aprender um método para predizer as categorias (classes) de padrões não vistos a partir de exemplos prérotulados (classificados) Agrupamento de Dados (Clustering): Encontrar os rótulos das categorias (grupos ou clusters) e possivelmente o número de categorias diretamente a partir dos dados Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em http://www.kdnuggets.com

Agrupamento X Classificação? Agrupamento: Indução de grupos a partir da base de dados Grupos obtidos serão então cuidadosamente estudados 30

Agrupamento X Classificação? Base de treinamento com dados rotulados: classificador (modelo) Rotular dados de teste em função do modelo obtido 31

Processo Básico Análise de Agrupamento Base de Dados Representação dos Dados (atributos, (dis)similaridades,...) Validação: Encontramos grupos (clusters)? Escolha/configuração de um algoritmo e critérios de avaliação Interpretação do Agrupamento (Partição / Partições de Dados) Conhecimento? (Especialista de Domínio) Nota: Assim como KDD, em geral é um ciclo, ou seja, em qualquer etapa podemos ter que retornar a uma etapa anterior 32

Referências Jain, A. K. and Dubes, R. C., Algorithms for Clustering Data, Prentice Hall, 1988 Everitt, B. S., Landau, S., and Leese, M., Cluster Analysis, Arnold, 4 th Edition, 2001 Gan, G., Ma, C., and Wu, J., Data Clustering: Theory, Algorithms and Applications, ASA SIAM, 2007 Xu, R., Wunsch, D., Clustering, IEEE Press, 2009 Tan, P.-N., Steinbach, M., and Kumar, V., Introduction to Data Mining, Addison-Wesley, 2006 Wu, X. and Kumar, V. (Editors), The Top Ten Algorithms in Data Mining, CRC Press, 2009 33