ANÁLISE DE AGRUPAMENTOS
|
|
|
- Vergílio Cunha Beretta
- 9 Há anos
- Visualizações:
Transcrição
1 ANÁLISE DE AGRUPAMENTOS Análise de Agrupamentos 2 Definição Consistem em encontrar grupos de objetos entre os objetos Categorizá-los ou agrupá-los Tipo de aprendizado não supervisionado Encontrar grupos naturais de objetos para um conjunto de dados não rotulados 1
2 Análise de Agrupamentos 3 Definição Os objetos de um grupo devem ser mais similares (ou relacionados) entre si do que a objetos de outro grupo Minimizar distância intra-cluster Distância entre elementos de um mesmo grupo Maximizar distância inter-cluster Distância entre elementos de grupos distintos Análise de Agrupamentos 4 Distância intercluster Distância intracluster 2
3 Análise de Agrupamentos 5 Aplicações Marketing Grupos de clientes Marketing direcionado Bioinformática Encontrar grupos de genes com expressões semelhantes Mineração de Textos Categorização de documentos Etc. Classificação Vs Agrupamento 6 Classificação A partir de exemplos conhecidos (já classificados), aprender um método e usá-lo para predizer as classes de padrões desconhecidos (ou novos) Agrupamento (Clustering) Dado um conjunto de dados não classificado, descobrir as classes dos elementos (grupos ou clusters) e possivelmente o número de grupos existente a partir de suas características 3
4 O que é um cluster? 7 Como organizar os dados observados em estruturas que façam sentido? Afinal, o que é um agrupamento natural entre os seguintes objetos? Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus O que é um cluster? 8 Cluster é um conceito muito subjetivo Processo de data-driven: agrupamento dirigido Os dados observados são agrupados segundo características comuns que ocorram neles Keogh, E. A Gentle Introduction to Machine Learning and Data Mining for the Database Community, SBBD 2003, Manaus 4
5 O que é um cluster? 9 Além disso, a noção de cluster pode ser ambígua Depende do número de clusters (muitas vezes definido pelo usuário) Quantos clusters? Quantos clusters? 2 4 Definindo um cluster 10 Cluster é um conceito muito subjetivo. Podemos defini-lo em termos de Homogeneidade Coesão interna Heterogeneidade Separação entre grupos Necessidade de formalizar matematicamente, e para isso existem diversas medidas Cada uma induz (impõe) uma estrutura aos dados Geralmente baseadas em algum tipo de (dis)similaridade 5
6 11 Como definir o que é similar ou não? Similar é diferente de igual! Medida de semelhança 12 Como definir o que é similar ou não? Usar uma medida de similaridade Muitas vezes, esta é uma medida de distância Existem diversas possíveis Minkowski Manhatan Euclideana Chebyshev Mahalanobis Cosseno Etc. 6
7 13 Propriedades da medida de similaridade As propriedades que definem uma medida de similaridade são 3 d(x,y) = d(y,x), simetria d(x,y) 0 d(x,x) = 0 Além dessas 3 propriedades, também valem d(x,y) = 0, se e somente se x = y d(x,y) d(x,z) + d(z,y), também conhecida como desigualdade do triângulo 14 Notações básicas Matriz de dados Matriz contendo os dados de N objetos, cada qual com p atributos x 11 x 12 x 1p x X = 21 x 22 x 2p x N1 x Np x Np Cada objeto dessa matriz é denotado por um vetor x i x i =,x i1 x i2 x ip - 7
8 Notações básicas 15 Matriz de (dis)similaridade Matriz N x N contendo as distâncias entre os N objetos X = d x 1, x 1 d x 1, x 2 d x 1, x N d x 2, x 1 d x 2, x 2 d x 2, x N d x N, x 1 d x N, x 2 d x N, x N É uma matriz simétrica em relação a sua diagonal principal Diagonal principal composta por 0 s 16 Qual abordagem de Clustering usar? Existem diversos métodos/algoritmos voltados para diferentes aplicações Dados numéricos e/ou simbólicos Dados relacionais ou não relacionais Para construir partições ou hierarquias de partições Partição: conjunto de clusters que compreendem os dados Partições mutuamente exclusivas ou sobrepostas 8
9 17 Métodos Relacionais e Não Relacionais Métodos Não Relacionais Os dados não possuem nenhum tipo de relacionamento entre si Utilizam apenas a matriz de dados X e uma medida de similaridade entre eles Métodos Relacionais Se baseiam em uma relação de dependência entre os dados Documentos: relação de ocorrência de palavras Páginas de internet: links entre elas Pode ser uma relação de dependência probabilística 18 Métodos Hierárquicos e Não- Hierárquicos Se referem principalmente a maneira como os dados são divididos e/ou organizados Métodos Hierárquicos: constroem uma hierarquia de partições Métodos Não-Hierárquicos ou Particionais: constroem uma partição dos dados 9
10 19 Métodos Hierárquicos e Não- Hierárquicos Método Hierárquico Método Não-Hierárquico 20 Métodos Hierárquicos e Não- Hierárquicos Algoritmos Hierárquicos Criam uma hierarquia de relacionamentos entre os elementos. Uso de uma medida de distância Muito populares na área de bioinformática Bom funcionamento Apesar de não terem nenhuma justificativa teórica baseada em estatística ou teoria da informação, constituindo uma técnica ad-hoc de alta efetividade. 10
11 21 Métodos Hierárquicos e Não- Hierárquicos Algoritmos Hierárquicos Dendrograma é talvez o algoritmo mais comum Semelhante a uma árvore Exemplo: relações evolutivas entre diferentes grupo de organismos biológicos (árvore filogenética) 22 Métodos Hierárquicos e Não- Hierárquicos Algoritmos Não-Hierárquicos Separam os objetos em grupos baseando-se nas características que estes objetos possuem Uso de uma medida de similaridade Consistem de técnicas de análise de agrupamento ou clustering 11
12 23 Métodos Hierárquicos e Não- Hierárquicos Algoritmos Não-Hierárquicos Normalmente dependem de uma série de fatores que são determinados de forma arbitrária pelo usuário Número de conjuntos Número de seeds de cada conjunto. Esses parâmetros podem causar impacto negativo na qualidade das partições geradas 24 Métodos Hierárquicos e Não- Hierárquicos Algoritmos Não-Hierárquicos K-means é talvez o algoritmo mais comum Busca particionar n observações em k clusters (agrupamentos) Cada observação pertence ao cluster com a média mais próxima 12
13 25 Partições com ou sem sobreposição Partições sem sobreposição 26 Partições com ou sem sobreposição Partições com sobreposição 13
14 Dendrograma 27 Um dos algoritmos mais comuns para construir uma hierarquia de partições a parir das distâncias entre clusters Notações: Ramo terminal Folha Raiz Nó interno Ramo interno Dendrograma 28 A dissimilaridade entre dois clusters (possivelmente singletons, i.e., composto por apenas um elemento) é representada como a altura do nó interno mais baixo compartilhado 14
15 Dendrograma 29 A análise de um dendrograma permite estimar o número mais natural de clusters de um conjunto de daods Sub-árvores bem separadas Dendrograma 30 Conjunto de dados: 2 clusters Na prática, as distinções não são tão simples 15
16 Dendrograma 31 A análise de um dendrograma também permite detectar outliers 32 Como criar uma hierarquia automaticamente? Abordagem Bottom-Up Abordagem aglomerativa Inicialmente, cada objeto é um cluster Busca o melhor par de clusters para unir Unir o par de clusters escolhido Este processo é repetido até que todos os objetos estejam reunidos em um só cluster 16
17 33 Como criar uma hierarquia automaticamente? Abordagem Top-Down Abordagem divisiva Inicialmente todos os objetos estão em um único cluster Sub-dividir o cluster em dois novos clusters Recursivamente aplicar o algoritmo em ambos os clusters, até que cada objeto forme um cluster por si só 34 Como criar uma hierarquia automaticamente? Algoritmos hierárquicos podem operar somente sobre uma matriz de distâncias Eles são (ou podem ser) relacionais 17
18 35 Como criar uma hierarquia automaticamente? Exemplo: abordagem Bottom-Up 36 Como medir a (dis)similaridade entre clusters? Eventualmente, um cluster terá mais de um elemento dentro dele. Neste caso, como medir a distância entre eles? Várias possibilidades Distância mínima Distância máxima Distância média do grupo Distância entre centroides Etc. 18
19 37 Como medir a (dis)similaridade entre clusters? Método Single Linkage Distância mínima ou Vizinho mais Próximo Distância entre 2 clusters é dada pela menor distância entre dois objetos (um de cada cluster) 38 Como medir a (dis)similaridade entre clusters? Exemplo: Single Linkage + Bottom-Up Consideremos a seguinte matriz de distâncias iniciais (D 1 ) entre 5 objetos A menor distância entre objetos é d 12 = d 21 = 2 Estes dois objetos serão unidos em um cluster 19
20 39 Como medir a (dis)similaridade entre clusters? Exemplo: Single Linkage + Bottom-Up Na sequência, devemos calcular a menor distância entre um objeto e um membro desse cluster Isso resulta em uma nova matriz de distâncias (D 2 ), que será usada na próxima etapa do agrupamento hierárquico 40 Como medir a (dis)similaridade entre clusters? Método Single Linkage A dissimilaridade entre 2 clusters pode ser computada naturalmente a partir da matriz atualizada na iteração anterior Não há necessidade da matriz original dos dados 20
21 41 Como medir a (dis)similaridade entre clusters? Método Single Linkage Vantagens Consegue manipular clusters que tenham uma forma não elíptica Desvantagens Muito sensível a ruídos e outliers 42 Como medir a (dis)similaridade entre clusters? Método Complete Linkage Distância máxima ou Vizinho mais Distante Distância entre 2 clusters é dada pela maior distância entre dois objetos (um de cada cluster) 21
22 43 Como medir a (dis)similaridade entre clusters? Método Complete Linkage D(X,Y): maior distância entre dois objetos de cluster diferentes Unir os dois clusters que possuem o menor valor de D 44 Como medir a (dis)similaridade entre clusters? Exemplo: Complete Linkage + Bottom-Up A sequência do método é igual ao Single Linkage Calcular a maior distância entre um objeto e um membro desse cluster Obter a nova matriz de distâncias (D 2 ), que será usada na próxima etapa do agrupamento hierárquico Como no método Single Linkage, a dissimilaridade entre 2 clusters pode ser computada naturalmente a partir da matriz atualizada na iteração anterior Não há necessidade da matriz original dos dados 22
23 45 Como medir a (dis)similaridade entre clusters? Método Complete Linkage Vantagens Menos sensível a ruídos e outliers Desvantagens Tende a quebrar clusters muito grandes 46 Como medir a (dis)similaridade entre clusters? Método Average Linkage Group average ou Distância média Distância entre 2 clusters é dada pela média das distância entre cada dois objetos (um de cada cluster) Média das distância de todos contra todos D C 1, C 2 = d(x i,x j ) x i C1,x j C2 N 1 N 2 23
24 47 Como medir a (dis)similaridade entre clusters? Método Average Linkage Une características dos métodos Single Linkage e Complete Linkage Menos sensível a ruídos e outliers Propenso a clusters globulares Atenção O cálculo da dissimilaridade entre um novo cluster (dado pela união de outros dois) e os demais deve considerar o número de objetos em cada cluster envolvido 48 Como medir a (dis)similaridade entre clusters? Comparação entre os métodos Single Linkage Detecta clusters convexos Sensível a ruído ou outilers Complete Linkage Menos sensível a ruído ou outilers Favorece clusters globulares Average Linkage Também favorece clusters globulares Mas é muito menos sensível a ruídos e outliers 24
25 49 Como medir a (dis)similaridade entre clusters? Existem ainda outras possibilidades, cada qual com as suas vantagens e desvantagens Método dos Centróides Usa distância entre os centróides (vetores de médias) dos clusters Método dos Centróides Ponderado Método de Ward Abordagem Top-Down 50 São pouco utilizados Em geral se usa a abordagem Bottom-Up É mais fácil unir 2 clusters do que separá-los Existem 2 N-1-1 possibilidades para se dividir N objetos em 2 clusters Para N = 50, temos 5,63x10 14 possibilidades Diante disso, como dividir um cluster? Uma possibilidade é usar a heurística de MacNaughton-Smith et al. (1964) 25
26 Abordagem Top-Down 51 Abordagem divisiva Inicialmente todos os objetos estão em um único cluster Sub-dividir o cluster em dois novos clusters Recursivamente aplicar o algoritmo em ambos os clusters, até que cada objeto forme um cluster por si só 52 Métodos Não-Hierárquicos: sem sobreposição Definição do problema Particionar o conjunto X = {x 1,x 2,...,x N } de objetos em uma coleção C = {C 1,C 2,...,C k } de k subconjuntos mutuamente disjuntos tal que C 1 U C 2 U... C k = X C i Ø C i C j = Ø para i j Em outras palavras: particionamento sem sobreposição 26
27 Partição sem sobreposição 53 Definição do problema Cada objeto pertence a um cluster dentre k clusters possíveis O valor de k é normalmente definido pelo usuário Qualidade da partição Normalmente envolvem a otimização de algum índice Critério numérico Um dos algoritmos mais utilizados é o k-means Também chamado de k-médias K-means 54 Funcionamento 1) Escolher aleatoriamente um número k de protótipos (centros ou seeds) para iniciar os clusters 2) Cada objeto é atribuído ao cluster cujo centro é o mais próximo Usar alguma medida de distância (e.g. Euclidiana) 3) Mover cada centro para a média (centroide) dos objetos do cluster correspondente 27
28 K-means 55 Funcionamento 4) Repetir os passos 2 e 3 até que algum critério de convergência seja obtido Número máximo de iterações Limiar mínimo de mudanças nos centroides K-means 56 Passo 1 Escolher k centros iniciais (k = 3) Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em 28
29 K-means 57 Passo 2 Atribuir cada objeto ao cluster de centro mais próximo Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em K-means 58 Passo 3 Mover cada centro para o vetor médio do cluster (centroide) Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em 29
30 K-means 59 Passo 2 Re-atribuir os objetos aos clusters de centroides mais próximos mudanças! Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em K-means 60 Passo 2 Re-calcular vetores médios Slide baseado no curso de Gregory Piatetsky-Shapiro, disponível em 30
31 K-means 61 Basicamente, o método de k-means busca minimizar a seguinte função objetivo (variâncias intra-cluster) k 2 J = d x j, x i i=1 x j C i onde x i é o centroide do i-ésino cluster x i = 1 C i xj C i x j Kmeans: exemplo 62 Executar o k-means com k=3 nos dados abaixo a partir dos centros propostos dados x y centros x y
32 Kmeans: exemplo 63 Primeira Iteração dados x y C centros x y 8,5 8 1,5 1,5 3,8 12,6 Kmeans: exemplo 64 Segunda Iteração dados x y C centros x y 8,5 8,5 1,5 1,5 1,5 14,5 32
33 K-means 65 Problemas Variação no resultado dependendo da escolha dos centros (seeds) iniciais Dados Originais Possíveis Clusters K-means 66 Problemas O método pode ficar preso em ótimos locais Os dois centros são equivalentes para o conjunto de objetos Objetos Centros Iniciais 33
34 K-means 67 Problemas É bastante susceptível a problemas quando clusters são de diferentes tamanhos K-means 68 Problemas É bastante susceptível a problemas quando clusters são de diferentes densidades 34
35 K-means 69 Problemas É bastante susceptível a problemas quando clusters são de diferentes formatos (em geral não globulares) K-means 70 Problemas Dificuldade em definir o valor de k Limitado a atributos numéricos Cada item deve pertencer a um único cluster Partição rígida (sem sobreposição) 35
36 K-means 71 Apesar de seus problemas, podemos melhorar seu desempenho de diferentes formas Atualização incremental K-medianas K-medóides K-d tree Etc. K-means: variações 72 Atualização incremental dos centroides Cálculo dos novos centroides não demanda recalcular tudo novamente Oportunidade de aumento no desempenho Cálculo do centroide só depende De seu número de objetos Dos novos objetos atribuídos ao cluster Dos objetos que deixaram o cluster Do valor anterior do centroide 36
37 K-means: variações 73 K-medianas: substitui as médias pelas medianas Exemplo Média de 1, 3, 5, 7, 9 é 5 Média de 1, 3, 5, 7, 1009 é 205 Mediana de 1, 3, 5, 7, 1009 é 5 Vantagem: menos sensível a outliers Desvantagem Maior complexidade computacional devido a etapa de ordenação K-means: variações 74 K-medóides: substitui cada centroide por um objeto representativo do cluster Medóide Objeto mais próximo (em média ) aos demais objetos do cluster Vantagens: É menos sensível a outliers Pode ser aplicado a bases com atributos categóricos (cálculo relacional) Desvantagem Complexidade quadrática 37
38 K-means: variações 75 K-means para Data Streams (fluxo de dados) Utiliza o conceito de vizinhos mais próximos (K- NN) Objetos são dinamicamente incorporados ao cluster mais próximo Atualização do centroide do cluster pode ser incremental Heurísticas podem ser usadas para criação ou remoção de clusters K-means: variações 76 Múltiplas Execuções Várias execuções do k-means Uso de diferentes valores de k e de posições iniciais dos centroides Ordenado: uma execução para cada valor de k em [k min,k max ] Aleatório: para cada execução k é sorteado em [k min,k max ] 38
39 K-means: variações 77 Múltiplas Execuções Usa um critério de qualidade (critério de validade de agrupamento Permite escolher a melhor partição Vantagens Permite estimar o melhor valor de k Menos sensível a mínimos locais Desvantagem Pode apresentar um custo computacional elevado Qualidade do cluster 78 Como avaliar relativamente a qualidade de diferentes partições Necessidade de um tipo de índice Critério Relativo de Validade de Agrupamento Existem dezenas de critérios na literatura Alguns são melhores para uma dada classes de problemas comuns na prática Não há garantias de que um certo critério funcione para todos os problemas em geral 39
40 Qualidade do cluster 79 Alguns critérios existentes na literatura Largura de Silhueta Variance Ratio Criterion (VRC) Também denominado Calinski-Harabaz Davies-Bouldin Índice de Dunn E variantes Qualidade do cluster 80 Largura de Silhueta Cada cluster é representado por uma silhueta Isso nos mostra que objetos se posicionam bem dentro do cluster e quais meramente ficam em uma posição intermediária 40
41 Qualidade do cluster 81 Largura de Silhueta Para cada objeto i obtêm-se o valor s(i) s i = Onde b i a i max (a i,b i ) a i é a dissimilaridade média do objeto i em relação a todos os outros objetos do seu cluster b i é a dissimilaridade média do objeto i em relação a todos os outros objetos do cluster vizinho mais próximo Qualidade do cluster 82 Largura Média de Silhueta (SWC) É a média de s(i) para todos os objetos i nos dados SWC = 1 N N i=1 s(i) Coeficiente de Silhueta varia de -1 a 1 Valores negativos não são desejáveis Significa que a distância média dos objetos para seu cluster é maior que distância média para outros clusters 41
42 Qualidade do cluster 83 Largura Média de Silhueta (SWC) Valores Ideais valores positivos a i bem próximo de zero Coeficiente de silhueta bem próximo de 1 Pode ser utilizado para selecionar o "melhor" número de clusters Selecionar o valor de k dando a maior média de s(i) Partição com Sobreposição 84 Método k-means Partição sem sobreposição dos dados Também conhecido como partição rígida Muitos problemas envolvem grupos mal delineados Não podem ser separados adequadamente dessa maneira Os dados podem compreender categorias que se sobrepõem umas às outras em diferentes níveis 42
43 Partição com Sobreposição 85 Exemplo A estrutura da população de 85 raças de cães Partição com Sobreposição 86 Métodos de agrupamento com sobreposição são concebidos para lidar essas situações Em inglês, overlapping clustering algorithms Ao todo, 3 tipos de partições são possíveis Soft Objetos podem pertencer de forma integral a mais de um grupo Fuzzy Objetos pertencem a todos os grupos com diferentes graus de pertinência Probabilísticas Objetos possuem probabilidades de pertinência associadas a cada cluster 43
44 Partição com Sobreposição 87 Agrupamento Fuzzy: Fuzzy c-means (FCM) Trata-se de uma extensão de k-means para o domínio fuzzy Garantia de convergência apenas para soluções locais Também é susceptível a mínimos locais da função objetivo J Depende da inicialização dos protótipos Pode-se utilizar o esquema de múltiplas execuções Existem dezenas de variantes Partição com Sobreposição 88 Agrupamento Fuzzy: Fuzzy c-means (FCM) k N min J = f m 2 f i=1 j=1 ij d x j, x i ij 0 f ij 1 k i=1 0 < Onde f ij = 1, j *1,2,, N+ N j=1 f ij < N, = *1,2,, k+ f ij : Pertinência do objeto j ao grupo i m > 1 (usualmente m = 2) 44
45 Partição com Sobreposição 89 Agrupamento Fuzzy: Fuzzy c-means (FCM) Existem versões fuzzy para os critérios de validade de agrupamento discutidos anteriormente Silhueta Fuzzy Jaccard Fuzzy Etc. Agradecimentos 90 Agradeço ao professor Prof. Ricardo J. G. B. Campello ICMC/USP pelo material disponibilizado 45
Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo
Tópicos Avançados em IA. Prof. Eduardo R. Hruschka
Tópicos Avançados em IA Prof. Eduardo R. Hruschka Créditos Este material consiste de adaptações dos originais: Elaborados por Eduardo Hruschka e Ricardo Campello de (Tan et al., 2006) de E. Keogh (SBBD
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Aprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
Agrupamento de Dados. (Clustering)
Agrupamento de Dados (Clustering) Organização 1. Introdução 2. Medidas de (Dis)similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de
Mineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta
Análise de Agrupamento. Cluster Analysis
Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que
Clustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
Aula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda
CLASSIFICADORES ELEMENTARES
CLASSIFICADORES ELEMENTARES Classificação 2 Consiste em tentar discriminar em diferentes classes um conjunto de objetos com características mensuráveis Exemplo: classificação de frutas Forma, cor, sabor,
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization
Redes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga [email protected]
SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná
SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná [email protected] Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->
Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Mineração em Data Streams - Clustering. Profa. Elaine Faria UFU
Mineração em Data Streams - Clustering Profa. Elaine Faria UFU - 2018 Mineração de Dados Tarefas de mineração Tarefas Preditivas Classificação Regressão Detecção de Anomalias Tarefas Descritivas Agrupamento
SCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
SCC5895 Análise de Agrupamento de Dados
SCC5895 Análise de Agrupamento de Dados Conceituação Prof. Ricardo J. G. B. Campello PPG-CCMC / ICMC / USP Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos
SCC5895 Análise de Agrupamento de Dados
SCC5895 Análise de Agrupamento de Dados Algoritmos Hierárquicos: Parte II Prof. Ricardo J. G. B. Campello PPG-CCMC / ICMC / USP Créditos Parte do material a seguir consiste de adaptações e extensões dos
SUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
3 Técnicas de agrupamento
3 Técnicas de agrupamento Com o advento da internet a quantidade de informação disponível aumentou consideravelmente e com isso, tornou-se necessário uma forma automática de organizar e classificar esta
SCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:
2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)
PRÁTICA 8 1) Medidas de Distância. A Distância Euclidiana entre dois vetores n-dimensionais e y é definida como o escalar: d 1 2 2 [( y ) + + ( y ) ] 2 e (, y) = y = y = 1 1 L n n esta epressão é a Norma
Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR
Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento
Clusterização. Grupo: Eduardo Gade Gusmão (egg) Felipe Kuhner dos Santos (fkcs) Nelson Gutemberg Rocha (ngrs) Paulo Ricardo da Silva Soares (prss)
Clusterização Grupo: Eduardo Gade Gusmão (egg) Felipe Kuhner dos Santos (fkcs) Nelson Gutemberg Rocha (ngrs) Paulo Ricardo da Silva Soares (prss) UFPE Centro de Informática IF796 Mineração da Web Professora:
Sensometria, Segmentação. Adilson dos Anjos
Segmentação Adilson dos Anjos Segmentação Objetivo O objetivo dessa aula é apresentar alguns métodos de Segmentação. As análises serão realizadas com uso do R; Pacotes utilizados nessa aula FactoMineR
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Centro de Matemática Computação e Cognição-UFABC Jéssica Andressa de Souza Pós-Graduação em Ciência da Computação Sistemas de Banco de
Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU
Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos
Inteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
A análise de aglomerados
Mais importante do que saber fazer é saber o por quê (Norbert Wiener (1894 1964). Prof. Lorí Viali, Dr. [email protected]; [email protected]; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/
A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.
84 5 Estudos de Caso A seguir serão apresentados três estudos de caso. Os dois primeiros estudos de caso têm por objetivo demonstrar a facilidade de uso do aplicativo, e o último estudo de caso é focado
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR
Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível
UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem
Descrição do Método de Análise de Clusters
ANÁLISE DE CLUSTERS A análise de Clusters designa uma série de procedimentos estatísticos sofisticados que podem ser usados para classificar objectos e pessoas por observação das semelhanças e dissemelhanças
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO AULA 4 02/06/17 Prof a Lilian M. Lima Cunha Junho de 2017 DEFINIÇÃO Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada
Reconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva [email protected] Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção
Redes Neurais não Supervisionadas: SOM
Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Redes Neurais não Supervisionadas: SOM DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Tópicos
Análise de Agrupamento (Cluster analysis)
Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1 Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização
Análise de dados: clustering e redução de dimensionalidade
Análise de dados: clustering e redução de dimensionalidade Métodos e sua implementação em R Clustering - definições Objectivo genérico: agrupar objetos / entidades / exemplos (linhas da tabela) com base
Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão
SCC073 Mineração de Dados Biológicos Classificação III: Árvores de Decisão Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo Prof. André C. P. L. F.
Agrupamento Espectral e Hierárquico
Agrupamento Espectral e Hierárquico Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Agrupamento Espectral 2. Agrupamento Hierárquico 1 Agrupamento Espectral Agrupamento Espectral Nem
Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite
Comparação entre o método Ward e o método K-médias no agrupamento de produtores de leite Enio Júnior Seidel,Fernando de Jesus Moreira Júnior, Angela Pelegrin Ansuj, Maria Rosane Coradini Noal Departamento
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS INTRODUÇÃO... 2 MEDIDAS DE SIMILARIDADE [2,3]... 3 2. MEDIDAS DE CORRELAÇÃO... 4 2.2 MEDIDAS DE DISTÂNCIA... 6 2.2. TIPOS DE MEDIDAS DE DISTÂNCIA... 7 2.3
Estatística Descritiva
C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística
Algoritmos de Agrupamento - Aprendizado Não Supervisionado
Algoritmos de Agrupamento - Aprendizado Não Supervisionado Fabrício Jailson Barth [email protected] Agosto de 2016 Sumário Introdução e Definições Aplicações Algoritmos de Agrupamento Agrupamento
SEL-0339 Introdução à Visão Computacional. Aula 5 Segmentação de Imagens
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 5 Segmentação de Imagens Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga Segmentação de
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
PROBABILIDADE E DISTÂNCIAS
PROBABILIDADE E DISTÂNCIAS Definições Básicas Variável aleatória 2 Em Estatística, é muito comum ver o termo variável aleatória. Mas qual o seu significado? Existem várias definições para o termo variável
Problemas de otimização
Problemas de otimização Problemas de decisão: Existe uma solução satisfazendo certa propriedade? Resultado: sim ou não Problemas de otimização: Entre todas as soluções satisfazendo determinada propriedade,
Metodologia Aplicada a Computação.
Metodologia Aplicada a Computação [email protected] Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,
