Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
|
|
|
- Benedita Vilalobos Galindo
- 7 Há anos
- Visualizações:
Transcrição
1 Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
2 Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization Johns Hopkins-Coursera Mestrando Data Science
3 Modelo Learning Machine Aprendizado supervisionado Aprendizado não supervisionado Classificação Regressão Clustering Aprendizado por Exemplo Aprendizado por Observação
4 O que é clustering? É uma técnica estatística multivariada para identificar agrupamentos dos dados de acordo com o grau de semelhança. Queremos achar um grupo de objetos, que são similares entre si e diferentes de outros grupos.
5 O que é clustering? É uma técnica estatística multivariada para identificar agrupamentos dos dados de acordo com o grau de semelhança. Queremos achar um grupo de objetos, que são similares entre si e diferentes de outros grupos. Menor distância entre elementos Maior distância entre agrupamentos
6 Que perguntas o cluster pode responder? Como agrupo os clientes que compram no site? Onde coloco uma antena de operadora de celular? Onde deixo uma ambulância estacionada para atender a uma emergência? Como classifico cervejas em categorias distintas?
7 Utilização mais usual de cluster Organizar dados dentro do cluster para mostrar a estrutura dos dados. Ex. Cluster em genes. Particionar os dados. Ex. Segmentação de clientes. Preparar para outras técnicas. Ex. Sistemas de recomendação. Descoberta nos dados. Ex. Descoberta de padrões.
8 Preparar para outras técnicas: Sistemas de recomendação
9 Tipos de cluster Cluster Particional Hierárquico Densidade Agrupamento Particional Uma divisão de objetos em subconjuntos não sobrepostos (clusters), de modo que cada objeto esteja exatamente em um subconjunto. Ex. Segmentação de clientes. Agrupamento hierárquico Um conjunto de clusters aninhados organizados como uma árvore hierárquica. Agrupamento por Densidade Baseado na existência de regiões densas de dados, separadas por regiões com baixa densidade de dados.
10 Método de ligação Utiliza as informações de distância para agrupar pares de objetos em clusters com base na sua similaridade. Completo Centroide Ward Média Mediana distância ligação
11 Medida de distância Euclidiano Distância ou similaridade, é como a distância entre agrupamentos (clusters) é medida. Manhattan Continua distância Euclidiana Continua correlação Pearson Contínua correlação cosseno Eisen Não paramétrica correlação Spearman Não paramétrica correlação Kendall Binário distância Manhattan
12 Passos para o cluster Escolha / Definição dos objetos e seus atributos Padronização Similaridade e Clustering Validação Interpretação
13 Projeto Estaleiro Atlântico Sul SUBMONTAGEM SUEZMAX ESTRUTURA t SUEZMAX SUBMONTAGENS t = 1/3
14 Projeto Estaleiro Atlântico Sul Submontagem - Situação Atual Peça 01 Peça 02 peso compr. de solda EMENDA ITENS SECUNDÁRIOS PU unilateral quantidade diversidade inclinação outro lado barra face Peça 01 7,5 t 83 m não não 5 não não não não Peça 02 4,1 t 96 m sim não 20 sim não sim sim
15 Projeto Estaleiro Atlântico Sul Submontagem - Situação Atual Peça 01 Peça 02 Comprimento de solda (m) Tempo estimado (info pela produção) (h) Peça Peça Diferença % 16% 85%
16 Escolha / Definição dos objetos e seus atributos Caso tenhamos muitas variáveis, é importante reduzir a dimensionalidade, utilizando técnicas como a análise de componentes principais - PCA COMPONENTE NÚM.PEÇANÚM.FILHACOMP.SOLESPESS.POÁREA BASEPESO PEÇAPESO FILHANÚM.CHAPFLANGE PEÇAS OUTINCLINADA ANEL 01/A11/C/PA ,5 19,3 6,3 1939,8 0, ANEL 01/A11/C/PA ,9 22,8 3,0 709,2 0, ANEL 01/A11/C/PA 0 5 6,4 20,9 0,4 2267,7 2267, Matriz de 11 x variáveis e subconjuntos (componentes)
17 Padronização
18 Similaridade e Clusterização Utilizando distância Euclidiana
19 Similaridade e Clusterização Matriz de dissimilaridade 3 2 1
20 Similaridade e Clusterização Hierárquico Aglomerativo (AGNES) Inicia com cada observação em um cluster. Ao final há apenas um cluster com todas observações. Divisivo (DIANA) Ao contrário do aglomerativo, inicia com um cluster único e ao final cada observação está em um cluster.
21 Similaridade e Clusterização Dendrograma
22 Gap statistic (k) Total da Soma de Quadrados Largura média da silhoueta Determinação do número de clusters Para cluster particional: Métodos diretos Elbow Silhouette Métodos estatísticos Gap statistic Método Elbow Número k de clusters Gap statistic Método Silhouette Número k de clusters Número k de clusters
23 Similaridade e Clusterização Dendrograma para 3 clusters
24 Similaridade e Clusterização Outras visualizações: Dendrograma circular Dendrograma filogenético
25 Validação Tendência de agrupamento Método estatístico: estatística de Hopkins Método visual: Avaliação visual da tendência do agrupamento (VAT)
26 Validação Estatística de Hopkins Um valor de H distante de 0,5 indica que os dados originais são diferentes dos dados aleatórios, portanto os clusters são significativos. $H [1]
27 Validação VAT - Gráfico de tendência de agrupamento
28 Similaridade Interpretação Dendograma final com componentes Dendrograma - população Ligação de Ward; Distância Euclideana , , ,41 100,00 componentes Peças
29 Nós fazemos a revolução digital. Vamos juntos! [email protected]
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Clustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná
SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná [email protected] Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO AULA 4 02/06/17 Prof a Lilian M. Lima Cunha Junho de 2017 DEFINIÇÃO Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada
Análise de Agrupamento (Cluster analysis)
Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1 Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização
Análise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda
Aprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
Mineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Análise de Agrupamento. Cluster Analysis
Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que
Redes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.
84 5 Estudos de Caso A seguir serão apresentados três estudos de caso. Os dois primeiros estudos de caso têm por objetivo demonstrar a facilidade de uso do aplicativo, e o último estudo de caso é focado
ANÁLISE DE AGRUPAMENTOS
ANÁLISE DE AGRUPAMENTOS Análise de Agrupamentos 2 Definição Consistem em encontrar grupos de objetos entre os objetos Categorizá-los ou agrupá-los Tipo de aprendizado não supervisionado Encontrar grupos
SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga [email protected]
Sensometria, Segmentação. Adilson dos Anjos
Segmentação Adilson dos Anjos Segmentação Objetivo O objetivo dessa aula é apresentar alguns métodos de Segmentação. As análises serão realizadas com uso do R; Pacotes utilizados nessa aula FactoMineR
MINERAÇÃO DE DADOS. Thiago Marzagão CLUSTERIZAÇÃO. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 9
MINERAÇÃO DE DADOS Thiago Marzagão [email protected] CLUSTERIZAÇÃO Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 9 regressão/classificação vs clusterização Regressão/classificação: temos x 1, x 2,...,
Inteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta
3 Técnicas de agrupamento
3 Técnicas de agrupamento Com o advento da internet a quantidade de informação disponível aumentou consideravelmente e com isso, tornou-se necessário uma forma automática de organizar e classificar esta
Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento
Níveis descritivos de testes estatísticos de variabilidade como medidas de similaridade entre objetos em análises de agrupamento Luiz Roberto Martins Pinto 1 Leonardo Evangelista Moraes 2 Priscila Ramos
APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES
APLICAÇÃO DE ANÁLISE DE CLUSTER EM VALORES NUTRICIONAIS REFERENTES Á TIPOS DE CARNES Samara Rilda de S.BEZERRA 1, Edwirde Luiz SILVA 1,Aldreany P.Araújo SILVA 1 1 Departamento de Estatística, Universidade
Mineração em Data Streams - Clustering. Profa. Elaine Faria UFU
Mineração em Data Streams - Clustering Profa. Elaine Faria UFU - 2018 Mineração de Dados Tarefas de mineração Tarefas Preditivas Classificação Regressão Detecção de Anomalias Tarefas Descritivas Agrupamento
A análise de aglomerados
Mais importante do que saber fazer é saber o por quê (Norbert Wiener (1894 1964). Prof. Lorí Viali, Dr. [email protected]; [email protected]; http://www.pucrs.br/famat/viali; http://www.mat.ufrgs.br/~viali/
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Centro de Matemática Computação e Cognição-UFABC Jéssica Andressa de Souza Pós-Graduação em Ciência da Computação Sistemas de Banco de
Agrupamento Espectral e Hierárquico
Agrupamento Espectral e Hierárquico Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Agrupamento Espectral 2. Agrupamento Hierárquico 1 Agrupamento Espectral Agrupamento Espectral Nem
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo (knn) Um algoritmo supervisionado usado para classificar
Análise de dados: clustering e redução de dimensionalidade
Análise de dados: clustering e redução de dimensionalidade Métodos e sua implementação em R Clustering - definições Objectivo genérico: agrupar objetos / entidades / exemplos (linhas da tabela) com base
Análise de agrupamentos por métodos hierárquicos aglomerativos
Análise de agrupamentos por métodos hierárquicos aglomerativos ## Exemplo 1 (p = 2) dados
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Algoritmos de Agrupamento - Aprendizado Não Supervisionado
Algoritmos de Agrupamento - Aprendizado Não Supervisionado Fabrício Jailson Barth [email protected] Agosto de 2016 Sumário Introdução e Definições Aplicações Algoritmos de Agrupamento Agrupamento
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS INTRODUÇÃO... 2 MEDIDAS DE SIMILARIDADE [2,3]... 3 2. MEDIDAS DE CORRELAÇÃO... 4 2.2 MEDIDAS DE DISTÂNCIA... 6 2.2. TIPOS DE MEDIDAS DE DISTÂNCIA... 7 2.3
SCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
SEMINÁRIO DOS ARTIGOS:
SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene
Aula 3: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad
Aula 3: Análise Exploratória de Dados Espaciais (AEDE) Prof. Eduardo A. Haddad Exercício 4 (spatial scale and rate of density) Inferência pode mudar com a escala espacial Problemas de agregação espacial
Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo
Clusterização. Grupo: Eduardo Gade Gusmão (egg) Felipe Kuhner dos Santos (fkcs) Nelson Gutemberg Rocha (ngrs) Paulo Ricardo da Silva Soares (prss)
Clusterização Grupo: Eduardo Gade Gusmão (egg) Felipe Kuhner dos Santos (fkcs) Nelson Gutemberg Rocha (ngrs) Paulo Ricardo da Silva Soares (prss) UFPE Centro de Informática IF796 Mineração da Web Professora:
MB 756 PESQUISA OPERACIONAL APLICADA À PRODUÇÃO. Professor: Rodrigo A. Scarpel
MB 756 PESQUISA OPERACIONAL APLICADA À PRODUÇÃO Professor: Rodrigo A. Scarpel [email protected] www.mec.ita.br/~rodrigo Programa do curso: Semana 1 2 Conteúdo Princípios de POAP : 1. O processo decisório
Redes Neurais não Supervisionadas: SOM
Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Redes Neurais não Supervisionadas: SOM DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Tópicos
Agrupamento de Dados. (Clustering)
Agrupamento de Dados (Clustering) Organização 1. Introdução 2. Medidas de (Dis)similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de
2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
M08. Introdução a Técnicas de Data Mining DM
M08. Introdução a Técnicas de Data Mining DM 4 - REGRAS DE ASSOCIAÇÃO 5 - ANÁLISE DE AGRUPAMENTOS LNCC/MCT - 18/01/2008 Custódio Gouvêa Lopes da Motta [email protected] www.dcc.ufjf.br Agradecimentos:
ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS
ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS Edwirde Luiz SILVA 1, Dalila Camêlo AGUIAR 2 1 Departamento de Estatística, Universidade Estadual da Paraíba - UEPB,
ÍNDICE Janelas Menus Barras de ferramentas Barra de estado Caixas de diálogo
XXXXXXXX ÍNDICE INTRODUÇÃO 15 1. VISÃO GERAL DO SPSS PARA WINDOWS 17 1.1. Janelas 17 1.2. Menus 20 1.3. Barras de ferramentas 21 1.4. Barra de estado 21 1.5. Caixas de diálogo 22 2. OPERAÇÕES BÁSICAS 23
FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS
FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS PROJETO PEDAGÓGICO CAMPO LIMPO PAULISTA 2015 1. Público
ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2
COMO USAR ESTE LIVRO ÍNDICE PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 Variáveis, Populações e Amostras 1.1. VARIÁVEIS ESTATÍSTICAS E ESCALAS DE MEDIDA 27 1.2. POPULAÇÃO VS. AMOSTRA
Descrição do Método de Análise de Clusters
ANÁLISE DE CLUSTERS A análise de Clusters designa uma série de procedimentos estatísticos sofisticados que podem ser usados para classificar objectos e pessoas por observação das semelhanças e dissemelhanças
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia
Análise de agrupamento dos dados sedimentológicos da plataforma e talude continentais da Bahia ÂNGELA CRISTINA DA FONSECA MIRANTE 1 2 4 JOÃO DOMINGOS SCALON 2 4 TÂNIA MARIA FONSECA ARAÚJO 3 TÂNIA JUSSARA
Aprendizagem de Máquinas
Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Aprendizagem de Máquinas DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Aprendizagem de Máquinas
Análise de Agrupamento Hierárquico aplicada aos microdados do ENADE do curso de graduação em Ciência da Computação
Análise de Agrupamento Hierárquico aplicada aos microdados do ENADE do curso de graduação em Ciência da Computação Nicolas P. B. Vista 1, João B. Barasuol 1, Michele F. Figueiró 1,2, Patrícia M. M. Chicon
Módulo 18- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico
Tutorial SPSS Módulo 8 Análise de Cluster Módulo 8- Análise de Cluster Tutorial SPSS Análise dos Resultados Método Hierárquico e Não-Hierárquico Situação Problema Apresentamos novamente a situação problema
Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico
Tutorial SPSS Módulo 18 Análise de Cluster 1 Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico Situação Problema Uma varejista de
