Análise de dados: clustering e redução de dimensionalidade
|
|
- Tomás Van Der Vinne
- 4 Há anos
- Visualizações:
Transcrição
1 Análise de dados: clustering e redução de dimensionalidade Métodos e sua implementação em R Clustering - definições Objectivo genérico: agrupar objetos / entidades / exemplos (linhas da tabela) com base na sua similaridade Principais tarefas: Como definir similaridade? Como agrupar elementos baseados nessa similaridade (algoritmos)? Como visualizar os agrupamentos? Como interpretar os agrupamentos? 1
2 Clustering - definições Problema tem diversas variantes/ formulações dependendo de: Tipos de dados disponíveis (e.g. atributos numéricos vs nominais) Formato dos resultados desejados Função objetivo para a optimização da partição Função de similaridade entre os exemplos Clustering representação dos resultados Mapa que define a atribuição de exemplos a clusters 1 exemplo pertence a 1 cluster Permitir que um exemplo pertença a mais do que um cluster (sobreposição) Atribuir probabilidades de pertença: cada par <exemplo, cluster> tem uma probabilidade Hierarquia de clusters (com exemplos nas folhas) 2
3 Similaridade (atributos numéricos) Por vezes difícil determinar o que é similar ou não! Medindo distâncias: euclidiana, Manhattan Manha7an d( i, j) = x i Euclideana x + x j i x j x i x j p p 2 2 d( i, j) = ( x x + x x x x i j1 i2 j2 ip Cálculo de similaridades de matrizes / data frames numéricos em R: função dist Medindo semelhança de formas: coeficientes de correlação - função cor permite calcular correlações; parâmetro method = spearman, pearson 1 p j 2 ) Similaridade (atributos nominais) Para atributos / campos que podem ser representados por valores binários (0/1) ou por valores inteiros com uma ordem, a distância de Manhattan pode ser usada Podem definir-se métricas de distância próprias para cada campo, mas tal não é muito prático Quando num conjunto de dados há dois tipos de campos (numéricos e nominais) é necessário normalizar valores (por exemplo entre 0 e 1) 3
4 Clustering hierárquico Abordagem aglomerativa: vai agrupando os objetos, iteração a iteração, criando uma árvore que representa uma hierarquia de clusters Estratégia bottom up, construindo árvore das folhas para a raiz Folhas da árvore: exemplos/ objetos; nós da árvore: representam possíveis clusters Critério de junção baseado na distância entre clusters, i.e. são juntos os clusters mais próximos em cada iteração Baseado numa matriz de distâncias: onde estão guardadas as distâncias entre todos os pares de objetos; esta matriz é construída aplicando uma métrica de similaridade Implementado na função R: hclust Clustering hierárquico - exemplo Cada objeto é inicialmente colocado num cluster. Em cada iteração dois clusters juntam-se
5 Clustering Hierárquico: Distâncias entre clusters d min (C, C * ) = min d(x,y) para todos os elementos x em C * e y em C SINGLE LINKAGE / NEAREST NEIGHBOUR Distância entre 2 clusters é a menor distância entre qualquer par de elementos dos 2 clusters d min (C, C * ) = max d(x,y) para todos os elementos x em C * e y em C COMPLETE LINKAGE Distância entre 2 clusters é a maior distância entre qualquer par de elementos dos 2 clusters d avg (C, C * ) = (1 / C * C ) d(x,y) para todos os elementos x em C * e y em C AVERAGE LINKAGE Distância entre 2 clusters é a média das distâncias entre os pares de elementos dos 2 clusters Definido no argumento method da função hclust Clustering hierárquico: exemplo > set.seed(1234) > x = rnorm(12,mean=rep(1:3,each=4),sd=0.2) > y = rnorm(12,mean=rep(c(1,2,1),each=4),sd=0.2) > plot(x,y,col="blue",pch=19,cex=2) > text(x+0.05,y+0.05,labels=as.character(1:12)) criar 3 clusters arpficiais com 4 elementos cada 5
6 Clustering hierárquico: exemplo > dataframe <- data.frame(x=x,y=y) > dist(dataframe) criar matriz de distâncias: por omissão euclidiana: função dist Argumento: method métrica de similaridade; valores possíveis: euclidean, manha-an, minkowski, maximum Clustering hierárquico: exemplo > distxy = dist(dataframe, method = "euclidean") > hc = hclust(distxy) > plot(hc) Executar clustering hierárquico: função hclust Argumentos: - Matriz distâncias - method: método para cálculo de distâncias entre clusters; valores: complete, single, average, ward, Por omissão: complete linkage 6
7 Clustering hierárquico exemplo dataset iris > iris.sc = scale(iris[,1:4]) > boxplot(iris[,1:4]) > boxplot(iris.sc) > dist.iris = dist(iris.sc, method = "euclidean") > hc.complete = hclust(dist.iris, method = "complete") > my.plot.hc (hc.complete, lab.col = as.integer(iris$species)+1, cex = 0.4) Clustering hierárquico exemplo dataset iris > hc.average = hclust(dist.iris, method = "average") > my.plot.hc (hc.average, lab.col = as.integer(iris$species)+1, cex = 0.4) 7
8 Função para plot de árvores com cores my.plot.hc = function(hclust, lab = 1:length(hclust$order), lab.col = rep(1, length(hclust$order)), hang = 0.1,...) { y = rep(hclust$height, 2) x = as.numeric(hclust$merge) y = y[which(x<0)] x = x[which(x<0)] x = abs(x) y = y[order(x)] x = x[order(x)] plot(hclust, labels = F, hang = hang,...) text(x = x, y = y[hclust$order]- (max(hclust$height) * hang), labels = lab[hclust$order], col = lab.col[hclust$order], srt = 90, adj = c(1,0.5), xpd = NA,...) } Heatmaps Forma de representar dados matriciais onde cores de cada célula representam escala de valores Função heatmap do R permite representar heatmaps (sendo aplicada sobre matrizes numéricas) Os heatmaps criados por esta função incluem clustering hierárquico realizado quer ao nível das linhas, quer ao nível das colunas 8
9 Heatmap: exemplo > x1 = rnorm(12,mean=rep(1:3,each=4),sd=0.2) > x2 = rnorm(12,mean=rep(1:3,each=4),sd=0.2) > y1 = rnorm(12,mean=rep(c(1,2,1),each=4),sd=0.2) > y2 = rnorm(12,mean=rep(c(1,2,1),each=4),sd=0.2) > df2 = data.frame(x1, x2, y1, y2) > heatmap(as.matrix(df2)) Clustering hierárquico divisivo Alternativa ao anterior em que processo se inicia com apenas um cluster Processo em cada passo escolhe um cluster para dividir e escolhe a forma de o dividir da melhor forma Exemplo: algoritmo Diana Mais complexo definir critérios para as escolhas anteriores dado o nº de hipóteses Função diana em R exemplo: > library( cluster ) > diana (distxy) 9
10 K-Means Clustering Determina K clusters que englobam todos os pontos, de forma a minimizar a média do quadrado das distâncias de cada ponto para o centro do cluster a que pertence d(v,x): d(v,x) = d(v i, X) 2 / n 1 < i < n d(v i, X) refere-se à distância Euclideana entre o ponto v i e o centro de gravidade do cluster X, a que pertence K-Means: Algoritmo de Lloyd Algoritmo de Lloyd Gerar aleatoriamente k centros de clusters Enquanto os centros do cluster mudam Atribuir a cada ponto um cluster C i correspondendo ao cluster com centro mais próximo Depois de atribuir um cluster a cada um dos n pontos calcular novos centros para os k clusters dados pelo centro de gravidade do cluster 10
11 Kmeans - exemplo Dados usados no exemplo do clustering hierárquico Inicialização: aleatória Recalculando centróides Kmeans - exemplo Passo 2: re- atribuir clusters Recalculando centróides conpnua 11
12 Kmeans - exemplo > reskmeans <- kmeans(dataframe,centers=3) > reskmeans$cluster [1] > plot(dataframe$x,dataframe$y, col=reskmeans$cluster, pch=19, cex=2) > points(reskmeans$centers, col=1:3, pch=3, cex=3, lwd=3) Características do K-means Método heurístico eficiente mas não garante soluções óptimas. Qualidade da solução final é dependente da solução inicial gerada aleatoriamente optimização local. Solução inicial pode ser melhorada criando-se uma distribuição dos centróides que os distribua melhor (i.e. quando se cria cada centróide reduz-se probabilidade de pontos mais próximos) 12
13 Kmeans exemplo com dataset iris > kmeans.iris = kmeans(iris[,1:4], centers = 3, nstart = 10000) > table(kmeans.iris$cluster, iris$species) setosa versicolor virginica Redução de dimensionalidade ObjePvos: dado um conjunto alargado de variáveis, descobrir um conjunto mais pequeno de variáveis não correlacionadas entre si que explicam a maior parte da variabilidade dos dados Em termos de compressão de dados, queremos uma matriz com o menor rank possível, que explique os dados (e os permita reconstruir) Técnica mais popular: Análise de componentes principais (ou PCA) 13
14 Análise de componentes principais - PCA Consta de um procedimento algébrico que converte as variáveis originais (Ppicamente correlacionadas) num conjunto de variáveis não correlacionadas (linearmente) que se designam por componentes principais (PC) ou variáveis latentes Análise baseada na covariância das diversas variáveis As PCs são ordenadas pela quanpdade decrescente de variabilidade (variância) que explicam Cada PC é gerada de forma a explicar o máximo de variabilidade da parte ainda não explicada, tendo que ser ortogonal às PCs anteriores ÚPl quando há grande número de dados e estes contêm possível redundância A PCA é sensível à escala dos dados, pelo que se recomenda a sua normalização prévia Análise de componentes principais - PCA PCA fornece mapeamento de um espaço com N dimensões (N nº variáveis originais) para um espaço com M dimensões (onde M < N) As coordenadas das observações nas novas variáveis são chamada de scores (T) As novas dimensões são combinações lineares das variáveis originais, sendo os coeficientes destas no espaço original designado por loadings (P) Os dados originais (X) são obpdos fazendo X = T.P T Se considerarmos apenas k componentes principais consideramos apenas as primeiras k colunas das matrizes T e P e temos uma aproximação dos dados originais 14
15 PCA no R Há várias formas de realizar a PCA em R, em diversos packages dispntos Uma das funções mais usada, num dos packages base do R, é a função princomp Argumento obrigatório: matriz de dados numéricos (ou data frame apenas com valores numéricos) Argumentos opcionais: subset usado para filtrar linhas, na.ac9on ação para tratar NAs,... Resultado: objeto Ppo list, com vários campos de resultados incluindo loadings, scores,... Função alternapva: prcomp Usa métodos diferentes para calcular a PCA Tem alguns argumentos dispntos: scale valor lógico que permite fazer a normalização dos valores Lista com resultados é dispnta (ver exemplos) > pairs(iris[-5]) PCA - exemplo > pcares = prcomp(iris[,-5], scale = T) > pcares2 = princomp(scale(iris[,-5])) > summary(pcares) Importance of components: PC1 PC2 PC3 PC4 Standard deviation Proportion of Variance Cumulative Proportion > summary(pcares2) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation Proportion of Variance Cumulative Proportion > plot(pcares2) 15
16 PCA - exemplo PCA exemplo 16
17 PCA exemplo > pcares$rotation PC1 PC2 PC3 PC4 Sepal.Length Sepal.Width Petal.Length Petal.Width > pcares2$loadings Loadings: Comp.1 Comp.2 Comp.3 Comp.4 Sepal.Length Sepal.Width Petal.Length Petal.Width > biplot(pcares) PCA - exemplo 17
18 Singular Value DecomposiLon (SVD) Método algébrico de fatorização de matrizes que pode ser usado em análise de dados para reduzir a dimensionalidade dos dados A PCA é um caso parpcular da SVD, sendo a SVD um dos métodos aconselhados para calcular a PCA Pode ser usado para idenpficar variáveis dependentes de outras, que podem ser removidas no processo de análise de dados SVD consta da fatorização de uma matriz M (de dimensões n x m) em M = UDV T onde U é uma matriz n x n, V é uma matriz m x m, A tem dimensões n x m; além disso U.U T e V.V T são iguais à matriz idenpdade de dimensões n e m. As colunas de U são os vetores singulares esquerdos e as de V os vetores singulares direitos A matriz D é uma matriz diagonal com os valores singulares de M SVD em R Em R, a operação de SVD pode ser executada com a função svd O principal argumento para esta função é a matriz de dados M O resultado é uma lista com três campos: d matriz diagonal D u matriz U v matriz V As colunas de v são equivalentes aos loadings resultantes da PCA (se os dados para esta forem normalizados) 18
19 SVD - exemplo > svdres= svd(scale(iris[,-5])) > svdres$v [,1] [,2] [,3] [,4] [1,] [2,] [3,] [4,] > plot(pcares$rotation[,1], svdres$v[,1], pch=19, xlab="pc1", ylab="sv1-dir") > abline(0,1, col="red") Note- se que as loadings (rota9on) da PCA são equivalentes às colunas do vetor v do SVD SVD exemplo reconsltuição > download.file(" dataanalysis/face.rda", destfile="face.rda", method = "curl") > load("face.rda") > image(t(facedata)[,nrow(facedata):1]) > svd1 <- svd(scale(facedata)) > plot(svd1$d^2/sum(svd1$d^2),pch=19,xlab="sv",ylab="variancia explicada ) 19
20 SVD exemplo reconsltuição > aprox1 <- svd1$u[,1] %*% t(svd1$v[,1]) * svd1$d[1] > aprox5 <- svd1$u[,1:5] %*% diag(svd1$d[1:5])%*% t(svd1$v[, 1:5]) > aprox10 <- svd1$u[,1:10] %*% diag(svd1$d[1:10])%*% t(svd1$v[, 1:10]) > par(mfrow=c(1,4)) > image(t(aprox1)[,nrow(aprox1):1]) > image(t(aprox5)[,nrow(aprox5):1]) > image(t(aprox10)[,nrow(aprox10):1]) > image(t(facedata)[,nrow(facedata):1]) 20
Algoritmos de Agrupamento - Aprendizado Não Supervisionado
Algoritmos de Agrupamento - Aprendizado Não Supervisionado Fabrício Jailson Barth fabricio.barth@gmail.com Agosto de 2016 Sumário Introdução e Definições Aplicações Algoritmos de Agrupamento Agrupamento
Leia maisSEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga mvieira@sc.usp.br
Leia maisAula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga
Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto
Leia maisAnálise de Clusters. Aplicações da formação de Grupos (Clustering)
Análise de Clusters Aplicações da formação de Grupos (Clustering) Ver e analisar vastas quantidades de dados biológicos como um todo pode ser difícil É mais fácil interpretar os dados se forem divididos
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Leia mais2 Processo de Agrupamentos
20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y
Leia maisSensometria, Segmentação. Adilson dos Anjos
Segmentação Adilson dos Anjos Segmentação Objetivo O objetivo dessa aula é apresentar alguns métodos de Segmentação. As análises serão realizadas com uso do R; Pacotes utilizados nessa aula FactoMineR
Leia maisAgrupamento. Algoritmos e aplicações
Agrupamento Algoritmos e aplicações Equipe Bertha Andaluz (bmca) Deborah Mesquita (dhsm) Lucas Lima (lapl) Lucas Tenório (lvt) Roteiro Motivação Métodos de clustering Modelos de clustering Fuzzy clustering
Leia maisTrilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization
Leia maisClustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
Leia maisDescoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta
Leia maisAgrupamento Espectral e Hierárquico
Agrupamento Espectral e Hierárquico Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Agrupamento Espectral 2. Agrupamento Hierárquico 1 Agrupamento Espectral Agrupamento Espectral Nem
Leia maisLes-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017
Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO AULA 4 02/06/17 Prof a Lilian M. Lima Cunha Junho de 2017 DEFINIÇÃO Análise de conglomerados (Cluster Analysis) é uma das técnicas de análise multivariada
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 18 Aprendizado Não-Supervisionado Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia maisSVD. Single Value Decomposition 18/09/2017. Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T =
SVD Single Value Decomposition Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T = U é uma matriz com n linhas e r colunas (r rank de A) D é uma matriz diagonal r x r; V é uma
Leia maisANÁLISE DE AGRUPAMENTOS
ANÁLISE DE AGRUPAMENTOS Análise de Agrupamentos 2 Definição Consistem em encontrar grupos de objetos entre os objetos Categorizá-los ou agrupá-los Tipo de aprendizado não supervisionado Encontrar grupos
Leia maisFunção prcomp. 1. Introdução
Função prcomp 1. Introdução Apresentamos alguns exemplos de utilização da função prcomp do pacote stats em R. Esta função permite realizar uma análise de componentes principais a partir de uma matriz de
Leia maisFunção discriminante linear de Fisher
Função discriminante linear de Fisher ## Biblioteca com a função discriminante linear de Fisher library(mass) ## Dados (?iris apresenta informações sobre o conjunto de dados) dados
Leia mais4 Agrupamento de documentos
4 Agrupamento de documentos É a teoria que decide o que podemos observar. Albert Einstein Um dos métodos mais utilizados de mineração de dados descritiva é conhecido como análise de grupos 23. Com ele,
Leia maisPRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)
PRÁTICA 8 1) Medidas de Distância. A Distância Euclidiana entre dois vetores n-dimensionais e y é definida como o escalar: d 1 2 2 [( y ) + + ( y ) ] 2 e (, y) = y = y = 1 1 L n n esta epressão é a Norma
Leia maisRepresentação esquemática de estruturas de dados
UNIVERSIDADE DE SÃO PAULO - USP Instituto de Química de São Carlos - IQSC Grupo de Química Medicinal do IQSC/USP 1 Representação esquemática de estruturas de dados 2 1 Tipos de variáveis Contínua Concentração,
Leia maisAnálise de dados multivariados I
Análise de dados multivariados I Tópico: Análise de Conglomerados ou Agrupamentos (ou ainda, Cluster Analysis) Bibliografia: R.A. Johnson, Applied Multivariate Statistical Analysis, Prentice Hall, 199
Leia maisOrganização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo
Leia maisPor que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisPrograma do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas
Sistemas Inteligentes Aplicados Carlos Hall Programa do Curso Limpeza/Integração de Dados Transformação de Dados Discretização de Variáveis Contínuas Transformação de Variáveis Discretas em Contínuas Transformação
Leia maisEstatística: Aplicação ao Sensoriamento Remoto SER ANO Análise de Agrupamento
statística: plicação ao Sensoriamento Remoto SR 204 - NO 2017 nálise de grupamento amilo aleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/ nálise de grupamento (luster nalysis)
Leia maisInteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7) Fundamentação da disciplina Analise de dados Decisões
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisAprendizagem de Máquina
Problema do Agrupamento Aprendizagem de Máquina Alessandro L. Koerich Seja x = (x 1, x 2,, x d ) um vetor d dimensional de características Seja D um conjunto de x vetores, D = { x(1), x(2),, x(n) } Problema
Leia maisFunção prcomp em R. 1. Introdução
Função prcomp em R 1. Introdução Apresentamos alguns exemplos de utilização da função prcomp do pacote stats em R. Esta função permite realizar uma análise de componentes principais a partir de uma matriz
Leia maisSENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná
SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná aanjos@ufpr.br Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->
Leia maisMANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS
MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS INTRODUÇÃO... 2 MEDIDAS DE SIMILARIDADE [2,3]... 3 2. MEDIDAS DE CORRELAÇÃO... 4 2.2 MEDIDAS DE DISTÂNCIA... 6 2.2. TIPOS DE MEDIDAS DE DISTÂNCIA... 7 2.3
Leia maisClustering - c-means e Self Organizing Maps
- c-means e Self Organizing Maps Sarajane M. Peres e Clodoaldo A. M. Lima 13 de abril de 2015 Material baseado em: HAN, J. & KAMBER, M. Data Mining: Concepts and Techniques. 2nd. 2006 FAUSETT, L. Fundamentals
Leia maisA Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.
84 5 Estudos de Caso A seguir serão apresentados três estudos de caso. Os dois primeiros estudos de caso têm por objetivo demonstrar a facilidade de uso do aplicativo, e o último estudo de caso é focado
Leia maisInteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7) Fundamentação da disciplina Analise de dados Decisões
Leia mais2COP229 Inteligência Computacional. Aula 3. Clusterização.
Aula 3 Clusterização Sumário (Clusterização) - Introdução - Aprendizado Não Supervisionado - Aprendizado Supervisionado - Introdução: Clusterização - Etapas para o processo de Clusterização - Distância
Leia maisAula 7 Medidas de Distância. Profa. Elaine Faria UFU
Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André
Leia maisProjeções Multi-dimensionais
Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação (ICMC) Universidade de São Paulo (USP) 23 de setembro de 2010 Introdução
Leia maisMestrado Profissional em Administração. Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 2015
Mestrado Profissional em Administração Disciplina: Análise Multivariada Professor: Hedibert Freitas Lopes 1º trimestre de 015 Decomposição Espectral Autovalores e autovetores MANLY, Cap. Objetivo e Definição
Leia maisAnálise de Componentes Principais Simbólicas
Análise de Componentes Principais Simbólicas Universidade Federal de Pernambuco CIn.ufpe.br Análise de Componentes Principais O objetivo da análise de componentes principais é explicar a estrutura de variânciacovariância
Leia maisTópicos Avançados em IA. Prof. Eduardo R. Hruschka
Tópicos Avançados em IA Prof. Eduardo R. Hruschka Créditos Este material consiste de adaptações dos originais: Elaborados por Eduardo Hruschka e Ricardo Campello de (Tan et al., 2006) de E. Keogh (SBBD
Leia maisMÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel
MÉTODOS MULTIVARIADOS Rodrigo A. Scarpel rodrigo@ita.br www.mec.ita.br/~rodrigo INTRODUÇÃO Semana Conteúdo Introdução aos métodos multivariados 1 Análise de componentes principais 2 Aplicações de análise
Leia maisMódulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico
Tutorial SPSS Módulo 18 Análise de Cluster 1 Módulo 18- Análise de Cluster Tutorial SPSS Preparação dos Dados e Geração de Tabelas Método Hierárquico e Não-Hierárquico Situação Problema Uma varejista de
Leia maisAnálise de Agrupamento. Cluster Analysis
Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que
Leia maisAnálise de Agrupamento (Cluster analysis)
Análise de Agrupamento (Cluster analysis) Anderson Rodrigo da Silva 1 Exemplos de aplicações de análise de agrupamento Pesquisas de mercado Agrupamento de cidades-teste Bancos de germoplasma Caracterização
Leia maisProjected Clustering Algorithm
Projected Clustering Algorithm Emanuel Matos 5560105 Disciplina : Análise de Agrupamentos Prof. Dr. Ricardo Campello Dez/2010 View Problema Objetivo Definições/Premissas Algoritmo Acurácia Escalabilidade
Leia maisAnálise de agrupamentos por métodos hierárquicos aglomerativos
Análise de agrupamentos por métodos hierárquicos aglomerativos ## Exemplo 1 (p = 2) dados
Leia maisDescrição do Método de Análise de Clusters
ANÁLISE DE CLUSTERS A análise de Clusters designa uma série de procedimentos estatísticos sofisticados que podem ser usados para classificar objectos e pessoas por observação das semelhanças e dissemelhanças
Leia maisProcessamento de Imagens CPS755
Processamento de Imagens CPS755 aula 04 - sistemas lineares Antonio Oliveira Ricardo Marroquim 1 / 32 laboratório de processamento de imagens tópicos decomposições (álgebra linear) decomposição QR decomposição
Leia maisClustering (k-means, SOM e hierárquicos)
Clustering (k-means, SOM e hierárquicos) André Tavares da Silva andre.silva@udesc.br (Capítulo 10 de Duda e Hart) Clustering Introdução e tipos Roteiro Agrupamentos hierárquicos AGNES, DIANA e Dendogram
Leia maisEstatística: Aplicação ao Sensoriamento Remoto SER ANO Componentes Principais
Estatística: Aplicação ao Sensoriamento Remoto SER 4 - ANO 9 Componentes Principais Camilo Daleles Rennó camilorenno@inpebr http://wwwdpiinpebr/~camilo/estatistica/ Associação entre Variáveis r = < r
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Aprendizado não-supervisionado Formação de agrupamentos Aprendizado Não-Supervisionado Classificação supervisionada: discriminar padrões com base num modelo pré-definido de classes.
Leia maisMineração de Dados. Modelos Descritivos. Descoberta de agrupamentos
Mineração de Dados Descoberta de agrupamentos Modelos Descritivos tarefa de geração de um modelo descritivo consiste (em grande parte) em analisar os dados do domínio (entradas) e sugerir uma partição
Leia maisUniversidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões PCA. Luiz Eduardo S. Oliveira, Ph.D.
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões PCA Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir os conceitos de PCA e suas aplicações
Leia maisEstudo dirigido de Análise Multivariada
Estudo dirigido de Análise Multivariada Conceitos Iniciais De um modo geral, os métodos estatísticos de análise multivariada são aplicados para analisar múltiplas medidas sobre cada indivíduo ou objeto
Leia maisAnálise Discriminante
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Análise Discriminante Análise Discriminante 1 Análise discriminante - A
Leia maisANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa
ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 ANÁLISE DE AGRUPAMENTOS É uma técnica analítica pra identificar
Leia maisMétodos Quantitativos Aplicados
Métodos Quantitativos Aplicados Aula 7 http://www.iseg.utl.pt/~vescaria/mqa/ Tópicos apresentação Relações de interdependência entre variáveis quantitativas: A Análise Factorial Análise Factorial: técnica
Leia maisClusterização. Grupo: Eduardo Gade Gusmão (egg) Felipe Kuhner dos Santos (fkcs) Nelson Gutemberg Rocha (ngrs) Paulo Ricardo da Silva Soares (prss)
Clusterização Grupo: Eduardo Gade Gusmão (egg) Felipe Kuhner dos Santos (fkcs) Nelson Gutemberg Rocha (ngrs) Paulo Ricardo da Silva Soares (prss) UFPE Centro de Informática IF796 Mineração da Web Professora:
Leia mais3 Técnicas de agrupamento
3 Técnicas de agrupamento Com o advento da internet a quantidade de informação disponível aumentou consideravelmente e com isso, tornou-se necessário uma forma automática de organizar e classificar esta
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Preparação de Dados: Parte B Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões: dos originais gentilmente
Leia maisétodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA
étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO
Leia maisIntrodução à Mineração de Dados com Aplicações em Ciências Espaciais
Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 3: 1 /54 Programa Dia 1: Apresentação
Leia maisMétodos de Agrupamento (Clustering) Aula 18
Métodos de Agrupamento (Clustering) Aula 18 Prof. Dr. Paulo A. V. de Miranda Instituto de Matemática e Estatística (IME), Universidade de São Paulo (USP) pmiranda@vision.ime.usp.br Existem duas classes
Leia maisUniversidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Tipos de Aprendizagem Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir diferentes tipos de
Leia maisAula 25: Análise Fatorial. Prof. Eduardo A. Haddad
Aula 25: Análise Fatorial Prof. Eduardo A. Haddad Utilização específica Como identificar o potencial de desenvolvimento agropecuário dos municípios brasileiros? Banco de dados municipais: Tamanho do rebanho,
Leia maisProcessamento de Imagens CPS755
Processamento de Imagens CPS755 aula 05 - sistemas lineares - parte 2 Antonio Oliveira Ricardo Marroquim 1 / 27 laboratório de processamento de imagens tópicos métodos lineares mínimos quadrados equações
Leia maisRECONHECIMENTO DE PADRÕES - RP
RECONHECIMENTO DE PADRÕES - RP Definições Básicas O que é? 2 Ramo do aprendizado de máquina Consiste em atribuir um rótulo (ou classe) para uma certa amostra ou valor de entrada Exemplo: classificação
Leia maisMineração de Dados - II
Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior barbon@uel.br 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework
Leia maisConsultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
Leia maisMedidas de Semelhança
Medidas de Semelhança Índices de Semelhança Grandezas numéricas que quantificam o grau de associação entre um par de objetos ou de descritores. Como escolher um Índice? O objetivo da análise é associar
Leia maisAprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
Leia maisSEMINÁRIO DOS ARTIGOS:
SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisAgrupamento de Dados. (Clustering)
Agrupamento de Dados (Clustering) Organização 1. Introdução 2. Medidas de (Dis)similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Aprendizagem Não Supervisionada Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática
Leia maisSegmentação: exemplo chocolate
Segmentação: exemplo chocolate Adilson dos Anjos Segmentação Pacotes utilizados library(factominer) library(readxl) library(graphics) library(cluster) library(fpc) Dados sobre Chocolate choco
Leia mais6 Clustering: Definindo Grupos Estratégicos
6 Clustering: Definindo Grupos Estratégicos 6.1 Introdução Não é difícil deduzir que as 60 empresas distribuidoras de energia elétrica, operantes no SEB, apresentam características heterogêneas. Entretanto,
Leia maisPÓS-GRADUAÇÃO ANÁLISE DE DATA MINING
PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de
Leia maisAprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquinas Introdução à Aprendizado Não- Supervisionado David Menotti, Ph.D. http://web.inf.ufpr.br/menotti Objetivos
Leia maisMineração de Dados. Análise e Seleção de Variáveis
Mineração de Dados Análise e Seleção de Variáveis 1 Análise e Seleção de Variáveis Parte da uma área chamada de Redução de Dados Obtenção de uma representação reduzida em volume mas que produz resultados
Leia maisAgrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral
Agrupamento de dados Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral Dados e grafos Se temos dados x i, i 0... n, criamos
Leia maisA procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP
A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP Lúcia Sousa Escola Superior de Tecnologia e Gestão, Instituto Politécnico de Viseu Fernanda Sousa Faculdade de Engenharia
Leia maisANÁLISE DE COMPONENTES PRINCIPAIS/PCA ou ACP
Procedimento para a determinação de novas variáveis (componentes) que expliquem a maior variabilidade possível existente em uma matriz de dados multidimensionais. ANÁLISE DE COMPONENTES PRINCIPAIS/PCA
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 12 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 12 de Janeiro de 2017 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisBusca em Regiões Ortogonais
Busca em Regiões Ortogonais Claudio Esperança Paulo Roma 1 O problema O problema O problema consiste em recuperar objetos tipicamente pontos que intersectam ou estão contidos numa região simples do espaço
Leia maisAnálise de Componentes Principais
Análise de Componentes Principais Adilson dos Anjos Sensometria 2 Objetivo O objetivo dessa aula é apresentar a Análise de Componentes Principais. As análises serão realizadas com uso do R; Pacotes utilizados
Leia maisTécnicas Multivariadas em Saúde. Representação de Dados Multivariados. Métodos Multivariados em Saúde Roteiro. Análise Exploratória de Dados
Roteiro Técnicas Multivariadas em Saúde Lupércio França Bessegato Dep. Estatística/UFJF 1. Introdução 2. Distribuições de Probabilidade Multivariadas 3. Representação de Dados Multivariados 4. Testes de
Leia maisProfessora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados
UNIVERSIDADE FEDERAL DA BAHIA ESCOLA POLITÉCNICA MESTRADO EM ENGENHARIA AMBIENTAL E URBANA Apresentação do Curso Introdução Professora: Cira Souza Pitombo Disciplina: Aplicações de técnicas de análise
Leia maisSegmentação: exemplo snacks (Lawlesss, 2013)
Segmentação: exemplo snacks (Lawlesss, 2013) Adilson dos Anjos Segmentação Pacotes utilizados library(factominer) library(readxl) library(graphics) library(cluster) library(fpc) Dados sobre snacks snack
Leia maisMineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra
Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra Introdução 1 2 3 4 Capacidade de Armazenamento X Análise e Interpretação
Leia maisRede RBF (Radial Basis Function)
Rede RBF (Radial Basis Function) André Tavares da Silva andre.silva@udesc.br Roteiro Introdução à rede neural artificial RBF Teorema de Cover da separabilidade de padrões RBF x MLP RBF Função de ativação
Leia maisSaída: Representação de conhecimento
Saída: Representação de conhecimento Kate Revoredo katerevoredo@uniriotec.br 1 Saída: Representando padrões estruturais Existem muitas maneiras diferentes de representar padrões: Árvores de decisão, regras,
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Leia maisSME0822 Análise Multivariada 2 o semestre de 2014
SME0822 Análise Multivariada 2 o semestre de 2014 Prof. Cibele Russo cibele@icmc.usp.br http://www.icmc.usp.br/ cibele Sala 3-139 Coteia Wiki: http://wiki.icmc.usp.br/index.php/sme0822 6 de agosto de 2014
Leia maisAlgoritmos Indutores de Árvores de. Fabrício J. Barth
Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Maio de 2018 Problema: Diagnóstico para uso de lentes de contato 2 Diagnóstico para o uso de lentes de contato O setor de oftalmologia de um
Leia mais4 Estado da Arte do Kernel PCA
4 Estado da Arte do Kernel PCA Conforme apresentado no Capítulo 1, o Kernel PCA é uma técnica promissora para auxiliar no processo de ajuste de histórico, devido a sua capacidade de extrair parte da estatística
Leia mais