Clustering. Prof. Rodrigo Leite Durães.

Tamanho: px
Começar a partir da página:

Download "Clustering. Prof. Rodrigo Leite Durães."

Transcrição

1 Clustering Prof. Rodrigo Leite Durães.

2 O que é Análise de Agrupamentos? Cluster: um grupo de objetos Similares entre si quando no mesmo grupo Dissimilares em relação a objetos em outros grupos Análise de Agrupamentos Agrupamento de objetos em grupos Agrupamento é um método de classificação não supervisionada: as classes não são definidas previamente Aplicações típicas Como uma ferramenta autonoma para obter pistas sobre a distribuição de dados Como uma etapa de preprocessamento para outros algoritmos

3 Aplicações de Clustering Reconhecimento de Padrões Análise de Dados Espacial detecte clusters espaciais e explique-os no contexto da mineração de dados espaciais Processamento de Imagens Economia (especialmente pesquisa de mercado) WWW Classificação de documentos Agrupamento de dados provenientes do Weblog para descobrir grupos de acesso similares

4 Exemplos de Aplicações de Clustering Marketing: Ajuda os marqueteiros a descobrir grupos de clientes e usa esse conhecimento para orientar as campanhas publicitárias Solo: Identificação de áreas de propriedades similares Seguro: Identificação de grupos de segurados com um custo médio elevado de reembolso Planejamento Urbano: Identificação de grupos de habitação segundo o tipo, valor e localização geográfica

5 O que é um bom agrupamento? Um bom método de agrupamento fornece grupos de alta qualidade com Alta similaridade intra-grupo baixa similaridade inter-grupo A qualidade do resultado de um agrupamento depende tanto da medida de similaridade usada pelo método como da sua implementação. A qualidade de um método de agrupamento é também medido pela sua habilidade para descobrir os padrões escondidos.

6 Requirementos para Clustering em Data Mining Scalabilidade Abilidade para tratar com diferentes tipos de atributos Descoberta de grupos de forma arbitrária Requerimentos mínimos do conhecimento do dominio em relação aos parâmetros de entrada Capaz de tratar ruidos e valores aberrantes Insensível à ordem dos registros de entrada Alta dimensionalidade Incorporação de restrições fornecidas pelo usuário Interpretabilidade e usabilidade

7 Principais Etapas da Formação de Agrupamentos a) aquisição dos dados 1) Seleção das observações (indivíduos, objetos, casos, itens) 2) Seleção das variáveis (caracteres, descritores) e das correspondentes escalas 3) Construção da Tabela de Dados b) Pré-processamento dos dados 1) Mudança de escala 2) Normalização 3) Extração de caracteres

8 Principais Etapas da Formação de Agrupamentos c) Construção da Tabela de Dados d) Cálculo da Proximidade 1) Escolha de um Índice de Proximidade 2) Construção da Matriz de Proximidades e) Seleção de um Algoritmo de Formação de Grupos em função do tipo de agrupamento desejado f) Análise e Interpretação dos Resultados

9 Medida da Qualidade de um Agrupamento Proximidade: é uma função que mede a similaridade ou a dissimilaridade entre um par de observações Uma função a parte mede a qualidade de um grupo. As funções de proximidade dependem da escala das variáveis: proporcional, intervalar, ordinal, nominal, binária, mista Pode-se associar pesos as variáveis como conheciemento do domínio. É extremamente difícil definir o que são dois objetos bastante similares a resposta é quase sempre subjetiva.

10 Tipos de Dados Variáveis de escala intervalar: Variáveis Binárias: Variáveis Nominais, Ordinais, Proporcionais: Variáveis de tipo mixto:

11 Dissimilaridade entre objetos Dissimilaridade entre objetos Distancias são normalmente usadas como medida de dissimilaridade entre objetos Entre as mais populares: distancia de Minkowski onde i = (x i1, x i2,, x ip ) e j = (x j1, x j2,, x jp ) são dois vetores p- dimensionais, e q é um inteiro positivo Se q = 1, d é a distância de Manhattan q q p p q q j x i x j x i x j x i x j i d )... ( ), ( ), ( p p j x i x j x i x j x i x j i d

12 Dissimilaridade entre objetos Se q = 2, d é a distância: d( i, j) ( x i x j 2 x i x j 2... x i x j p p 2 ) Properties d(i,j) 0, d(i,i) = 0, d(i,j) = d(j,i) d(i,j) d(i,k) + d(k,j) Outras alternativas: distância ponderada, correlação (similaridade), etc.

13 Outros aspectos relativos aos índices de proximidade Escala das Variáveis Correlação entre as Variáveis Descrições heterogêneas (Variáveis de diferentes tipos) Índices de proximidade entre padrões descritos por strings ou árvores Índices de proximidade dependentes do contexto

14 Estruturas classificatórias Cobertura Partição e 5 e 4 e 3 e 1 e e 5 e 4 e 3 e 1 e ) 1,, K K 2) 1 P l tem -se P 3), m 1,, K e l então P l P m m

15 Estruturas Classificatórias Hierarquia Piramide e 5 e 4 e e 1 e ) H 2) e então e H 3) h, h H tem -se : h h h h ou h h 3) h, h H )Existe uma ordem tal que h H, tem -se h h ou h é um intervalo de h h H

16 Métodos de Agrupamento Em Taxinomia Numérica distingue-se três grupos de métodos Técnicas de Otimização Objetivo: obter uma partição. Número de grupos fornecido pelo usuário Técnicas hierárquicas Objetivo: obter uma hierarquia (ou uma pirâmide) Pode-se obter uma partição cortando-se a hierarquia em um determinado nível.

17 Métodos de Agrupamento Técnicas de Cobertura Objetivo: obter grupos que eventualmente podem partilhar indivíduos. Outros Aspectos Relativos aos Métodos de Agrupamento Métodos Aglomerativos versus Métodos Divisivos Métodos Monotéticos versus Métodos Politeticos

18 Outros Aspectos Relativos aos Métodos de Agrupamento Agrupamento Hard versus Agrupamento Fuzzy Métodos Incrementais versus Métodos não Incrementais Métodos Paramétricos versus Métodos não Paramétricos Métodos Geométricos versus Métodos não Geométricos

19 Principais Métodos de Agrupamento Métodos que fornecem uma partição: Construa várias partições que são então avaliadas segundo algum critério Métodos Hierarquicos: Fornece uma decomposição hierarquica dos objetos segundo um critério particular Métodos de Densidade: basedos em conectividade e funções de densidade Grid: baseado em estruturas de níveis de granularidade multipla Modelo: Supõe-se um modelo para cada cluster e tentase achar o melhor ajustamento entre o modelo e o cluster

20 Métodos que fornecem uma partição: Conceitos básicos Métodos que fornecem uma partição: Produz uma partição de uma base de dados D de n objetos em k grupos Dado k, encontre uma partição em k grupos que otimiza um dado critério Otimo global: enumeração exaustiva de todas as partições Heuristicas: k-means k-means (MacQueen 67): Cada grupo é representado pelo seu centro

21 O Método K-Means Dado k, o algoritmo k-means é implementado em 4 passos: Partição dos objetos em k grupos não vazios Defina as sementes como os centroides dos grupos da partição atual. Afete cada objeto ao grupo cuja semente é a mais próxima ao mesmo. Volte para o passo 2, pare quando não houver novas afetações.

22 O Método K-Means Exemplo

23 Comentários sobre o método K-Means Pontos fortes Relativamente eficiente: O(tkn), onde n é # objetos, k é # grupos, e t é # iterações. Normalmente, k, t << n. Frequentemente termina em um otimo local. O otimo global pode ser encontrado usando tecnicas tais como: deterministic annealing e algoritmos geneticos Pontos fracos Aplicavel apenas quando a média é definida, o que fazer com dados categóricos? É necessário especificar a priori k, o número de grupos É sensível a ruidos e valores aberrantes Não é apropriado para a descoberta de grupos não esféricos

24 Variantes do K-Means Algumas variantes do k-means diferem em Seleção das k medias iniciais Calculo das dissimilaridades Estratégias para calcular as médias dos grupos

25 Métodos Paramétricos Modelo: Mistura finita de distribuições Mistura: conjunto de k distribuições de probabilidade que representam k grupos e que determinam os valores dos atributos para os membros de um grupo Cada distribuição fornece a probabilidade de que uma instancia particular apresente um certo conjunto de valores caso se saiba que ela pertence a um dado grupo A cada grupo é associado uma distribuição distinta

26 Métodos Paramétricos Uma instancia pertence a apenas um grupo, mas não se sabe qual Os grupos não são igualmente prováveis Situação mais simples: um atributo numérico com distribuição normal para cada grupo, mas com diferentes médias e variâncias Problema: a partir de um conjunto de instancias inferir a media e a variância de cada grupo (distribuição)

27 Métodos Hierarquicos Usa uma matriz de distancias como critério de agrupamento. Esse métodos não requerem o número de grupos k como entrada, mas precisa de uma condição de parada Step 0 Step 1 Step 2 Step 3 Step 4 a a b b a b c d e c c d e d d e e Step 4 Step 3 Step 2 Step 1 Step 0 aglomerativo (AGNES) divisivo (DIANA)

28 AGNES (Agglomerative Nesting) Introduzido por Kaufmann and Rousseeuw (1990) Implementado em pacotes estatísticos, e.x., Splus Usa o método Single-Link e a matriz de dissimilaridade. Fusiona nós que tem as menores dissimilaridades Eventualmente todos os nós pertencem ao mesmo grupo

29 Um Dendrograma mostra como os grupos são fusionados hierarquicamente Decompõe os objetos em vários níveis de partições embutidas (árvore de grupos, chamado de dendrograma). Um agrupamento dos objetos é obtido pelo corte do dendrograma em um nível desejado e então cada componente conectado forma um grupo.

30 DIANA (Divisive Analysis) Introduzido por Kaufmann and Rousseeuw (1990) Implementado em pacotes estatísticos, ex., Splus Ordem inversa de AGNES Eventualmente cada nó forma um grupo unitário

31 Métodos Hierarquicos Pontos fracos dos métodos aglomerativos de agrupamento Não são escalaveis: complexidade em tempo pelo menos em O(n 2 ), onde n é o número total de objetos Nunca pode desfazer o que já fez previamente

32 CHAMELEON CHAMELEON: G. Karypis, E.H. Han and V. Kumar 99 Mede a similaridade baseda em um modelo dinamico 2 grupos são fusionados apenas se a interconectividade e proximity entre 2 grupos são altas em relação a interconectividade interna dos grupos e a proximidade dos itens nos grupos Um algoritmo de 2 fases 1. Usa um algoritmo de particionamento de um grafo: agrupa objetos em um grande número de sub-grupos relativamente pequenos 2. Usa um algoritmo hierarquico aglomerativo: encontra os verdadeiros grupos pela fusão desses sub-grupos

33 Contexto global de CHAMELEON Construção de Um grafo esparço Partição do grafo Dados Fusão da Partição Grupos finaiss

34 Métodos baseados em Densidade Agrupamento baseado em densidade (critério de cluster local, tal como a densidade de pontos conectados Caracteristicas princiapais: Descoberta de grupos de forma arbitrária Tratamento de ruido Apenas uma escaneada É necessário parametros de densidade como condição de parada

35 DBSCAN: Density Based Spatial Clustering of Applications with Noise Um grupo é definido como um conjunto de pontos máximo conectados pela densidade Descobre grupos de forma arbitrária em BD espaciais com ruido Outlier Border Core Eps = 1cm MinPts = 5

36 DBSCAN: O algoritmo Selecione um pointo p arbitrariamente Recupere todos os pontos alcançaveis pela densidade de p wrt Eps and MinPts. Se p é um ponto core, forma-se um grupo. Se p é um ponto de fronteira, não há pontoas aclcançaveis pela densidade de p e DBSCAN visita o proxímo ponto da base de dados. Continue o processo até que todos os pontos tenham sido processados.

37 OPTICS: (1999) OPTICS: Ordering Points To Identify the Clustering Structure Ankerst, Breunig, Kriegel, and Sander (SIGMOD 99) Produz uma ordenação especial da base de dados em relação a sua estrutura de agrupamento baseada em densidade Esse ordenamento de grupo contém informação equivalente a agrupamento baseado em densidade correspondente a uma ampla faixa de ajuste de parametros Bom tanto para agrupamento automático como iterativo, incluindo a procura da estrutura de agrupamento intrinsica Pode ser representado graficamente ou usar tecnicas de visualização

38 Ordem de agrupamento dos objetos Distancia alcançavel indefinido

39 DENCLUE: using density functions DENsity-based CLUstEring by Hinneburg & Keim (KDD 98) Principais Caracteristicas Fundamentos matematicos solidos Bom para dados com presença maciça de ruido Permite uma descrição matemática compacta de grupos de forma arbitrária para dados multidemensionais Significativamente mais rápido do que os algoritmos existentes (mais rápido do que DBSCAN por um fator de até 45) No entanto precisa de uma enorme quantidade de parametros

40 Usa celulas em grade mas guarda informações apenas sobre aquelas que realmente contém pontos e manipula essa celulas em uma estrutura de acesso tipo árvore. Função de influencia: descreve o impacto dos dados na sua vizinhança. A densidade global do espaço de dados pode ser calculada como a soma da função de influencia de todos os pontos. Os grupos podem ser determinados matematicamente pela identificação de atratores de densidade. Atratores de densidade são máximos locais da função densidade global. Denclue: Essencia

41 Métodos baseados em Grade Usa uma estrutura de dados grade de multipla resolução

42 STING: Uma abordagem Grade com Informações Estatísticas Wang, Yang and Muntz (VLDB 97) A área espacial é dividida em células retangulares Há vários níveis de celulas correspondente a vários níveis de resolução

43 STING Cada célula em um nível mais alto é particionada em um número menor de celulas no próximo nível abaixo Calcula-se e armazena-se de antemão informações estatísticas de cada célula e usa-se a mesma para responder consultas Parametros de células de nível mais altos são facilmente calculadas à partir de parametros de células de nivel mais baixo count, mean, s, min, max tipo de distribuição normal, uniforme, etc. Usa uma abordagem top-down para responder consultas espaciais Inicia a partir de uma camada pre-selecionada tipicamente com um pequeno número de celulas Para cada célula do nível corrente calcule o intervalo de confiança

44 STING: Remoção de células irrelevantes para consideração adicional Quando acabar o exame da camada corrente, passe para a próxima camada de nível mais baixo Repita esse processo até alcançar a camada inferior Vantagens: Independente de consultas, facil de paralelizar, atualização incremental O(K), onde K é o número de células na grade ao nível mais baixo Desvantagens: Todas as fronteiras dos grupos ou são horizontais ou verticais; fronteiras diagonais não são detectadas

45 WaveCluster (1998) Sheikholeslami, Chatterjee, and Zhang (VLDB 98) Uma abordagem de agrupamento multi resolução que aplica transformada de wavelet no espaço de características Uma transformada de wavelet é uma tecnica de processamento de sinais que decompõe o sinal em diferentes sub-bandas de frequencia. É ao mesmo tempo um método baseado em grade e em densidade

46 WaveCluster (1998) Como aplicar transformada de wavelet para encontrar grupos Simplifique os dados pela imposição de uma estrutura de grade multidimensional no espaço dos dados Esse objetos espaciais multidimensionais são representados em um espaço de caracteristicas n- dimensional Aplicar a transformada de wavelet no espaço de caracteristicas para encontrar regiões densas nesse espaço Aplicar transformada de wavelet várias vezes que resulta em grupos de diferentes escalas da mais fina a mais grosseira

47 WaveCluster (1998) Porque a transformada wavelet é útil para agrupamento Agrupamento não supervisionado Usa filtros para enfatizar regiões cujos pontos agrupam, e simulteneamente suprime informações mais fracas na fronteira Remoção eficaz de valores aberrantes Multi-resolução Eficiencia do custo Principais caracteristicas: Complexidade O(N) Detecção de grupos de forma arbitrária em diferentes escalas Insensível ao ruido ou a ordem dos dados de entrada Aplicavel apenas a dados de poucas dimensões

48 CLIQUE (Clustering In QUEst) Agrawal, Gehrke, Gunopulos, Raghavan (SIGMOD 98). Identifica automaticamente regiões que permitem um melhor agrupamento do que o espaço original CLIQUE é ao mesmo tempo baseada em densidade e em grade Particiona cada dimensão no mesmo número de intervalos de igual tamanho Particiona o espaço m-dimensional em retangulos sem intersecção Uma unidade é densa se a fração dos pontos contida nessa unidade excede os parametros do modelo Um grupo é um conjunto máximo de unidades densas concectadas em um subespaço

49 CLIQUE: Principais etapas Particione o espaço de dados e encontre o número de pontos que se encontram dentro de cada celula da partição. Identifique os subespaços que contém grupos usando o principio do Apriori Identificaçãod e grupos: Determine unidades densas em todos os subespaços de interesse Determine unidades densas conectadas em todos os subespaços de interesse. Gere a descrição mínima dos grupos Determine regiões máximas que cobrem um grupo de unidades densas conectadas para cada grupo Determinação da cobertura mínima de cada grupo

50 Vantagens e desvantagens de CLIQUE Pontos fortes Encontra automaticamente regiões de máxima dimensionalidade tal que existe clusters de alta densidade neles É insensível a ordem de apresentação dos objetos e não é necessário supor nenhuma distribuição a priori para os dados Escalabilidade linear com o numero de objetos e boa escalabilidade quando o numero de dimensãoes dos dados cresce Pontos fracos A precisão dos resultados do agrupamento pode ser degradada em função da simplicidade requerida pelo método

51 Clustering baseado em Modelos Procura otimizar o ajustamento entre os dados e um modelo matemático particular Abordagens Estística e de AI Agrupamento Conceptual Uma forma de agrupamento em aprendizagem de máquina Fornece uma classificação para um conjunto de objetos não rotulados Encontra a descrição característica de cada conceito (classe) COBWEB (Fisher 87) Um método de agrupamento conceptual incremental Cria um agrupamento hierarquico expresso por uma árvore de classificação Cada nó representa um conceito e contém uma descrição probabilistica do mesmo

52 Uma árvore de classificação COBWEB

53 Clustering baseado em Estatística Limitações do COBWEB A suposição de que os atributos são independentes é muito forte: podem existir correlações Não é apropriado para o agrupamento de grandes bases de dados CLASSIT Extensão de COBWEB para agrupamento incremental de dados contínuos Sofre dos mesmos problemas de COBWEB AutoClass (Cheeseman and Stutz, 1996) Usa analise Bayesiana para estimar o número de grupos Popular na industria

54 Outros Métodos de Agrupamento baseado em Modelos Abordagens redes Neurais Representa cada grupo como um exemplo, que age como um prototipo do grupo Novos objetos são distribuidos para o grupo cujo exemplar é o mais similar segundo uma dada distancia Aprendizagem Competitiva Involve uma arquitetura hierárquica de várias unidades (neuronios) Os neuronios competem em um modo vencedorleva-tudo para o objeto sendo correntemente apresentado

55 Self-organizing feature maps (SOMs) O Agrupamento é realizado pela competição de várias unidades pelo objeto corrente A unidade cujo vetor de pesos é a mais próxima do objeto corrente vence O vencedor e seus vizinhos aprendem pelo ajustamento de seus pesos Bem adaptado para a visualização de dados multi-dimensionais em 2 ou 3 dimensões

56 Problemas e Desafios Progressos consideráveis forem realizados em métodos de agrupamento escalaveis Partição: k-means Densidade: DBSCAN, CLIQUE, OPTICS Grid: STING, WaveCluster Modelo: Autoclass, Denclue, Cobweb Os métodos atuais de agrupamento não satisfazem todos os requerimentos desejáveis adequadamente Agrupamento sob restrições: Restrições estão presentes no espaço de dados ou nas consultas dos usuários

57 Sumário Cluster analysis agrupa objetos com base nas suas similaridades e tem uma ampla faixa de aplicações Medidas de similaridade podem ser calculadas para varios tipos de dados Os Métodos de agrupamento podem ser divididos em métodos de partição, hierarquicos, baseados em densidade, baseados em grade e baseados em modelos Ainda há muitos progressos a serem realizados em análise de agrupamentos tais como em agrupamento baseado em restrições

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento

Leia mais

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos

Leia mais

Mineração de Dados em Biologia Molecular

Mineração de Dados em Biologia Molecular Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos

Leia mais

Redes Neurais (Inteligência Artificial)

Redes Neurais (Inteligência Artificial) Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

Redes Neurais não Supervisionadas: SOM

Redes Neurais não Supervisionadas: SOM Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Redes Neurais não Supervisionadas: SOM DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Tópicos

Leia mais

Clustering: k-means e Agglomerative

Clustering: k-means e Agglomerative Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering

Leia mais

2 Processo de Agrupamentos

2 Processo de Agrupamentos 20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y

Leia mais

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU Aula 7 Medidas de Distância Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof Andre C. P. L. F. Carvalho Agradecimentos Ao professor André

Leia mais

M08. Introdução a Técnicas de Data Mining DM

M08. Introdução a Técnicas de Data Mining DM M08. Introdução a Técnicas de Data Mining DM 4 - REGRAS DE ASSOCIAÇÃO 5 - ANÁLISE DE AGRUPAMENTOS LNCC/MCT - 18/01/2008 Custódio Gouvêa Lopes da Motta [email protected] www.dcc.ufjf.br Agradecimentos:

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo

Leia mais

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra Introdução 1 2 3 4 Capacidade de Armazenamento X Análise e Interpretação

Leia mais

Análise de Agrupamento. Cluster Analysis

Análise de Agrupamento. Cluster Analysis Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que

Leia mais

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization

Leia mais

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga [email protected]

Leia mais

ANÁLISE DE AGRUPAMENTOS

ANÁLISE DE AGRUPAMENTOS ANÁLISE DE AGRUPAMENTOS Análise de Agrupamentos 2 Definição Consistem em encontrar grupos de objetos entre os objetos Categorizá-los ou agrupá-los Tipo de aprendizado não supervisionado Encontrar grupos

Leia mais

Occupancy grid based graph-slam using the distance transform, SURF features and SGD

Occupancy grid based graph-slam using the distance transform, SURF features and SGD Occupancy grid based graph-slam using the distance transform, SURF features and SGD Autores: Arturo Gil, Miguel Juliá, Óscar Reinoso Artur Segal Kaim Agenda Introdução Arquitetura Resultados Trabalho futuro

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES NEURAIS ARTIFICIAIS AULA 03 Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 INTRODUÇÃO Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados através de um processo

Leia mais

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Inteligência Artificial

Inteligência Artificial Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis

Leia mais

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná SENSOMETRIA Adilson dos Anjos Departamento de Estatística Universidade Federal do Paraná [email protected] Curitiba, PR 21 de maio de 2015 1 / 7 SENSOMETRIA SEGMENTAÇÃO 2 / 7 Introdução Análise de agrupamentos->

Leia mais

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

Mineração em Data Streams - Clustering. Profa. Elaine Faria UFU

Mineração em Data Streams - Clustering. Profa. Elaine Faria UFU Mineração em Data Streams - Clustering Profa. Elaine Faria UFU - 2018 Mineração de Dados Tarefas de mineração Tarefas Preditivas Classificação Regressão Detecção de Anomalias Tarefas Descritivas Agrupamento

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções

Leia mais

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos

Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos Introdução a Machine Learning: Teoria, Aplicações e IA na Arquitetura Intel Vitor Hugo Ferreira, DSc - UFF Flávio Mello, DSc UFRJ e Ai2Biz

Leia mais

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 2: 1 /59 Programa Dia 1: Apresentação

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos

Leia mais

2. Redes Neurais Artificiais

2. Redes Neurais Artificiais Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.3. Perceptron Multicamadas - MLP 2.3.1. Introdução ao MLP 2.3.2. Treinamento

Leia mais

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível

Leia mais

Mapas Auto-Organizáveis de Kohonen SOM

Mapas Auto-Organizáveis de Kohonen SOM Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Mapas Auto-Organizáveis de Kohonen SOM Redes Neurais Artificiais Site: http://jeiks.net E-mail: [email protected]

Leia mais

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Centro de Matemática Computação e Cognição-UFABC Jéssica Andressa de Souza Pós-Graduação em Ciência da Computação Sistemas de Banco de

Leia mais

Metodologia Aplicada a Computação.

Metodologia Aplicada a Computação. Metodologia Aplicada a Computação [email protected] Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,

Leia mais

Mapas Auto-Organizáveis de Kohonen SOM

Mapas Auto-Organizáveis de Kohonen SOM Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Mapas Auto-Organizáveis de Kohonen SOM Redes Neurais Artificiais Site: http://jeiks.net E-mail: [email protected]

Leia mais

SEMINÁRIO DOS ARTIGOS:

SEMINÁRIO DOS ARTIGOS: SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene

Leia mais

Problemas de otimização

Problemas de otimização Problemas de otimização Problemas de decisão: Existe uma solução satisfazendo certa propriedade? Resultado: sim ou não Problemas de otimização: Entre todas as soluções satisfazendo determinada propriedade,

Leia mais

Análise Multivariada Aplicada à Contabilidade

Análise Multivariada Aplicada à Contabilidade Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com [email protected] Turma: 2º / 2016 1 Agenda

Leia mais

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI 1 Sumário 2 Introdução Técnicas de ESDA Matrizes de Proximidade Espacial Média Espacial Móvel (m i ) Indicadores Globais de Autocorrelação Espacial Índices Globais de Moran (I), Geary (C) e Getis e Ord

Leia mais

Mineração de Dados. Dados Escalar Cardinalidade Porque pré-processar dados?

Mineração de Dados. Dados Escalar Cardinalidade Porque pré-processar dados? Mineração de Dados Pré-Processamento de Dados 1 Sumário Dados Escalar Cardinalidade Porque pré-processar dados? Limpeza de Dados Integração e Transformação Redução de Dados Discretização 2 1 Dados Medidas

Leia mais

KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS KDD E MINERAÇÃO DE DADOS O Processo de KDD: Visão Geral Prof. Ronaldo R. Goldschmidt [email protected] [email protected] geocities.yahoo.com.br/ronaldo_goldschmidt CARACTERIZAÇÃO ÁREAS DE ORIGEM

Leia mais

O Algoritmo Density-Based Spatial Clustering of Applications With Noise (DBSCAN) na Clusterização dos Indicadores de Dados Ambientais

O Algoritmo Density-Based Spatial Clustering of Applications With Noise (DBSCAN) na Clusterização dos Indicadores de Dados Ambientais O Algoritmo Density-Based Spatial Clustering of Applications With Noise (DBSCAN) na Clusterização dos Indicadores de Dados Ambientais Éverton Marangoni Gava 1, Gabriel Felippe 1, Kristian Madeira 1, Maicon

Leia mais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem

Leia mais

Estatística Descritiva

Estatística Descritiva C E N T R O D E M A T E M Á T I C A, C O M P U T A Ç Ã O E C O G N I Ç Ã O UFABC Estatística Descritiva Centro de Matemática, Computação e Cognição March 17, 2013 Slide 1/52 1 Definições Básicas Estatística

Leia mais

SUPPORT VECTOR MACHINE - SVM

SUPPORT VECTOR MACHINE - SVM SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento

Leia mais