Aprendizagem de Dados Simbólicos e/ou Numéricos

Documentos relacionados
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Aprendizado de Máquina

Mineração de Dados em Biologia Molecular

INF 1771 Inteligência Artificial

Redes Neurais (Inteligência Artificial)

Análise de Agrupamento. Cluster Analysis

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

4 Agrupamento de documentos

2 Processo de Agrupamentos

Clustering: k-means e Agglomerative

Análise de Agrupamento (Cluster analysis)

Metodologia Aplicada a Computação.

Aprendizagem de Máquina

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Aprendizado de Máquina (Machine Learning)

Aprendizagem de Dados Simbólicos e/ou Numéricos

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Análise de Agrupamento

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Introdução às Redes Neurais Artificiais

Análise Multivariada Aplicada à Contabilidade

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Clustering. Prof. Rodrigo Leite Durães.

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Aprendizagem de Dados Simbólicos e/ou Numéricos

IA: Aprendizado IV. Professor Paulo Gurgel Pinheiro. 30 de Setembro de 2010

Mapas Auto-Organizáveis de Kohonen (SOM) SOM é uma rede neural artificial (Kohonen (1995))

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

Aula 2: Resumo de Dados

Reconhecimento de Padrões

SCC0173 Mineração de Dados Biológicos

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

Aula 05. Análise Bidimensional. Stela Adami Vayego - DEST/UFPR 1

Tópicos em Mineração de Dados

Aprendizado de Supervisionado

Métodos de Agrupamento (Clustering) Aula 18

Dados Simbólicos. Universidade Federal de Pernambuco. CIn.ufpe.br

Análise de Clusters. Aplicações da formação de Grupos (Clustering)

Aula 05. Análise Bidimensional. Stela Adami Vayego - DEST/UFPR 1

Estatística Descritiva

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

Análise de dados multivariados I

CAD. 8 SETOR A AULAS 45-48

1 Estatística Descritiva

Algoritmos de Agrupamento - Aprendizado Não Supervisionado

ESTATÍSTICA COMPUTACIONAL AULA 1 RESUMO DE DADOS

RESUMO DE DADOS. Lucas Santana da Cunha Universidade Estadual de Londrina. 24 de abril de 2017

Profa. Lidia Rodella UFPE-CAA

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

ANÁLISE DE AGRUPAMENTOS

CADERNO DE EXERCÍCIOS ALGORITMOS

Lista de exercícios 2 Recuperação de Informação Textual

Aprendizado de Máquina

Descrição do Método de Análise de Clusters

Mineração de Dados. Dados Escalar Cardinalidade Porque pré-processar dados?

Clustering (k-means, SOM e hierárquicos)

Aula 7 RNA Redes Auto-Organizáveis de Kohonen

TIPOS DE VARIÁVEIS E RESUMO DE DADOS

Análise Descritiva de Dados

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Combinação de Classificadores (fusão)

EXERCÍCIOS: Estrutura Sequencial, IF (SE), ELSE (Senão)

SEMINÁRIO DOS ARTIGOS:

TIPOS DE VARIÁVEIS E RESUMO DE DADOS

Combinação de Classificadores (seleção)

Sensometria, Segmentação. Adilson dos Anjos

Inteligência nos Negócios (Business Inteligente)

PRÁTICA 8. A Distância Euclidiana entre dois vetores n-dimensionais x e y é definida como o escalar: d = norm(x y)

Estatística Computacional Profª Karine Sato da Silva

4 Estratégias de agrupamento e desempenho dos receptores

Mineração de Dados em Biologia Molecular

Estrutura de Condição, Escolha e Repetição

MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Conjuntos e Relações Nebulosas (Fuzzy)

ANÁLISE EXPLORATÓRIA DE DADOS

ANÁLISE DE CLUSTER APLICADA À LOGÍSTICA: DEFINIÇÃO DE ZONAS DE TRANSPORTE PARA UMA EMPRESA DO SETOR SIDERÚRGICO

Agrupamento Espectral e Hierárquico

Número de erros de impressão durante 50 dias

Fundamentos de Programação 1

Estatística Aplicada. UNIVERSIDADE ESTÁCIO DE SÁ-RECIFE 2013 Prof: Wildson Cruz

Medidas de Semelhança

Thiago Christiano Silva

Fundamentos dos Dados

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

Prof.: Eduardo Vargas Ferreira

Algoritmos e Programação

Aprendizado de Máquina

Stela Adami Vayego DEST/UFPR

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Segmentação. Luiz Eduardo S. Oliveira, Ph.D.

( ) Aula de Hoje. Introdução a Sistemas Inteligentes. Modelo RBF (revisão) Modelo RBF (revisão)

Processamento digital de imagens

Projeções Multi-dimensionais

Prof. Jorge Cavalcanti

LÓGICA DE PROGRAMAÇÃO. Algoritmos Computacionais. Sérgio Carlos Portari Júnior

Transcrição:

Aprendizagem de Dados Simbólicos e/ou Numéricos Francisco de A.T. de Carvalo Francisco de A.T. de Carvalo,

Agrupamento (Clustering Métodos usados para a construção de grupos de objetos com base nas semelanças e diferenças entre os mesmos de tal maneira que os grupos obtidos são os mais omogêneos e bem separados possíveis. Duas grandes classes de problemas em classificação classificação não supervisionada classificação supervisionada Francisco de A.T. de Carvalo,

Agrupamento (Clustering Classificação não supervisionada se propõe a encontrar classes omogêneas a partir de um conjunto de indivíduos Objetivo: os indivíduos semelantes devem pertencer a mesma classe É um objetivo intuitivo mas não é uma definição precisa da noção de classe Francisco de A.T. de Carvalo, 3

Agrupamento (Clustering Agrupar para que? Existe classes naturais e o desafio é encontra-las Deseja-se construir as classes segundo estruturas classificatórias (impostas Encontrar classes úteis para o usuário Simplificação dos dados Geração de Hipóteses Predição com base nos grupos formados Francisco de A.T. de Carvalo, 4

Agrupamento (Clustering O que é um grupo? Não existe uma única definição satisfatória Coesão interna Isolamento externo Francisco de A.T. de Carvalo, 5

Agrupamento (Clustering (a (b (c (d a Grupos coesos e isolados b Grupos isolados mas não coesos c Grupos coesos com vários pontos intermediários d Não existência de grupos naturais Francisco de A.T. de Carvalo, 6

Principais Etapas a aquisição dos dados Seleção das observações (indivíduos, objetos, casos, itens Seleção das variáveis (caracteres, descritores e das correspondentes escalas 3 Construção da Tabela de Dados b Pré-processamento dos dados Mudança de escala Normalização 3 Extração de caracteres Francisco de A.T. de Carvalo, 7

Principais Etapas c Construção da Tabela de Dados d Cálculo da Proximidade Escola de um Índice de Proximidade Construção da Matriz de Proximidades e Seleção de um Algoritmo de Formação de Grupos em função do tipo de agrupamento desejado f Análise e Interpretação dos Resultados Francisco de A.T. de Carvalo, 8

Conceitos Básicos Indivíduo Ω: conjunto das indivíduos (população, amostra ω Ω : indivíduo (especimen ou grupo de indivíduos (espécie Variáveis A cada característica (escolida pelo usuário ou por um especialista, pode-se associar uma ou mais variáveis: Y i : Ω ω i D i Y ( ω D i : Domínio da variável y i Francisco de A.T. de Carvalo, 9

Conceitos Básicos As variáveis podem ser quantitativas contínuas (ex, Peso, Altura discretas (ex, numero de antenas, número de filos qualitativas (ex, sexo, grau de instrução binárias (ex, presença de asas com escala nominal (ex, sexo (masculino, feminino ordinal (ex, Grau de instrução{primário, segundário, superior} intervalar (ex, grau celsius proporcional (ex, grau kelvin, idade Francisco de A.T. de Carvalo,

Tabela de Dados N objetos ou individuos Ω={ω,, ω i,, ω N } p descritores Y={Y,, Y j,, Y p } A cada objeto ω i de Ω é associado j x i,..., xi,..., representando as p medidas um vetor de descrição ( p x A cada variável ou parametro Y j é j j x,..., x,..., x ( j associado um vetor i N i w w i w N Y x xi x N Y j j x j x i j x N Y p p x p x i p x N que representa o conjunto de valores observados de Ω sobre Y j Francisco de A.T. de Carvalo,

Tabela de Dados Tipos de Tabelas quantitativas qualitativas binárias eterogêneas Exemplo: Nome Cobertura do Cavidades do Temperatura Fertilização Corpo Coração do Corpo mamífero pelos 4 regulada interna pássaro penas 4 regulada interna réptil pele seca 4 imperfeitas não regulada interna anfíbio pele úmida 3 não regulada externa peixe escamas não regulada externa Francisco de A.T. de Carvalo,

Índices de proximidade Índices de Proximidade Similaridade Dissimilaridade Índice de Similaridade É uma função s : Ω Ω ( ω, ω a b s( ω, ω a R b + Francisco de A.T. de Carvalo, 3

Índices de proximidade Índice de Similaridade tal que s ω, ω = s( ω, ω, ( ω, ω Ω Ω s ( a b b a a b ( ωa, ωa = s( ωb, ωb = smax ( ω, ω Ω Ω, a b com ω a > ω s( ω, ω, b a b Quanto mais próximo dois indivíduos mais elevado é o valor da medida de similaridade entre eles Francisco de A.T. de Carvalo, 4

Índices de proximidade Índice de Dissimilaridade É uma função d : Ω Ω ( ω, ω a b d( ω, ω a R b + Francisco de A.T. de Carvalo, 5

Índices de proximidade Índice de Dissimilaridade tal que d ω, ω = d( ω, ω, ( ω, ω Ω Ω ( a b b a a b d( ω a, ωa =, ωa Ω d( ωa, ωb = smax s( ωa, ωb Quanto mais próximos dois indivíduos menor é o valor da medida de dissimilaridade entre eles Francisco de A.T. de Carvalo, 6

Francisco de A.T. de Carvalo, 7 Índices de proximidade, ( (, ( = = λ ω ω ω ω λ λ p j b j a j b a y y d Exemplos de Índices de Proximidade a Tabelas de variáveis quantitativas b Tabelas de variáveis binárias ω a ω b x y z w (Jaccard, ( z y x x s b a + + = ω ω

Índices de proximidade Outros aspectos relativos aos índices de proximidade Escala das Variáveis Correlação entre as Variáveis Descrições eterogêneas (Variáveis de diferentes tipos Índices de proximidade entre padrões descritos por strings ou árvores Índices de proximidade dependentes do contexto Índices de proximidade conceptual Francisco de A.T. de Carvalo, 8

Classificação Hierárquica / Estruturas classificatórias Cobertura Partição 5 4 3 e 5 e 4 e 3 5 4 3 e 5 e 4 e 3 e e e e 3 4 5 3 4 5 l =, L, K K = Ω U l= P l tem -se P l 3 l, m =, L, K e l então P l P m = m Francisco de A.T. de Carvalo, 9

Classificação Hierárquica / Estruturas Classificatórias Hierarquia Piramide 5 4 3 e 5 e 4 e 3 e e 3 4 5 Ω H e Ω então {} e H 3, H tem -se : ou 3, H H, Francisco de A.T. de Carvalo, 3 4 5 tem -se = ou 4Existe uma ordemθ tal que é um intervalo deθ H

Classificação Hierárquica 3/ Métodos de Agrupamento Em Taxinomia Numérica distingue-se três grupos de métodos Técnicas de Otimização Objetivo: obter uma partição. Número de grupos fornecido pelo usuário Técnicas ierárquicas Objetivo: obter uma ierarquia (ou uma pirâmide Pode-se obter uma partição cortando-se a ierarquia em um determinado nível. Francisco de A.T. de Carvalo,

Classificação Hierárquica 4/ Métodos de Agrupamento Técnicas de Cobertura Objetivo: obter grupos que eventualmente podem partilar indivíduos. Outros Aspectos Relativos aos Métodos de Agrupamento Métodos Aglomerativos versus Métodos Divisivos Métodos Monotéticos versus Métodos Politeticos Francisco de A.T. de Carvalo,

Classificação Hierárquica 5/ Outros Aspectos Relativos aos Métodos de Agrupamento Agrupamento Hard versus Agrupamento Fuzzy Métodos Incrementais versus Métodos não Incrementais Métodos Paramétricos versus Métodos não Paramétricos Métodos Geométricos versus Métodos não Geométricos Francisco de A.T. de Carvalo, 3

Classificação Hierárquica 6/ Classificação Hierarquica Diagrama de Venn Dendograma Francisco de A.T. de Carvalo, 4

Classificação Hierárquica 7/ Métodos Hierárquicos Aglomerativos Parte-se de uma tabela de dados e calcula-se uma distância entre os individuos de Ω Os métodos ascendentes ierárquicos tem por objetivo a construção de uma sequencia de partições encaixadas camada ierarquia. A representação gráfica dessas ierarquias é realisada por uma arvore ierarquica ou dendrograma. e e e5 e3 e4 P 5={e5,e3,e4} P 4={e3,e4} Francisco de A.T. de Carvalo, 5

Classificação Hierárquica 8/ Métodos Hierárquicos Aglomerativos Hierarquia H Hierarquia com indice (H,f 5 4 3 e 5 e 4 e 3 e e 3 4 5 e e e5 e4 e3 E H e E então {} e H 3, H tem -se : ou f : H R + ( ( f ( = seesomente se, H e card( = f ( < f ( Francisco de A.T. de Carvalo, 6

Classificação Hierárquica 9/ Obtenção de um índice de dissimilaridade à partir de uma Hierarquia com Índice Pode-se associar a uma ierarquia com índice (H,f um índice de dissimilaridade σ: Ω Ω R + da seguinte maneira σ(ω k, ω l = Min H {f( ω k e ω l } (é a altura do nó mais baixo que contém ω k e ω l Francisco de A.T. de Carvalo, 7

Classificação Hierárquica / Índice de Agregação entre grupos de indivíduos Para construir uma Hierarquia é necessário um índice de proximidade entre grupos Um índice de agregação entre de grupos de indivíduos é uma função tal que δ : P( Ω P( Ω R (, δ( +,,, P( Ω, δ( P( Ω, δ(,, = δ(, Francisco de A.T. de Carvalo, 8

Classificação Hierárquica / Índice de Agregação entre grupos de indivíduos Relação entre f e δ f é um indice sobre a ierarquia H, δ é um indice de agregação entre classes, H, f ( = (, δ Observação Para garantir que uma ierarquia com índice não apresente inversões, pode-se definir f da seguinte maneira:, H, f ( = Max{ f (, f (, f ( } Francisco de A.T. de Carvalo, 9

Classificação Hierárquica / Principais Índice de Agregação utilizados Os índices de agregação geralmente são construídos a partir do índice de dissimilaridade entre os indivíduos de Ω escolido pelo usuário Índice da ligação simples ou do vizino mais próximo Francisco de A.T. de Carvalo, 3

Classificação Hierárquica 3/ Índice da ligação simples ou do vizino mais próximo δ(, = Min d( ωi, ω j ω i j ω Fórmula de recorrência δ(, = = Min{ δ(, ( δ(, + δ(, δ(, δ(,, δ(, } = Francisco de A.T. de Carvalo, 3

Classificação Hierárquica 4/ Índice da ligação completa ou do vizino mais longe δ(, = Max d( ωi, ω j ω i j ω Fórmula de recorrência δ(, = = Max{ δ(, ( δ(, + δ(, + δ(, δ(,, δ(, } = Francisco de A.T. de Carvalo, 3

Francisco de A.T. de Carvalo, 33 Classificação Hierárquica 5/ Índice da média das distâncias Fórmula de recorrência ω ω ω ω = δ j i j i, d(, (, (, ( d(, ( j i j i δ + + δ + = = ω ω = δ ω ω

Classificação Hierárquica 6/ Índice de agregação dos centros de gravidade ( G(,G( δ(, = d Fórmula de recorrência δ(, ( + = δ(, + δ(, + + δ(, Francisco de A.T. de Carvalo, 34

Francisco de A.T. de Carvalo, 35 Classificação Hierárquica 7/ Índice de minimização do aumento da variância (Ward Fórmula de recorrência (,G( G( d, ( + = δ, (, (, (, ( δ + + δ + + + + δ + + + = δ

Classificação Hierárquica 8/ Fórmula geral de recorrência de Lance e Williams δ(, + β δ(, = α + γ δ(, δ(, + α δ(, δ(, + Método Single Link Complet Link UPGMA UPGMC Ward / / / / / ( + ( + ( + ( + ( + ( + ( + + ( + ( + + ( + + α α β γ / Francisco de A.T. de Carvalo, 36

Classificação Hierárquica 9/ Inversão e Monotonicidade Para que não ocorra inversão no dendograma é necessário que a fórmula de recorrência do índice de agregação seja monotonica, isto é, δ(, δ(, Considere a fórmula geral de recorrência: δ(, + β δ(, = α + γ δ(, δ(, + α δ(, δ(, + Francisco de A.T. de Carvalo, 37

Classificação Hierárquica / Inversão e Monotonicidade Se α, α, α + α + β e γ Min( α, α então a fórmula de recorrência é monotonica Observação: dos métodos apresentados anteriormente apenas o UPGMC não é monotonico Francisco de A.T. de Carvalo, 38

Classificação Hierárquica / Algoritmo Geral de Agrupamento Hierárquico Aglomerativo Passo : Iniciar o agrupamento formado por grupos unitários Passo : Encontre, no agrupamento corrente, o par de grupos de dissimilaridade mínima Passo 3: Construa um novo grupo pela fusão desse par de grupos de dissimilaridade mínima Francisco de A.T. de Carvalo, 39

Classificação Hierárquica / Algoritmo Geral de Agrupamento Hierárquico Aglomerativo Passo 4: Atualize a matriz de dissimilaridades: suprima as linas e as colunas correspondentes aos grupos fusionados e adicione uma lina e uma coluna correspondente as dissimilaridades entre o novo grupo e os grupos antigos Passo 5: Se todos os objetos estão grupados, pare; senão vá para o passo Francisco de A.T. de Carvalo, 4

Exemplo Classificação Hierárquica 3/ E:(Sono=Pouco,T=Carro,Conic=Sim,Alcool=Não,Sair=Não,Fo me=sim E:(Sono=Pouco,T=Carona,Conic=Não,Alcool=Não,Sair=Sim, Fome=Sim E3:(Sono=Sim,T=Carro,Conic=Não,Alcool=Sim,Sair=Sim,Fom e=não E4:(Sono=Sim,T=Outros,Conic=Sim,Alcool=Sim,Sair=Sim,Fo me=não Francisco de A.T. de Carvalo, 4

Exemplo Classificação Hierárquica 4/ Matriz de Dissimilaridades D = 3 4 3 5 4 5 5 Francisco de A.T. de Carvalo, 4

Exemplo Classificação Hierárquica 5/ Passo : C={E}, C={E}, C3={E3}, C4={E4} Passo : dmin = C5= C3 C4 = {E3,E4} Passo 3: D = 5 3 5 4 Francisco de A.T. de Carvalo, 43

Classificação Hierárquica 6/ Exemplo Passo 4: dmin = 3 C6= C C ={E,E} Passo5 D 5 = 6 Passo 6: dmin = 4 C7 = C5 C6 ={E,E,E3,E4} 4 C7 C6 C5 E E E3 Francisco de A.T. de Carvalo, E4 44

Classificação Hierárquica 7/ Métodos Hierárquicos Divisivos Métodos Politéticos x Métodos Monotéticos Algoritmo da divisão pela média das distâncias Passo Passo A = R e i A R = {, K,n } B = calcule d( i,a\{ i } = A j A j i d( i, j Francisco de A.T. de Carvalo, 45

Classificação Hierárquica 8/ Algoritmo da divisão pela média das distâncias Passo Encontre i' A tal que d( i',a\{ i' Faça A = A\{ i' } e B = B { i' } } = Max d( i,a\{ i i A } Passo 3 i A calcule d( i, A\ { i } d( i,b = Encontre i' A tal que d( i', A\ { i' } A d( i' j A j i,b d( i, j = B d( i, Max { d( i, A\ { i } i A B d( i,b } Francisco de A.T. de Carvalo, 46

Classificação Hierárquica 9/ Algoritmo da divisão pela média das distâncias Passo 4 Passo 5 Faça Se d( i', A\ { i' } d( i',b > A = A\ { i' } e B = B { i' } Re torne ao PASSO 3 Calcule dim( Q = Max d( Escola Q L = * tal dim( Q que dim( Q Passo 6: Pare quando todos os grupos forem unitários * j Q Q, R = Q Francisco de A.T. de Carvalo, * j, onde Q é * = e va Max para o dim( Q um grupo PASSO 47

Classificação Hierárquica 3/ Algoritmo da divisão pela média das distâncias Exemplo: agrupe os pontos Altura Peso Idade A 8 79 3 B 75 75 5 C 7 7 8 D 67 63 E 8 7 8 F 65 6 8 Francisco de A.T. de Carvalo, 48

Classificação Hierárquica 3/ Métodos Divisivos (Monotético Todas as variáveis são binárias Passo R = {, K,n } ( indivíduos Y = { y, K,y p } (var iáveis Francisco de A.T. de Carvalo, 49

Classificação Hierárquica 3/ Métodos Divisivos (Monotético Passo j calcule C( y j = k j c( y j,y k onde k c( y j,y k = a jk d jk b jk c jk e j a jk b jk c jk d jk Francisco de A.T. de Carvalo, 5

Classificação Hierárquica 33/ Métodos Divisivos (Monotético Passo Selecione t Faça tal que C( y = MaxC( A = { i y ( i = }, B = { i y ( i = } e Y = Y \{ y } t t Passo 3: Repita o passo para cada grupo Passo 4: O processo de separação continua até y Y j só restar grupos unitários ou as variáveis restantes são incapazes de separar os grupos ou não restam mais variáveis t y j t Francisco de A.T. de Carvalo, 5

Francisco de A.T. de Carvalo, 5 Classificação Hierárquica 34/ Métodos Divisivos (Monotético Exemplo H G F E D C B A 6 5 4 3