Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem Não Supervisionada Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR)

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 2 Plano de Aula Aprendizagem não supervisionada Algoritmos de agrupamento (Clustering) Seqüenciais Hierárquicos Baseados na otimização de funções Outros

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 3 Introdução Previamente, todas as amostras de treinamento estavam rotuladas, ou seja, com o valor do conceito alvo associado vetor de atributos 0,43 0,03 0,40 0,19 0,12 0,16 0,04 0,01 0,00 0,01 0,40 0,02 Bart valor do conceito alvo associado ao vetor de atributos Estes exemplos são ditos supervisionados, pois, contém tanto a entrada (atributos), quanto a saída (valor do conceito alvo).

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 4 Introdução Porém, muitas vezes temos que lidar com exemplos não supervisionados, isto é, exemplos não rotulados, ou seja: sem um conceito alvo associado ou sem um valor de conceito alvo associado Por que? Coletar e rotular um grande conjunto de exemplos pode custar muito (tempo, esforço, dinheiro).

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 5 Introdução Porém, podemos utilizar grandes quantidades de dados não rotulados para treinamento e somente então usar supervisão para rotular os agrupamentos encontrados. Isto é apropriado para aplicações de mineração de dados (datamining), onde o conteúdo de grandes bases de dados não é conhecido antecipadamente.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 6 Introdução Podemos usar métodos não supervisionados para identificar características que serão então úteis para categorização. Podemos ganhar alguma percepção da natureza (ou estrutura) dos dados.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 7 Introdução O interesse principal é desvendar a organização dos padrões em clusters (agrupamentos) consistentes, os quais permitirão descobrir similaridades e diferenças entre padrões bem como derivar conclusões úteis a respeito deles. Clustering = Aprendizagem Não Supervisionada = Aprendizado Sem Professor = Taxonomia Numérica = Tipologia = Partição.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 8 Introdução Exemplo de agrupamentos (clusters) De acordo com a progenitura Existência de pulmões Ambiente onde vivem progenitura e existência de pulmões

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 9 Introdução Assumimos que: Todos os padrões são representados em termos de atributos (características ou features) que formam vetores de d dimensões... 1 2 3 4 5 6 7 d

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 10 Introdução Os passos básicos da tarefa de aprendizagem não supervisionada são: 1. Seleção de atributos 2. Medida de proximidade 3. Critério de agrupamento 4. Algoritmo de agrupamento 5. Verificação dos resultados 6. Interpretação dos resultados

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 11 1. Seleção de Atributos Atributos devem ser propriamente selecionados para codificar a maior quantidade possível de informações relacionada a tarefa de interesse. Os atributos devem ter também uma redundância mínima entre eles.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 12 2. Medida de Proximidade Medida para quantificar quão similar ou dissimilar são dois vetores de atributos. É ideal que todos os atributos contribuam de maneira igual no cálculo da medida de proximidade. Ou seja, que um atributo não seja dominante sobre o outro.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 13 3. Critério de Agrupamento Depende da interpretação que o especialista dá ao termo sensível com base no tipo de cluster que são esperados. Por exemplo, um cluster compacto de vetores de atributos pode ser sensível de acordo com um critério enquanto outro cluster alongado, pode ser sensível de acordo com outro critério.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 14 4. Algoritmo de Agrupamento Tendo adotado uma medida de proximidade e um critério de agrupamento devemos escolher um algoritmo de clustering que revele a estrutura agrupada do conjunto de dados.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 15 5. Validação dos Resultados Uma vez obtidos os resultados do algoritmo de agrupamento, devemos verificar sua correção. Isto geralmente é feito através de testes apropriados.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 16 6. Interpretação dos Resultados Em geral os resultados de clustering devem ser integrados com outras evidências experimentais e análise para chegar as conclusões corretas.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 17 Introdução Atenção: Diferentes escolhas de atributos (features), medidas de proximidade, critérios de agrupamento e algoritmos de clustering levam a... resultados totalmente diferentes!!! Qual resultado é correto?

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 18 Aplicações de Clustering Quatro direções básicas onde clustering é utilizado: Redução de dados Geração de hipóteses Teste de hipóteses Predição baseada em grupos

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 19 Definição de Clustering Dado um conjunto de dados X: X = {x 1, x 2,..., x n } definimos como um m agrupamento de X a partição de X em m conjuntos (clusters ou grupos) C 1, C 2,..., C m tal que as três condições seguintes sejam satisfeitas: C i, i =1,2,..., m Υ m i=1 C i = X Ci C j = i j i, j = 1,2,..., m

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 20 Definição de Clustering C i, i =1,2,..., Nenhum cluster pode ser vazio. Υ m i=1 C i = X A união de todos os cluster deve ser igual ao conjunto de dados que gerou os clusters, ou seja, X. Ci C j = i j i, j =1,2,..., m m A união de dois clusters deve ser vazio, i.e., dois cluster não podem conter vetores em comum.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 21 Definição de Clustering Além disso, os vetores contidos em um cluster C i são mais similares uns aos outros e menos similares aos vetores presentes nos outros clusters. Quantificar os termos similar e dissimilar depende dos tipos de clusters. Definição alternativa: Um vetor pode pertencer a mais de um cluster fuzzy clustering

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 22 Definição de Clustering

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 23 Medidas de Proximidade Medidas de Dissimilaridade (DM) Métrica l p ponderada Métrica Norma l ponderada Métrica l 2 ponderada (Mahalanobis) Métrica l p especial (Manhattan) Distância de Hamming Medidas de Similaridade (SM) Produto interno (inner) Medida de Tanimoto

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 24 Medidas de Proximidade Métrica l p ponderada (reais): d 1/ p l p p( x, y) = wi xi yi i= 1 onde x i e y i são as i ésimas coordenadas de x e y, i=1,2,...,l e w i 0 é o i ésimo coeficiente de ponderação. Caso particular: p = 2 Distância Euclidiana.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 25 Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Medidas de Proximidade Métrica Norma l ponderada: Métrica l 2 ponderada: onde B é uma matriz simétrica positiva (Mahalanobis) max ), ( 1 i i i l i y x w y x d = ) ( ) ( ), ( y x B y x y x d T =

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 26 Medidas de Proximidade Métrica l p especial: d l 1 ( x, y) = wi xi yi i= 1 é também chamada de norma Manhattan.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 27 Medidas de Proximidade Exemplo:

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 28 Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Medidas de Proximidade Produto interno (inner): Medida de Tanimoto: = = = l i i i T inner y x y x y x s 1 ), ( y x y x y x y x s T T T ) ( ) ( 1 1 ), ( + =

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 29 Medidas de Proximidade Consideramos agora, vetores x cujas coordenadas pertencem ao conjunto finito F = {0,1,2,..., k 1}, onde k é um inteiro positivo. Existem exatamente k l vetores x F l Estes vetores podem ser considerados como vértices em um grid l dimensional.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 30 Medidas de Proximidade Grid l dimensional.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 31 Medidas de Proximidade Distância de Hamming: d ( x, y) = k 1 k 1 H a ij i= 0 j= 0, j i isto corresponde a soma de todos os elementos fora da diagonal de A, os quais indicam as posições onde x e y diferem.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 32 Medidas de Proximidade Medida de Tanimoto: s T ii i= 1 ( x, y) = k 1 k 1 k 1 k 1 k 1 i= 1 j= 0 a ij + i= 0 k 1 j= 1 a a ij 1 i= 1 k 1 j= 1 a ij Existem ainda diversas outras medidas...

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 33 Medidas de Proximidade Vetores com valores discretos e reais

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 34 Número de Agrupamentos A melhor maneira de designar quais vetores de atributos x i, i=1, 2,..., N de um conjunto X vetores pertencem a quais clusters seria: identificar todas as partições possíveis e selecionar a mais sensível de acordo com um critério pré estabelecido. Entretanto... fazer isto é muito difícil (trabalhoso!!!)

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 35 Número de Agrupamentos Fazendo S (N, m) representar número de todos os clusters possíveis de N vetores em m grupos. As seguintes condições se mantêm... S (N,1) = 1 S (N,N) = 1 S (N,m) = 0, para m > N L 1 k N : lista contendo todos os agrupamentos possíveis de N 1 vetores em k clusters, para k = m, m 1. O N ésimo vetor: ou será adicionado a um cluster de qualquer membro ou formará um novo cluster para cada membro m 1 L N 1 m LN 1

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 36 Número de Agrupamentos Solução Números de Stirling: S( N, m) = 1! m m i= 0 ( 1) m i m i i N Exemplo: Para X={x 1, x 2, x 3 }, quais os agrupamentos possíveis dos elementos em 2 clusters? Exemplos numéricos: S (15,3) = 2 375 101 S (25,8) = 690 223 721 118 368 580 S (100,5) 10 68

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 37 Número de Agrupamentos Os resultados anteriores são para um número fixo de clusters, m fixo Para enumerar todos os clusters possíveis para todos os valores possíveis de m computacionalmente intratável Exemplo: 100 objetos, 5 clusters, 10-12 seg/cluster 10 48 anos Entretanto, o objetivo é sempre tentar identificar o agrupamento mais sensível ( ou representativo).

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 38 Algoritmos de Clustering Objetivo: Encontrar agrupamentos representativos considerando somente uma pequena fração do conjunto contendo todas as partições possíveis de X. Solução: Algoritmos de Clustering Problema: Os resultados dependem: de um algoritmo específico; dos critérios utilizados.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 39 Algoritmos de Clustering O que é um algoritmo de Clustering? É um procedimento de aprendizagem que tenta identificar características específicas dos agrupamentos intrínsecos (ou existentes) em um conjunto de dados. Os algoritmos de clustering podem ser divididos em categorias: Seqüenciais Hierárquicos Baseados na otimização de funções custo Outros: Fuzzy, LVQ, SOM

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 40 Algoritmos Seqüenciais Principais características dos algoritmos seqüenciais: Algoritmos desta categoria produzem um único agrupamento. São algoritmo diretos e rápidos. Geralmente, todos os vetores de características são apresentados ao algoritmo uma ou várias vezes (até 5 ou 6 vezes). O resultado final geralmente depende da ordem de apresentação.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 41 Algoritmo BSAS Basic Sequential Algorithmic Scheme (BSAS) Todos os vetores são apresentados uma única vez ao algoritmo. Número de clusters não é conhecido a priori. Novos clusters são criados enquanto o algoritmo evolui.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 42 Algoritmo BSAS Parâmetros do BSAS d (x, C): distância (ou dissimilaridade) entre um vetor de características x e um cluster C. Θ: limiar de dissimilaridade q: número máximo de clusters. m: número de clusters que o algoritmo criou até o momento. Idéia Básica do BSAS: para um dado vetor, designá lo para um cluster existente ou criar um novo cluster (depende da distância entre o vetor e os clusters já formados).

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 43 Algoritmo BSAS 2 Esta instrução é ativada nos casos onde cada cluster é representado por um único vetor. Por exemplo, se cada cluster for representado por um vetor médio, ele deve ser atualizado cada vez que um novo vetor se tornar membro do cluster.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 44 Algoritmo BSAS Para estimar o número de clusters, um procedimento auxiliar é utilizado:

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 45 Algoritmo BSAS

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 46 Melhoramento do Algoritmo BSAS Modified Basic Sequential Algorithmic Scheme (MBSAS) Two Threshold Sequential Algorithmic Scheme (TTSAS) Estes algoritmos possuem estágios de refinamento, isto é: um procedimento de unir clusters um procedimento de re atribuição de vetores aos clusters.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 47 Melhoramento do Algoritmo BSAS Estágio de refinamento: procedimento para unir clusters

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 48 Melhoramento do Algoritmo BSAS Estágio de refinamento: procedimento para re atribuição, ou seja, retirar um vetor de um cluster e colocá lo em outro mais próximo.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 49 Algoritmos Hierárquicos Podem ser divididos em 2 subcategorias: Aglomerativos produzem uma seqüência de agrupamentos com um número decrescente de clusters, m a cada passo. Os agrupamentos produzidos em cada passo resultam do anterior pela fusão de dois clusters em um. Divisivos Atuam na direção oposta, isto é, eles produzem uma seqüência de agrupamentos com um número crescente de clusters, m a cada passo. Os agrupamentos produzidos em cada passo resultam da partição de um único cluster em dois.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 50 Algoritmos Hierárquicos Os algoritmos hierárquicos tem uma filosofia diferente dos algoritmos seqüenciais. ao invés de produzir um único agrupamento, eles produzem uma hierarquia de agrupamentos. Considerando um conjunto de vetores d dimensionais a serem agrupados: X = {x i, i=1,2,..., m} Definição de agrupamento: R = {C j, j=1,2,...,m} onde C j X.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 51 Algoritmos Hierárquicos Um agrupamento R 1 contendo k clusters édito aninhado (nested) no agrupamento R 2, o qual contém r (<k) clusters, se: cada cluster em R 1 for um subconjunto de um conjunto em R 2 e pelo menos um cluster de R 1 for um subconjunto próprio de R 2. Neste caso, escrevemos R 1 R 2 Exemplo

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 52 Algoritmos Hierárquicos Algoritmos hierárquicos de agrupamento produzem uma hierarquia de agrupamentos aninhados. Estes algoritmos envolvem N passos, ou seja, tantos passos quanto o número de vetores. Em cada passo t, um novo agrupamento é obtido baseando se nos agrupamentos produzidos no passo anterior (t 1).

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 53 Hierárquicos Aglomerativos O agrupamento inicial R 0 para o algoritmo aglomerativo consiste de N clusters cada um contendo um único elemento de X. No primeiro passo, o agrupamento R 1 éproduzido. Ele contém N 1 conjuntos, tal que R 0 R 1. Este procedimento continua até o agrupamento final, R N 1 ser obtido, o qual contém um único conjunto, isto é, o conjunto de dados X. A hierarquia dos agrupamentos resultantes é: R 0 R 1 R 2... R N 1

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 54 Hierárquicos Aglomerativos

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 57 Hierárquicos Aglomerativos Algoritmos aglomerativos baseados na teoria das matrizes MUAS: Matrix Updating Algorithmic Scheme WPGMA: Weighted Pair Group Method Average UPGMA: Unweighted Pair Group Method Average UPGMC: Unweighted Pair Group Method Centroid WPGMC: Weighted Pair Group Method Centroid Ward s Algorithm Referência: S. Theodoridis & K. Koutroumbas, Pattern Recognition, Academic Press, 1999.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 58 Hierárquicos Aglomerativos Algoritmos aglomerativos baseados na teoria dos grafos GTAS: Graph Theory Based Algorithmic Scheme Algoritmos aglomerativos baseados na árvore mínima MST: Minimum Spanning Tree Referência: S. Theodoridis & K. Koutroumbas, Pattern Recognition, Academic Press, 1999.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 59 Hierárquicos Divisivos Os algoritmos divisivos trabalham de maneira inversa. O agrupamento inicial R 0 para o algoritmo divisivo consiste de um único conjunto X. No primeiro passo, o agrupamento R 1 éproduzido. Ele consiste de dois conjuntos tal que R 1 R 2. Este procedimento continua até que o agrupamento final R N 1 seja obtido, o qual contém N conjuntos, cada um consistindo de um único elemento de X. A hierarquia dos agrupamentos resultantes é: R N 1 R N 2... R 0

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 60 Hierárquicos Divisivos O método direto considera todas as 2 N 1 1 possíveis partições de X em dois conjuntos e seleciona o ótimo de acordo com um critério pré especificado. Este procedimento é aplicado iterativamente a cada um dos dois conjuntos produzidos no estágio precedente. O agrupamento final consiste de N clusters cada um contendo um único vetor de X.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 61 Hierárquicos Divisivos

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 62 Algoritmos Hierárquicos Escolha do melhor número de clusters O problema é identificar o melhor agrupamento dentro de uma dada hierarquia. Isto corresponde a identificação do número de clusters que melhor se ajusta aos dados. Solução: buscar por clusters que tenham um grande tempo de vida em um dendograma de proximidades. Tempo de vida de um cluster: é valor absoluto da diferença entre o nível de proximidade no qual ele é criado e o nível de proximidade no qual ele é absorvido por um cluster maior.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 63 Algoritmos Hierárquicos

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 64 Algoritmos Hierárquicos Método Extrínseco requer a determinação do valor de um parâmetro específico, i.e. a definição de uma função h(c) que mede a dissimilaridade entre vetores do mesmo cluster C. Θ :limiar (threshold) apropriado para a h(c) Então o algoritmo termina em R t se C R + : h( C ) j t 1 j > Θ ou seja, R t é o agrupamento final se existir um cluster C em R t+1, com dissimilaridade entre seus vetores h(c) maior do que Θ.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 65 Alessandro L. Koerich (alekoe@ppgia.pucpr.br) Algoritmos Hierárquicos }, ),, ( { ) ( }, ),, ( max{ ) ( 2 1 C y x y x med d C h C y x y x d C h = =

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 66 Algoritmos Hierárquicos Método Intrínseco O agrupamento final R t deve satisfazer a seguinte relação: d ss ( min C i, C j ) > max{ h( C ), h( C )}, C, C i j i j R t ou seja, no agrupamento final, a dissimilaridade entre cada par de clusters é maior do que a auto similaridade entre cada um deles.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 67 Algoritmos Baseados em Otimização Baseiam se na otimização de uma função custo J usando diferente técnicas de cálculo. O custo J é uma função dos vetores do conjunto de dados X e ele é parametrizado em termos de um vetor de parâmetros desconhecidos Θ. O número de clusters m assume se como sendo conhecido. Meta: estimação do Θ que melhor caracterize os clusters intrínsecos em X.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 68 Algoritmos Baseados em Otimização Três categorias principais de algoritmos baseados na otimização de uma função custo: Decomposição de misturas Método Fuzzy Métodos Possibilísticos Métodos Hard

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 69 Algoritmos Baseados em Otimização Decomposição de Misturas: a função custo é construída com base em vetores aleatórios e a atribuição aos clusters segue argumentos probabilísticos. Método Fuzzy: é definida uma função de proximidade entre um vetor e um cluster e o grau de afiliação (adesão) de um vetor a um cluster é fornecido por um conjunto de funções afiliação.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 70 Algoritmos Baseados em Otimização Métodos Hard Cada vetor pertence exclusivamente a um único cluster. Por isso estes métodos são chamados de hard. A maioria dos algoritmos de clustering mais conhecidos recaem nesta categoria. k Means ou c Means se encaixa nesta categoria!!!

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 71 Outros Algoritmos Algoritmos que não podem ser incluídos nas categorias prévias. Algoritmos baseados na teoria dos grafos Algoritmos de aprendizagem competitiva Algoritmos branch and bound Algoritmos baseados em transformações morfológicas Algoritmos baseados em limites entre os clusters Algoritmos de regiões compactas Algoritmos baseados na otimização de funções (annealing) Algoritmos baseados em GA

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 72 Validade dos Clusters Existem métodos para avaliar quantitativamente os resultados dos algoritmos de agrupamento. Referência: S. Theodoridis & K. Koutroumbas, Pattern Recognition, Academic Press, 1999.

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 73 Resumo Aprendizagem não supervisionada ou clustering (agrupamento) busca extrair informação relevante de dados não rotulados. Uma solução mais geral consiste em definir medidas de similaridade entre dois clusters assim como um critério global como a soma do erro quadrático. Existem vários algoritmos que fazem agrupamento. Os algoritmos de agrupamento são classificados como hierárquicos ou seqüenciais (ou iterativos).

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 74 Introdução: Aprendizagem D (exemplos de treinamento) H (conjunto de hipóteses) treinamento Árvore h 1 h 2 h 4 Hipóteses P(h 1 ), P(D h 1 ) P(h 2 ), P(D h 2 ) P(h 3 ), P(D h 3 ) Bayes

Mestrado/Doutorado em Informática (PPGIa) Aprendizagem de Máquina 75 Introdução: Classificação x (exemplo de teste) Árvore de Decisão h 1 h 2 h 4 Hipóteses P(h 1 ), P(D h 1 ) P(h 2 ), P(D h 2 ) P(h 3 ), P(D h 3 ) Bayes Valor do Conceito Alvo