Mineração de Dados. Modelos Descritivos. Descoberta de agrupamentos

Documentos relacionados
Aprendizagem de Máquina

Tópicos em Mineração de Dados

1. Conceitos básicos dos Sistemas Auto-organizáveis. Os sistemas auto-organizáveis estão relacionados com aprendizagem nãosupervisionada.

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Aprendizagem de máquina

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

Clustering (k-means, SOM e hierárquicos)

Mineração de Dados em Biologia Molecular

Aprendizado de Máquina

Redes Neurais e Sistemas Fuzzy

Redes Neurais e Sistemas Fuzzy

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Aprendizagem de Máquina

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

Processamento digital de imagens

Mapas Auto-Organizáveis de Kohonen SOM

Clustering: k-means e Agglomerative

Mapas Auto-Organizáveis de Kohonen SOM

INF 1771 Inteligência Artificial

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Inteligência nos Negócios (Business Inteligente)

Inteligência Artificial. IA Conexionista: Perceptron de Múltiplas Camadas Mapas Auto-Organizáveis. Renan Rosado de Almeida

Aprendizagem de Máquina

Redes Neurais (Inteligência Artificial)

REDES AUTO-ORGANIZÁVEIS SELF-ORGANIING MAP (SOM)

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Implementação de um sistema de validação estatística configurável de dados

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

Fundamentos de Inteligência Artificial [5COP099]

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Análise de Dados. Sylvio Barbon Junior 29 de julho de 2016 DC-UEL Sylvio Barbon Jr 1

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Redes Neurais não Supervisionadas: SOM

Classificação Linear. André Tavares da Silva.

Redes Neurais e Sistemas Fuzzy

Mapas Auto-Organizáveis de Kohonen (SOM) SOM é uma rede neural artificial (Kohonen (1995))

Clustering - c-means e Self Organizing Maps

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

Aprendizado de Máquina

2COP229 Inteligência Computacional. Aula 3. Clusterização.

Aprendizado por Instâncias Janelas de Parzen & Knn

6 Clustering: Definindo Grupos Estratégicos

Introdução às Redes Neurais Artificiais

Aprendizado de Máquina

Redes Neurais. A Rede RBF. Redes RBF: Função de Base Radial. Prof. Paulo Martins Engel. Regressão não paramétrica. Redes RBF: Radial-Basis Functions

Mapeamento do uso do solo para manejo de propriedades rurais

Aprendizado de Máquina

SEL-0339 Introdução à Visão Computacional. Aula 5 Segmentação de Imagens

Informática Parte 19 Prof. Márcio Hunecke

Bob Cuspe. Title goes here 1. Reconhecimento de Padrões. Análise de Discrimantes. Objetivos da Análise de Discriminantes. Análise de Discriminantes

Redes Neurais e Sistemas Fuzzy

CLASSIFICADORES ELEMENTARES

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

2. Redes Neurais Artificiais

Coeficiente de determinação R 2 no modelo de regressão linear normal

A Figura 28 mostra a representação gráfica dos dados presentes na base de dados fcmdata do Matlab de dimensão 140x2 dividida em 2 grupos.

F- Classificação. Banda A

Aprendizagem de Máquina

Aprendizado de Máquina (Machine Learning)

Métodos Não Paramétricos

Cluster. Larissa Sayuri Futino Castro dos Santos

Inteligência nos Negócios (Business Inteligente)

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013

Reconhecimento de Padrões/Objetos

Paradigmas de Aprendizagem

Aprendizado de Máquina (Machine Learning)

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Tópicos Avançados em IA. Prof. Eduardo R. Hruschka

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Abordagem Semi-supervisionada para Rotulação de Dados

Classificadores. André Tavares da Silva.

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Inferências bayesianas com probabilidade

Aprendizagem de Máquina

à Análise de Padrões

Aula 7 RNA Redes Auto-Organizáveis de Kohonen

Métodos para Classificação: - Naïve Bayes.

Rede RBF (Radial Basis Function)

Capítulo 4. Comitê BAS 35

2 Processo de Agrupamentos

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados

Programa do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

( ) Aula de Hoje. Introdução a Sistemas Inteligentes. Modelo RBF (revisão) Modelo RBF (revisão)

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Processamento de Imagens CPS755

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

3 Técnicas de agrupamento

5 RNA para Diagnóstico de Falhas em Turbinas a Gás

Aprendizado de Máquina

Aprendizado de Máquina (Machine Learning)

Chapter 4: Unsupervised Learning

Estatística: Aplicação ao Sensoriamento Remoto SER ANO Análise de Agrupamento

Aprendizagem de Máquinas

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Transcrição:

Mineração de Dados Descoberta de agrupamentos Modelos Descritivos tarefa de geração de um modelo descritivo consiste (em grande parte) em analisar os dados do domínio (entradas) e sugerir uma partição do domínio, de acordo com similaridades observadas nos dados. Entradas Modelo Determinação de uma configuração de centróides de agrupamentos dos dados Modelo de agrupamento dos dados Dados para agrupamento de subespécies da planta Iris Dados da planta Iris Conjunto de medidas c_sepala l_sepala c_petala l_petala 5, 3,8,5,3 largura-sepala largura-petala 5,4 3,4,7, 7, 3, 4,7,4 6,4 3, 4,5,5 uma amostra do domínio 7,3 6,7,9,5 6,3 5,8,8,8 comprimento-sepala largura-sepala comprimento-petala largura-petala Modelo Rótulo de classe natural comprimento-sepala comprimento-petala 3 4

Modelo de agrupamento para os dados da planta Iris Classes de interesse versus classes naturais largura-sepala setosa versicolor virginica Classes de interesse 3 agrupamentos classes naturais largura-petala setosa versicolor virginica valiação de modelos descritivos Questão fundamental: quantos grupos representam mais adequadamente os dados? Usualmente, adotam-se métricas estatísticas de qualidade da configuração de agrupamento: média de distâncias intra-grupo e de distâncias inter-grupos. avaliação da qualidade de um modelo descritivo normalmente é problemática se não dispusermos de informação extra (conhecimento de perícia). busca informada pela melhor configuração é muito mais eficiente. comprimento-sepala comprimento-petala 5 6 Introdução descoberta de agrupamentos é uma tarefa descritiva que procura agrupar dados utilizando a similaridade dos valores de seus atributos como fator de decisão quanto a sua pertinência num entre vários agrupamentos possíveis. Este processo utiliza técnicas de aprendizagem não supervisionada, pois a similaridade entre os atributos é uma característica intrínseca dos dados, não necessitando de um arquivo de treinamento com classes pré-definidas. Introdução Em geral, a identificação dos agrupamentos intrínsecos dos dados permite a descrição de cada agrupamento através de um padrão protótipo. O processo normalmente é iterativo e interativo, necessitando que o usuário modifique parâmetros e reapresente os dados até encontrar uma configuração satisfatória de agrupamentos. ênfase nesta tarefa é a descrição dos dados e não a previsão de como um novo caso será classificado. 7 8

grupamento de conceitos plicações típicas de agrupamentos O agrupamento de conceitos é uma tarefa onde o sistema de aprendizagem aceita um conjunto de descrições de objetos (eventos, observações, fatos) e produz um esquema de classificação sobre as observações. O sistema não requer um professor para pré-classificar os objetos; ele usa uma função de avaliação para descobrir classes com boas descrições conceituais. grupamento de conceitos é um tipo de aprendizagem por observação, se opondo ao aprendizado por exemplos. É uma forma importante de sumarizar os dados de uma maneira interpretável. Em negócios, podem ajudar comerciantes a descobrir grupos distintos em suas bases de clientes e caracterizar grupos baseados em padrões de compras. maioria das ferramentas de agrupamento trabalha em razão de um número pré-definido de grupos especificado por um usuário. Classificação de documentos na Web para a descoberta de informação Como uma função de MD, para se ter uma visão de distribuição de dados, para se observar as características de cada agrupamento e para focar em um conjunto particular de grupos para análise posterior. lternativamente, a clusterização pode servir como uma etapa de préprocessamento para outros algoritmos, tais como caracterização e classificação, que irão então operar sobre os agrupamentos detectados. Em biologia, podem ser usadas para derivar taxonomias de plantas e animais, categorizar genes com funcionalidades similares e ter uma visão dentro de estruturas inerentes em populações 9 Tipos de representação de agrupamentos Os grupos podem ser: (a) exclusivos, instâncias pertencem apenas a um grupo (b) sobrepostos, em que uma instância pode pertencer a diversos grupos (c) probabilísticos, caso em que uma instância pertence a cada grupo com alguma probabilidade (d) hierárquicos, é feita uma divisão a grosso modo de instâncias em grupos maiores, os quais são refinados, se decompondo em grupos menores. (a) (c) a k d g j h i e 3 a,4,,5 b,,8, c,3,3,4 d,,,8 e,4,,4 f,,4,5 g,7,, h,5,4, f c b (b) (d) g a d a k c i e j g h e i c f d k b j b f h Escolha da representação de agrupamentos escolha entre as possíveis representações de agrupamento depende da natureza dos mecanismos que determinam o fenômeno específico do agrupamento considerado. Como raramente estes mecanismos são conhecidos, até porque é o que queremos descobrir, por razões pragmáticas, a escolha é normalmente ditada pelas ferramentas computacionais disponíveis.

Método k-médias O método k-médias deriva o seu nome do fato de ele iniciar com um conjunto de k germes escolhidos como suposição inicial para os centróides, ou médias, dos agrupamentos. No algoritmo original (MacQueen 967), a inicialização dos centróides é feita tomando-se simplesmente os k primeiros vetores (registros) dos dados. Quando os dados possuem algum tipo de ordenação, pode-se escolher registros que estejam mais espaçados entre si. Cada um dos k vetores é um agrupamento embrionário com apenas um único elemento. No segundo passo do algoritmo, cada vetor de dado recebe o rótulo do agrupamento que estiver mais próximo. Isto é feito, medindo-se a distância entre o vetor e cada centróide dos agrupamentos. pós a rotulação de todos os dados, os centróides dos agrupamentos são atualizados, calculando-se cada um como a média de todos os vetores que pertencem ao agrupamento correspondente. atualização dos centróides é repetida até eles não se modificarem mais. 3 lgoritmo: Entrada: Saída: Método: lgoritmo k-médias k-médias, para particionamento baseado no valor médio dos objetos no agrupamento. O número de agrupamentos k e um banco de dados contendo n objetos. Um conjunto de k agrupamentos que minimizam o critério de erro-quadrático. () escolher arbitrariamente k objetos como os centros dos agrupamentos iniciais; () repetir (3) (re)designar cada objeto para o agrupamento ao qual o objeto é mais similar, baseado no valor médio dos objetos no agrupamento; (4) atualizar as média dos agrupamentos, i.e., calcular o valor médio dos objetos para cada agrupamento; (5) até que não haja mudanças; 4 Exemplo do método k-médias s figuras abaixo, representam a aplicação dos dois primeiros passos do algoritmo k-médias em um arquivo com dados com dois atributos contínuos, considerando-se um número de médias k = 3. pós o passo de rotulação, as médias são atualizadas considerando-se a nova configuração dos agrupamentos. pós as médias serem atualizadas, os rótulos são atualizados pela distância às novas médias. Inicialização das médias tribuição dos rótulos tualização das médias Nova atribuição de rótulos e atualização das médias 5 6

Medidas de similaridade pertinência de um registro num determinado agrupamento depende da medida de similaridade adotada entre os vetores. Na versão padrão deste método, a distância euclidiana é utilizada. representação geométrica do método k-médias mostra a sua adequação natural para lidar com atributos numéricos contínuos. Entretanto, existem diversos tipos de variáveis (numéricas em escalas diferentes e não numéricas) que podem ser utilizadas como atributo, e cada variável deve ser apropriadamente ajustada para que o método funcione bem. lém disso, no método k-médias todos os atributos têm a mesma importância. Entretanto, em algumas aplicações existe o conhecimento prévio de que alguns atributos são mais importantes que outros, e gostaríamos que o critério de similaridade levasse isso em conta. importância relativa dos atributos (bias) é fixada através de pesos. Por ser baseado em distância (euclidiana), o modelo dos agrupamentos é isotrópico gerando uma partição equivalente a um diagrama de Voronoi. No caso de atributos numéricos, em geral basta adotar-se um critério de escalamento das variáveis, para que a importância relativa entre elas seja preservada. Um exemplo aqui seriam as variáveis rendimento e área de moradia. Neste caso, a similaridade entre dois registros se dá pela distância entre os dois pontos correspondentes, no espaço normalizado de características. Na versão padrão deste método, a distância euclidiana é utilizada. Quando as proporções entre os valores dos atributos é mais importante que o seu valor absoluto, então uma medida de similaridade baseada em ângulos entre vetores é mais apropriada. peixe grande peixe pequeno pequeno grande 7 8 Partição induzida método k-médias Diagrama de Voronoi: poliedros convexos em torno dos centróides. Limitações do k-médias O método k-médias tem dificuldades quando os agrupamentos têm: Tamanhos diferentes Densidades diferentes Formas não esféricas Limitações do método: Em métodos baseados em distâncias a médias, as fronteiras de decisão não levam em conta as diferentes distribuições multivariadas. lém disso, diferenças entre densidades das distribuições deveriam afetar as posições das fronteiras de decisão. K-médias tem problemas para lidar com dados estranhos (outliers) 9

Tamanhos diferentes Densidades diferentes K-médias (3 Clusters) K-médias (3 grupos) Formas não esféricas Solução possível Grupos encontrados por K-médias K-médias ( grupos) Uma solução é usar muitos agrupamentos Encontra partes dos grupos, mas precisa colocá-los juntos. 3 4

Exemplo de solução Exemplo de solução Grupos encontrados por K-médias Grupos encontrados por K-médias 5 6 Distribuição normal multivariada Distribuição normal bivariada f ( x) = (π ) p T ( x µ ) e ( x µ ) Matriz de covariâncias de uma distribuição bivariada: σ = σ σ σ onde σ e σ são as variâncias marginais e σ é a covariância 7 8

Dados do problema Classificação desejada grupamento probabilístico (EM) lgoritmo k-médias lgoritmo G-K (multivariado) lgoritmo iterativo que considera uma mistura de modelos probabilísticos (desconhecidos) que descreve a distribuição dos grupos. Como o k-médias, ele começa com uma distribuição inicial (parâmetros dos modelos) para calcular as probabilidades de cada amostra pertencer a cada grupo, que são as expectativas. Num segundo passo, ele atualiza os parâmetros dos modelos probabilísticos: maximização da probabilidade das distribuições, considerando os dados. 9 3 5 43 B 6 45 4 46 45 45 Um modelo mistura de duas classes B 6 47 5 5 B 65 49 46 5 5 B 6 49 B 6 43 4 dados modelo 5 B 63 43 B 65 B 66 B 65 46 39 B 6 5 B 63 5 4 4 O algoritmo EM O algoritmo inicia com valores arbitrários dos parâmetros do modelo mistura (µ, σ, µ B, σ B, p ). p B é obtido indiretamente: p + p B =. partir desses parâmetros, calcula-se as probabilidades de cada amostra pertencer a cada uma das distribuições, pela regra de Bayes (expectation: valor esperado da classe): Pr [ x] Pr = [ x ] Pr[ ] f ( x; µ, = Pr[] x Pr[] x σ ) p onde f(x; µ, σ ) é a distribuição normal para o grupo : f ( x µ ) σ ( x;, ) = e µ σ πσ µ =5, σ =5, p =.6 µ B =65, σ B =, p B =.4 3 3

O algoritmo EM partir das probabilidades, são calculadas novas estimativas dos parâmetros dos grupos (maximization: maximização da probabilidades das distribuições para os dados): Mapa uto-organizável É uma rede neural com treinamento não-supervisionado, capaz de aprender a agrupar dados, produzindo uma representação numa dimensão reduzida, preservando (na medida do possível) a topologia do espaço de entrada. Pr µ = [ x ] x + Pr[ x ] x + L + Pr[ xn ] Pr[ x ] + Pr[ x ] + L + Pr[ x ] n x n Espaço de entrada contínuo w Espaço de saída discreto Pr σ = [ x ]( x µ ) + Pr[ x ]( x µ ) + L + Pr[ xn ]( xn µ ) Pr[ x ] + Pr[ x ] + L + Pr[ x ] n w 6 w Φ(x;w) 3 i(x) w 5 w 4 5 w 4 w 3 6 33 34 é pequeno é médio é grande tem patas tem 4 patas tem pelos tem cascos tem crina tem penas caça corre voa nada Entradas: nomes de animais e seus atributos couja fal cavalo 35 Visualização por rotulação Podemos visualizar um mapa de características rotulando cada neurônio pelo padrão de teste que excita este neurônio de maneira máxima (melhor estímulo). rotulação produz uma partição da grade de neurônios ( x ) evidenciando uma hierarquia de domínios aninhados. cavalo cavalo fal fal cavalo fal fal fal fal fal fal 36