REVISITANDO CONJUNTOS E DISTÂNCIAS PARA ENCONTRAR PONTOS VIZINHOS

Documentos relacionados
MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Introdução às Redes Neurais Artificiais

Uso da Rede Neural Artificial Self Organizing Maps (SOM) na clusterização de dados meteorológicos

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

MANUAL DE REFERÊNCIA DE ANÁLISE DE CONGLOMERADOS

Uma Extensão Intervalar do Algoritmo Fuzzy C-Means

Apontamentos III. Espaços euclidianos. Álgebra Linear aulas teóricas. Lina Oliveira Departamento de Matemática, Instituto Superior Técnico

Material Teórico - Sistemas Lineares e Geometria Anaĺıtica. Sistemas com três variáveis - Parte 1. Terceiro Ano do Ensino Médio

Projeções Multi-dimensionais

Em matemática definimos e estudamos conjuntos de números, pontos, retas curvas, funções etc.

Otimização da Paleta de Cores

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

MEDIDAS DE SIMILARIDADE UTILIZANDO CARACTERÍSTICAS DA ÁGUA DO MUNICÍPIO DE BOTUCATU

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Redes Neurais (Inteligência Artificial)

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

PROBABILIDADE E DISTÂNCIAS

Realimentação de Relevância

ESPAÇOS VETORIAIS EUCLIDIANOS

Introdução à Linguagem da Topologia

Um espaço métrico incompleto 1

Uma Nova Forma de Calcular o Centro dos Clusters no Algoritmo Fuzzy C-Means

Tópicos em Mineração de Dados

INF 1771 Inteligência Artificial

INTRODUÇÃO À TEORIA DOS CONJUNTOS

Descritores de Imagens

6 Clustering: Definindo Grupos Estratégicos

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Professor: Anselmo Montenegro Conteúdo: Aula 2. - Primitivas Geométricas. Instituto de Computação - UFF

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Preliminares de Cálculo

O teorema do ponto fixo de Banach e algumas aplicações

APLICAÇÃO DO TEOREMA DO PONTO FIXO DE BANACH A UM PROBLEMA EM PROBABILIDADE 1

Clustering: k-means e Agglomerative

Material Teórico - Módulo: Vetores em R 2 e R 3. Módulo e Produto Escalar - Parte 1. Terceiro Ano - Médio

Uma aplicação do teorema do ponto fixo de Banach

Análise de Agrupamento (Cluster analysis)

Análise de dados multivariados I

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

Chuvas e Precipitações

Laboratório de Simulação Matemática. Parte 7 2

Inteligência nos Negócios (Business Inteligente)

SME0822 Análise Multivariada 2 o semestre de 2014

SME0822 Análise Multivariada 2 o semestre de 2014

Otimização da Paleta de Cores

PMR2560 Visão Computacional Detecção de cores e blobs. Prof. Eduardo L. L. Cabral

Inteligência nos Negócios (Business Inteligente)

Dados no R n. Dados em altas dimensões 29/03/2017

SCC0173 Mineração de Dados Biológicos

1 Vetores no Plano e no Espaço

COMPARAÇÃO ENTRE ALGUMAS FERRAMENTAS DE ANÁLISE REAL DE UMA VARIÁVEL COM SEUS ANÁLOGOS EM ESPAÇOS MÉTRICOS E O TEOREMA DO PONTO FIXO.

Aula 12. Ângulo entre duas retas no espaço. Definição 1. O ângulo (r1, r2 ) entre duas retas r1 e r2 se define da seguinte maneira:

Análise Multivariada Aplicada à Contabilidade

Universidade Federal de Viçosa Centro de Ciências Exatas e Tecnológicas Departamento de Matemática

ANÁLISE DE AGRUPAMENTOS

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

ÁLGEBRA LINEAR AULA 9 ESPAÇOS VETORIAIS EUCLIDIANOS

1 a Lista de Exercícios MAT 3211 Álgebra Linear Prof. Vyacheslav Futorny

Capítulo 12. Ângulo entre duas retas no espaço. Definição 1. O ângulo (r1, r2 ) entre duas retas r1 e r2 é assim definido:

Aula Elipse. Definição 1. Nosso objetivo agora é estudar a equação geral do segundo grau em duas variáveis:

SME0822 Análise Multivariada 2 o semestre de Prof. Cibele Russo. Sala 3-113

Continuidade de processos gaussianos

INTRODUÇÃO AOS MÉTODOS NUMÉRICOS. Solução de Sistemas Lineares

CÁLCULO I. 1 Número Reais. Objetivos da Aula

Redes Neurais não Supervisionadas: SOM

Quarta aula: espaços normados e espaços métricos. Abertos em R n, equivalência das normas em R n

J. Delgado - K. Frensel - L. Crissaff Geometria Analítica e Cálculo Vetorial

Implementação de algoritmos para consultas de segmentos em janelas

Vetores no plano Cartesiano

Coordenadas e distância na reta e no plano

Mineração de Dados. Modelos Descritivos. Descoberta de agrupamentos

Aprendizagem de Máquinas

MAT Álgebra Linear para Engenharia II - Poli 2 ō semestre de ā Lista de Exercícios

Material Teórico - Módulo: Vetores em R 2 e R 3. Módulo e Produto Escalar - Parte 2. Terceiro Ano - Médio

1 a Lista de Exercícios de MAT3458 Escola Politécnica 2 o semestre de 2016

EXPLORANDO O CONJUNTO DE CANTOR DOS TERÇOS MÉDIOS: UMA PROPOSTA PARA A SALA DE AULA

UFPB - CCEN - DEPARTAMENTO DE MATEMÁTICA ÁLGEBRA LINEAR E GEOMETRIA ANALÍTICA 1 a LISTA DE EXERCÍCIOS PERÍODO

Aprendizagem de Máquina

Interpolação polinomial

5. Seja A uma matriz qualquer. Assinale a afirmativa

Símbolo Nome lê-se como Categoria = 10 significa que se se somar 4 a 6, a soma, ou resultado, é 10.

INTRODUÇÃO À TEORIA DOS CONJUNTOS1

EXPLICANDO PORQUE A MEDIANA PERTENCE À CLASSE MEDIANA

UFPR - Universidade Federal do Paraná Setor de Ciências Exatas Departamento de Matemática MA12 - Matemática Discreta - PROFMAT Prof.

Autovalores e Autovetores

Projected Clustering Algorithm

Algoritmo Array Rápido para Filtragem de Sistemas Lineares Sujeitos a Saltos Markovianos com Variação Estruturada dos Parâmetros no Tempo

Consultas por Similaridade em Domínios de Dados Complexos

CURVAS REGULARES E EQUAÇÕES DE FRENET. Thiago Mariano Viana ¹, Dr. Fernando Pereira Souza ²

Capítulo 4. Comitê BAS 35

Universidade Federal do Espírito Santo - UFES

Aprendizagem de Máquina

Álgebra linear A Primeira lista de exercícios

Mapeamento do uso do solo para manejo de propriedades rurais

1. Conhecendo-se somente os produtos AB e AC, calcule A = X 2 = 2X. 3. Mostre que se A e B são matrizes que comutam com a matriz M = 1 0

Aprendizado de Supervisionado

Transcrição:

REVISITANDO CONJUNTOS E DISTÂNCIAS PARA ENCONTRAR PONTOS VIZINHOS Eduardo Braun - eduardotbraun@gmail.com Universidade Federal de Santa Maria, Campus Camobi, 97105-900 - Santa Maria, RS, Brasil Alice de Jesus Kozakevicius - alicek@ufsm.br Universidade Federal de Santa Maria, Campus Camobi, 97105-900 - Santa Maria, RS, Brasil Resumo. Neste trabalho os conceitos de conjunto e distância são revisitados para explicitar o algoritmo K-means, que obtém de forma iterativa, K subconjuntos a partir de um conjunto inicial de pontos e das distâncias relativas entre seus elementos. No final do processo, dentro de cada um dos K subconjuntos, seus elementos têm distância mínima em relação a um ponto central do subconjunto, dito centróide, que também é atualizado por este processo iterativo. Em aplicações de mineração de dados (data-mining) em conjuntos com milhões de elementos, estes subconjuntos são denominados de clusters e todos os vizinhos compartilham propriedades em comum. Neste trabalho, são apresentadas diferentes métricas e suas influências na formação de clusters em conjuntos de pontos do plano. Palavras Chave: Conjuntos, Subconjuntos, Clusters, Distâncias, Algoritmo K-means 1 INTRODUÇÃO Em matemática, um dos conceitos mais intuitivos é o de conjunto como sendo uma coleção de elementos. Foi através de Georg Cantor(1845-1918) que a teoria dos conjuntos começou a ser construída, e a noção de que um conjunto pode ser também definido a partir das propriedades que seus elementos compartilham começou a ser melhor entendida e explorada [JOHN- SON,1972]. De fato, ao longo de toda nossa formação, a definição de conjunto ou aplicações envolvendo conjuntos nos acompanham de forma intuitiva, como por exemplo quando uma criança associa elementos a números para poder contar. Depois, esse conceito é estendido quando somos convidados a reconhecer padrões e classificar elementos que preservem estes padrões. Por exemplo, quem não se lembra das aulas de biologia quando eram classificados animais e plantas segundo suas características morfológicas? Outro conceito intuitivo é o de distância, com o qual temos contato em diferentes aplicações do dia a dia. Quando pensamos em distância, imediatamente estamos pensando em distância Euclidiana. Na verdade, esta não é a única função possível a ser calculada para designar a distância entre dois pontos, ou dois objetos, ou entre dados quaisquer [LIMA,1977]. Neste trabalho, o foco principal é explorar diferentes métricas, funções distância, na determinação de vizinhanças. Vizinhanças são conjuntos nos quais seus elementos estão todos próximos em relação ao um ponto central, denominado centróide. Estes conjuntos podem ser diferentes dependendo da métrica escolhida e são exatamente essas diferenças que queremos estudar. Esta ideia de vizinhança está por traz do conceito de cluster, muito empregado em problemas de mineração de dados, ou reconhecimento de padrões. Clusters são conjuntos considerados para seleção de dados conforme algum critério de similaridade [ESTIVILL-CASTRO, 2002]. Assim, os elementos em um mesmo cluster são todos mais similares uns aos outros, do que em relação a elementos de outros clusters. Um dos algoritmos bem estabelecidos para a obtenção de clusters é o algoritmo K-means [MACQUEEN,1967], cuja ideia é formar K subconjuntos

considerando como critério de similaridade a menor distância possível em relação ao centróide do cluster. O valor K é escolhido pelo usuário, uma vez que nas aplicações [BRAUN,2014], estes K subconjuntos estão relacionados a K padrões que estão sendo procurados nos dados. Neste trabalho iremos apresentar várias funções distâncias e o efeito de suas escolhas como critério de similaridade na geração de clusters de pontos no plano, gerados através do algoritmo K-means. As seções a seguir apresentam com mais detalhes o algoritmo K-means, as definições das diferentes distâncias e os resultados da dinâmica na formação dos subconjuntos. 2 K-means O algoritmo K-means, proposto por MacQueen em 1967 [MACQUEEN,1967], é muito utilizado na construção de K clusters, que são subconjuntos, obtidos através de algum critério de escolha que evidencie a similaridade entre seus elementos. Um desses critérios de seleção é o de vizinhança, ou seja, um ponto p pertencerá a um subconjunto s j, j=1,2...,k, se d(p,s j ), a distância de p a s j, for menor do que a distância de p aos demais subconjuntos s i,i j. Aqui, inicialmente a d(p,s j ) é obtida através da distância do ponto p a um ponto de referência fixado em s j, chamado de centróide de s j. Desta forma, todos os elementos de um subconjunto terão distância mínima em relação ao seu centróide, e serão todos denominados vizinhos entre si. O algoritmo K-means é iterativo e depende de um chute inicial para os K primeiros centróides. A cada iteração são (i) calculadas as distâncias dos pontos aos centróides; (ii) são reagrupados os pontos de acordo com as distâncias obtidas; e (iii) para cada cluster formado, um novo centróide é obtido a partir da média aritmética dos valores contidos no clusters. Diz-se que o algorítmo convergiu quando os centróides não variarem entre duas iterações. 3 Distância Intuitivamente distância é uma medida da separação entre dois pontos ou eventos e uma métrica é um conceito que generaliza a ideia geométrica de distância. Assim, uma métrica em um conjunto S é uma função d : S S R que satisfaz as seguintes propriedades: é positivamente definida: d(x,y) 0, x,y S; é simétrica: d(x,y) = d(y,x), x,y S; obedece à desigualdade triangular: d(x,z) d(x,y) + d(y,z), x,y,z S; é nula apenas para pontos coincidentes: d(x, y) = 0 x = y; Apesar da distância Euclidiana ser a mais conhecida dentre as métricas, existe um grande número de métricas que são utilizadas em diferentes aplicações. A seguir, são apresentadas as formulações das métricas mais populares e que podem ser utilizadas com o algoritmo K-means. Para todas as formulações apresentadas na próxima seção, são considerados pontos p = (p 1, p 2,...p n 1, p n ) R n, cujas coordenadas são dadas em relação a um sistema de coordenadas canônico, com O = (0,0,...,0,0) sendo a origem e B = e 1,...e n e i,k = 0 se i k, e 1 se i = k, a base canônica do R n.

3.1 Euclidiana A distância Euclidiana entre os pontos p e q é o comprimento do segmento de linha que os conecta. Se p e q R n, temos: n d(p,q) = d(q, p) = (p 1 q 1 ) 2 +... + (p n q n ) 2 = (p i q i ) 2. (1) i=1 3.2 Cityblock A distância Cityblock, também chamada de norma 1, entre dois pontos p e q em um espaço com coordenadas cartesianas fixas, é a soma dos comprimentos das projeções do segmento entre os dois pontos nos eixos coordenados. Para p e q R n. 3.3 Chebyshev d(p,q) = p q 1 = n i=1 p i q i. (2) A distância de Chebyshev é também conhecida como norma infinito. Dados p e q R n temos: d(p,q) = p q = max p i q i. (3) i 3.4 Canberra A distância de Canberra entre dois pontos p e q é dada por: 3.5 Bray-Curtis d(p,q) = i A distância de Bray-Curtis entre dois pontos p e q é dada por: p i q i p i + q i. (4) d(p,q) = p i q i / p i + q i. (5) A distância de Bray-Curtis está no intervalo [0,1] se todas as coordenadas são positivas, e é indefinida se p i + q i = 0, caso p = q a distância não está definida. 3.6 Mahalanobis A distância de Mahalanobis entre dois vetores p e q considera a correlação entre os vetores p e q e é dada por: (p q)v 1 (p q) T, (6) sendo V = ( <p,p> <q,p> <p,q> <q,q> ) a matriz de covariância e <.,. > o produto interno usual entre vetores do R n.

3.7 Cosseno A distância do Cosseno entre p e q R n é dada por: 1 < p,q > p 2 q 2. (7) Onde 2 representa a norma euclidiana de um vetor do R n, dada por x 2 = n i=1 x i 2. 4 Resultados Nesta seção vamos mostrar os resultados obtidos na formação de clusters quando partimos de um conjunto inicial formado por 3000 pontos aleatoriamente gerados no [ 4,4] [ 4,4] R 2. O valor de K escolhido para as simulações foi 3 ou 4, e os centróides correspondentes foram também escolhidos de forma aleatória. As figuras a seguir apresentam 4 iterações do algoritmo K-means, considerando o cálculo via alguma das métricas definidas anteriormente. Em cada uma das iterações é indicado o novo valor do centróide, que é recalculado através da média aritmética dos elementos associados a cada um dos clusters, a cada iteração. Podemos observar que diferentes agrupamentos são obtidos em cada uma das iterações, cada vez que diferentes métricas são consideradas. No entanto, apesar das diferentes dinâmicas nas evoluções dos centróides e de seus clusters, mesmo assim, há uma coerência entre os clusters finais obtidos. Além disso, o algoritmo K-means também é sensível à escolha feita para o número de clusters. Assim, o número de clusters K também influencia na dinâmica do algoritmo, permitindo diferentes agrupamentos ao final do processo iterativo. No caso da distância Euclidiana, uma simulação com K=4 também é apresentada, evidenciando a diferença entre as vizinhanças obtidas para K=3 e K=4. Figura 1: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Euclidiana em um cenário com K=3 centróides iniciais. Observamos, então, nas Figuras 1 e 2 os diferentes agrupamentos influêciados pela escolha do parâmetro K.

Figura 2: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Euclidiana em um cenário com K=4 centróides iniciais.. Figura 3: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Cityblock em um cenário com K=3 centróides. Observamos que as Figuras 1 e 3 apresentam dinâmicas diferentes influênciadas pela escolha das funções de distância, uma vez que o conjunto inicial de pontos é o mesmo. Figura 4: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Chebyshev em um cenário com K=3 centróides.

Figura 5: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Canberra em um cenário com K=3. Figura 6: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Bray-Curtis em um cenário com K=3. Figura 7: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Mahalanobis em um cenário com K=3.

Figura 8: Quatro primeiras iterações do algoritmo K-means utilizando a métrica Cosseno em um cenário com K=3. 5 CONCLUSÃO Neste trabalho, exploramos diferentes métricas (funções distância) na formação de agrupamentos de pontos do plano. As diferentes escolhas influenciaram na formação das K=3 vizinhanças a partir dos K=3 centróides escolhidos inicialmente para que o algoritmo K-means pudesse ser iniciado. Os gráficos das dinâmicas ao longo de 4 iterações do algoritmo K-means explicitaram a diferença nos valores obtidos para os centróides e para as configurações finais de cada uma das 3 vizinhanças obtidas. Apesar das diferenças, todas as métricas produziram resultados compatíveis e comparáveis com os demais. No caso da distância Euclidiana também foram comparados os agrupamentos obtidos a partir de K=4 centróides. Essa experiência evidencia que a classificação de elementos como pertinentes a um conjunto ou não é dependente do critério de comparação, que neste trabalho foi a métrica considerada. Pertencer a um conjunto no caso das aplicações significa possuir ou não as propriedades analisadas. REFERÊNCIAS BRAUN, E, RODRIGUES, C. R., BARATTO, G., KOZAKEVICIUS, A. Algoritmo K- means associado a transformadas na classificação de sinais EEG. XXXV CNMAC CON- GRESSO NACIONAL DE MATEMÁTICA APLICADA E COMPUTACIONAL, Natal, 2014. Anais do XXXV CNMAC, São Carlos, SBMAC, 2014. ESTIVILL-CASTRO, V.; Why so many clsutering algorithms-aposition paper. ACM SIGKDD Explorations Newsletter, Vol. 4, Issue 1. page 65-75, 2002. doi>10.1145/568574.568575 JOHNSON, P., A History of Set Theory, Prindle, Weber &Schmidt, 1972, ISBN 0871501546. LIMA, E. L., Espaços Métricos. Rio de janeiro, Instituto de Matemática Pura e Aplicada- IMPA, 1977. Coleção Projeto Euclides, ISBN: 9788524401589, 337 páginas. MACQUEEN, J. B., Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability 1. University of California Press. pp. 281-297, 1967.