CLUSTERIZAÇÃO AUTOMÁTICA NA REDUÇÃO DA DIMENSIONALIDADE DOS DADOS

Documentos relacionados
Ministério da Educação. Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira. Cálculo do Conceito Preliminar de Cursos de Graduação

Estatística stica Descritiva

Análise de Regressão. Profa Alcione Miranda dos Santos Departamento de Saúde Pública UFMA

5.1 Seleção dos melhores regressores univariados (modelo de Índice de Difusão univariado)

Variabilidade Espacial do Teor de Água de um Argissolo sob Plantio Convencional de Feijão Irrigado

TEORIA DE ERROS * ERRO é a diferença entre um valor obtido ao se medir uma grandeza e o valor real ou correto da mesma.

Introdução à Análise de Dados nas medidas de grandezas físicas

PREVISÃO DO ÍNDICE MERVAL: UMA APLICAÇÃO DE REDES NEURIAS POLINOMIAIS GMDH

PROJEÇÕES POPULACIONAIS PARA OS MUNICÍPIOS E DISTRITOS DO CEARÁ

UM NOVO ALGORITMO GENÉTICO PARA A OTIMIZAÇÃO DE CARTEIRAS DE INVESTIMENTO COM RESTRIÇÕES DE CARDINALIDADE

ANÁLISE DE CONFIABILIDADE DO MODELO SCS-CN EM DIFERENTES ESCALAS ESPACIAIS NO SEMIÁRIDO

Introdução e Organização de Dados Estatísticos

NOTA II TABELAS E GRÁFICOS

Professor Mauricio Lutz CORRELAÇÃO

O Método de Redes Neurais com Função de Ativação de Base Radial para Classificação em Data Mining

CAPÍTULO VI Introdução ao Método de Elementos Finitos (MEF)

Nota Técnica Médias do ENEM 2009 por Escola

MAPEAMENTO DA VARIABILIDADE ESPACIAL

3ª AULA: ESTATÍSTICA DESCRITIVA Medidas Numéricas

Clusterização ou Agrupamento de Dados

TRABALHADORES COM DEFICIÊNCIAS EM LINHAS DE PRODUÇÃO: MODELOS, RESULTADOS E DISCUSSÕES 1

ANÁLISE MATRICIAL DE ESTRUTURAS DE BARRAS PELO MÉTODO DE RIGIDEZ

ANÁLISE DE ERROS. Todas as medidas das grandezas físicas deverão estar sempre acompanhadas da sua dimensão (unidades)! ERROS

CORRELAÇÃO DO EQUILÍBRIO DE FASES DO SISTEMA MULTICOMPONENTE ÉSTERES ETÍLICOS DO ÓLEO DE MURUMURU/DIÓXIDO DE CARBONO COM A EQUAÇÃO SRK

SOLUÇÕES DA EQUAÇÃO DA CONDUÇÃO DO CALOR BIDIMENSIONAL COM CONDUTIVIDADE TÉRMICA DEPENDENTE DA TEMPERATURA E GERAÇÃO DE CALOR

Controlo Metrológico de Contadores de Gás

CURRICULUM VITAE - RESUMIDO

Elaboração: Fevereiro/2008

SEQÜENCIAMENTO DE TAREFAS COM MÁQUINAS PARALELAS, PERMITINDO ATRASOS E COM TEMPOS DE PREPARAÇÃO DE MÁQUINA DEPENDENTES DA SEQÜÊNCIA.

1. Introdução 2. Misturas Gaussianas

Sistemas de equações lineares

CENTRO UNIVERSITÁRIO DO LESTE DE MINAS GERAIS - UnilesteMG

Aplicando o método de mínimos quadrados ordinários, você encontrou o seguinte resultado: 1,2

MODELAGEM MATEMÁTICA DO PROCESSO DE EVAPORAÇÃO MULTI-EFEITO NA INDÚSTRIA DE PAPEL E CELULOSE

de Engenharia de São Carlos - USP Av. Trabalhador São-carlense, Centro - CEP , São Carlos SP # UTFPR, Cornélio Procópio PR

AGRUPAMENTO DE CLIENTES COM BASE NA FICHA DE ANAMNESE ODONTOLÓGICA: UMA APLICAÇÃO DA ART2.

DETECÇÃO AUTOMÁTICA DE OBJETOS ESTRANHOS NA REGIÃO DAS PERNAS EM IMAGENS DE SCANNER HUMANO UTILIZANDO TEXTURAS E CLASSIFICADORES

INFLUÊNCIA DAS VARIÁVEIS OPERACIONAIS NA REMOÇÃO DE ETANOL DE VINHO DELEVEDURADO POR CO 2

UMA ABORDAGEM NEURO-IMUNE PARA A SOLUÇÃO DO PROBLEMA DE MÚLTIPLOS CAIXEIROS VIAJANTES

ANÁLISE EXPLORATÓRIA DE DADOS

AVALIAÇÃO SIMPLIFICADA DOS CONSUMOS DE ENERGIA ASSOCIADOS À VENTILAÇÃO

3.1. Conceitos de força e massa

ISEP - ÍNDICE DE SHARPE ESCOLAR A PARTIR DA PROVA BRASIL: CRIAÇÃO E ESTUDO

Créditos. SCC5895 Análise de Agrupamento de Dados. Aula de Hoje. Algoritmos Hierárquicos: Parte II. Relembrando Agrupamento Hierárquico...

ESTRUTURA DA Sacoglottis guianensis BENTH. NA UNIVERSIDADE FEDERAL DO AMAPÁ

UNIVERSIDADE PRESBITERIANA MACKENZIE CCSA - Centro de Ciências Sociais e Aplicadas Curso de Economia

MÉTODO DE RESSECÇÃO APLICADO NA DETERMINAÇÃO DE COORDENADAS NO MONITORAMENTO DE PONTOS

ROGÉRIO ALVES SANTANA. AVALIAÇÃO DE TÉCNICAS GEOESTATÍSTICAS NO INVENTÁRIO DE POVOAMENTOS DE Tectona grandis L.f.

SOM Hierárquico Aplicado à Compressão de Imagens

GENETIC FUZZY SISTEM PARA SELEÇÃO DE POÇOS DE PETRÓLEO PARA FRATURAMENTO HIDRÁULICO

O Uso do Software Matlab Aplicado à Previsão de Índices da Bolsa de Valores: Um Estudo de Caso no Curso de Engenharia de Produção

Variáveis dummy: especificações de modelos com parâmetros variáveis

IX CONGRESSO BRASILEIRO DE ENGENHARIA E CIÊNCIAS TÉRMICAS. 9th BRAZILIAN CONGRESS OF THERMAL ENGINEERING AND SCIENCES

UTILIZAÇÃO DO MÉTODO DE TAGUCHI NA REDUÇÃO DOS CUSTOS DE PROJETOS. Uma equação simplificada para se determinar o lucro de uma empresa é:

PROBLEMAS SOBRE PONTOS Davi Máximo (UFC) e Samuel Feitosa (UFC)

CLUSTERING SEARCH APLICADO AO PROBLEMA DE ALOCAÇÃO DE BERÇOS

Geração de poses de faces utilizando Active Appearance Model Tupã Negreiros 1, Marcos R. P. Barretto 2, Jun Okamoto 3

PLANEJAMENTO DE EXPERIMENTOS E OTIMIZAÇÃO DE SISTEMAS MISTOS

AVALIAÇÃO DO VALOR DE IMÓVEIS POR ANALISE DE REGRESSÃO: UM ESTUDO DE CASO PARA A CIDADE DE JUIZ DE FORA. Túlio Alves Matta

Y X Baixo Alto Total Baixo 1 (0,025) 7 (0,175) 8 (0,20) Alto 19 (0,475) 13 (0,325) 32 (0,80) Total 20 (0,50) 20 (0,50) 40 (1,00)

INTRODUÇÃO AO CÁLCULO DE ERROS NAS MEDIDAS DE GRANDEZAS FÍSICAS

INTRODUÇÃO À ANÁLISE DE DADOS NAS MEDIDAS DE GRANDEZAS FÍSICAS

2 ANÁLISE ESPACIAL DE EVENTOS

Sistemas de Filas: Aula 5. Amedeo R. Odoni 22 de outubro de 2001

DISTRIBUIÇÃO DA AÇÃO DO VENTO NOS ELEMENTOS DE CONTRAVENTAMENTO CONSIDERANDO O PAVIMENTO COMO DIAFRAGMA RÍGIDO: ANÁLISE SIMPLIFICADA E MATRICIAL

Palavras-chaves: Gráficos de controle, ambiente R, análise estatística multivariada

DETERMINAÇÃO DE ALTITUGE ORTOMÉTRICA COM USO DA INTEGRAÇÃO DO GPS/NIVELAMENTO AO MAPGEO2010

Probabilidade e Estatística. Correlação e Regressão Linear

ESTUDO DE REVESTIMENTOS ANTIADERENTES À RESINA EPÓXI

Determinantes. De nição de determinante de uma matriz quadrada. Determinantes - ALGA /05 15

UNIVERSIDADE FEDERAL DE SANTA CATARINA PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA. Francisco das Chagas de Souza

XX SNPTEE SEMINÁRIO NACIONAL DE PRODUÇÃO E TRANSMISSÃO DE ENERGIA ELÉTRICA GRUPO - IX GRUPO DE ESTUDO DE OPERAÇÃO DE SISTEMAS ELÉTRICOS - GOP

Controle Estatístico de Qualidade. Capítulo 8 (montgomery)

Projeto Multicritério de Sistemas de Distribuição de Energia Elétrica sob Contextos Incertos Utilizando Algoritmos de Busca Local

Carlos Sérgio Araújo dos Santos José Antonio Aleixo da Silva Gauss Moutinho Cordeiro Joseilme Fernandes Gouveia Alisson de Oliveira Silva

UMA REDE NEURAL ARTIFICIAL HÍBRIDA: MULTI-LAYER PERCEPTRON (MLP) E INTERAC- TIVE ACTIVATION AND COMPETITION (IAC)

Uso dos gráficos de controle da regressão no processo de poluição em uma interseção sinalizada

CONGRESSO DE INICIAÇÃO CIENTÍFICA E PÓS-GRADUAÇÃO - I CICPG SUL BRASIL Florianópolis 2010

ALGORITMO E PROGRAMAÇÃO

Avaliação de imóveis: a importância dos vizinhos

ESTATÍSTICA MULTIVARIADA 2º SEMESTRE 2010 / 11. EXERCÍCIOS PRÁTICOS - CADERNO 1 Revisões de Estatística

POSICIONAMENTO DIFERENCIAL PÓS-PROCESSADO UTILIZANDO MULTIESTAÇÕES GPS

Fast Multiresolution Image Querying

Análise Fatorial F 1 F 2

Estimativa da Incerteza de Medição da Viscosidade Cinemática pelo Método Manual em Biodiesel

MODELAGEM MATEMÁTICA DO PROBLEMA DE COLETA DE RESÍDUOS DE BIOMASSA DE MADEIRA PARA FINS ENERGÉTICOS

PROPOSIÇÃO, VALIDAÇÃO E ANÁLISE DOS MODELOS QUE CORRELACIONAM ESTRUTURA QUÍMICA E ATIVIDADE BIOLÓGICA

Avaliação da Recuperação em Sistemas de RBC Estrutural e Textual: Uma Aplicação no Domínio de Help Desk

Redução do Espaço de Busca de Redes de Distribuição Reconfiguráveis Utilizando Grafos

CQ110 : Princípios de FQ

Problemas Associados a Cones de Segunda Ordem

1.UNIVERSIDADE FEDERAL DE VIÇOSA, VIÇOSA, MG, BRASIL; 2.UNIVERSIDADE FEDERAL DE GOIÁS, GOIANIA, GO, BRASIL.

IV - Descrição e Apresentação dos Dados. Prof. Herondino

Detecção de Microcalcificações de Bordas Lisas e Agrupamentos em Formação, para Auxílio ao Diagnóstico Médico de Câncer de Mama

EXTRAÇÃO AUTOMÁTICA DE CONTORNOS DE TELHADOS USANDO DADOS DE VARREDURA A LASER E CAMPOS RANDÔMICOS DE MARKOV

Universidade Federal da Bahia Instituto de Física Departamento de Física da Terra e do Meio Ambiente TEXTOS DE LABORATÓRIO T E O R I A D E E R R O S

Avaliação da Tendência de Precipitação Pluviométrica Anual no Estado de Sergipe. Evaluation of the Annual Rainfall Trend in the State of Sergipe

Goal Programming como Ferramenta de Gestão

METROLOGIA E ENSAIOS

Estimativa da fração da vegetação a partir de dados AVHRR/NOAA

Transcrição:

CLUSTERIZAÇÃO AUTOMÁTICA NA REDUÇÃO DA DIMENSIONALIDADE DOS DADOS Éldman de Olvera Nunes Escola de Admnstração do Exércto Rua Terrtóro do Amapá, 455, 41.540-830, Salvador, BA, Brasl eldman.nunes@gmal.com Aura Conc Unversdade Federal Flumnense Rua Passo da Pátra, 156, 24.210-240, Nteró, RJ, Brasl aconc@c.uff.br Resumo A clusterzação é uma técnca extremamente mportante para análse do comportamento dos dados e têm sdo largamente utlzada para solução de dversos problemas de ordem prátca. Entretanto, o desconhecmento do número deal de grupos para partção da base, bem como o excesso de atrbutos que compõe os dados, são fatores que degradam a qualdade dos resultados. Este artgo apresenta uma nova estratéga para reduzr a dmensonaldade dos dados a partr da determnação automátca do número deal de grupos presentes em uma base. Os resultados obtdos com a nova estratéga proposta demonstram ser possível melhorar a abrangênca e a acuráca na classfcação dos dados. Palavras-Chaves: Análse de Agrupamentos, segmentação, K-Means. Abstract The clusterng s an extremely mportant technque for analyss of the behavor of the data that has been broadly used for soluton of vared problems of practcal order. However, the unknowledge of the deal number of clusters for partton of the base, as well as the excess of attrbutes that composes the data are factors that degrade the qualty of the results. Ths artcle presents one new strategy to reduce the dmensonalty of the data from of the automatc determnaton of the deal number of clusters present at the base. The obtaned results wth the new proposed strategy demonstrate to be possble to mprove the abrangency and the accuracy n the classfcaton of the data. Keywords: Clusters Analyss, segmentaton, K-Means 1. INTRODUÇÃO A clusterzação é uma ferramenta útl para o estudo e compreensão do comportamento de dados que tem sdo empregada na solução de dversos problemas nas mas varadas áreas do conhecmento. Seu objetvo é organzar os objetos de uma base de dados em grupos de tal forma que os objetos dentro de um mesmo grupo sejam mas smlares entre s do que com objetos de outros grupos. Quando a solução do problema de agrupamento depende da nformação a pror do número de grupos desejados para partção dos dados, este é referencado na lteratura como problema de k -clusterzação [1]. Entretanto, na maora das aplcações prátcas, o número deal de grupos é desconhecdo e sua obtenção acrescenta complexdade na solução, sendo referencado na lteratura como problema de clusterzação automátca [2]. 1

Em ambos os casos, a efcênca da solução dependerá da regulardade e da unformdade dos dados dsponíves. Dfclmente, porém, tal comportamento é encontrado na maora das stuações reas, pos estas envolvem uma grande massa de dados, compostos por dversos atrbutos. Consderando que a multdmensonaldade dos atrbutos usados para organzar os dados consttu-se em um fator complcador para solução de um problema, a seleção dos atrbutos mas relevantes do conjunto de atrbutos dsponíves na base de dados é um passo mportante para dmnur o tempo de processamento, reduzr o espaço de busca e evtar erros de classfcação. A determnação automátca do número deal de grupos em um problema de clusterzação e a redução da dmensonaldade dos atrbutos usados para organzar os dados são aspectos de grande utldade na análse de agrupamentos e consttu-se no objetvo deste trabalho. 2. CLUSTERIZAÇÃO Dado um conjunto X, um problema de Clusterzação (análse de agrupamento) consste em se agrupar os objetos (elementos) de X de modo que objetos mas smlares fquem no mesmo grupo (cluster) e os objetos menos smlares sejam alocados para grupos dstntos (fgura 1). FIGURA 1 - Esquema funconal de um algortmo de clusterzação Problemas de clusterzação podem ser defndos da segunte forma [3]: Dado um conjunto com n elementos X { X X..., } =, o problema de clusterzação consste na obtenção de um conjunto de k clusters, C { C C,..., } 1, 2, X n, 2 C k =, tal que haja uma maor smlardade entre os elementos contdos em um cluster C do que qualquer um destes com os elementos de um dos demas clusters do conjunto C. O conjunto C é consderado uma clusterzação com k clusters caso as condções das equações (1-3) sejam satsfetas: Υ k =1 C = X (1) C, para : 1 k (2) C C =, para :1, j k, j (3) j A busca pela melhor solução no espaço de soluções possíves torna o processo de clusterzação um problema NP-Dfícl. A utlzação de métodos exatos para obtenção da solução ótma fca mpratcável, uma vez que a verfcação exaustva de todas as confgurações de agrupamentos possíves é computaconalmente nvável [3]. 2

Para o problema de k-clusterzação, quando se conhece o número de k a pror, exstem N dferentes maneras de agrupar n elementos em k clusters: N k 1 n, (4) k! k ( n k) = ( 1) ( )( k ) = 0 O que torna exponencal o crescmento de n. Por exemplo, exstem os seguntes números de soluções possíves para se combnar 10 elementos, 100 elementos e 1000 29 elementos em 2 clusters, respectvamente: 512 soluções, 6,33825 10 soluções e 300 5,3575 10 soluções. Para o problema de clusterzação automátca, o número de combnações possíves é dado pela equação: N n k 1 n, (5) k! k ( n k) = ( 1) ( )( k ) k= 1 = 0 Assm, aumenta sgnfcatvamente o número de combnações possíves. Para clusterzação de um conjunto com apenas 10 elementos, em um número de clusters varável de 1 a 10, exstem 115.975 maneras dferentes. 2.1. MÉTODOS DE PARTICIONAMENTO A fm de reduzr a complexdade na solução do problema, utlzam-se métodos heurístcos capazes de fornecer soluções sub-ótmas em tempo satsfatóro. Na lteratura são encontrados dversos desses métodos [4], a escolha dentre eles dependerá do propósto de cada aplcação partcular e do tpo de dados dsponíves. Bascamente, esses métodos podem ser classfcados em herárqucos e de partconamento [1]. Os Métodos de Partção Baseados em Recolocação tem por objetvo partconar um conjunto de dados com n elementos em k grupos dstntos de forma a mnmzar um crtéro escolhdo. Estes métodos tentam descobrr novos clusters realocando nteratvamente pontos entre os subconjuntos de forma a melhorar os clusters gradualmente, o que não ocorre nos métodos herárqucos. Freqüentemente, os métodos de partconamento encontram clusters com qualdade superor (maor smlardade nterna) aos dos encontrados pelos métodos herárqucos [5]. Devdo a este melhor desempenho, os algortmos de partconamento normalmente são mas empregados. Dentre eles, os que são baseados em um ponto central (k-means) [6] ou os que são baseados em um objeto representatvo para o cluster (k-medods) [7]. A qualdade do resultado obtdo com os métodos de partconamento depende da seleção coerente das seguntes varáves: seleção do algortmo de agrupamento e dos atrbutos relevantes, escolha do número de grupos e meddas de smlardade, defnção dos crtéros de agrupamento e homogenezação das varáves. 2.2. MEDIDAS DE SIMILARIDADE O objetvo da clusterzação é agrupar os elementos de um conjunto tomando por base o seu grau de smlardade. Para medr o quanto um elemento é smlar a outro, a fm de determnar se deve pertencer ou não a um mesmo cluster, são utlzadas meddas de smlardade. O crtéro de smlardade mas comum quando se utlzam atrbutos numércos basea-se nas funções de dstânca. Para empregar estas funções é precso representar cada elemento como um vetor no espaço n dmensonal das característcas. Neste caso, quanto menor for à dstânca entre um par de elementos, maor é a smlardade entre eles. Espera-se que à dstânca entre objetos de um mesmo agrupamento seja sgnfcatvamente menor do que à dstânca entre objetos de 3

agrupamentos dferentes. Dentre as meddas de dstânca mas utlzadas encontram-se a dstânca cty-block (para r = 1) e a dstânca eucldana (para r = 2 ), conforme a equação: d 1 n r r ( X, X j ) = xl x jl l= 1 2.3. MÉTODO K-MEANS K-means é um método amplamente dfunddo, exstndo mutas varações propostas na lteratura e dversos nomes (K-médas, sodata, ou mgração de médas). K-means é um método de partção baseado em recolocação que necessta da defnção a pror do número de agrupamentos k. O crtéro de custo a ser mnmzado é defndo em função da dstânca dos elementos em relação aos centros dos agrupamentos. Usualmente, este crtéro é a soma resdual dos quadrados das dstâncas (geralmente é usada a dstânca eucldana). Entende-se por soma resdual dos quadrados, a soma dos quadrados das dstâncas dos elementos ao centróde do seu cluster, conforme a equação: W = Onde k n t ( xj X )( xj X ) = 1 j= 1 xj é o j-ésmo objeto do cluster, (6) (7) X é o representante do cluster (a méda ou medana dos objetos do cluster), e n é a quantdade de objetos do cluster. O elemento representatvo de um cluster é o seu centróde, que possu um valor médo para os atrbutos consderados, relatvos a todos os elementos do cluster. A utlzação do centróde como elemento representatvo de um cluster é convenente apenas para atrbutos numércos e possu um sgnfcado geométrco e estatístco claro, podendo, entretanto, receber mas nfluênca de um únco elemento que se encontre próxmo à frontera do cluster. A partr de uma estmatva ncal das coordenadas dos centros dos agrupamentos (centródes), o algortmo calcula a dstânca de cada ponto do conjunto a estes centródes. A segur, o algortmo aloca cada elemento do conjunto em um grupo, de acordo com a menor dstânca ao centróde correspondente. A nova estmatva das coordenadas dos centródes é calculada pela méda artmétca das coordenadas dos pontos assocados a cada grupo (fgura 2). O método K-means é sensível ao partconamento ncal realzado, em vrtude da escolha das coordenadas dos k centródes dos clusters ser feta ncalmente de forma aleatóra. A partr deste prmero partconamento, o algortmo realza uma busca de um ponto de máxmo para o seu crtéro de parada. Não há garantas de que o algortmo encontre o máxmo global, sendo possível encontrar soluções dstntas em dferentes execuções do algortmo. O K-means é um tpo de algortmo normalmente utlzado para a classfcação nãosupersonada. Este algortmo é consttuído dos seguntes passos báscos: (1) Determnar as posções ncas dos k centródes dos clusters; (2) Alocar cada elemento ao cluster do centróde mas próxmo; (3) Recalcular os centros dos clusters a partr dos elementos alocados; 4

(4) Repetr os passos de 2 a 4 segundo algum crtéro de convergênca Como crtéro de convergênca pode se executar o algortmo até que os centródes não se movam mas ou até que um determnado número máxmo de nterações seja alcançado.. FIGURA 2 - Aplcação do método K-Means 3. METODOLOGIA Exstem algumas técncas para clusterzação automátca baseada em junções ou dvsões sucessvas (métodos herárqucos), noções de densdade, varação do nível de quantzação do espaço, modelos matemátcos e estatístcos. Apesar destas técncas obterem bons resultados, em geral apresentam elevado custo computaconal [8]. Um crtéro para determnar a qualdade da clusterzação é apresentado em [9] e estabelece a segunte função de k : ( ) G k ( n k ) B = ( k 1)W Onde k é o número de clusters usados para a segmentação, n o número de objetos da base de dados, W conforme a equação (5), e B é a varação não explcada do somatóro dos quadrados das dferenças de toda a base de dados para a méda a partr do somatóro dos quadrados das dferenças de cada objeto de cada cluster para o centróde do seu cluster, dado pela equação: (8) 5

k ( X X )( X X ) t B = T W = n =1 (9) T é a soma dos quadrados das dferenças de cada objeto da base de dados para a méda de todos os objetos da base ( X ), conforme a equação: T = k n t ( xj X )( xj X ) = j= 1 1 (10) O valor de G(k) representa a estatístca da análse da varânca do agrupamento formado. Quanto maor o seu valor, mas homogêneos serão os objetos dentro de cada grupo e melhor será a partção. Para determnação automátca do número deal de agrupamentos fo desenvolvdo um sstema, baseado no algortmo K-Means, que executa o partconamento de uma base de dados para cada um dos possíves valores de k ( 1 π k π n ) maxmzando a equação (8). Como o algortmo K-Means possu o nconvenente de ter sua solução nfluencada pela escolha da confguração ncal (eleção arbtrára dos k objetos como centros ncas dos clusters), optou-se por ncalzar os centródes de forma a dspersá-los unformemente sobre o espaço de representação. Esta estratéga tende a fornecer melhores resultados, além de contrbur para a aceleração da convergênca. Para redução da dmensonaldade dos dados é necessáro realzar a seleção dos atrbutos mas relevantes, ou seja, que mas contrbuam para separabldade das classes, dentro do conjunto de atrbutos dsponíves. Bascamente, este deve ser um processo de múltplas terações, consstndo dos seguntes passos: (1) Seleconar um subconjunto de atrbutos (atrbutos canddatos) de acordo com algum crtéro; (2) Aplcar o algortmo sobre a base de dados com este subconjunto de atrbutos; (3) Medr a qualdade da seleção, conforme equação (8); (4) Repetr os passos 1 a 3 até que se encontre um resultado satsfatóro. 4. EXPERIMENTOS Para realzação dos testes, fo seleconada a popular base de dados Irs Plants Database, a fm de testar todas as possíves combnações de seus atrbutos. Esta base pode ser obtda no repostóro de bases de dados para descoberta de conhecmento da Unversdade da Calfórna, Irvne (UCI MachneLearnng Repostory) [10]. A base Írs consste de 3 classes: Írs-Setosa, Írs-Vrgnca e Írs-Verscolor, cada uma possundo 50 nstâncas, com dstrbução de 33.3% para cada uma das 3 classes. A classe Írs-Setosa é lnearmente separável das outras duas; Já as classes Írs-Vrgnca e Írs- Verscolor não são lnearmente separáves. Cada nstânca possu cnco atrbutos, sendo quatro do tpo numérco (comprmento da sépala em cm, largura da sépala em cm, comprmento da pétala em cm, largura da pétala em cm) e um do tpo categórco (classe: Írs- Setosa, Írs-Verscolor, Írs-Vrgnca). O atrbuto do tpo categórco não partcpa do processo de clusterzação, entretanto defne a qual classe a nstânca pertence. Para execução dos testes fo utlzado um PC com a segunte confguração: Processador Intel Pentum 4, CPU 2.40 GHz, Memóra DRAM 511 MB, Dsco rígdo de 80 GB, Sstema Operaconal Mcrosoft Wndows XP Professonal. 6

Os expermentos foram dvddos em três etapas. A prmera consstu da clusterzação da base de dados consderando todos os quatro atrbutos. A segunda, consderando três atrbutos e a tercera, consderando apenas dos atrbutos. 4.1. PRIMEIRA ETAPA: UTILIZAÇÃO DE TODOS OS ATRIBUTOS A fgura 3 apresenta a clusterzação da base Írs consderando todas as suas 150 nstâncas, cada uma com seus quatro atrbutos. Para este caso de teste, o valor de k varou entre 2 e 150. O tempo médo para realzação desta clusterzação fo de 14, 2 segundos. FIGURA 3 Clusterzação com k varando entre 2 e 150 A fgura 4 apresenta a mesma clusterzação com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,94 segundos. É possível constatar que o número de clusters encontrado corresponde ao número de classes exstentes na base, ou seja, gual a três. FIGURA 3 Clusterzação com k varando entre 2 e 10 A tabela 1 apresenta os resultados obtdos através da abrangênca - equação (9), acuráca - equação (10), bem como da matrz de classfcação, consderando a manutenção dos quatro atrbutos das nstâncas. A matrz de classfcação ndca o número de amostras classfcadas em cada classe. A stuação deal é estar toda a amostragem de uma classe na dagonal prncpal. Valores fora da dagonal prncpal ndcam erro de classfcação. Número de Amostras da Classe no Cluster Abrangênc a = (9) Número Total de Amostras da Classe 7

Número de Amostras da Classe no Cluster Acuráca = (10) Número Total de Amostras do Cluster TABELA 1 - Caso de teste: todos os quatro atrbutos Da análse da tabela 1 verfca-se que a classe Írs-Setosa é lnermente separável, enquanto que as classes Írs-Vescolor e Írs-Vergnca não. 4.2. SEGUNDA ETAPA: REMOÇÃO DE UM ATRIBUTO A segunda etapa de testes consstu na remoção de um dos atrbutos. Foram realzados quatro testes, um para cada atrbuto removdo, dos quatro possíves. 4.2.1. Remoção do atrbuto comprmento da sépala A tabela 2 apresenta os resultados obtdos com a remoção do atrbuto comprmento da sépala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,78 segundos. TABELA 2 - Remoção do atrbuto comprmento da sépala Pode-se verfcar na tabela 1 e na tabela 2 que a abrangênca da classe Írs-Vescolor se manteve constante em 94% e acuráca melhorou de 77,05% para 92,16%, enquanto na classe Írs-Vrgnca a abrangênca melhorou de 72% para 92% e a acuráca de 92,31% para 93,88%. O que ndca que o conjunto de atrbutos (largura da sépala, comprmento da pétala e largura da pétala) é relevante para separabldade das classes permtndo obter um resultado melhor do que com quatro atrbutos. 4.2.2. Remoção do atrbuto largura da sépala A tabela 3 apresenta os resultados obtdos com a remoção do atrbuto largura da 8

sépala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,94 segundos. TABELA 3 - Remoção do atrbuto largura da sépala Pode-se verfcar na tabela 1 e na tabela 3 que a abrangênca classe Írs-Vescolor melhorou de 94% para 96% e acuráca de 77,05% para 80%, enquanto na classe Írs- Vrgnca a abrangênca melhorou de 72% para 76% e a acuráca de 92,31% para 95%. O que ndca que o conjunto de atrbutos (comprmento da sépala, comprmento da pétala e largura da pétala) é relevante para separabldade das classes permtndo encontrar um resultado melhor do que com quatro atrbutos. 4.2.3. Remoção do atrbuto comprmento da pétala A tabela 4 apresenta os resultados obtdos com a remoção do atrbuto comprmento da pétala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,94 segundos. TABELA 4 - Remoção do atrbuto comprmento da pétala Pode-se verfcar na tabela 1 e na tabela 4 que a abrangênca classe Írs-Vescolor porou de 94% para 78% e acuráca de 77,05% para 72,22%, enquanto na classe Írs- Vrgnca a abrangênca porou de 72% para 70% e a acuráca de 92,31% para 76,09%. O que ndca que o conjunto de atrbutos (comprmento da sépala, largura da sépala e largura da pétala) não é relevante para separabldade das classes. 4.2.4. Remoção do atrbuto largura da pétala A tabela 5 apresenta os resultados obtdos com a remoção do atrbuto largura da pétala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,79 segundos. TABELA 5 - Remoção do atrbuto largura da pétala 9

Pode-se verfcar na tabela 1 e na tabela 5 que a abrangênca classe Írs-Vescolor porou de 94% para 90% e acuráca melhorou de 77,05% para 77,59%, enquanto na classe Írs-Vrgnca a abrangênca melhorou de 72% para 74% e a acuráca porou de 92,31% para 88,10%. O que ndca que o conjunto de atrbutos (comprmento da sépala, largura da sépala e comprmento da pétala) não é relevante para separabldade das classes. 4.3. TERCEIRA ETAPA: REMOÇÃO DE DOIS ATRIBUTOS A tercera etapa de testes consstu na remoção de dos dos atrbutos. Foram realzados ses testes, correspondendo aos arranjos sem repetção possíves. 4.3.1. Remoção dos atrbutos comprmento e largura da pétala A tabela 6 apresenta os resultados obtdos com a remoção dos atrbutos comprmento da pétala e largura da pétala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,78 segundos. TABELA 6 - Remoção dos atrbutos comprmento e largura da pétala Pode-se verfcar na tabela 6 que apenas dos clusters foram formados. Um cluster teve abrangênca de 100% da classe Írs-Setosa e o outro cluster teve abrangênca de 94% da classe Írs-Vrgnca. As amostras da classe Írs-Vescolor fcaram dstrbuídas entre estes dos clusters nas proporções de 42% e 58%, respectvamente. O que ndca que o conjunto de atrbutos (comprmento da sépala e largura da sépala) não é relevante para separabldade das classes. 4.3.2. Remoção dos atrbutos largura da sépala e comprmento da pétala A tabela 7 apresenta os resultados obtdos com a remoção dos atrbutos largura da sépala e comprmento da pétala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,78 segundos. TABELA 7 - Remoção dos atrbutos largura da sépala e comprmento da pétala 10

Pode-se verfcar na tabela 1 e na tabela 7 que a abrangênca classe Írs-Vescolor porou de 94% para 76% e acuráca porou de 77,05% para 74,51%, enquanto na classe Írs- Vrgnca a abrangênca melhorou de 72% para 74% e a acuráca porou de 92,31% para 80,43%. O que ndca que o conjunto de atrbutos (comprmento da sépala e largura da pétala) não possu relevânca para separabldade das classes. 4.3.3. Remoção dos atrbutos comprmento da sépala e da pétala A tabela 8 apresenta os resultados obtdos com a remoção dos atrbutos comprmento da sépala e comprmento da pétala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,62 segundos. TABELA 8 - Remoção dos atrbutos comprmento da sépala e da pétala Pode-se verfcar na tabela 1 e na tabela 8 que a abrangênca da classe Írs-Setosa porou de 100% para 98%, a abrangênca classe Írs-Vescolor porou de 94% para 92% e acuráca melhorou de 77,05% para 86,79%, enquanto na classe Írs-Vrgnca a abrangênca melhorou de 72% para 88% e a acuráca porou de 92,31% para 91,67%. O que ndca que o conjunto de atrbutos (largura da sépala e largura da pétala) possu relevânca para separabldade das classes permtndo obter um resultado satsfatóro com apenas dos atrbutos. 4.3.4. Remoção dos atrbutos largura da sépala e da pétala A tabela 9 apresenta os resultados obtdos com a remoção dos atrbutos largura da sépala e largura da pétala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,62 segundos. TABELA 9 - Remoção dos atrbutos largura da sépala e da pétala 11

Pode-se verfcar na tabela 9 que quatro clusters foram formados. O prmero cluster teve abrangênca de 100% da classe Írs-Setosa com acuráca de 100%, o segundo cluster teve abrangênca de 54% da classe Írs-vescolor com acuráca de 96,43%, o tercero cluster teve abrangênca de 44% classe Írs-Vrgnca com acuráca de 100%. As demas amostras das classes Írs-Vescolor e Írs-Vrgnca fcaram dstrbuídas no quarto cluster nas proporções de 46% e 54%, respectvamente. O que ndca que o conjunto de atrbutos (comprmento da sépala e comprmento da sépala) possu relatva relevânca para separabldade das classes. 4.3.5. Remoção dos atrbutos comprmento e largura da sépala A tabela 10 apresenta os resultados obtdos com a remoção dos atrbutos comprmento da sépala e largura da sépala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,47 segundos. TABELA 10 - Remoção dos atrbutos comprmento e largura da sépala Pode-se verfcar na tabela 10 que cnco clusters foram formados. O prmero cluster teve abrangênca de 100% da classe Írs-Setosa com acuráca de 100%, o segundo cluster 12

teve abrangênca de 56% da classe Írs-Vescolor com acuráca de 96,55%, o tercero cluster teve abrangênca de 34% da classe Írs-Vescolor com acuráca de 100%. O segundo e o tercero clusters juntos cobrem 90% das amostras da classe Írs-Vescolor com 90% de acuráca. O quarto cluster teve abrangênca de 52% classe Írs-Vrgnca com acuráca de 83,87%, o qunto cluster teve abrangênca de 46% classe Írs-Vrgnca com acuráca de 100%. O quarto e o qunto clusters juntos cobrem 98% da classe Írs-Vrgnca com 98% de acuráca. O que ndca que o conjunto de atrbutos (comprmento da pétala e largura da sépala) possu relevânca relatva para separabldade das classes. 4.3.6. Remoção dos atrbutos comprmento da sépala e largura da pétala A tabela 11 apresenta os resultados obtdos com a remoção dos atrbutos comprmento da sépala e largura da pétala. A clusterzação fo realzada com o valor de k varando entre 2 e 10. O tempo médo para realzação desta clusterzação fo de 0,62 segundos. TABELA 11 - Remoção dos atrbutos comprmento da sépala e largura da pétala Pode-se verfcar na tabela 11 que quatro clusters foram formados. O prmero cluster teve abrangênca de 100% da classe Írs-Setosa com acuráca de 100%, o segundo cluster teve abrangênca de 48% da classe Írs-vescolor com acuráca de 100%, o tercero cluster teve abrangênca de 62% classe Írs-Vrgnca com acuráca de 100%. As demas amostras das classes Írs-Vescolor e Írs-Vrgnca fcaram dstrbuídas no quarto cluster nas proporções de 52% e 38%, respectvamente. O que ndca que o conjunto de atrbutos (comprmento da sépala e comprmento da sépala) possu relevânca relatva para separabldade das classes. 5. CONCLUSÃO A determnação automátca do número deal de clusters de uma base, bem como a redução da dmensonaldade dos dados através da seleção dos atrbutos mas relevantes para separabldade das classes são duas funções de grande utldade para análse do comportamento dos dados. Este trabalho combnou as seguntes estratégas para solução do problema de clusterzação automátca: mplementação do método K-Means, ncalzação dos centródes com dspersão unforme sobre o espaço de representação e maxmzação do valor da função G(k). A fm de avalar os resultados, realzou-se a clusterzação da base de dados Írs Plants Database utlzando-se um processo manual de múltplas terações para seleção de um 13

conjunto de atrbutos canddatos relevantes. Para o conjunto de três atrbutos, os melhores resultados foram, em ordem de prordade: {largura da sépala, comprmento da pétala e largura da pétala} (seção 4.2.1 ), segudo do conjunto {comprmento da sépala, comprmento da pétala e largura da pétala} (seção 4.2.2). Os resultados dos testes comprovaram ser possível melhorar o desempenho da clusterzação com a redução de um atrbuto. Para o conjunto de dos atrbutos, os melhores resultados foram, em ordem de prordade: {largura da sépala e largura da pétala} (seção 4.3.3 ), segudo do conjunto {comprmento da pétala e largura da sépala} (seção 4.3.5 ). Os resultados revelaram que é possível encontrar resultados satsfatóros mesmo com apenas dos atrbutos. Os dferentes arranjos possíves de 4 atrbutos resultaram em 10 casos de testes. Para cnco atrbutos são necessáros 25 casos de testes. Devdo a sua natureza combnatoral, a solução proposta para bases com grande número de atrbutos torna-se um problema NP- Dfcl ou ntratável computaconalmente. Em trabalhos futuros utlzar-se-á uma estratéga metaheurístca híbrda. 6. REFERÊNCIAS BIBLIOGRÁFICAS [1] FASULO, D. An analyss of recent work on clusterng algorthms. Techncal report, 01-03-02, Seattle: Unversty Of Washngton - Department Of Computer Scence And Engneerng, 1999. 23 p. [2] DOVAL, D.; MANCORIDIS, S.; MITCHELL, B.S. Automatc Clusterng of Software Systems Usng a Genetc Algorthm. step, p. 73, Software Technology and Engneerng Practce, 1999. [3] OCHI, L.S. Problemas de Clusterzação em Mneração de Dados. In: Encontro Regonal de Informátca RJ/ES, 2004, Vtóra. Anas do ERI 2004 RJ/ES, Vtóra: ERI, 2004. p.1-6. CD-ROM. [4] BERKHIN, P. Survey of Clusterng Data Mnng Technques. Techncal report, Accrue Software, San Jose, Calforna, 2002. [5] NG, R.T.; HAN, J. Effcent and Effectve Clusterng Methods for Spatal Data Mnng, In: Internatonal Conference on Very Large Data Base, 20, 1994, Santago. Proceedngs of DBLP. Santago: Morgan Kaufmann,1994. p. 144-155. [6] ZHANG, B.; HSU, M.; DAYAL,U. K-harmonc Means - A Spatal Clusterng Algorthm wth Bosstng. In: Internatonal Workshop on Temporal, Spatal and Spato- Temporal Data Mnng, 1, 2000. Berln. Lecture Notes n Artfcal Intellgence. London: Sprnger-Verlag, Eds. J. F. Roddck & K. Hornsby, 2000. v. 2007, p.31-45. [7] KAUFMAN, L.; ROUSSEEUW, P.J. Fndng Groups n Data: an Introducton to Cluster Analyss. Wley Seres n Probablty and Mathematcal Statstcs. Appled Probablty and Statstcs, New York: Wley, 1990. [8] HAN, J.; KAMBER, M. Data Mnng Concepts and Technques. San Francsco: Morgan Kaufmann, 2001. 550 p. [9] CALINSKI, T.; HARABASZ, J. A dendrte method for cluster analyss. Communcatons n Statstcs - Theory and Methods, v. 3, (1), p. 1-27, 1974. [10] ASUNCION, A.; NEWMAN, D.J. (2007). UCI Machne Learnng Repostory [http://www.cs.uc.edu/~mlearn/mlrepostory.html]. Irvne, CA: Unversty of Calforna, Department of Informaton and Computer Scence. 14