UNIVERSIDADE FEDERAL DA BAHIA

Transcrição

1 UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO Leonardo de Jesus Silva Agrupamento de Serviços Web Semânticos Salvador 2014

2

3 Leonardo de Jesus Silva Agrupamento de Serviços Web Semânticos Monografia apresentada ao Curso de graduação em Ciência da Computação, Departamento de Ciência da Computação, Instituto de Matemática, Universidade Federal da Bahia, como requisito parcial para obtenção do grau de Bacharel em Ciência da Computação. Orientadora: Daniela Barreio Claro Universidade Federal da Bahia UFBA Orientador: Daniela Barreio Claro Salvador 2014

4

5 Leonardo de Jesus Silva Agrupamento de Serviços Web Semânticos Monografia apresentada ao Curso de graduação em Ciência da Computação, Departamento de Ciência da Computação, Instituto de Matemática, Universidade Federal da Bahia, como requisito parcial para obtenção do grau de Bacharel em Ciência da Computação. Orientadora: Daniela Barreio Claro Trabalho aprovado. Salvador, de dezembro de 2014: Daniela Barreio Claro Orientadora Professor Convidado 1 Professor Convidado 2 Salvador 2014

6

7 O conhecimento serve para encantar as pessoas. Não para humilhá-las. (Mário Sérgio Cortella)

8

9 Resumo O número crescente de serviços web impõe desafios maiores para encontrar um conjunto de serviços relacionados à necessidade do usuário. Quando esse usuário é um agente de software os serviços devem ainda ter descrições semânticas para desambiguação e obtenção de todos os serviços relacionados à uma atividade de forma transparente. Então o presente trabalho propõe a definir domínios de serviços web semânticos para facilitar a busca. Esses domínios devem conter serviços similares entre si conforme a funcionalidade que desempenham. Para determinar esses domínios de maneira automática são aplicados aplicados algoritmos de agrupamento. Foram aplicados os algoritmos de agrupamento Partitioning Around Medoids - PAM e o Agrupamento Hierárquico Aglomerativo além de desenvolvidas duas medidas de similaridade. Assim foram gerados quatro agrupamento através da combinação entre cada algoritmo e medida de dissimilaridade, sendo então avaliados através de duas medidas de validação silhueta e medida F. Os resultados demonstraram uma boa qualidade dos grupos gerados. Palavras-chaves: Serviços Web Semânticos. Algoritmos de Agrupamento. Medida de Similaridade Semântica.

10

11 Abstract The growing number of web services requires greater challenges to find a set of user needs related services. When that user is a software agent services must still have semantic descriptions for disambiguation and obtain all services related to a transparent activity. So this work proposes to define domains of semantic web services to facilitate the search. These domains should contain similar services to each other as the functionality they perform. To determine automatically those domains clustering algorithms are applied. We applied the Partitioning Around Medoids - PAM and the Agglomerative Hierarchical Clustering besides developed two measures of similarity. So were generated four grouping by combining each algorithm and dissimilarity measure, and then evaluated by silhouette and measure F. The results showed a good quality of the generated groups. Key-words: Semantic Web Service. Clustering Algorithms. Semantic Similarity Measure.

12

13 Lista de ilustrações Figura 1 Nível superior da ontologia serviço Figura 2 Um fragmento de uma ontologia sobre veículos Figura 3 Single link(dissio) Figura 4 Complete link(dissio) Figura 5 UPGMA(dissIO) Figura 6 UPGMC(dissIO) Figura 7 WPGMC(dissIO) Figura 8 WPGMA(dissIO) Figura 9 Ward(dissIO) Figura 10 PAM(dissIO) Figura 11 Single link(disssimple) Figura 12 complete link(disssimple) Figura 13 UPGMA(dissSimple) Figura 14 UPGMC(dissSimple) Figura 15 WPGMC(dissSimple) Figura 16 WPGMA(dissSimple) Figura 17 Ward(dissSimple) Figura 18 PAM(dissSimple) Figura 19 Medida F para os grupos gerados pelo PAM(dissIO) Figura 20 Medida F para os grupos gerados pelo Ward(dissIO) Figura 21 Medida F para os grupos gerados pelo PAM(dissSimple) Figura 22 Medida F para os grupos gerados pelo Ward(dissSimple)

14

15 Sumário 1 INTRODUÇÃO FUNDAMENTAÇÃO TEÓRICA Serviços Web Semânticos Algoritmos de Agrupamento Métodos Particionais Partitioning Around Medoid - PAM Agrupamento Hierárquico TRABALHOS RELACIONADOS PROPOSTA - DOMAINS TO SEMANTIC WEB SERVICES Medida Dissimilarity IO - dissio Medida Dissimilarity Simple - disssimple EXPERIMENTOS E RESULTADOS Ambiente Metodologia Experimentos Realizados Escolha dos Algoritmos Avaliação dos Grupos Resultados Escolha dos Algoritmos Avaliação dos Grupos CONCLUSÃO E TRABALHOS FUTUROS Referências

16

17 15 1 Introdução Com o crescimento da internet, a necessidade de integrar diversos sistemas torna evidente uma maior interoperabilidade entre os diversos fornecedores de serviços disponíveis. Esta interoperabilidade é garantida através da Service-Oriented Architecture(SOA)(RAINES, 2013) que permite integrar componentes descritos de forma consistente em um formato de serviço web. Assim, um serviço web é definido como um sistema de software projetado para suportar interação máquina-a-máquina interoperável sobre uma rede. Ele tem uma interface descrita em um formato processável por máquina (RAINES, 2013, tradução nossa). Ma et al. (2008) lista alguns mecanismos para encontrar serviços web como os portais de serviços, motores de busca e registros de serviços Universal, Description, Discovery and Integration 1 (UDDI). Al-Masri e Mahmoud (2008) monitoraram essas fontes de serviços web e verificaram um declínio na quantidade de serviços acessíveis através de UDDI enquanto que houve um crescimento através de portais de serviços e rastreamento web (web crawling). Em um repositório UDDI, apenas 53% dos serviços estão ativos enquanto que através de motores de busca 92% dos serviços obtidos estão ativos. No entanto, encontrar esses serviços em motores de busca é difícil. Hatzi et al. (2012) mostra que numa pesquisa por documentos Web Services Description Language(WSDL)(CHRISTENSEN et al., 2001) no Google, Yahoo e Bing apenas 12% dos resultados obtidos apresentam descrições WSDL. Isso acontece porque esses motores de busca consideram todos os termos do documento, não considerando estruturas específicas de documentos WSDL(HATZI et al., 2012). Além disso, oferecem apenas meios sintáticos para a busca de serviços dificultando a sua descoberta, pois palavras podem ser ambíguas(possuir mais de um significado) ou ainda sinônimos(várias palavras possuírem o mesmo significado) provocando a obtenção de serviços indesejados e não relevantes para o usuário ou a não obtenção de serviços relevantes. Diante desse cenário, os serviços disponíveis precisam ser descritos de maneira não ambígua com intuito de maximizar a relevância nos resultados obtidos. Algumas linguagens de descrições permitem relacionar parâmetros dos serviços a um conceito em uma ontologia elas são OWL-S(BURSTEIN et al., 2004), WSMO(BRUIJN et al., 2005) e SAWSDL(KOPECKY et al., 2007). Os serviços com essas descrições são conhecidos como Serviços Web Semânticos(SWS). Com os SWS, determinar sua funcionalidade automaticamente é mais fácil. No entanto, com o crescimento da internet existirá ainda mais serviços web similares, ou seja, que executam tarefas semelhantes. Esses serviços podem estar em diferentes ramos de atividade como indústria, comércio, governo, etc. Assim, o presente trabalho propõe definir domínios de serviços 1 UDDI é um serviço de diretório onde é permitido empresas registrar(publicar) e buscar(descobrir) serviços web. A descoberta é baseada em palavra chave e navegação sobre categorias.

18 16 Capítulo 1. Introdução para facilitar a busca. Para isso, dois tipos de algoritmos de agrupamento e duas medidas de dissimilaridade entre os serviços semânticos foram propostas(silva et al., 2015). Experimentos foram definidos com o intuito de avaliar os agrupamentos gerados e os resultados apontam que domínios podem ser automaticamente definidos para agrupar SWS. O presente trabalho está organizado como segue: O Capítulo 2 apresenta os conceitos relacionados a serviços web e serviços web semânticos e uma descrição de alguns algoritmos de agrupamento. O Capítulo 3 apresenta os trabalhos relacionados. O Capítulo 4 apresenta a proposta e como medir a similaridade entre serviços. O Capítulo 5 faz uma análise dos resultados produzidos pelos algoritmos. Finalizando, no Capítulo 6 seguem as conclusões e considerações finais.

19 17 2 Fundamentação Teórica Neste capítulo será apresentado primeiro, como serviços web são descritos e como podem ser chamados de similares. Segundo, apontar as características dos algoritmos de agrupamento que serão utilizados neste trabalho. 2.1 Serviços Web Semânticos Como definido na introdução serviços web é um sistema de software projetado para suportar interação máquina-a-máquina interoperável sobre uma rede. Ele tem uma interface descrita em um formato processável por máquina (RAINES, 2013, tradução nossa). Portanto, tais serviços podem ser escritos em diferentes linguagens de programação, estar em diferentes sistemas operacionais ou sob diversas redes em empresas diferentes, e mesmo assim comunicarse entre si de maneira automática. Um exemplo hipotético seria de uma agência de viagem. Para fechar um pacote de viagem, um sistema dessa agencia poderia comunicar-se com pelo menos três outros serviços. Primeiro, um serviço web de uma companhia aérea para reserva de passagem de avião, segundo, um serviço de uma locadora de carros para aluguel de veículo para transportar o passageiro do aeroporto para o hotel e terceiro, um serviço web do hotel que permite fazer a reserva de quarto. Todos esses devem satisfazer alguns requisitos da agência como local, assim a companhia deve ter voo da origem e para o destino desejado pelo cliente, a locadora e o hotel devem operar na cidade destino. Se existe mais de uma opção de hotel, por exemplo, deve estabelecer outros critérios como preço ou conforto para selecionar entre eles ou verificar em quais hotéis existem vagas. Para fazer tais tarefas sem intervenção humana é necessária uma interface padrão que permita a comunicação entre esses serviços, que é a Web Services Description Language(WSDL) (CHRISTENSEN et al., 2001). Essa descrição resolve o problema da interface padrão, mas não facilita a busca de serviços similares ou serviços que possuem um determinado parâmetro de entrada desejado pelo usuário ou agente de software. Por exemplo, o usuário procura um serviço que tem o parâmetro tempo, referente a condição climática, e é retornado um serviço com parâmetro tempo no sentido de tempo decorrido. Encontrar serviços similares olhando para os arquivos WSDL(Código 2.1 envolve algumas etapas. Primeira, um pré-processamento que irá remover tags e palavras comuns a vários serviços web. Segunda, identificar algumas seções significativas para determinar sua similaridade. Algumas delas são complextype, messages e porttype (palavras mais significativas estão em negrito no Código 2.1) ainda há o content que apresenta uma descrição do serviço web. Ter-

20 18 Capítulo 2. Fundamentação Teórica Código 2.1 Trecho do serviço web WeatherForecast que mostra a estrutura de tipos, mensagens e portas. <wsdl:definitions targetnamespace=" <s:complextype> <s:sequence> <s:element minoccurs="0" maxoccurs="1" name="zipcode" type="s:string"/> </s:sequence> ComplexType </s:complextype>... <wsdl:message name="getweatherbyzipcodehttpgetin"> <wsdl:part name="zipcode" type="s:string"/> message </wsdl:message>... <wsdl:porttype name="weatherforecasthttpget"> <wsdl:operation name="getweatherbyzipcode"> <wsdl:input message="tns:getweatherbyzipcodehttpgetin"/> <wsdl:output message="tns:getweatherbyzipcodehttpgetout"/> </wsdl:operation> </wsdl:porttype> porttype ceira, aplicar uma medida de similaridade que relaciona dois serviços. Esta medida pode não ser tão efetiva, pois serviços descritos em WSDL são avaliados de maneira sintática estando sujeito a sinônimos e palavras ambíguas. Diferente da busca em documentos em que sinônimos geralmente estão presentes no mesmo documento, isso não acontece com documentos WSDL que são documentos pequenos. Para facilitar a descoberta de serviços e determinar o quanto os serviços web são similares entre si, no caso de desejar substituir um serviço por outro, deve ter uma forma não ambígua de descrevê-los. Então é necessária a incorporação de semântica para a representação de requisitos e capacidades dos serviços web. Assim surge os serviços web semânticos(burstein et al., 2004). Afim de incorporar semântica aos serviços algumas linguagens de descrição semântica são comumente referenciadas na literatura. São elas OWL-S (BURSTEIN et al., 2004), WSMO(BRUIJN et al., 2005) e o SAWSDL(KOPECKY et al., 2007). Neste trabalho, é utilizada a OWL-S uma ontologia de serviços baseada sobre a Ontology Web Language (OWL)(MCGUINNESS; HARMELEN, 2004). OWL se destina a ser usada quando as informações contidas em documentos necessitam ser processadas por aplicações, em oposição a situações onde o conteúdo somente necessita ser apresentado para humanos. OWL pode ser utilizada para explicitamente representar o significado dos termos em vocabulários e relacionamento entre esses termos. Esta representação dos termos e seus interrelacionamentos é chamada de ontologia. OWL tem mais facilidades para expressar termos e semântica que XML, RDF e RDF-S, assim OWL vai além dessas linguagens em sua capacidade de representar conteúdo interpretável por máquina(mcguinness; HARMELEN, 2004, tradução nossa).

21 2.1. Serviços Web Semânticos 19 A Figura 1 mostra as classes 1, do nível mais alto da ontologia serviço, representadas pelas elipses e suas propriedades representadas pelas setas. Os nomes dessas propriedades são presents, supports e describedby que relaciona a classe Service às classes ServiceProfile, ServiceGrounding e ServiceModel. Cada uma dessas classes descrevem o serviço buscando responder as perguntas o que faz, como acessá-lo e como funciona. Figura 1 Nível superior da ontologia serviço. Fonte: Burstein et al. (2004, tradução nossa) 1. A classe ServiceProfile(Código 2.2) diz a um agente de busca o que o serviço faz. Isso inclui uma descrição do que é realizado pelo serviço, limitações de aplicabilidade e qualidade do serviço e requisitos que o solicitante deve satisfazer para utilizá-lo(burstein et al., 2004). Onde apresenta os parâmetro dos serviços. Esses parâmetros são conhecidos como IOPE(input, output, preconditions e effects/result). Neste trabalho serão utilizados apenas o input e output. 2. A classe ServiceModel diz como um cliente deve utilizar o serviço, detalhando o conteúdo semântico dos pedidos, as condições em que os resultados particulares irão ocorrer, e se necessário, o passo a passo dos processos que levam a esses resultados(burstein et al., 2004). No Código 2.3, é mostrado uma subclasse da servicemodel a classe service- Process. Neste é possível notar a qual classe na ontologia cada parâmetro é mapeado. Por exemplo o _PERSON, está relacionado à classe books.owl#person na ontologia books. 1 Classes definem um grupo de indivíduos que estão juntos por compartilharem características comuns entre si. A raiz da ontologia é a classe Thing(algo).

22 20 Capítulo 2. Fundamentação Teórica Código 2.2 Trecho do OWL-S: Service Profile <profile:profile rdf:id="creditaccountbookperson PROFILE"> <service:ispresentedby rdf:resource="#creditaccountbookperson SERVICE"/> <profile:servicename xml:lang="en"> Book Shopping </profile:servicename> <profile:textdescription xml:lang="en"> This service checks validity of a credit account of an authorised person and adds the selected book in his shopping cart. </profile:textdescription> <profile:hasinput rdf:resource="#_person"/> <profile:hasinput rdf:resource="#_book"/> <profile:hasinput rdf:resource="#_creditaccount"/> <profile:hasoutput rdf:resource="#_price"/> <profile:hasresult rdf:resource="#bookordered"/> IOPE <profile:hasprecondition rdf:resource="#authorization"/> <profile:has_process rdf:resource="creditaccountbookperson PROCESS" /> </profile:profile> Código 2.3 Trecho do OWL-S: Service Process <process:input rdf:id="_person"> <process:parametertype rdf:datatype=" </process:parametertype> <rdfs:label></rdfs:label> </process:input> Parâmetro _PERSON Classe Person <process:input rdf:id="_book"> <process:parametertype rdf:datatype=" </process:parametertype> <rdfs:label></rdfs:label> </process:input> 3. Por último a classe ServiceGrounding que especifica os detalhes de como acessar o serviço, mapeando as representações abstratas dos parâmetros para a especificação concreta(burstein et al., 2004). Como já existe uma grande quantidade de serviço web descritos em WSDL, serviços OWL-S tomam tais descrições como base. Neste trabalho não são utilizados as informações contidas nessa classe. 2.2 Algoritmos de Agrupamento Algoritmos de agrupamento permitem que grandes quantidades de dados sejam agrupados através de uma medida de similaridade onde dados de alta similaridade entre si ficam dentro de um mesmo grupo mas são dissimilares a dados de outros grupos(han; KAMBER, 2006).

23 2.2. Algoritmos de Agrupamento 21 Existem vários algoritmos de agrupamento na literatura e é difícil fazer uma classificação nítida dos métodos de agrupamento, pois essas categorias podem se sobrepor(han; KAMBER, 2006). Ainda assim, é possível apresentar uma relativamente organizada categorização dos métodos de agrupamento. Eles podem ser: métodos particionais é definido um número k de clusters que devem ter pelo menos um objeto e um objeto pode estar em apenas um grupo. métodos hierárquicos, que se dividem entre aglomerativos e divisivos que será apresentado na subseção métodos baseados em densidade se baseiam na noção de densidade, um grupo continua crescendo agregando objetos "vizinhos"até um determinado limiar for atingido, isto é, para cada objeto dentro de um cluster, sua vizinhança tem um determinado raio onde deve ter uma quantidade mínima de objetos. métodos baseados em grid quantifica o espaço do objeto em um número finito de células que forma uma estrutura em grid. Todas as operações de agrupamento são realizadas sobre essas estrutura. métodos baseados em modelos supõe um modelo para cada um dos grupos e encontra o melhor ajuste dos dados ao modelo apresentado. Esses métodos podem encontrar grupos construindo uma função de densidade que reflete a distribuição espacial dos objetos. Outra categorização pode ser vista no survey (XU; WUNSCH, 2005), tal como fuzzy que permite que um objeto pode pertencer a todos os grupos com um certo grau de relacionamento. Entretanto, nem todos os algoritmos podem ser utilizados, seja por que alguns funcionam apenas para dados numéricos (k-means) ou porque grupos formados necessitam possuir formas arbitrárias como reconhecimento de imagem. Nas duas seções seguintes serão descritos os métodos de agrupamento particionais e hierárquico, os algoritmos que serão utilizados nesse trabalho Métodos Particionais Os mais bem conhecidos e comumente utilizados métodos de agrupamento são k-means, k-medoids e suas variações(han; KAMBER, 2006; XU; WUNSCH, 2005). Tanto k-means quanto o k-medoids tem um parâmetro de entrada k e particiona um conjunto de N objetos em k clusters onde k N. No k-means cada grupo é representado por um centróide, isto é, um valor médio entre os objetos do grupo. Por exemplo, seja os objetos c 1 (2, 3) e c 2 (6, 7) de um cluster c, o centróide desse grupo será (4,5). Assim novos objetos

24 22 Capítulo 2. Fundamentação Teórica para entrar nesse grupo devem estar mais próximo desse centróide, do que de todos os outros centróides dos outros grupos. A cada objeto que entra, o centróide é atualizado. No k-medoid um dos objetos c 1 (2, 3) ou c 2 (6, 7) é escolhido para ser um medóide, um objeto que representa o grupo, os demais objetos ficam nos grupos onde tem maior similaridade com seu medóide. Os medóides podem ser trocados objetivando diminuir uma função custo total. Um algoritmo baseado em medóide é o Patitioning Around Medoid - PAM(KAUFMAN; ROUSSEUW, 1990). Quanto a complexidade de tempo, o k-means é O(Nkd), onde d é a dimensão do dado, e o PAM é O(k(N k) 2 ). Apesar da maior complexidade do PAM, este é menos sensível a outlier pois usa dados reais para representar o grupo e lida tanto com dados numéricos como não numéricos, pois não precisa calcular uma média(útil para esse trabalho devido os serviços web não serem representados por dados numéricos). O PAM que foi utilizado nesse trabalho para fazer o agrupamento dos serviços Partitioning Around Medoid - PAM O PAM baseia-se na busca de objetos representativos do conjunto de dados. Ele busca k objetos representativos entre todos os objetos a se agrupar. No algoritmo PAM os objetos representativos(objetos selecionados) são os assim chamados medóides de grupos. Depois de encontrar um conjunto de k objetos representativos, os k grupos são construídos pela atribuição de cada objeto do conjunto de dados ao objeto representativo mais próximo(kaufman; ROUSSEUW, 1990). O PAM possui duas fases BUILD e SWAP. Nessas fases são mantidos dois vetores, vetor D que armazena a distância de cada objeto j ao seu mais similar medóide, e E que armazena a distância de cada objeto j ao seu segundo mais similar medóide. Essas fases são descritas a seguir. 1. BUILD escolhe os k medóides iniciais(um agrupamento inicial). Eles podem ser escolhidos aleatoriamente ou outra forma definida pelo usuário. Nesse trabalho é utilizada a forma descrita por Kaufman e Rousseuw (1990). Alguns passos do Código 2.4 são descritos a seguir: Linha 2-3: O primeiro objeto selecionado m 1 possui a menor soma de dissimilaridades para com todos os outros objetos. Linha 4: Repete o laço k 1 vezes adicionando os medóides restantes. Linha 5-15: Busca um novo medóide entre todos os objetos não selecionados. Para todos os objetos i não selecionados são calculados o custo. O objeto que adicionar o menor custo, caso seja selecionado, entre todos os outros possíveis medóides será um candidato. Linha 17: O candidato definido na etapa anterior é marcado como medóide.

25 2.2. Algoritmos de Agrupamento 23 Código 2.4 Algoritmo fase BUILD 1 procedimento phasebuild() 2 m 1 <- objeto cuja a soma de dissimilaridade com todos os outros menor possivel. 3 addmedoid(m 1 ) 4 repita 5 para (objeto i não selecionado de C) faca 6 custo = 0 7 custoatual = 8 para (objeto j não selecionado de C) faca 9 custo+ = max(d j d(i, j), 0) 10 fim para 11 se (custo > custoatual) entao 12 custoatual = custo 13 candidatom edoid = i 14 fim se 15 fim para 16 addm edoid(candidatom edoid) 17 ate kmedoids 18 fim procedimento Código 2.5 Algoritmo fase BUILD 1 procedimento phaseswap() 2 custo = 0 3 custoatual = + 4 para (objeto i selecionado de C) faca 5 para (objeto h não selecionado de C) faca 6 para (objeto j não selecionado de C, j h) faca 7 se (d(j, i) > D j ) entao 8 se (d(j, h) < D j ) entao 9 custo+ = d(j, h) D j 10 fim se 11 senao 12 se (d(j, h) < E j ) entao 13 custo+ = d(j, h) d(j, i) 14 senao 15 custo+ = E j D j 16 fim se 17 fim se 18 fim para 19 se (custoatual > custo) entao 20 custoatual = custo 21 medoid = i 22 candidatoh = h 23 fim se 24 fim para 25 fim para 26 se (custoatual < 0) entao 27 troca(medoid, candidatoh) 28 reinicia o laço com o novo medoid selecionado objeto i. 29 fim se 30 fim procedimento

26 24 Capítulo 2. Fundamentação Teórica 2. SWAP(Código 2.5) tenta melhorar o conjunto dos objetos representativos. Para isso é considerado todos os pares (i, h) onde i é um objeto representativo e h não. Então é determinado o efeito de trocar o objeto i por h como objeto representativo. Diferentemente do BUILD, verifica o custo de trocar um dos medóides por outro. Assim, são avaliados quatro casos possíveis para determinar o custo da substituição de i(um objeto selecionado) por h. Esses casos são descritos abaixo: a) Sendo d(j, i) > D j e d(j, h) D j, j é mais distante de ambos, i e h, que de qualquer outro objeto representativo então j contribui com nenhum custo na substituição(linha 7). Objeto j não mudaria de medóide. b) Sendo d(j, i) > D j e d(j, h) < D j, j é mais distante do objeto i do que pelo menos um dos outros objetos representativos e mais próximo de h que qualquer objeto representativo(linha 9). O medóide h passaria a ser seu objeto representativo. c) Sendo d(j, i) = D j e d(j, h) < E j, j é mais próximo de h que do segundo objeto representativo mais próximo(linha 13). O medóide h passaria a ser seu objeto representativo. d) Sendo d(j, i) = D j e d(j, h) E j, j é pelo menos tão distante de h quanto do segundo mais próximo objeto representativo(linha 15). O segundo mais similar medóide passaria a ser o mais similar objeto representativo para j. Assim, é calculada a soma dos custos de cada j para cada par (i, h) de possíveis substituições. O par (i, h) que tiver menor custo e este for negativo, será feita a substituição de i por h, recomeçando o algoritmo. Se o custo não for negativo, o algoritmo para(linhas 26-29). Determinar a quantidade de grupos é outro desafio. Agrupamento são também chamados em aprendizagem de máquina como aprendizagem não supervisionada, ou seja, não se tem nenhum conhecimento dos dados a priori. Desta forma, não é possível se quer determinar a quantidade de grupos naturais uma coleção de dados pode ter. ROUSSEEUW (1987) propôs a largura da silhueta cujo valor varia de -1, mau agrupado, e 1, bem agrupado. Assim, o PAM pode ser executado algumas vezes com diferentes valores para k e tem a silhueta do agrupamento avaliada para cada uma delas. O valor de k que alcançar a silhueta média mais próxima de 1 é o que tem o melhor agrupamento Agrupamento Hierárquico Os algoritmos hierárquicos podem ser divisivos(top-down), ou seja, inicialmente todos os objetos estão em um grupo que vai se dividindo formando outros até cada grupo conter apenas um objeto, ou aglomerativos(bottom-up) começa com cada grupo contendo apenas um objeto e vão sendo unidos pares de grupos até formar apenas um. Esses algoritmos mantém

27 2.2. Algoritmos de Agrupamento 25 Código 2.6 Algoritmo Hierárquico Aglomerativo 1 Entrada: 2 k: quantidade de grupos para formar 3 D: um conjunto de dados contendo N objetos 4 Saida: k grupos 5 Inicie com M grupos(cada grupo com um objeto). Calcule a matriz de dissimilaridade para os M grupos. 6 repita 7 busque a distância mínima D(C i, C j ) = min 1 m,l M m l D(C m, C l ) onde D(*, *) é a função distância e combina os grupos C i e C j para formar um novo grupo 8 Atualize a matriz de proximidade para calcular as distâncias entre o novo grupo e os outros grupos. 9 ate formar k grupo uma estrutura hierárquica dos grupos formados. Assim é possível avaliar a estrutura e também poder fazer cortes em qualquer dos níveis da hierarquia. Esses cortes podem ser feitos de duas formas diferentes, fornecendo um k com a quantidade de grupos desejados, ou h, a altura num dendrograma 2, que considera a dissimilaridade entre os objetos e grupos. Neste trabalho foi determinado um limiar especificando uma quantidade predeterminada de grupos que se deseja formar. Assim o algoritmo começa com M grupos, onde cada grupo é composto por um objeto e para quando atinge a quantidade k de grupos especificados na entrada(código 2.6). Em relação às definições para distância(função distância D(*, *) Código 2.6) entre dois grupos existem diversos métodos de agrupamento aglomerativo. Xu e Wunsch (2005) o single link e complete link estão entre os mais populares. Everitt et al. (2011) mostram essas e outras definições: single link - a distância entre dois grupos é determinado pelos dois objetos mais próximos em diferentes grupos; complete link - a distância entre dois grupos é determinado pelos dois objetos mais distantes em diferentes grupos; média de grupo(upgma unweighted pair-group method using the average) - é definido como a média da distância de todos os possíveis pares de objetos que são compostos por um objeto de cada grupo; centróide(upgmc unweighted pair-group method using the centroid)- distância euclidiana ao quadrado entre vetores médio(centróide); 2 Dendrograma - uma forma de representar agrupamento hierárquico. É uma estrutura semelhante a árvore, onde a altura indica a dissimilaridade entre objetos e grupos

28 26 Capítulo 2. Fundamentação Teórica mediana (WPGMC weigthed pair-group method using the centroid) - É similar ao método centróide, exceto que os centróides dos grupos constituintes são ponderados igualmente para produzir o novo centróide do grupo mesclado; conexão média ponderada (WPGMA weigthed pair-group method using the average) - É similar a média de grupo, mas a distância ponderada entre grupos de acordo pelo inverso do número de objetos em cada classe; ward - A fusão de dois grupos baseia-se no tamanho do critério erro da soma dos quadrados(soma das distâncias euclidianas ao quadrado). O objetivo em cada iteração é minimizar o aumento na soma do erro ao quadrado total dentro do grupo; Cada um dessas formas de medir distância entre os grupos tem impactos na qualidade do agrupamento e alguns problemas já conhecidos na literatura. Everitt et al. (2011, pág. 79) apresentam uma tabela com algumas observações sobre esses métodos. Por exemplo, o single link tende a formar grupos desbalanceados especialmente em grandes conjuntos de dados ou UPGMC e WPGMC são sujeitos a reversão.

Exibir mais