Incrementais para Desambiguação de Nomes de Autores

UNIVERSIDADE FEDERAL DE OURO PRETO Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Luciano Vilas Boas Espiridião Universidade Federal de Ouro Preto Orientador: Anderson Almeida Ferreira Dissertação submetida ao Instituto de Ciências Exatas e Biológicas da Universidade Federal de Ouro Preto para obtenção do título de Mestre em Ciência da Computação Ouro Preto, Setembro de 2014

ii Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Luciano Vilas Boas Espiridião Universidade Federal de Ouro Preto Orientador: Anderson Almeida Ferreira

iii E77Re Espiridião, Luciano Vilas Boas. Estratégias para redução da fragmentação em métodos incrementais para desambiguação de nomes de autores [manuscrito] / Luciano Vilas Boas Espiridião. 2014. 71 f.: il. color., grafs., tabs. Orientador: Prof. Dr. Anderson Almeida Ferreira. Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Departamento de Computação. Área de concentração: Ciência da Computação 1. Ambiguidade - Teses. 2. Bibliotecas digitais - Teses. 3. Similaridade - Teses. I. Ferreira, Anderson Almeida. II. Universidade Federal de Ouro Preto. III. Título. Catalogação: sisbin@sisbin.ufop.br CDU: 168.35:808.1

Dedico este trabalho aos meus pais Isaac e Rosa, aos meus irmãos Fabiano, Nem e Felipe, ao meu sobrinho Iago e à minha esposa Camila e meu filho Bernardo. v

Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Resumo Ambiguidade de nomes de autores é um grande problema enfrentado pela comunidade científica. Este problema ocorre quando vários autores publicam artigos usando nomes similares, ou quando um mesmo autor publica seus artigos com variações do seu nome. Tradicionalmente, existem métodos de desambiguação automáticos que são aplicadas a todos os registros de citação que estão no repositório de uma biblioteca digital. Mas existem métodos incrementais, que apenas desambiguam os nomes dos autores durante a inserção de um registro de citação no repositório. Estes métodos foram propostos com o objetivo de se obter uma maior eficiência. Porém, como efeito colateral, vários registros de um mesmo autor podem ser considerados como pertencentes a diferentes autores, causando o que é chamado fragmentação. Neste trabalho, é realizado um estudo para comparar várias estratégias visando reduzir a fragmentação dos registros sem comprometer a pureza, ou seja, mantendo os grupos de registros atribuídos a um autor com registros somente de um autor. As estratégias avaliadas foram baseadas em técnicas capazes de isolar os registros de citação possivelmente atribuídos incorretamente durante o processo de desambiguação. A avaliação experimental mostra que algumas estratégias conseguiram produzir melhorias significativas em relação a uma abordagem incremental e mostraram-se muito competitivas em relação a alguns métodos tradicionais. vi

Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Abstract Ambiguity in author names is a hard problem faced by the scientific community. This problem occurs when multiple authors publish their articles using similar names, or when the same author publishes their articles with variations in their name. Traditionally, automatic disambiguation methods perform on all citation records in a digital library repository. On the other hand, incremental methods only disambiguate author names when a citation record is inserted into the repository. These methods have been proposed aiming to improve the efficiency. However, as a side effect, several records from the same author may be considered as belonging to different authors, fragmenting the citation list of a same author into several citation lists. In this work, we conduct a study to compare several strategies, in order to reduce this fragmentation without compromising purity, i.e., keeping the groups of records assigned to an author with records from only one author. The evaluated strategies were based on techniques able to isolate citation records possibly incorrectly attributed during the disambiguation process. The experimental evaluation shows that some strategies produce significant improvements against an incremental method and are very competitive compared with some traditional methods. vii

Declaração Esta dissertação é resultado de meu próprio trabalho, exceto onde referência explícita é feita ao trabalho de outros, e não foi submetida para outra qualificação nesta nem em outra universidade. Luciano Vilas Boas Espiridião viii

Agradecimentos A Deus, por dar sentido à minha existência e, principalmente, por colocar pessoas iluminadas em meu caminho. Pessoas sem as quais concluir esta etapa não teria sido possível. Ao meu orientador, professor Anderson Almeida Ferreira, que em todos os momentos acreditou neste trabalho, e muitas vezes, mais do que eu próprio, transmitindo-me todo o incentivo e confiança necessários para a conclusão desta Dissertação. Seus ensinamentos e orientação foram muito além da simples formação acadêmica. Ao professor David Menotti Gomes, pelo apoio e contribuição na etapa inicial deste trabalho. Também fico muito grato por seus conselhos, ensinamentos e por me recomendar ao professor Anderson. A todos os professores do DECOM com os quais convivi neste período e durante minha graduação, meu profundo agradecimento pelos ensinamentos e pela dedicação. Especial menção aos professores Guilherme Tavares de Assis e Andrea Iabrudi Tavares. Aos meus pais, Isaac e Rosa, por tudo que representam em minha vida e também pela minha formação como pessoa. À Camila, minha esposa, companheira e mãe de meu filho Bernardo. Seu apoio e sua dedicação ao nosso filho foi fundamental para que eu pudesse, em muitos momentos, me afastar da alegria do convívio com eles, para poder realizar as tarefas do Mestrado. Aos meus irmãos Fabiano, Nem e Felipe e meu sobrinho Iago. Por momentos de muita descontração... necessários. Mas, principalmente por fazerem parte da minha vida. Aos amigos e colegas, principalmente àqueles, que sempre estiveram presentes nos momentos mais importantes. Aos meus avós (Salim, Maria, Euzébio e Dolores), in memoriam, pelo carinho e pelos valores transmitidos. ix

Sumário Lista de Figuras Lista de Tabelas xii xiv Nomenclatura 2 1 Introdução 3 1.1 Motivação................................... 3 1.2 Caracterização do problema......................... 4 1.3 Objetivos................................... 7 1.4 Justificativa.................................. 8 1.5 Contribuições................................. 8 1.6 Organização da dissertação.......................... 9 2 Revisão Bibliográfica 10 2.1 Fundamentação teórica............................ 10 2.1.1 Definições............................... 10 2.1.2 Métrica de similaridade........................ 11 2.2 Trabalhos relacionados............................ 14 2.2.1 Métodos tradicionais de desambiguação de nomes de autores... 14 2.2.2 Método incremental de desambiguação de nomes de autores... 18 3 Método proposto 20 3.1 Abordagem incremental básica de desambiguação............. 21 3.2 Método de desambiguação incremental capaz de realizar fusões...... 22 3.3 Seleção de referências representativas.................... 24 3.4 Análise de complexidade........................... 28 x

4 Experimentos 30 4.1 Coleções de avaliação............................. 30 4.1.1 Coleções sintéticas.......................... 30 4.1.2 Coleções reais............................. 32 4.2 Baselines.................................... 34 4.2.1 INDi.................................. 34 4.2.2 HHC.................................. 35 4.2.3 LASVM-DBSCAN.......................... 35 4.3 Métricas de avaliação............................. 36 4.4 Configuração dos experimentos....................... 37 4.4.1 Representação das estratégias.................... 38 4.4.2 Configuração das estratégias..................... 38 4.5 Resultados e discussões............................ 39 4.5.1 SyntheticNew5............................ 39 4.5.2 SyntheticNew10............................ 40 4.5.3 SyntheticChange10.......................... 42 4.5.4 SyntheticChange50.......................... 43 4.5.5 KISTI................................. 45 4.5.6 BDBComp............................... 47 4.5.7 Comparação da estratégia TMC-CEN com os métodos HHC e o LASVM-DBSCAN.......................... 48 4.5.8 Tempo de execução.......................... 50 5 Considerações Finais 51 5.1 Conclusão................................... 51 5.2 Trabalho futuro................................ 52 Referências Bibliográficas 54 xi

Lista de Figuras 1.1 Exemplo de sinônimo. O mesmo autor e diferentes grafias do nome.... 5 1.2 Exemplo de homônimos. Vários autores, mas usando o mesmo nome... 6 2.1 Ângulos α e θ entre os vetores d 1 e r e r e d 2, respectivamente....... 13 3.1 Representação esquemática do método proposto............... 21 3.2 Representação da estratégia que considera todas as referências de cada grupo..................................... 25 3.3 Representação da estratégia que usa o DBDCAN............. 26 3.4 Representação da estratégia que usa o K-means.............. 27 3.5 Representação da estratégia que usa uma janela de tempo........ 27 3.6 Representação da estratégia que utiliza as referências próximas ao centroide 28 4.1 Distribuição do número de registros por carga (ano) em cada coleção sintética..................................... 32 4.2 Distribuição do número de registros por carga (ano) na coleção KISTI.. 33 4.3 Distribuição do número de registros por carga (ano) na coleção BDBComp. 34 4.4 Resultados do INDi e da estratégia TMC-CEN na coleção SyntheticNew5 em cada carga (ano).............................. 41 4.5 Resultados do INDi e da estratégia TMC-CEN na coleção SyntheticNew10 em cada carga (ano).............................. 42 xii

4.6 Resultados do INDi e da estratégia TMC-CEN na coleção Synthetic- Change10 em cada carga (ano)........................ 43 4.7 Resultados do INDi e da estratégia TMC-CEN na coleção Synthetic- Change50 em cada carga (ano)........................ 44 4.8 Coleção KISTI: Comparação do INDi com a estratégia ALL-ALL.... 46 4.9 Coleção BDBComp: Comparação do INDi com a estratégia ALL-ALL.. 48 xiii

Lista de Tabelas 4.1 Distribuição do número médio de publicações por ano por autor(dblp: 1984-2008)................................... 31 4.2 Grupos ambíguos na coleção BDBComp................... 34 4.3 Parâmetros usados pelo INDi e cada estratégia............... 38 4.4 Resultados na coleção SyntheticNew5. Melhores resultados, incluindo empates estatísticos, em negrito........................ 40 4.5 Resultados na coleção SyntheticNew10. Melhores resultados, incluindo empates estatísticos, em negrito........................ 41 4.6 Resultados na coleção SyntheticChange10. Melhores resultados, incluindo empates estatísticos, em negrito........................ 43 4.7 Resultados na coleção SyntheticChange50. Melhores resultados, incluindo empates estatísticos, em negrito........................ 44 4.8 Resultados na coleção KISTI. Melhores resultados, incluindo empates estatísticos, em negrito............................. 46 4.9 Resultados na coleção BDBComp. Melhores resultados, incluindo empates estatísticos, em negrito............................. 47 4.10 Comparação da estratégia TMC-CEN com os métodos tradicionais HHC e LASVM-DBSCAN. Os melhores, incluindo os empates estatísticos, estão em negrito................................... 49 4.11 Tempo de execução (segundos) das estratégias TMC-CEN e ALL-CEN e do INDi, em cada coleção........................... 50 xiv

List of Algorithms 3.1 Algoritmo Incremental Básico......................... 22 3.2 Algoritmo de Desambiguação Incremental que funde grupos similares à nova referência................................. 23 3.3 Função de Comparação............................ 24 xv

Computer science is no more about computers than astronomy is about telescopes. Edsger Dijkstra 1

Nomenclatura INDi HHC VSM TF-IDF PMG PMA DBLP BDBComp KISTI SyGAR CSLR DBSCAN LASVM EM ALL TMC DBS CEN KMS TIW Incremental Author Name Disambiguation Hierarchical Heuristic-Clustering Vector Space Model Term Frequency - Inverse Document Frequency Pureza Média por Grupo Pureza Média por Autor Digital Bibliography and Library Project Biblioteca Digital Brasileira de Computação Korea Institute of Science and Technology Information Synthetic Data Generator Categorical Sampling Likelihood Ratio Density-Based Spatial Clustering of Applications with Noise online Active Support Vector Machine Expectation Maximization All references (or All Clusters) Two Most Compatible DBSCAN Centroid K-means Time Window 2

Capítulo 1 Introdução 1.1 Motivação Uma Biblioteca Digital pode ser definida como um sistema de informação complexo a partir do qual se pode oferecer uma gama de serviços, tais como armazenamento, pesquisa, integração e análise, sobre os dados de interesse de uma comunidade específica, como, por exemplo, medicina, literatura ou computação. Em um repositório de uma biblioteca digital são armazenados os metadados de objetos digitais. Estes podem ser provenientes de várias fontes, mas relativos a uma mesma área de interesse e possuem o propósito de atender a uma determinada comunidade (Borgman, 1999). Na comunidade científica, bibliotecas digitais tornaram-se uma importante fonte de informação. Através de uma interface centralizada, é possível ter acesso a diversas publicações científicas, por exemplo. Ao proporcionar o agrupamento de metadados referentes a publicações científicas, como o nome dos autores, o título do trabalho e o título do veículo de publicação, pode-se utilizar o conteúdo dessas bibliotecas para vários tipos de análise. Instituições podem, por exemplo, utilizar as informações contidas em uma biblioteca digital para avaliar a produção de um pesquisador (Levin, 2010). Os dados em um repositório de uma biblioteca digital são disponibilizados aos seus usuários por meio de uma rede de computadores, por exemplo, a Internet, obedecendo a um esquema de dados pré-definido. Com o crescimento do acesso à Internet, esses sistemas consolidaram-se como uma importante fonte para consulta, organização e integração de conteúdos. Seus dados estão em constante atualização e compreendem vários domínios 3

4 Introdução do conhecimento humano como, por exemplo, Educação e Pedagogia 1, Leis 2, Obras Literárias Antigas 3, dentre outros 4. Especificamente, as bibliotecas digitais de publicações científicas, que armazenam metadados (e possivelmente os artigos) referentes a publicações de trabalhos de pesquisa nas diversas áreas do conhecimento, aumentam a cada ano. E, com o aumento do número de pesquisas sendo realizadas, há um consequente aumento no número de publicações, o que ocasiona a geração de mais conteúdo e metadados. Com isso, há uma demanda crescente por mais espaço de armazenamento e poder de processamento nesses sistemas. Como exemplos, podem ser citadas a DBLP 5, CiteSeer 6 e a BDBComp 7. Essas bibliotecas digitais reúnem dados bibliográficos da área de Ciência da Computação. Outro exemplo é a MEDLINE 8 que é uma biblioteca digital de publicações científicas em Medicina. Todos os dados nessas bibliotecas precisam ser armazenados, organizados e revisados para serem disponibilizados de forma eficiente. Os dados de interesse podem ser autoarquivados nas bibliotecas digitais através da submissão de metadados e textos aos repositórios pelos próprios pesquisadores (Silva, 2004). Existem também outras maneiras de obtenção dos metadados, na forma de uma colheita automática (harvesting), por meio de protocolos criados para a simplificação deste trabalho como, por exemplo, o Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) (Lagoze and de Sompel, 2001), que é baseado em uma colheita periódica de dados de diferentes fontes. 1.2 Caracterização do problema Ambiguidade de nomes de autores é um grande problema enfrentado pela comunidade científica. Este problema ocorre quando vários autores publicam artigos usando nomes iguais (homônimos), ou quando um mesmo autor publica seus artigos usando variações do seu nome (sinônimos). Dentre os fatores que levam a este problema, podem ser citados, segundo McKay et al. (2010): uso de abreviações, mudanças de nome, inexistência de 1 http://www.paulofreire.ufpb.br/paulofreire 2 http://www.loc.gov 3 http://purl.pt/index/geral/pt/index.html 4 http://en.wikipedia.org/wiki/digital library 5 http://dblp.uni-trier.de 6 http://citeseer.ist.psu.edu 7 http://www.lbd.dcc.ufmg.br/bdbcomp 8 http://medline.cos.com

Introdução 5 regras e boas práticas de trabalho, erros tipográficos e geração de conteúdo de forma descentralizada. Nas bibliotecas digitais de publicações científicas, a ambiguidade pode gerar muitos problemas como, por exemplo, a fragmentação das publicações de um mesmo autor (split citation) ou a atribuição de publicações de autores distintos a um mesmo autor (mixed citation) (Lee et al., 2007). A seguir, são ilustradas as principais situações que podem levar ao problema de ambiguidade de nomes de autores. Também é discutido de que forma o problema da ambiguidade afeta os serviços de uma biblioteca digital. Para ilustrar um caso onde um mesmo autor publicou trabalhos usando variações do seu nome, assim chamado sinônimo, a Figura1.1 mostra o resultado de uma busca pelo autor José Palazzo Moreira de Oliveira na DBLP, usando o sobrenome Palazzo. Observe que há dois resultados, onde ambos se referem ao mesmo autor. Isso pode levar a uma divisão das publicações deste autor em vários grupos. Figura 1.1: Exemplo de sinônimo. O mesmo autor e diferentes grafias do nome. Já quando dois ou mais autores distintos publicam trabalhos utilizando o mesmo nome, chamado homônimo, pode levar a considerar como se essas publicações pertencessem a um único autor. A Figura 1.2 ilustra esta situação. Neste caso, é possível notar que ao procurar por A. Gupta são retornados vários registros mas, ao avaliar o resultado, percebe-se que alguns trabalhos são de autores distintos. Por exemplo, o trabalho, cujo título é Area efficient diode and on transistor inter-changeable power gating scheme

6 Introdução with trim options for SRAM design in nano-complementary metal oxide semiconductor technology, tem como um dos autores Anil Kumar Gupta ; o trabalho Three-phase magnitude-phased-locked loop using FPGA possui como autor Anubhav Gupta ; e o trabalho A Comparative Study of AI Techniques for Failure Risk Prediction in Lightning Surge Protection é do autor Atul Gupta. Figura 1.2: Exemplo de homônimos. Vários autores, mas usando o mesmo nome. Ambiguidade de nomes de autores afeta diretamente a qualidade do conteúdo de uma biblioteca digital, que pode conter milhões de registros de citação. Cada registro representa uma publicação e possui vários atributos como, por exemplo, os nomes dos autores, o título do trabalho, o título do veículo de publicação e o ano da publicação, dentre outros. O processo de definição de autoria pode atribuir registros de citação a autores, com base nos nomes presentes nos registros. Em razão da ambiguidade, como dito anteriormente, um processo automático de definição de autoria pode atribuir à mesma pessoa publicações de diferentes autores, resultando em impureza no repositório. Pode também dividir publicações do mesmo autor como se pertencessem a pessoas diferentes, conhecido como fragmentação. Um efeito direto a atribuição incorreta é na análise de citações. Por exemplo, a fragmentação pode fazer com que o H-index (Hirsch, 2005) de um determinado autor seja menor ou maior do que seu valor real. Métodos tradicionais automáticos de desambiguação visam reduzir as atribuições incorretas em um repositório (Ferreira et al., 2012b) atuando normalmente sobre todos os nomes de autores de citações bibliográficas. Mais formalmente, seja C = {c 1, c 2,..., c k } uma coleção de registros de citação. Cada registro de citação c i possui uma lista de atributos que inclui, pelo menos, os nomes dos autores, o título do trabalho, o título do local de publicação e o ano de publicação. Cada atributo possui um valor específico

Introdução 7 composto por uma lista de elementos. Um elemento do atributo nomes dos autores é o nome de um único autor. Cada elemento do atributo nomes dos autores é uma referência r j a um autor. A tarefa de desambiguação particiona o conjunto de m referências {r 1, r 2,..., r m } em um conjunto de n partições A = {a 1, a 2,..., a n }, onde cada partição a i deve conter apenas as referências a um determinado autor. Recentemente, foi proposto um método incremental de desambiguação para nomes de autores, conforme Carvalho et al. (2011). Este método desambigua apenas os novos registros de citação inseridos no repositório, sendo potencialmente mais eficiente e prático. Um método incremental atribui uma referência r j recém inserida a um grupo (ou partição) a i A ou a um novo grupo a k, que é adicionado ao conjunto A. Este último caso ocorre quando a referência pertence a um autor sem publicação prévia no repositório. Uma questão importante em relação à abordagem incremental é: como manter a pureza dos grupos, enquanto diminui-se a fragmentação? Por exemplo, o método proposto por Carvalho et al. (2011) foca na pureza dos grupos, visto que uma atribuição errônea de uma referência a um determinado grupo pode atribuir erroneamente outras referências a este mesmo grupo. Um efeito colateral indesejado ao forçar a pureza é um aumento na fragmentação. Uma alternativa é desambiguar, de tempo em tempo, todo o repositório. Mas isso tem um alto custo computacional, visto que repositórios podem conter milhões de registros. Além disso, todas as correções manuais 9 feitas visando a desambiguação podem ser perdidas. Alternativamente, em um determinado período, pode-se verificar a semelhança entre todos os grupos no repositório e fundir os semelhantes. Isso também tem um alto custo computacional, já que é necessário calcular a similaridade entre todos os grupos e mesclar os mais semelhantes. 1.3 Objetivos Objetivo geral O objetivo geral deste trabalho é propor estratégias para reduzir o problema de fragmentação gerado por métodos incrementais de desambiguação de nomes de autores. 9 Correções manuais podem ocorrer devido a algumas situação em que um método automático de desambiguação não tenha conseguido desambiguar corretamente as referências.

8 Introdução Objetivos específicos - Propor e avaliar formas de selecionar registros representativos de um grupo de registros de citações; - Propor e avaliar estratégias para diminuir a fragmentação em repositórios de bibliotecas digitais durante a desambiguação incremental. 1.4 Justificativa Exitem muitas propostas para tentar resolver este problema de ambiguidade de nomes de autores (Ferreira et al., 2012b) de forma automática, mas que atuam sobre todos os registros do repositório de uma biblioteca digital. Muitas delas propõem métodos eficazes mas apresentam um alto custo computacional e necessitam de especialistas humanos para rotular um grande volume de exemplos de treinamento, como no caso dos métodos supervisionados. A desambiguação incremental de nomes de autores pode representar uma solução. Esta abordagem visa desambiguar apenas os novos registros de citação que são inseridos em uma biblioteca digital e evita que todo o repositório seja desambiguado a cada nova carga, o que geralmente é feito por métodos não incrementais. Durante esta pesquisa encontrou-se apenas um trabalho que oferece uma proposta incremental (Carvalho et al., 2011) para desambiguação de nomes de autores. Entretanto, essa proposta apresenta um problema que é a fragmentação gerada no repositório. Como dito anteriormente, algumas vezes são realizadas correções manuais nos repositórios, que podem ser perdidas ao se utilizar algum método tradicional. Métodos incrementais também poderiam reduzir o tempo de processamento sendo efetivamente mais rápidos, conforme mostrado por Carvalho et al. (2011). 1.5 Contribuições Este trabalho propõe atuar sobre o ponto fraco da abordagem incremental, avaliando estratégias para reduzir a fragmentação. Neste sentido, pode-se listar como principais contribuições deste trabalho:

Introdução 9 - Avaliação de diversas estratégias que, combinadas com algoritmos incrementais, reduzam a fragmentação dos registros pertencentes a um mesmo autor em um repositório; - Proposta de um novo método incremental de desambiguação de nomes de autores que produz grupos puros e pouco fragmentados; - Utilização do registro de citação recém-inserido na biblioteca digital como elo para reduzir a fragmentação dos grupos de forma incremental; e - Avaliação experimental do novo método proposto em várias coleções (reais e sintéticas) (Espiridião et al., 2014). 1.6 Organização da dissertação Os demais capítulos desta dissertação estão organizados como segue. No Capítulo 2, é apresentada uma revisão bibliográfica, onde os conceitos e fundamentos utilizados neste trabalho e os principais trabalhos relacionados a este são descritos. No Capítulo 3, encontra-se a descrição detalhada do método proposto bem como o detalhamento das estratégias avaliadas para seleção de referências representativas. No Capítulo 4, é feita uma avaliação experimental das estratégias propostas, bem como a discussão dos resultados obtidos. Ao final, no Capítulo 5, é apresentada a conclusão do trabalho, sendo sugeridos alguns caminhos para trabalhos futuros.

Capítulo 2 Revisão Bibliográfica Neste capítulo, são apresentadas a fundamentação teórica necessária para o entendimento deste trabalho e uma revisão de recentes métodos de desambiguação. 2.1 Fundamentação teórica Para tornar mais clara a compreensão do leitor, são apresentados, nesta seção, os principais conceitos empregados ao longo deste trabalho. Apresentam-se, também, algumas técnicas para computar a similaridade entre cadeias de caracteres (strings). Primeiramente, são apresentados algumas conceitos e em seguida as métricas de similaridade utilizadas. 2.1.1 Definições Segue uma apresentação formal de alguns conceitos utilizados ao longo do texto. Definição 1 (Citação). Uma citação (Cota et al., 2010) é um conjunto de dados bibliográficos, por exemplo, nomes de autores (incluindo os coautores), título do artigo, título do veículo de publicação e o ano da publicação, que referem-se a um trabalho científico. Definição 2 (Registro de citação). Um registro de citação é definido por Oliveira (2005) como uma estrutura que contém os metadados relativos a uma citação. 10

Revisão Bibliográfica 11 As bibliotecas digitais armazenam ou exportam metadados de acordo com algum formato padrão, por exemplo, Dublin Core 1. Entretanto, estes padrões definem apenas a estrutura dos campos nos registros de citação. Neste trabalho, são utilizados os nomes dos autores, o título do trabalho, o título do veículo de publicação e o ano, como atributos dos registros de citação. Definição 3 (Referência). Uma referência, segundo Carvalho et al. (2011), representa a participação de um autor na autoria de uma determinada publicação. Uma referência possui os metadados que serão utilizados no processo de desambiguação, por exemplo, nome do autor, os nomes dos coautores que são os demais autores do trabalho, o título do trabalho, o título do veículo de publicação e o ano de publicação. Uma referência é gerada a partir de um registro de citação. Definição 4 (Grupo). Define-se grupo (Oliveira, 2005) como um conjunto de referências que representam uma lista de registros de citações de um mesmo autor. Desta forma, um método de desambiguação de nomes de autores deve produzir apenas um grupo para cada autor e em cada grupo deve haver apenas registros deste mesmo autor. Definição 5 (Grupo ambíguo). Um grupo ambíguo é composto por todas as referências com nomes de autores ambíguos (Oliveira, 2005). 2.1.2 Métrica de similaridade Nesta seção, são descritas algumas métrica de similaridade usadas neste trabalho. Primeiramente, é descrito o algoritmo conhecido como Comparação por Fragmentos (Oliveira, 2005), um algoritmo de casamento de padrão, especialmente desenvolvido para comparar nomes de pessoas. Em seguida, é apresentada a métrica Cosseno (Baeza-Yates and Ribeiro-Neto, 2008), outra métrica de similaridade empregada neste trabalho. Estas medidas são empregadas para a realização da comparação entre cadeias de caracteres que representam os nomes dos autores e coautores e os títulos dos trabalhos e dos locais de publicação, respectivamente. 1 www.dublincore.org

12 Revisão Bibliográfica Comparação por Fragmentos O algoritmo Comparação por Fragmentos, proposto por Oliveira (2005), baseia-se no algoritmo de Distância de Edição (Levenshtein, 1965) desenvolvido para trabalhar com a comparação de nomes de pessoas. Ele avalia cada fragmento, ou seja, cada termo separado por espaço, de duas cadeias de caracteres que representam nomes de pessoas. A avaliação dos fragmentos não requer casamento exato. Os parâmetros de entrada são duas cadeias de caracteres (c 1, c 2 ) e um limiar (valor real entre 0 e 1) utilizado para a distância de edição permitida para considerar fragmentos compatíveis. O algoritmo retorna verdadeiro se as cadeias são compatíveis (podem representar variações do nome de uma mesma pessoa) e falso caso contrário. Para que dois nomes de pessoas possam ser considerados compatíveis, eles devem possuir em comum, no mínimo, a mesma inicial do primeiro nome e o último sobrenome (para tanto, a distância de edição entre esses fragmentos deve ser menor que um limiar). Considerando-se c i [j] o j-ésimo termo da cadeia de caracteres i, deve-se verificar a primeira condição da seguinte forma: - se tanto c 1 [1] quanto c 2 [1] possuírem mais de um caracteres, então a distância de edição entre elas deve ser menor ou igual a um determinado limiar; - se c 1 [1] possuir mais de um caractere e c 2 [1] apenas um, então o primeiro caractere de c 1 [1] deve ser igual a c 2 [1]; - se c 2 [1] possuir mais de um caractere e c 1 [1] apenas um, então o primeiro caractere de c 2 [1] deve ser igual a c 1 [1]; - se c 1 [1] e c 2 [1] possuírem apenas um caractere, então ambos devem ser iguais. Em seguida, o algoritmo avalia os fragmentos intermediários, os quais podem ocorrer em qualquer ordem e/ou abreviados. Primeiro, avaliam-se os fragmentos por extenso. Caso encontre quaisquer c 1 [i] e c 2 [j] onde a distância de edição seja menor que um limiar, os dois fragmentos são marcados evitando que futuras comparações sejam realizadas. O algoritmo então compara os fragmentos por extenso de c 1 com as iniciais em c 2 e vice-versa. Por último, as iniciais em c 1 são comparadas com as iniciais de c 2. Para mais detalhes veja (Oliveira, 2005). Por exemplo, os nomes João Batista da Silva e J. Silva são considerados compatíveis, considerando-se o algoritmo de Comparação por Fragmentos.

Revisão Bibliográfica 13 Similaridade do Cosseno A similaridade baseada no cosseno (Baeza-Yates and Ribeiro-Neto, 2008) é uma métrica de similaridade normalmente utilizada para avaliar a semelhança entre documentos representados por meio de vetores. Esta função computa o cosseno do ângulo formado pelos vetores compostos pelos termos dos documentos como um valor real entre 0 e 1. Quanto mais próximo de 1, mais similares são os documentos, ao passo que, quanto mais próximo de 0 mais dissimilares eles são. A Figura 2.1 mostra que o vetor d 1 se aproxima mais do vetor r. Note que, o ângulo α (entre d 1 e r ) é menor que θ, o ângulo entre r e d 2. Figura 2.1: Ângulos α e θ entre os vetores d 1 e r e r e d 2, respectivamente. De maneira parecida, pode-se utilizar a medida do cosseno para avaliar a similaridade entre os autores (representados por vetores de seus termos) e os novos registros de citação (representados também pelos vetores de seus termos) que serão inseridos em uma biblioteca digital. Desta maneira, é possível calcular o cosseno entre a representação vetorial de um autor e do novo registro de citação, ou entre os termos dos títulos dos trabalhos ou dos títulos dos veículos de publicação. A Equação (2.1), a seguir, ilustra este cálculo. O numerador representa o produto escalar entre os vetores d j e r e o denominador representa o produto das normas (comprimento) calculadas a partir dos respectivos vetores d j e r.

14 Revisão Bibliográfica Cosine( d j, r ) = dj. r d j. r (2.1) onde - d j é um vetor formado pelos termos do autor j; - r é representado por um vetor também formado por seus termos. - d j é a norma de d j ; e - r é a norma de r. 2.2 Trabalhos relacionados Na literatura, é possível distinguir entre os métodos que removem a ambiguidade de todas as referências no repositório e aqueles que manipulam apenas as referências dos registros de citação recém inseridos, chamados métodos incrementais. Conforme (Ferreira et al., 2012b), o primeiro grupo pode ser dividido da seguinte forma: métodos baseados em agrupamento e métodos baseados em atribuição. Os métodos baseados em agrupamento utilizam as semelhanças entre os atributos dos registros para incluí-los em um mesmo grupo. Já os métodos baseados em atribuição visam atribuir diretamente as referências aos seus respectivos autores. Nas seções seguintes, são apresentados alguns dos vários trabalhos de desambiguação recentemente publicados. Estes trabalhos propõem técnicas para resolver o problema de ambiguidade de nome de autores. 2.2.1 Métodos tradicionais de desambiguação de nomes de autores Han et al. (2004) propõem duas abordagens baseadas em técnicas de aprendizagem supervisionada que usam nome de co-autores, título e veículo de publicação como atributos a serem usados na remoção de ambiguidade. O primeiro dos métodos é baseado no modelo Naive Bayes, que é um modelo estatístico gerativo e bastante utilizado para classificação. A segunda abordagem baseia-se em SVM (Support Vector Machines) que também são bastantes utilizados em classificação. Essas abordagens possuem a seguinte

Revisão Bibliográfica 15 diferença: a baseada em Naive Bayes necessita somente de exemplos positivos enquanto a SVM necessita de ambos os exemplos positivos e negativos na fase de treinamento. Um método que utiliza uma técnica de aprendizado não supervisionado, chamado K- way Spectral Clustering, é proposto por Han et al. (2005). Como evidências, são utilizados a lista de nomes de coautores, o título das publicações e o título do veículo de publicação. Esta técnica usa um parâmetro K que determina o número de autores presentes na coleção utilizada que deve ser definido inicialmente, o que pode ser inviável em situações reais. Esta técnica de agrupamento constrói um grafo a partir dos autovalores e autovetores de uma Matriz Laplaciana (valores singulares e vetores singulares de certos dados desta matriz) relacionada com o grafo que é gerado pelas relações entre os registros. Ferreira et al. (2010) propõem um método híbrido de desambiguação de nomes de autores que é dividido em duas fases. Na primeira, são obtidos, de forma automática, os exemplos para compor um conjunto de treino que será utilizado na segunda fase. Este conjunto é obtido a partir da informação de coautoria, capaz de gerar grupos com alta pureza. Na segunda fase, uma função de desambiguação capaz de detectar novos autores e melhorar o conjunto de treino com novos exemplos é inferida utilizando-se os exemplos de treinamento. A fase inicial elimina a necessidade de qualquer rotulagem manual para formar o conjunto de treino, pois os registros de citações são organizados utilizando um método de agrupamento que separa os registros de cada autor em grupos. Uma nova versão que melhora os resultados da anterior, fundindo grupos, foi proposta por Ferreira et al. (2014). Ambas as versões deste método trabalham a partir de um conjunto mínimo de evidências, ou seja, nomes dos autores, título do trabalho e título do veículo de publicação. Cota et al. (2010) elaboram um método baseado em heurísticas para um agrupamento hierárquico, denotado HHC (Hierarchical Heuristic-Clustering), que envolve duas fases. Na primeira, criam-se grupos iniciais de registros de citação, formados a partir de uma lista inicial contendo todos os registros de citação do repositório, e, na segunda, esses grupos são fundidos. Os grupos iniciais são formados a partir dos nomes dos autores considerados similares, usando o algoritmo de Comparação por Fragmentos Oliveira (2005), e compartilhem pelo menos um nome de coautor em comum. O resultado é que os grupos formados são mais puros, mas a lista de citações de um autor fica muito fragmentada, ou seja, são gerados vários grupos para um mesmo autor e cada grupo contém poucos registros de citação. Na segunda fase, são realizadas fusões sucessivas usando a similaridade dos títulos e dos veículos de publicação dos trabalhos. Esta heurística pressupõe que um pesquisador é capaz de produzir vários trabalhos em uma

16 Revisão Bibliográfica mesma área de interesse com publicações em um mesmo veículo de publicação. Para comparar os termos dos títulos dos trabalhos e dos veículos de publicação é utilizada a Similaridade do Cosseno ou o Coeficiente de Jaccard. O algoritmo para quando não ocorrerem mais fusões. Fan et al. (2011) apresentam um método de desambiguação de autores baseado em grafo. A abordagem inicia-se pela construção de um grafo dirigido. O grafo é construído com um vértice para cada ocorrência de nome de autor nos registros de citações e as arestas são formadas entre pares de vértices que representam nomes de autores que publicaram algum trabalho juntos. Somente um único atributo é utilizado para a remoção da ambiguidade que é o de coautoria. O método consiste em dividir as publicações a serem desambiguadas de forma que cada grupo deverá conter somente as publicações de um mesmo autor. Inicialmente, os grupos criados contêm registros de autores com nomes ambíguos. Para remover a ambiguidade, é utilizado um framework de desambiguação de nomes chamado GHOST (Graphical framework for name disambiguation). Este algoritmo cria um grafo, usando a rede de coautoria, a partir dos nomes ambíguos. É utilizado um algoritmo de caminhamento para definir se dois nomes referem-se ao mesmo autor. Caso refiram-se ao mesmo autor, eles ficam no mesmo grupo, caso contrário, são colocados em grupos distintos. Ferreira et al. (2012d) propõem o uso de uma técnica de seleção ativa para encontrar os melhores exemplos para a realização da fase de treinamento automático em um método de desambiguação supervisionado. A seleção dos exemplos representativos é feita de forma automática e sem a necessidade de parâmetros extras. A ideia principal deste método é fornecer resultados tão eficazes quanto os apresentados por Ferreira et al. (2010), mas selecionando um conjunto bem menor de exemplos de treinamento a partir do qual ele aprende as funções de desambiguação. Levin et al. (2012) apresentam um método supervisionado para a desambiguação de nomes de autores em grandes bases de dados bibliográficas. O método possui dois estágios. No primeiro, ele utiliza um conjunto de regras de alta precisão para gerar conjuntos (blocos) com registros de um mesmo autor. Estes blocos são gerados a partir dos registros que compartilham pelo menos um coautor em comum, mesma afiliação e o endereço eletrônico. No segundo estágio, um classificador supervisionado é treinado utilizando os grupos gerados na inicialização. Esta abordagem utiliza todas as evidências disponíveis para a desambiguação tais como nome dos coautores, título do artigo, endereço eletrônico, veículo de publicação, auto-citação (citação de trabalhos do mesmo autor),

Revisão Bibliográfica 17 afiliações, idioma, dentre outros. Este algoritmo também explora outras evidências como a auto-citação 2 combinando-a com outros atributos para aumentar a sua eficácia. Li et al. (2012) propõem uma nova abordagem para desambiguação de nomes de autores baseada em agrupamento. O foco do trabalho consiste na proposta de uma nova função para medir a similaridade entre os conjuntos de publicações, chamada Categorical Sampling Likelihood Ratio (CSLR). Essa nova função de similaridade é baseada em uma distribuição categórica de similaridade. O cálculo desta função utiliza os termos dos títulos dos veículos de publicação e os nomes do coautores dos trabalhos. O argumento que justifica o uso desta medida segue da hipótese que conjuntos categóricos de um mesmo autor assumem distribuições de similaridade parecidas. Como o processo é aglomerativo, os grupos são comparados dois a dois e aqueles com o valor máximo CSLR são fundidos. O método de desambiguação é dividido em duas etapas. Primeiro, são fundidos os grupos com base no cálculo de CSLR considerando os nomes dos coautores e, depois, há uma tentativa de fusão com base no valor do CSLR dos títulos dos veículos de publicação. Schulz et al. (2014) descrevem um método de desambiguação de nomes de autores para grandes bases de dados bibliográficos. Esse trabalho utiliza o grafo formado pela rede de coautores, auto-citação e citações extraídos da coleção Web of Science (WoS) 3. Primeiro, calculam-se todas as similaridades entre pares de trabalhos no repositório. Em seguida, o algoritmo passa pelo primeiro de dois estágios. No primeiro estágio, são estabelecidas ligações entre cada par de trabalhos para os quais a pontuação calculada seja maior do que um dado limiar. Em seguida, cada componente conectado (conjunto de trabalhos que podem ser alcançados a partir de outro trabalho percorrendo as ligações criadas a partir do grafo) é adicionado em um grupo. O objetivo deste estágio é que todos os trabalhos em um grupo pertençam ao mesmo autor. No segundo estágio, é realizada a fusão dos grupos formados no estágio anterior. Para isso, é calculada a similaridade entre todos os grupos. A similaridade entre dois grupos é obtida pela soma dos valores de similaridade, calculada entre os trabalhos em cada grupo, dividido pelo número de publicações em ambos os grupos. Hao et al. (2014) propõem um outro método de desambiguação de nomes de autores não supervisionado, baseado em agrupamento hierárquico. Esse método utiliza o modelo de Dempster-Shafer Theory (DST) proposto por Shafer (1976) e combinado com Shannon s entropy formula (Moreira and Wichert, 2013), usados para fundir os atributos dos registros 2 Auto-citação ocorre quando um autor cita um trabalho de sua própria autoria. 3 Um serviço on-line de indexação de trabalhos científicos mantido pela Thomson Reuters. Disponível em http://wokinfo.com

18 Revisão Bibliográfica de citação e, com isso, melhorar a precisão da busca por grupos candidatos. Esse trabalho utiliza os atributos: afiliação, título do veículo de publicação, conteúdo (resumo), nome dos coautores, citação e webcorrelation (correlação Web) como evidências para o processo de desambiguação. A DST fornece uma maneira de associar várias fontes de evidências na tarefa de desambiguação. Após a fusão das evidências usando a DST, obtém-se uma matriz que representa a correlação entre pares de referências. Esta matriz assemelha-se a uma matriz de similaridade tradicional. No entanto, cada entrada nesta matriz está ligada a uma função de crença (belief ) e uma função de plausibilidade (plausibility). Em uma primeira etapa, o conjunto inicial é dividido em grupos sementes utilizando-se os coautores. Ao fazer isso, espera-se obter um conjunto de grupos (sementes) puros. Isso melhora a etapa seguinte, onde são realizadas fusões sucessivas de forma hierárquica até o algoritmo convergir. Nesta etapa, em cada iteração, primeiro calculam-se as correlações entre pares de grupos para cada característica relevante usando a abordagem de ligação average-linkage 4. 2.2.2 Método incremental de desambiguação de nomes de autores Carvalho et al. (2011) propõem um método incremental não supervisionado para a resolução da ambiguidade de nomes de autores, denominado INDi (Incremental Author Name Disambiguation). Esse método desambigua os nomes dos autores apenas dos novos registros de citação adicionados a uma biblioteca digital, evitando o processamento de todo o repositório. Para desambiguar apenas os novos registros de citação, são empregadas heurísticas que priorizam a atribuição deste novo registro ao autor correto, ou seja, em caso de dúvidas, é preferível considerar o novo registro como pertencente a um novo autor em vez de atribui-lo a um autor existente. Um efeito colateral é que os autores que possuem poucas entradas na biblioteca podem ter sua produção dividida em grupos como se fossem de autores distintos. Esse método tenta desambiguar os nomes dos autores dos novos registros procurando um autor existente, na biblioteca digital, que possua um nome de autor semelhante, pelo menos um nome de coautor, em comum e o título do trabalho ou o veículo de publicação similares (acima de um dado limiar de similaridade). Para os casos em que o novo registro citação não possua coautores, aumenta-se o valor dos limiares de similaridade para o título do veículo de publicação e o título do trabalho. Caso todos os testes falhem, o novo registro de citação é considerado 4 http://nlp.stanford.edu/ir-book/completelink.html

Revisão Bibliográfica 19 como pertencente a um novo autor. Assim, é criado um novo grupo no repositório da biblioteca digital onde o registro é adicionado.

Capítulo 3 Método proposto Neste capítulo, é apresentado o algoritmo que implementa o método incremental proposto para a desambiguação de nomes de autores. O método tem como objetivo diminuir a fragmentação gerada por métodos incrementais básicos. Primeiramente, descreve-se a abordagem incremental básica de desambiguação, que atribui para cada nova referência de um novo registro de citação, um autor compatível existente no repositório. Em seguida, descreve-se a proposta que usa a referência do registro recém inserido, com o objetivo de reduzir a fragmentação no repositório de uma biblioteca digital. Finalmente, são descritas as estratégias avaliadas para a seleção de referências representativas para a posterior fusão dos grupos fragmentados. A Figura 3.1 mostra, esquematicamente, como o método proposto atua. Em uma primeira etapa, o método seleciona grupos candidatos utilizando a comparação do nome de uma nova referência do registro de citação recém inserido (r) com o nome representativo dos grupos no repositório. Para isso, utiliza-se o algoritmo de Comparação por Fragmentos. Havendo candidatos, passa-se à etapa seguinte, onde são filtrados os grupos candidatos utilizando-se os demais atributos por meio do Algoritmo 3.3. Após as etapas anteriores, é realizada a fusão entre os grupos mais similares a r. Neste ponto, ou fundem-se todos os grupos compatíveis ou apenas os dois mais compatíveis. Finalmente, no momento em que r é inserido em um grupo compatível, são aplicadas as estratégias para seleção de referências representativas. Caso nenhum grupo seja selecionado na primeira etapa, o algoritmo segue para a etapa final onde é criado um novo grupo no repositório e r é adicionado a ele. 20

Método proposto 21 Figura 3.1: Representação esquemática do método proposto. 3.1 Abordagem incremental básica de desambiguação Seja C = {c 1, c 2,..., c k } uma coleção de registros de citação em uma biblioteca digital, R = {r 1, r 2,..., r m } um conjunto de referências de C e A = {a 1, a 2,..., a n } um conjunto de grupos no repositório, onde cada grupo é considerado como pertencente a um autor e tem um nome representativo obtido a partir do atributo nome do autor de suas referências. O Algoritmo 3.1 descreve a abordagem de desambiguação incremental básica para nomes de autores. A entrada do algoritmo é um conjunto de grupos de referências A contidos no repositório da biblioteca digital e um novo registro de citação c. Depois é feito um pré-processamento (linha 1) para remoção de stopwords e extração de radicais. Quando um novo registro de citação é inserido em uma biblioteca digital, para cada referência r (uma ocorrência do nome do autor) de c, o algoritmo incremental seleciona um grupo a compatível e adiciona r em a. A seleção dos grupos candidatos é feita pela função selectclusters (linha 3), que seleciona um grupo a similar a r usando os limiares α T itle e α V enue, que comparam o título do trabalho e o título do veículo de publicação de c com os títulos dos trabalhos e os títulos dos veículos de publicação dos grupos no repositório. Caso algum grupo ou c não possua coautores, aumenta-se esses limites por um fator δ. Idealmente, a contém referências do mesmo autor. Se nenhum dos grupos é selecionado (ou seja, nenhum deles é similar o suficiente a r), o algoritmo considera r como pertencente a um novo autor, cria um novo grupo que irá conter r e adiciona este

22 Método proposto grupo em A. Como já mencionado, esta abordagem básica pode atribuir referências de um mesmo autor a grupos distintos, aumentando, com isso, a fragmentação e reduzindo a qualidade do repositório da biblioteca digital. Algorithm 3.1: Algoritmo Incremental Básico Entrada: Set of reference clusters A; Citation record c; Saída: Set of reference clusters A; 1: c preprocesscitationrecord(c) 2: para cada reference r c faça 3: a selectcluster(a, r); 4: se a = então 5: a newcluster() 6: A A {a} 7: fim se; 8: add(a, r) 9: fim para; 3.2 Método de desambiguação incremental capaz de realizar fusões O foco deste trabalho centra-se na redução da fragmentação durante a inserção de um novo registro, fundindo grupos compatíveis com as referências de tal registro de citação. O Algoritmo 3.2 descreve o método proposto. Este algoritmo recebe como entrada um conjunto de grupos A a partir do repositório e um novo registro de citação c. Depois de um pré-processamento (linha 1) para remoção de stopwords e extração de radicais, o algoritmo recebe como entrada os grupos candidatos (linha 3), ou seja, os grupos com nomes representativos dos autores similares ao nome do autor de r. Em seguida, o algoritmo seleciona um conjunto de grupos S que provavelmente contém referências para o mesmo autor de r (linha 4). Se S é vazio, o algoritmo considera r como pertencendo a um novo autor (linhas 5-7), caso contrário, funde todos os grupos de S em a (linhas 8-14). Finalmente, ele adiciona r a a (linha 16). Foi usada a função proposta por Carvalho et al. (2011) para comparar as referências recentemente inseridos com os grupos existentes. Esta função é descrita pelo Algoritmo 3.3. Um grupo a é compatível com r, se a inclui referências com coautores em comum com r e títulos de trabalhos ou títulos de veículos de publicação similares aos de r. O Algoritmo 3.2 também utiliza os limiares α T itle e α V enue para avaliar a similaridade entre