Incrementais para Desambiguação de Nomes de Autores

Tamanho: px
Começar a partir da página:

Download "Incrementais para Desambiguação de Nomes de Autores"

Transcrição

1 UNIVERSIDADE FEDERAL DE OURO PRETO Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Luciano Vilas Boas Espiridião Universidade Federal de Ouro Preto Orientador: Anderson Almeida Ferreira Dissertação submetida ao Instituto de Ciências Exatas e Biológicas da Universidade Federal de Ouro Preto para obtenção do título de Mestre em Ciência da Computação Ouro Preto, Setembro de 2014

2 ii Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Luciano Vilas Boas Espiridião Universidade Federal de Ouro Preto Orientador: Anderson Almeida Ferreira

3 iii E77Re Espiridião, Luciano Vilas Boas. Estratégias para redução da fragmentação em métodos incrementais para desambiguação de nomes de autores [manuscrito] / Luciano Vilas Boas Espiridião f.: il. color., grafs., tabs. Orientador: Prof. Dr. Anderson Almeida Ferreira. Dissertação (Mestrado) - Universidade Federal de Ouro Preto. Instituto de Ciências Exatas e Biológicas. Departamento de Computação. Área de concentração: Ciência da Computação 1. Ambiguidade - Teses. 2. Bibliotecas digitais - Teses. 3. Similaridade - Teses. I. Ferreira, Anderson Almeida. II. Universidade Federal de Ouro Preto. III. Título. Catalogação: sisbin@sisbin.ufop.br CDU: :808.1

4 iv

5 Dedico este trabalho aos meus pais Isaac e Rosa, aos meus irmãos Fabiano, Nem e Felipe, ao meu sobrinho Iago e à minha esposa Camila e meu filho Bernardo. v

6 Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Resumo Ambiguidade de nomes de autores é um grande problema enfrentado pela comunidade científica. Este problema ocorre quando vários autores publicam artigos usando nomes similares, ou quando um mesmo autor publica seus artigos com variações do seu nome. Tradicionalmente, existem métodos de desambiguação automáticos que são aplicadas a todos os registros de citação que estão no repositório de uma biblioteca digital. Mas existem métodos incrementais, que apenas desambiguam os nomes dos autores durante a inserção de um registro de citação no repositório. Estes métodos foram propostos com o objetivo de se obter uma maior eficiência. Porém, como efeito colateral, vários registros de um mesmo autor podem ser considerados como pertencentes a diferentes autores, causando o que é chamado fragmentação. Neste trabalho, é realizado um estudo para comparar várias estratégias visando reduzir a fragmentação dos registros sem comprometer a pureza, ou seja, mantendo os grupos de registros atribuídos a um autor com registros somente de um autor. As estratégias avaliadas foram baseadas em técnicas capazes de isolar os registros de citação possivelmente atribuídos incorretamente durante o processo de desambiguação. A avaliação experimental mostra que algumas estratégias conseguiram produzir melhorias significativas em relação a uma abordagem incremental e mostraram-se muito competitivas em relação a alguns métodos tradicionais. vi

7 Estratégias para Redução da Fragmentação em Métodos Incrementais para Desambiguação de Nomes de Autores Abstract Ambiguity in author names is a hard problem faced by the scientific community. This problem occurs when multiple authors publish their articles using similar names, or when the same author publishes their articles with variations in their name. Traditionally, automatic disambiguation methods perform on all citation records in a digital library repository. On the other hand, incremental methods only disambiguate author names when a citation record is inserted into the repository. These methods have been proposed aiming to improve the efficiency. However, as a side effect, several records from the same author may be considered as belonging to different authors, fragmenting the citation list of a same author into several citation lists. In this work, we conduct a study to compare several strategies, in order to reduce this fragmentation without compromising purity, i.e., keeping the groups of records assigned to an author with records from only one author. The evaluated strategies were based on techniques able to isolate citation records possibly incorrectly attributed during the disambiguation process. The experimental evaluation shows that some strategies produce significant improvements against an incremental method and are very competitive compared with some traditional methods. vii

8 Declaração Esta dissertação é resultado de meu próprio trabalho, exceto onde referência explícita é feita ao trabalho de outros, e não foi submetida para outra qualificação nesta nem em outra universidade. Luciano Vilas Boas Espiridião viii

9 Agradecimentos A Deus, por dar sentido à minha existência e, principalmente, por colocar pessoas iluminadas em meu caminho. Pessoas sem as quais concluir esta etapa não teria sido possível. Ao meu orientador, professor Anderson Almeida Ferreira, que em todos os momentos acreditou neste trabalho, e muitas vezes, mais do que eu próprio, transmitindo-me todo o incentivo e confiança necessários para a conclusão desta Dissertação. Seus ensinamentos e orientação foram muito além da simples formação acadêmica. Ao professor David Menotti Gomes, pelo apoio e contribuição na etapa inicial deste trabalho. Também fico muito grato por seus conselhos, ensinamentos e por me recomendar ao professor Anderson. A todos os professores do DECOM com os quais convivi neste período e durante minha graduação, meu profundo agradecimento pelos ensinamentos e pela dedicação. Especial menção aos professores Guilherme Tavares de Assis e Andrea Iabrudi Tavares. Aos meus pais, Isaac e Rosa, por tudo que representam em minha vida e também pela minha formação como pessoa. À Camila, minha esposa, companheira e mãe de meu filho Bernardo. Seu apoio e sua dedicação ao nosso filho foi fundamental para que eu pudesse, em muitos momentos, me afastar da alegria do convívio com eles, para poder realizar as tarefas do Mestrado. Aos meus irmãos Fabiano, Nem e Felipe e meu sobrinho Iago. Por momentos de muita descontração... necessários. Mas, principalmente por fazerem parte da minha vida. Aos amigos e colegas, principalmente àqueles, que sempre estiveram presentes nos momentos mais importantes. Aos meus avós (Salim, Maria, Euzébio e Dolores), in memoriam, pelo carinho e pelos valores transmitidos. ix

10 Sumário Lista de Figuras Lista de Tabelas xii xiv Nomenclatura 2 1 Introdução Motivação Caracterização do problema Objetivos Justificativa Contribuições Organização da dissertação Revisão Bibliográfica Fundamentação teórica Definições Métrica de similaridade Trabalhos relacionados Métodos tradicionais de desambiguação de nomes de autores Método incremental de desambiguação de nomes de autores Método proposto Abordagem incremental básica de desambiguação Método de desambiguação incremental capaz de realizar fusões Seleção de referências representativas Análise de complexidade x

11 4 Experimentos Coleções de avaliação Coleções sintéticas Coleções reais Baselines INDi HHC LASVM-DBSCAN Métricas de avaliação Configuração dos experimentos Representação das estratégias Configuração das estratégias Resultados e discussões SyntheticNew SyntheticNew SyntheticChange SyntheticChange KISTI BDBComp Comparação da estratégia TMC-CEN com os métodos HHC e o LASVM-DBSCAN Tempo de execução Considerações Finais Conclusão Trabalho futuro Referências Bibliográficas 54 xi

12 Lista de Figuras 1.1 Exemplo de sinônimo. O mesmo autor e diferentes grafias do nome Exemplo de homônimos. Vários autores, mas usando o mesmo nome Ângulos α e θ entre os vetores d 1 e r e r e d 2, respectivamente Representação esquemática do método proposto Representação da estratégia que considera todas as referências de cada grupo Representação da estratégia que usa o DBDCAN Representação da estratégia que usa o K-means Representação da estratégia que usa uma janela de tempo Representação da estratégia que utiliza as referências próximas ao centroide Distribuição do número de registros por carga (ano) em cada coleção sintética Distribuição do número de registros por carga (ano) na coleção KISTI Distribuição do número de registros por carga (ano) na coleção BDBComp Resultados do INDi e da estratégia TMC-CEN na coleção SyntheticNew5 em cada carga (ano) Resultados do INDi e da estratégia TMC-CEN na coleção SyntheticNew10 em cada carga (ano) xii

13 4.6 Resultados do INDi e da estratégia TMC-CEN na coleção Synthetic- Change10 em cada carga (ano) Resultados do INDi e da estratégia TMC-CEN na coleção Synthetic- Change50 em cada carga (ano) Coleção KISTI: Comparação do INDi com a estratégia ALL-ALL Coleção BDBComp: Comparação do INDi com a estratégia ALL-ALL.. 48 xiii

14 Lista de Tabelas 4.1 Distribuição do número médio de publicações por ano por autor(dblp: ) Grupos ambíguos na coleção BDBComp Parâmetros usados pelo INDi e cada estratégia Resultados na coleção SyntheticNew5. Melhores resultados, incluindo empates estatísticos, em negrito Resultados na coleção SyntheticNew10. Melhores resultados, incluindo empates estatísticos, em negrito Resultados na coleção SyntheticChange10. Melhores resultados, incluindo empates estatísticos, em negrito Resultados na coleção SyntheticChange50. Melhores resultados, incluindo empates estatísticos, em negrito Resultados na coleção KISTI. Melhores resultados, incluindo empates estatísticos, em negrito Resultados na coleção BDBComp. Melhores resultados, incluindo empates estatísticos, em negrito Comparação da estratégia TMC-CEN com os métodos tradicionais HHC e LASVM-DBSCAN. Os melhores, incluindo os empates estatísticos, estão em negrito Tempo de execução (segundos) das estratégias TMC-CEN e ALL-CEN e do INDi, em cada coleção xiv

15 List of Algorithms 3.1 Algoritmo Incremental Básico Algoritmo de Desambiguação Incremental que funde grupos similares à nova referência Função de Comparação xv

16 Computer science is no more about computers than astronomy is about telescopes. Edsger Dijkstra 1

17 Nomenclatura INDi HHC VSM TF-IDF PMG PMA DBLP BDBComp KISTI SyGAR CSLR DBSCAN LASVM EM ALL TMC DBS CEN KMS TIW Incremental Author Name Disambiguation Hierarchical Heuristic-Clustering Vector Space Model Term Frequency - Inverse Document Frequency Pureza Média por Grupo Pureza Média por Autor Digital Bibliography and Library Project Biblioteca Digital Brasileira de Computação Korea Institute of Science and Technology Information Synthetic Data Generator Categorical Sampling Likelihood Ratio Density-Based Spatial Clustering of Applications with Noise online Active Support Vector Machine Expectation Maximization All references (or All Clusters) Two Most Compatible DBSCAN Centroid K-means Time Window 2

18 Capítulo 1 Introdução 1.1 Motivação Uma Biblioteca Digital pode ser definida como um sistema de informação complexo a partir do qual se pode oferecer uma gama de serviços, tais como armazenamento, pesquisa, integração e análise, sobre os dados de interesse de uma comunidade específica, como, por exemplo, medicina, literatura ou computação. Em um repositório de uma biblioteca digital são armazenados os metadados de objetos digitais. Estes podem ser provenientes de várias fontes, mas relativos a uma mesma área de interesse e possuem o propósito de atender a uma determinada comunidade (Borgman, 1999). Na comunidade científica, bibliotecas digitais tornaram-se uma importante fonte de informação. Através de uma interface centralizada, é possível ter acesso a diversas publicações científicas, por exemplo. Ao proporcionar o agrupamento de metadados referentes a publicações científicas, como o nome dos autores, o título do trabalho e o título do veículo de publicação, pode-se utilizar o conteúdo dessas bibliotecas para vários tipos de análise. Instituições podem, por exemplo, utilizar as informações contidas em uma biblioteca digital para avaliar a produção de um pesquisador (Levin, 2010). Os dados em um repositório de uma biblioteca digital são disponibilizados aos seus usuários por meio de uma rede de computadores, por exemplo, a Internet, obedecendo a um esquema de dados pré-definido. Com o crescimento do acesso à Internet, esses sistemas consolidaram-se como uma importante fonte para consulta, organização e integração de conteúdos. Seus dados estão em constante atualização e compreendem vários domínios 3

19 4 Introdução do conhecimento humano como, por exemplo, Educação e Pedagogia 1, Leis 2, Obras Literárias Antigas 3, dentre outros 4. Especificamente, as bibliotecas digitais de publicações científicas, que armazenam metadados (e possivelmente os artigos) referentes a publicações de trabalhos de pesquisa nas diversas áreas do conhecimento, aumentam a cada ano. E, com o aumento do número de pesquisas sendo realizadas, há um consequente aumento no número de publicações, o que ocasiona a geração de mais conteúdo e metadados. Com isso, há uma demanda crescente por mais espaço de armazenamento e poder de processamento nesses sistemas. Como exemplos, podem ser citadas a DBLP 5, CiteSeer 6 e a BDBComp 7. Essas bibliotecas digitais reúnem dados bibliográficos da área de Ciência da Computação. Outro exemplo é a MEDLINE 8 que é uma biblioteca digital de publicações científicas em Medicina. Todos os dados nessas bibliotecas precisam ser armazenados, organizados e revisados para serem disponibilizados de forma eficiente. Os dados de interesse podem ser autoarquivados nas bibliotecas digitais através da submissão de metadados e textos aos repositórios pelos próprios pesquisadores (Silva, 2004). Existem também outras maneiras de obtenção dos metadados, na forma de uma colheita automática (harvesting), por meio de protocolos criados para a simplificação deste trabalho como, por exemplo, o Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH) (Lagoze and de Sompel, 2001), que é baseado em uma colheita periódica de dados de diferentes fontes. 1.2 Caracterização do problema Ambiguidade de nomes de autores é um grande problema enfrentado pela comunidade científica. Este problema ocorre quando vários autores publicam artigos usando nomes iguais (homônimos), ou quando um mesmo autor publica seus artigos usando variações do seu nome (sinônimos). Dentre os fatores que levam a este problema, podem ser citados, segundo McKay et al. (2010): uso de abreviações, mudanças de nome, inexistência de library

20 Introdução 5 regras e boas práticas de trabalho, erros tipográficos e geração de conteúdo de forma descentralizada. Nas bibliotecas digitais de publicações científicas, a ambiguidade pode gerar muitos problemas como, por exemplo, a fragmentação das publicações de um mesmo autor (split citation) ou a atribuição de publicações de autores distintos a um mesmo autor (mixed citation) (Lee et al., 2007). A seguir, são ilustradas as principais situações que podem levar ao problema de ambiguidade de nomes de autores. Também é discutido de que forma o problema da ambiguidade afeta os serviços de uma biblioteca digital. Para ilustrar um caso onde um mesmo autor publicou trabalhos usando variações do seu nome, assim chamado sinônimo, a Figura1.1 mostra o resultado de uma busca pelo autor José Palazzo Moreira de Oliveira na DBLP, usando o sobrenome Palazzo. Observe que há dois resultados, onde ambos se referem ao mesmo autor. Isso pode levar a uma divisão das publicações deste autor em vários grupos. Figura 1.1: Exemplo de sinônimo. O mesmo autor e diferentes grafias do nome. Já quando dois ou mais autores distintos publicam trabalhos utilizando o mesmo nome, chamado homônimo, pode levar a considerar como se essas publicações pertencessem a um único autor. A Figura 1.2 ilustra esta situação. Neste caso, é possível notar que ao procurar por A. Gupta são retornados vários registros mas, ao avaliar o resultado, percebe-se que alguns trabalhos são de autores distintos. Por exemplo, o trabalho, cujo título é Area efficient diode and on transistor inter-changeable power gating scheme

21 6 Introdução with trim options for SRAM design in nano-complementary metal oxide semiconductor technology, tem como um dos autores Anil Kumar Gupta ; o trabalho Three-phase magnitude-phased-locked loop using FPGA possui como autor Anubhav Gupta ; e o trabalho A Comparative Study of AI Techniques for Failure Risk Prediction in Lightning Surge Protection é do autor Atul Gupta. Figura 1.2: Exemplo de homônimos. Vários autores, mas usando o mesmo nome. Ambiguidade de nomes de autores afeta diretamente a qualidade do conteúdo de uma biblioteca digital, que pode conter milhões de registros de citação. Cada registro representa uma publicação e possui vários atributos como, por exemplo, os nomes dos autores, o título do trabalho, o título do veículo de publicação e o ano da publicação, dentre outros. O processo de definição de autoria pode atribuir registros de citação a autores, com base nos nomes presentes nos registros. Em razão da ambiguidade, como dito anteriormente, um processo automático de definição de autoria pode atribuir à mesma pessoa publicações de diferentes autores, resultando em impureza no repositório. Pode também dividir publicações do mesmo autor como se pertencessem a pessoas diferentes, conhecido como fragmentação. Um efeito direto a atribuição incorreta é na análise de citações. Por exemplo, a fragmentação pode fazer com que o H-index (Hirsch, 2005) de um determinado autor seja menor ou maior do que seu valor real. Métodos tradicionais automáticos de desambiguação visam reduzir as atribuições incorretas em um repositório (Ferreira et al., 2012b) atuando normalmente sobre todos os nomes de autores de citações bibliográficas. Mais formalmente, seja C = {c 1, c 2,..., c k } uma coleção de registros de citação. Cada registro de citação c i possui uma lista de atributos que inclui, pelo menos, os nomes dos autores, o título do trabalho, o título do local de publicação e o ano de publicação. Cada atributo possui um valor específico

22 Introdução 7 composto por uma lista de elementos. Um elemento do atributo nomes dos autores é o nome de um único autor. Cada elemento do atributo nomes dos autores é uma referência r j a um autor. A tarefa de desambiguação particiona o conjunto de m referências {r 1, r 2,..., r m } em um conjunto de n partições A = {a 1, a 2,..., a n }, onde cada partição a i deve conter apenas as referências a um determinado autor. Recentemente, foi proposto um método incremental de desambiguação para nomes de autores, conforme Carvalho et al. (2011). Este método desambigua apenas os novos registros de citação inseridos no repositório, sendo potencialmente mais eficiente e prático. Um método incremental atribui uma referência r j recém inserida a um grupo (ou partição) a i A ou a um novo grupo a k, que é adicionado ao conjunto A. Este último caso ocorre quando a referência pertence a um autor sem publicação prévia no repositório. Uma questão importante em relação à abordagem incremental é: como manter a pureza dos grupos, enquanto diminui-se a fragmentação? Por exemplo, o método proposto por Carvalho et al. (2011) foca na pureza dos grupos, visto que uma atribuição errônea de uma referência a um determinado grupo pode atribuir erroneamente outras referências a este mesmo grupo. Um efeito colateral indesejado ao forçar a pureza é um aumento na fragmentação. Uma alternativa é desambiguar, de tempo em tempo, todo o repositório. Mas isso tem um alto custo computacional, visto que repositórios podem conter milhões de registros. Além disso, todas as correções manuais 9 feitas visando a desambiguação podem ser perdidas. Alternativamente, em um determinado período, pode-se verificar a semelhança entre todos os grupos no repositório e fundir os semelhantes. Isso também tem um alto custo computacional, já que é necessário calcular a similaridade entre todos os grupos e mesclar os mais semelhantes. 1.3 Objetivos Objetivo geral O objetivo geral deste trabalho é propor estratégias para reduzir o problema de fragmentação gerado por métodos incrementais de desambiguação de nomes de autores. 9 Correções manuais podem ocorrer devido a algumas situação em que um método automático de desambiguação não tenha conseguido desambiguar corretamente as referências.

23 8 Introdução Objetivos específicos - Propor e avaliar formas de selecionar registros representativos de um grupo de registros de citações; - Propor e avaliar estratégias para diminuir a fragmentação em repositórios de bibliotecas digitais durante a desambiguação incremental. 1.4 Justificativa Exitem muitas propostas para tentar resolver este problema de ambiguidade de nomes de autores (Ferreira et al., 2012b) de forma automática, mas que atuam sobre todos os registros do repositório de uma biblioteca digital. Muitas delas propõem métodos eficazes mas apresentam um alto custo computacional e necessitam de especialistas humanos para rotular um grande volume de exemplos de treinamento, como no caso dos métodos supervisionados. A desambiguação incremental de nomes de autores pode representar uma solução. Esta abordagem visa desambiguar apenas os novos registros de citação que são inseridos em uma biblioteca digital e evita que todo o repositório seja desambiguado a cada nova carga, o que geralmente é feito por métodos não incrementais. Durante esta pesquisa encontrou-se apenas um trabalho que oferece uma proposta incremental (Carvalho et al., 2011) para desambiguação de nomes de autores. Entretanto, essa proposta apresenta um problema que é a fragmentação gerada no repositório. Como dito anteriormente, algumas vezes são realizadas correções manuais nos repositórios, que podem ser perdidas ao se utilizar algum método tradicional. Métodos incrementais também poderiam reduzir o tempo de processamento sendo efetivamente mais rápidos, conforme mostrado por Carvalho et al. (2011). 1.5 Contribuições Este trabalho propõe atuar sobre o ponto fraco da abordagem incremental, avaliando estratégias para reduzir a fragmentação. Neste sentido, pode-se listar como principais contribuições deste trabalho:

24 Introdução 9 - Avaliação de diversas estratégias que, combinadas com algoritmos incrementais, reduzam a fragmentação dos registros pertencentes a um mesmo autor em um repositório; - Proposta de um novo método incremental de desambiguação de nomes de autores que produz grupos puros e pouco fragmentados; - Utilização do registro de citação recém-inserido na biblioteca digital como elo para reduzir a fragmentação dos grupos de forma incremental; e - Avaliação experimental do novo método proposto em várias coleções (reais e sintéticas) (Espiridião et al., 2014). 1.6 Organização da dissertação Os demais capítulos desta dissertação estão organizados como segue. No Capítulo 2, é apresentada uma revisão bibliográfica, onde os conceitos e fundamentos utilizados neste trabalho e os principais trabalhos relacionados a este são descritos. No Capítulo 3, encontra-se a descrição detalhada do método proposto bem como o detalhamento das estratégias avaliadas para seleção de referências representativas. No Capítulo 4, é feita uma avaliação experimental das estratégias propostas, bem como a discussão dos resultados obtidos. Ao final, no Capítulo 5, é apresentada a conclusão do trabalho, sendo sugeridos alguns caminhos para trabalhos futuros.

25 Capítulo 2 Revisão Bibliográfica Neste capítulo, são apresentadas a fundamentação teórica necessária para o entendimento deste trabalho e uma revisão de recentes métodos de desambiguação. 2.1 Fundamentação teórica Para tornar mais clara a compreensão do leitor, são apresentados, nesta seção, os principais conceitos empregados ao longo deste trabalho. Apresentam-se, também, algumas técnicas para computar a similaridade entre cadeias de caracteres (strings). Primeiramente, são apresentados algumas conceitos e em seguida as métricas de similaridade utilizadas Definições Segue uma apresentação formal de alguns conceitos utilizados ao longo do texto. Definição 1 (Citação). Uma citação (Cota et al., 2010) é um conjunto de dados bibliográficos, por exemplo, nomes de autores (incluindo os coautores), título do artigo, título do veículo de publicação e o ano da publicação, que referem-se a um trabalho científico. Definição 2 (Registro de citação). Um registro de citação é definido por Oliveira (2005) como uma estrutura que contém os metadados relativos a uma citação. 10

26 Revisão Bibliográfica 11 As bibliotecas digitais armazenam ou exportam metadados de acordo com algum formato padrão, por exemplo, Dublin Core 1. Entretanto, estes padrões definem apenas a estrutura dos campos nos registros de citação. Neste trabalho, são utilizados os nomes dos autores, o título do trabalho, o título do veículo de publicação e o ano, como atributos dos registros de citação. Definição 3 (Referência). Uma referência, segundo Carvalho et al. (2011), representa a participação de um autor na autoria de uma determinada publicação. Uma referência possui os metadados que serão utilizados no processo de desambiguação, por exemplo, nome do autor, os nomes dos coautores que são os demais autores do trabalho, o título do trabalho, o título do veículo de publicação e o ano de publicação. Uma referência é gerada a partir de um registro de citação. Definição 4 (Grupo). Define-se grupo (Oliveira, 2005) como um conjunto de referências que representam uma lista de registros de citações de um mesmo autor. Desta forma, um método de desambiguação de nomes de autores deve produzir apenas um grupo para cada autor e em cada grupo deve haver apenas registros deste mesmo autor. Definição 5 (Grupo ambíguo). Um grupo ambíguo é composto por todas as referências com nomes de autores ambíguos (Oliveira, 2005) Métrica de similaridade Nesta seção, são descritas algumas métrica de similaridade usadas neste trabalho. Primeiramente, é descrito o algoritmo conhecido como Comparação por Fragmentos (Oliveira, 2005), um algoritmo de casamento de padrão, especialmente desenvolvido para comparar nomes de pessoas. Em seguida, é apresentada a métrica Cosseno (Baeza-Yates and Ribeiro-Neto, 2008), outra métrica de similaridade empregada neste trabalho. Estas medidas são empregadas para a realização da comparação entre cadeias de caracteres que representam os nomes dos autores e coautores e os títulos dos trabalhos e dos locais de publicação, respectivamente. 1

27 12 Revisão Bibliográfica Comparação por Fragmentos O algoritmo Comparação por Fragmentos, proposto por Oliveira (2005), baseia-se no algoritmo de Distância de Edição (Levenshtein, 1965) desenvolvido para trabalhar com a comparação de nomes de pessoas. Ele avalia cada fragmento, ou seja, cada termo separado por espaço, de duas cadeias de caracteres que representam nomes de pessoas. A avaliação dos fragmentos não requer casamento exato. Os parâmetros de entrada são duas cadeias de caracteres (c 1, c 2 ) e um limiar (valor real entre 0 e 1) utilizado para a distância de edição permitida para considerar fragmentos compatíveis. O algoritmo retorna verdadeiro se as cadeias são compatíveis (podem representar variações do nome de uma mesma pessoa) e falso caso contrário. Para que dois nomes de pessoas possam ser considerados compatíveis, eles devem possuir em comum, no mínimo, a mesma inicial do primeiro nome e o último sobrenome (para tanto, a distância de edição entre esses fragmentos deve ser menor que um limiar). Considerando-se c i [j] o j-ésimo termo da cadeia de caracteres i, deve-se verificar a primeira condição da seguinte forma: - se tanto c 1 [1] quanto c 2 [1] possuírem mais de um caracteres, então a distância de edição entre elas deve ser menor ou igual a um determinado limiar; - se c 1 [1] possuir mais de um caractere e c 2 [1] apenas um, então o primeiro caractere de c 1 [1] deve ser igual a c 2 [1]; - se c 2 [1] possuir mais de um caractere e c 1 [1] apenas um, então o primeiro caractere de c 2 [1] deve ser igual a c 1 [1]; - se c 1 [1] e c 2 [1] possuírem apenas um caractere, então ambos devem ser iguais. Em seguida, o algoritmo avalia os fragmentos intermediários, os quais podem ocorrer em qualquer ordem e/ou abreviados. Primeiro, avaliam-se os fragmentos por extenso. Caso encontre quaisquer c 1 [i] e c 2 [j] onde a distância de edição seja menor que um limiar, os dois fragmentos são marcados evitando que futuras comparações sejam realizadas. O algoritmo então compara os fragmentos por extenso de c 1 com as iniciais em c 2 e vice-versa. Por último, as iniciais em c 1 são comparadas com as iniciais de c 2. Para mais detalhes veja (Oliveira, 2005). Por exemplo, os nomes João Batista da Silva e J. Silva são considerados compatíveis, considerando-se o algoritmo de Comparação por Fragmentos.

28 Revisão Bibliográfica 13 Similaridade do Cosseno A similaridade baseada no cosseno (Baeza-Yates and Ribeiro-Neto, 2008) é uma métrica de similaridade normalmente utilizada para avaliar a semelhança entre documentos representados por meio de vetores. Esta função computa o cosseno do ângulo formado pelos vetores compostos pelos termos dos documentos como um valor real entre 0 e 1. Quanto mais próximo de 1, mais similares são os documentos, ao passo que, quanto mais próximo de 0 mais dissimilares eles são. A Figura 2.1 mostra que o vetor d 1 se aproxima mais do vetor r. Note que, o ângulo α (entre d 1 e r ) é menor que θ, o ângulo entre r e d 2. Figura 2.1: Ângulos α e θ entre os vetores d 1 e r e r e d 2, respectivamente. De maneira parecida, pode-se utilizar a medida do cosseno para avaliar a similaridade entre os autores (representados por vetores de seus termos) e os novos registros de citação (representados também pelos vetores de seus termos) que serão inseridos em uma biblioteca digital. Desta maneira, é possível calcular o cosseno entre a representação vetorial de um autor e do novo registro de citação, ou entre os termos dos títulos dos trabalhos ou dos títulos dos veículos de publicação. A Equação (2.1), a seguir, ilustra este cálculo. O numerador representa o produto escalar entre os vetores d j e r e o denominador representa o produto das normas (comprimento) calculadas a partir dos respectivos vetores d j e r.

29 14 Revisão Bibliográfica Cosine( d j, r ) = dj. r d j. r (2.1) onde - d j é um vetor formado pelos termos do autor j; - r é representado por um vetor também formado por seus termos. - d j é a norma de d j ; e - r é a norma de r. 2.2 Trabalhos relacionados Na literatura, é possível distinguir entre os métodos que removem a ambiguidade de todas as referências no repositório e aqueles que manipulam apenas as referências dos registros de citação recém inseridos, chamados métodos incrementais. Conforme (Ferreira et al., 2012b), o primeiro grupo pode ser dividido da seguinte forma: métodos baseados em agrupamento e métodos baseados em atribuição. Os métodos baseados em agrupamento utilizam as semelhanças entre os atributos dos registros para incluí-los em um mesmo grupo. Já os métodos baseados em atribuição visam atribuir diretamente as referências aos seus respectivos autores. Nas seções seguintes, são apresentados alguns dos vários trabalhos de desambiguação recentemente publicados. Estes trabalhos propõem técnicas para resolver o problema de ambiguidade de nome de autores Métodos tradicionais de desambiguação de nomes de autores Han et al. (2004) propõem duas abordagens baseadas em técnicas de aprendizagem supervisionada que usam nome de co-autores, título e veículo de publicação como atributos a serem usados na remoção de ambiguidade. O primeiro dos métodos é baseado no modelo Naive Bayes, que é um modelo estatístico gerativo e bastante utilizado para classificação. A segunda abordagem baseia-se em SVM (Support Vector Machines) que também são bastantes utilizados em classificação. Essas abordagens possuem a seguinte

30 Revisão Bibliográfica 15 diferença: a baseada em Naive Bayes necessita somente de exemplos positivos enquanto a SVM necessita de ambos os exemplos positivos e negativos na fase de treinamento. Um método que utiliza uma técnica de aprendizado não supervisionado, chamado K- way Spectral Clustering, é proposto por Han et al. (2005). Como evidências, são utilizados a lista de nomes de coautores, o título das publicações e o título do veículo de publicação. Esta técnica usa um parâmetro K que determina o número de autores presentes na coleção utilizada que deve ser definido inicialmente, o que pode ser inviável em situações reais. Esta técnica de agrupamento constrói um grafo a partir dos autovalores e autovetores de uma Matriz Laplaciana (valores singulares e vetores singulares de certos dados desta matriz) relacionada com o grafo que é gerado pelas relações entre os registros. Ferreira et al. (2010) propõem um método híbrido de desambiguação de nomes de autores que é dividido em duas fases. Na primeira, são obtidos, de forma automática, os exemplos para compor um conjunto de treino que será utilizado na segunda fase. Este conjunto é obtido a partir da informação de coautoria, capaz de gerar grupos com alta pureza. Na segunda fase, uma função de desambiguação capaz de detectar novos autores e melhorar o conjunto de treino com novos exemplos é inferida utilizando-se os exemplos de treinamento. A fase inicial elimina a necessidade de qualquer rotulagem manual para formar o conjunto de treino, pois os registros de citações são organizados utilizando um método de agrupamento que separa os registros de cada autor em grupos. Uma nova versão que melhora os resultados da anterior, fundindo grupos, foi proposta por Ferreira et al. (2014). Ambas as versões deste método trabalham a partir de um conjunto mínimo de evidências, ou seja, nomes dos autores, título do trabalho e título do veículo de publicação. Cota et al. (2010) elaboram um método baseado em heurísticas para um agrupamento hierárquico, denotado HHC (Hierarchical Heuristic-Clustering), que envolve duas fases. Na primeira, criam-se grupos iniciais de registros de citação, formados a partir de uma lista inicial contendo todos os registros de citação do repositório, e, na segunda, esses grupos são fundidos. Os grupos iniciais são formados a partir dos nomes dos autores considerados similares, usando o algoritmo de Comparação por Fragmentos Oliveira (2005), e compartilhem pelo menos um nome de coautor em comum. O resultado é que os grupos formados são mais puros, mas a lista de citações de um autor fica muito fragmentada, ou seja, são gerados vários grupos para um mesmo autor e cada grupo contém poucos registros de citação. Na segunda fase, são realizadas fusões sucessivas usando a similaridade dos títulos e dos veículos de publicação dos trabalhos. Esta heurística pressupõe que um pesquisador é capaz de produzir vários trabalhos em uma

31 16 Revisão Bibliográfica mesma área de interesse com publicações em um mesmo veículo de publicação. Para comparar os termos dos títulos dos trabalhos e dos veículos de publicação é utilizada a Similaridade do Cosseno ou o Coeficiente de Jaccard. O algoritmo para quando não ocorrerem mais fusões. Fan et al. (2011) apresentam um método de desambiguação de autores baseado em grafo. A abordagem inicia-se pela construção de um grafo dirigido. O grafo é construído com um vértice para cada ocorrência de nome de autor nos registros de citações e as arestas são formadas entre pares de vértices que representam nomes de autores que publicaram algum trabalho juntos. Somente um único atributo é utilizado para a remoção da ambiguidade que é o de coautoria. O método consiste em dividir as publicações a serem desambiguadas de forma que cada grupo deverá conter somente as publicações de um mesmo autor. Inicialmente, os grupos criados contêm registros de autores com nomes ambíguos. Para remover a ambiguidade, é utilizado um framework de desambiguação de nomes chamado GHOST (Graphical framework for name disambiguation). Este algoritmo cria um grafo, usando a rede de coautoria, a partir dos nomes ambíguos. É utilizado um algoritmo de caminhamento para definir se dois nomes referem-se ao mesmo autor. Caso refiram-se ao mesmo autor, eles ficam no mesmo grupo, caso contrário, são colocados em grupos distintos. Ferreira et al. (2012d) propõem o uso de uma técnica de seleção ativa para encontrar os melhores exemplos para a realização da fase de treinamento automático em um método de desambiguação supervisionado. A seleção dos exemplos representativos é feita de forma automática e sem a necessidade de parâmetros extras. A ideia principal deste método é fornecer resultados tão eficazes quanto os apresentados por Ferreira et al. (2010), mas selecionando um conjunto bem menor de exemplos de treinamento a partir do qual ele aprende as funções de desambiguação. Levin et al. (2012) apresentam um método supervisionado para a desambiguação de nomes de autores em grandes bases de dados bibliográficas. O método possui dois estágios. No primeiro, ele utiliza um conjunto de regras de alta precisão para gerar conjuntos (blocos) com registros de um mesmo autor. Estes blocos são gerados a partir dos registros que compartilham pelo menos um coautor em comum, mesma afiliação e o endereço eletrônico. No segundo estágio, um classificador supervisionado é treinado utilizando os grupos gerados na inicialização. Esta abordagem utiliza todas as evidências disponíveis para a desambiguação tais como nome dos coautores, título do artigo, endereço eletrônico, veículo de publicação, auto-citação (citação de trabalhos do mesmo autor),

32 Revisão Bibliográfica 17 afiliações, idioma, dentre outros. Este algoritmo também explora outras evidências como a auto-citação 2 combinando-a com outros atributos para aumentar a sua eficácia. Li et al. (2012) propõem uma nova abordagem para desambiguação de nomes de autores baseada em agrupamento. O foco do trabalho consiste na proposta de uma nova função para medir a similaridade entre os conjuntos de publicações, chamada Categorical Sampling Likelihood Ratio (CSLR). Essa nova função de similaridade é baseada em uma distribuição categórica de similaridade. O cálculo desta função utiliza os termos dos títulos dos veículos de publicação e os nomes do coautores dos trabalhos. O argumento que justifica o uso desta medida segue da hipótese que conjuntos categóricos de um mesmo autor assumem distribuições de similaridade parecidas. Como o processo é aglomerativo, os grupos são comparados dois a dois e aqueles com o valor máximo CSLR são fundidos. O método de desambiguação é dividido em duas etapas. Primeiro, são fundidos os grupos com base no cálculo de CSLR considerando os nomes dos coautores e, depois, há uma tentativa de fusão com base no valor do CSLR dos títulos dos veículos de publicação. Schulz et al. (2014) descrevem um método de desambiguação de nomes de autores para grandes bases de dados bibliográficos. Esse trabalho utiliza o grafo formado pela rede de coautores, auto-citação e citações extraídos da coleção Web of Science (WoS) 3. Primeiro, calculam-se todas as similaridades entre pares de trabalhos no repositório. Em seguida, o algoritmo passa pelo primeiro de dois estágios. No primeiro estágio, são estabelecidas ligações entre cada par de trabalhos para os quais a pontuação calculada seja maior do que um dado limiar. Em seguida, cada componente conectado (conjunto de trabalhos que podem ser alcançados a partir de outro trabalho percorrendo as ligações criadas a partir do grafo) é adicionado em um grupo. O objetivo deste estágio é que todos os trabalhos em um grupo pertençam ao mesmo autor. No segundo estágio, é realizada a fusão dos grupos formados no estágio anterior. Para isso, é calculada a similaridade entre todos os grupos. A similaridade entre dois grupos é obtida pela soma dos valores de similaridade, calculada entre os trabalhos em cada grupo, dividido pelo número de publicações em ambos os grupos. Hao et al. (2014) propõem um outro método de desambiguação de nomes de autores não supervisionado, baseado em agrupamento hierárquico. Esse método utiliza o modelo de Dempster-Shafer Theory (DST) proposto por Shafer (1976) e combinado com Shannon s entropy formula (Moreira and Wichert, 2013), usados para fundir os atributos dos registros 2 Auto-citação ocorre quando um autor cita um trabalho de sua própria autoria. 3 Um serviço on-line de indexação de trabalhos científicos mantido pela Thomson Reuters. Disponível em

33 18 Revisão Bibliográfica de citação e, com isso, melhorar a precisão da busca por grupos candidatos. Esse trabalho utiliza os atributos: afiliação, título do veículo de publicação, conteúdo (resumo), nome dos coautores, citação e webcorrelation (correlação Web) como evidências para o processo de desambiguação. A DST fornece uma maneira de associar várias fontes de evidências na tarefa de desambiguação. Após a fusão das evidências usando a DST, obtém-se uma matriz que representa a correlação entre pares de referências. Esta matriz assemelha-se a uma matriz de similaridade tradicional. No entanto, cada entrada nesta matriz está ligada a uma função de crença (belief ) e uma função de plausibilidade (plausibility). Em uma primeira etapa, o conjunto inicial é dividido em grupos sementes utilizando-se os coautores. Ao fazer isso, espera-se obter um conjunto de grupos (sementes) puros. Isso melhora a etapa seguinte, onde são realizadas fusões sucessivas de forma hierárquica até o algoritmo convergir. Nesta etapa, em cada iteração, primeiro calculam-se as correlações entre pares de grupos para cada característica relevante usando a abordagem de ligação average-linkage Método incremental de desambiguação de nomes de autores Carvalho et al. (2011) propõem um método incremental não supervisionado para a resolução da ambiguidade de nomes de autores, denominado INDi (Incremental Author Name Disambiguation). Esse método desambigua os nomes dos autores apenas dos novos registros de citação adicionados a uma biblioteca digital, evitando o processamento de todo o repositório. Para desambiguar apenas os novos registros de citação, são empregadas heurísticas que priorizam a atribuição deste novo registro ao autor correto, ou seja, em caso de dúvidas, é preferível considerar o novo registro como pertencente a um novo autor em vez de atribui-lo a um autor existente. Um efeito colateral é que os autores que possuem poucas entradas na biblioteca podem ter sua produção dividida em grupos como se fossem de autores distintos. Esse método tenta desambiguar os nomes dos autores dos novos registros procurando um autor existente, na biblioteca digital, que possua um nome de autor semelhante, pelo menos um nome de coautor, em comum e o título do trabalho ou o veículo de publicação similares (acima de um dado limiar de similaridade). Para os casos em que o novo registro citação não possua coautores, aumenta-se o valor dos limiares de similaridade para o título do veículo de publicação e o título do trabalho. Caso todos os testes falhem, o novo registro de citação é considerado 4

34 Revisão Bibliográfica 19 como pertencente a um novo autor. Assim, é criado um novo grupo no repositório da biblioteca digital onde o registro é adicionado.

35 Capítulo 3 Método proposto Neste capítulo, é apresentado o algoritmo que implementa o método incremental proposto para a desambiguação de nomes de autores. O método tem como objetivo diminuir a fragmentação gerada por métodos incrementais básicos. Primeiramente, descreve-se a abordagem incremental básica de desambiguação, que atribui para cada nova referência de um novo registro de citação, um autor compatível existente no repositório. Em seguida, descreve-se a proposta que usa a referência do registro recém inserido, com o objetivo de reduzir a fragmentação no repositório de uma biblioteca digital. Finalmente, são descritas as estratégias avaliadas para a seleção de referências representativas para a posterior fusão dos grupos fragmentados. A Figura 3.1 mostra, esquematicamente, como o método proposto atua. Em uma primeira etapa, o método seleciona grupos candidatos utilizando a comparação do nome de uma nova referência do registro de citação recém inserido (r) com o nome representativo dos grupos no repositório. Para isso, utiliza-se o algoritmo de Comparação por Fragmentos. Havendo candidatos, passa-se à etapa seguinte, onde são filtrados os grupos candidatos utilizando-se os demais atributos por meio do Algoritmo 3.3. Após as etapas anteriores, é realizada a fusão entre os grupos mais similares a r. Neste ponto, ou fundem-se todos os grupos compatíveis ou apenas os dois mais compatíveis. Finalmente, no momento em que r é inserido em um grupo compatível, são aplicadas as estratégias para seleção de referências representativas. Caso nenhum grupo seja selecionado na primeira etapa, o algoritmo segue para a etapa final onde é criado um novo grupo no repositório e r é adicionado a ele. 20

36 Método proposto 21 Figura 3.1: Representação esquemática do método proposto. 3.1 Abordagem incremental básica de desambiguação Seja C = {c 1, c 2,..., c k } uma coleção de registros de citação em uma biblioteca digital, R = {r 1, r 2,..., r m } um conjunto de referências de C e A = {a 1, a 2,..., a n } um conjunto de grupos no repositório, onde cada grupo é considerado como pertencente a um autor e tem um nome representativo obtido a partir do atributo nome do autor de suas referências. O Algoritmo 3.1 descreve a abordagem de desambiguação incremental básica para nomes de autores. A entrada do algoritmo é um conjunto de grupos de referências A contidos no repositório da biblioteca digital e um novo registro de citação c. Depois é feito um pré-processamento (linha 1) para remoção de stopwords e extração de radicais. Quando um novo registro de citação é inserido em uma biblioteca digital, para cada referência r (uma ocorrência do nome do autor) de c, o algoritmo incremental seleciona um grupo a compatível e adiciona r em a. A seleção dos grupos candidatos é feita pela função selectclusters (linha 3), que seleciona um grupo a similar a r usando os limiares α T itle e α V enue, que comparam o título do trabalho e o título do veículo de publicação de c com os títulos dos trabalhos e os títulos dos veículos de publicação dos grupos no repositório. Caso algum grupo ou c não possua coautores, aumenta-se esses limites por um fator δ. Idealmente, a contém referências do mesmo autor. Se nenhum dos grupos é selecionado (ou seja, nenhum deles é similar o suficiente a r), o algoritmo considera r como pertencente a um novo autor, cria um novo grupo que irá conter r e adiciona este

37 22 Método proposto grupo em A. Como já mencionado, esta abordagem básica pode atribuir referências de um mesmo autor a grupos distintos, aumentando, com isso, a fragmentação e reduzindo a qualidade do repositório da biblioteca digital. Algorithm 3.1: Algoritmo Incremental Básico Entrada: Set of reference clusters A; Citation record c; Saída: Set of reference clusters A; 1: c preprocesscitationrecord(c) 2: para cada reference r c faça 3: a selectcluster(a, r); 4: se a = então 5: a newcluster() 6: A A {a} 7: fim se; 8: add(a, r) 9: fim para; 3.2 Método de desambiguação incremental capaz de realizar fusões O foco deste trabalho centra-se na redução da fragmentação durante a inserção de um novo registro, fundindo grupos compatíveis com as referências de tal registro de citação. O Algoritmo 3.2 descreve o método proposto. Este algoritmo recebe como entrada um conjunto de grupos A a partir do repositório e um novo registro de citação c. Depois de um pré-processamento (linha 1) para remoção de stopwords e extração de radicais, o algoritmo recebe como entrada os grupos candidatos (linha 3), ou seja, os grupos com nomes representativos dos autores similares ao nome do autor de r. Em seguida, o algoritmo seleciona um conjunto de grupos S que provavelmente contém referências para o mesmo autor de r (linha 4). Se S é vazio, o algoritmo considera r como pertencendo a um novo autor (linhas 5-7), caso contrário, funde todos os grupos de S em a (linhas 8-14). Finalmente, ele adiciona r a a (linha 16). Foi usada a função proposta por Carvalho et al. (2011) para comparar as referências recentemente inseridos com os grupos existentes. Esta função é descrita pelo Algoritmo 3.3. Um grupo a é compatível com r, se a inclui referências com coautores em comum com r e títulos de trabalhos ou títulos de veículos de publicação similares aos de r. O Algoritmo 3.2 também utiliza os limiares α T itle e α V enue para avaliar a similaridade entre

UM MÉTODO DE AGRUPAMENTO HIERÁRQUICO PARA RESOLUÇÃO DE AMBIGÜIDADE ENTRE NOMES DE AUTORES EM CITAÇÕES BIBLIOGRÁFICAS

UM MÉTODO DE AGRUPAMENTO HIERÁRQUICO PARA RESOLUÇÃO DE AMBIGÜIDADE ENTRE NOMES DE AUTORES EM CITAÇÕES BIBLIOGRÁFICAS UM MÉTODO DE AGRUPAMENTO HIERÁRQUICO PARA RESOLUÇÃO DE AMBIGÜIDADE ENTRE NOMES DE AUTORES EM CITAÇÕES BIBLIOGRÁFICAS RICARDO GONÇALVES COTA UM MÉTODO DE AGRUPAMENTO HIERÁRQUICO PARA RESOLUÇÃO DE AMBIGÜIDADE

Leia mais

HERCULANO GRIPP NETO. Orientador: Anderson Almeida Ferreira

HERCULANO GRIPP NETO. Orientador: Anderson Almeida Ferreira HERCULANO GRIPP NETO Orientador: Anderson Almeida Ferreira UM MÉTODO PARA IDENTIFICAÇÃO DE UM CONJUNTO REPRESENTATIVO DE CITAÇÕES BIBLIOGRÁFICAS PARA REMOÇÃO DE AMBIGUIDADE DE NOMES DE AUTORES DE ARTIGOS

Leia mais

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 18 Aprendizado Não-Supervisionado Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor

Leia mais

HERCULANO GRIPP NETO. Orientador: Anderson Almeida Ferreira

HERCULANO GRIPP NETO. Orientador: Anderson Almeida Ferreira HERCULANO GRIPP NETO Orientador: Anderson Almeida Ferreira UM MÉTODO PARA IDENTIFICAÇÃO DE UM CONJUNTO REPRESENTATIVO DE CITAÇÕES BIBLIOGRÁFICAS PARA REMOÇÃO DE AMBIGUIDADE DE NOMES DE AUTORES DE ARTIGOS

Leia mais

Redes Neurais (Inteligência Artificial)

Redes Neurais (Inteligência Artificial) Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

2COP229 Inteligência Computacional. Aula 3. Clusterização.

2COP229 Inteligência Computacional. Aula 3. Clusterização. Aula 3 Clusterização Sumário (Clusterização) - Introdução - Aprendizado Não Supervisionado - Aprendizado Supervisionado - Introdução: Clusterização - Etapas para o processo de Clusterização - Distância

Leia mais

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:

Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso: Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Uma Proposta para Combinar Classificadores e Colaboração de Usuários na Resolução do Problema de Ambiguidade de Nomes de Autores

Uma Proposta para Combinar Classificadores e Colaboração de Usuários na Resolução do Problema de Ambiguidade de Nomes de Autores UNIVERSIDADE FEDERAL DE OURO PRETO Uma Proposta para Combinar Classificadores e Colaboração de Usuários na Resolução do Problema de Ambiguidade de Nomes de Autores Emilia Alves de Souza Universidade Federal

Leia mais

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo

Leia mais

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos 17 I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos Renan Gomes Pereira 1 Maria Fernanda Moura 2 Resumo: O objetivo deste trabalho é apresentar a ferramenta I-Preproc,

Leia mais

SEMINÁRIO DOS ARTIGOS:

SEMINÁRIO DOS ARTIGOS: SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

Realimentação de Relevância

Realimentação de Relevância Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada

Leia mais

Um método para identicação de um conjunto representativo de citações bibliográcas para remoção de ambiguidade de nomes de autores de artigos cientícos

Um método para identicação de um conjunto representativo de citações bibliográcas para remoção de ambiguidade de nomes de autores de artigos cientícos Anderson Almeida Ferreira Um método para identicação de um conjunto representativo de citações bibliográcas para remoção de ambiguidade de nomes de autores de artigos cientícos Herculano Gripp Neto Departamento

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquinas Introdução à Aprendizado Não- Supervisionado David Menotti, Ph.D. http://web.inf.ufpr.br/menotti Objetivos

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Segmentação. Luiz Eduardo S. Oliveira, Ph.D.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Segmentação. Luiz Eduardo S. Oliveira, Ph.D. Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Segmentação Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir os conceitos básicos de segmentação

Leia mais

4 Framework Proposto para Construção de Mediadores

4 Framework Proposto para Construção de Mediadores 41 4 Framework Proposto para Construção de Mediadores Neste capitulo apresentamos um framework que implementa a estratégia para enriquecimento de dados a partir de informações da Deep Web, descrita no

Leia mais

Avaliação experimental de métodos de desambiguação de autores em bibliotecas digitais

Avaliação experimental de métodos de desambiguação de autores em bibliotecas digitais UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA CURSO DE CIÊNCIA DA COMPUTAÇÃO VINÍCIUS DE BONA FARINON Avaliação experimental de métodos de desambiguação de autores em bibliotecas digitais

Leia mais

UMA ABORADAGEM INCREMENTAL PARA REMOÇÃO DE AMBIGUIDADE DE NOMES EM CITAÇÕES BIBLIOGRÁFICAS

UMA ABORADAGEM INCREMENTAL PARA REMOÇÃO DE AMBIGUIDADE DE NOMES EM CITAÇÕES BIBLIOGRÁFICAS Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM UMA ABORADAGEM INCREMENTAL PARA REMOÇÃO DE AMBIGUIDADE DE NOMES EM CITAÇÕES

Leia mais

HEURÍSTICAS PARA DESAMBIGUAÇÃO INCREMENTAL DE NOMES DE AUTORES EM REFERÊNCIAS BIBLIOGRÁFICAS

HEURÍSTICAS PARA DESAMBIGUAÇÃO INCREMENTAL DE NOMES DE AUTORES EM REFERÊNCIAS BIBLIOGRÁFICAS HEURÍSTICAS PARA DESAMBIGUAÇÃO INCREMENTAL DE NOMES DE AUTORES EM REFERÊNCIAS BIBLIOGRÁFICAS ALAN FILIPE SANTANA HEURÍSTICAS PARA DESAMBIGUAÇÃO INCREMENTAL DE NOMES DE AUTORES EM REFERÊNCIAS BIBLIOGRÁFICAS

Leia mais

Otimização da Paleta de Cores

Otimização da Paleta de Cores Otimização da Paleta de Cores Resumo O objetivo deste artigo é apresentar a técnica de otimização da paleta de cores utilizada no MSX Viewer 5 para encontrar a melhor paleta de cores do MSX 2 e do v9990,

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

Encontrando Comunidades

Encontrando Comunidades Capítulo 3 Encontrando Comunidades A transposição do conceito de comunidade, tal qual nós o conhecemos, para o ambiente virtual tem sido uma prática implementada em diversas aplicações, e.g Facebook, Linkedid

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento

Leia mais

Clustering: k-means e Agglomerative

Clustering: k-means e Agglomerative Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering

Leia mais

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade

Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens

Leia mais

Comparação de métodos de fingerprints para o rastreio virtual de inibidores da 5α-redutase

Comparação de métodos de fingerprints para o rastreio virtual de inibidores da 5α-redutase Pedro Rafael Mendes Reis Comparação de métodos de fingerprints para o rastreio virtual de inibidores da 5α-redutase Dissertação de Mestrado em Química Farmacêutica Industrial, orientada pela Doutora Cândida

Leia mais

DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB

DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB DETERMINAÇÃO DE FUNÇÕES DE TRANSFERÊNCIA DE PROCESSOS QUÍMICOS ATRAVÉS DO MÉTODO DE EVOLUÇÃO DIFERENCIAL UTILIZANDO O SCILAB A. H. R. REZENDE 1, D. L. SOUZA 1 1 Universidade Federal do Triângulo Mineiro,

Leia mais

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução

3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução 3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução Como já mencionado na seção 1.1, as SVMs geram, da mesma forma que redes neurais (RN), um "modelo caixa preta" de

Leia mais

GILSON BARBOSA DOURADO

GILSON BARBOSA DOURADO CORREÇÃO DE VIÉS DO ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA PARA A FAMÍLIA EXPONENCIAL BIPARAMÉTRICA GILSON BARBOSA DOURADO Orientador: Klaus Leite Pinto Vasconcellos Área de concentração: Estatística Matemática

Leia mais

Detecção de Réplicas de Sítios Web Usando Aprendizado Semi-supervisionado baseado em Maximização de Expectativas. Cristiano Rodrigues de Carvalho

Detecção de Réplicas de Sítios Web Usando Aprendizado Semi-supervisionado baseado em Maximização de Expectativas. Cristiano Rodrigues de Carvalho Detecção de Réplicas de Sítios Web Usando Aprendizado Semi-supervisionado baseado em Maximização de Expectativas Cristiano Rodrigues de Carvalho Orientador: Nivio Ziviani Co-orientador: Adriano Veloso

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 18 Descritores Locais e Frameworks SIFT SURF Viola-Jones

Leia mais

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível

Leia mais

Capítulo 4. Comitê BAS 35

Capítulo 4. Comitê BAS 35 4 Comitê BAS Devido à flexibilidade do algoritmo BAS, que aceita qualquer distribuição inicial para os exemplos, diversas heurísticas podem ser implementadas com o objetivo de criar classificadores de

Leia mais

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D. Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Tipos de Aprendizagem Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir diferentes tipos de

Leia mais

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,

Leia mais

Sumário. Trabalho que foi desenvolvido. Introdução

Sumário. Trabalho que foi desenvolvido. Introdução Proposta de um sistema de Classificação de Notícias utilizando técnicas de Aprendizagem de Máquina integrado com o ClippingBr Bruno Campagnolo de Paula PROJETO FINAL DA DISCIPLINA DE MACHINE LEARNING Mestrado

Leia mais

Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA

Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA Sumário : Merging of Adaptive Finite Intervals Elaine Ribeiro de Faria Análise de Agrupamento de Dados ICMC-USP Dezembro 2010 Introdução Visão Geral e Objetivos do Algoritmo Grid Adaptativo Algoritmo Algoritmo

Leia mais

Bernardo Pereira Nunes. Classificação automática de dados semi-estruturados. Dissertação de Mestrado

Bernardo Pereira Nunes. Classificação automática de dados semi-estruturados. Dissertação de Mestrado Bernardo Pereira Nunes Classificação automática de dados semi-estruturados Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do título de Mestre pelo Programa de Pós-

Leia mais

Documento de Requisitos SISTEMA DE APOIO À ESCRITA (SAPES)

Documento de Requisitos SISTEMA DE APOIO À ESCRITA (SAPES) 1. Introdução 1.1 Propósito Documento de Requisitos SISTEMA DE APOIO À ESCRITA (SAPES) O propósito deste documento de especificação de requisitos é definir os requisitos do sistema SAPES - Sistema de Apoio

Leia mais

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral

Agrupamento de dados. Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral Agrupamento de dados Critério 1: grupos são concentrações de dados k-means Critério 2: grupos são conjuntos de elementos próximos entre si espectral Dados e grafos Se temos dados x i, i 0... n, criamos

Leia mais

6 Aplicação do Modelo de Geração de Cenários

6 Aplicação do Modelo de Geração de Cenários 6 Aplicação do Modelo de Geração de Cenários 6.. Considerações Iniciais Os cenários de energia natural afluente, que são utilizados durante as simulações forward e backward do processo de definição da

Leia mais

Tabela Hash: Índice remissivo

Tabela Hash: Índice remissivo Capítulo 3 Tabela Hash: Índice remissivo Um índice remissivo lista os termos e tópicos que são abordados em um documento juntamente com páginas em que aparecem. É bastante comum encontrar tais índices

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados

Leia mais

Primeiro Exercício programa: Como o Google ordena páginas. MAP-2121 para EPUSP

Primeiro Exercício programa: Como o Google ordena páginas. MAP-2121 para EPUSP Primeiro Exercício programa: Como o Google ordena páginas MAP-2121 para EPUSP 1 Instruções gerais Os exercícios computacionais pedidos na disciplina Cálculo Numérico têm por objetivo fundamental familiarizar

Leia mais

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto

Leia mais

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos

SEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga mvieira@sc.usp.br

Leia mais

Fator de Impacto Índice H. Rosana Alvarez Paschoalino Serviço de Biblioteca Escola de Engenharia de São Carlos Universidade de São Paulo

Fator de Impacto Índice H. Rosana Alvarez Paschoalino Serviço de Biblioteca Escola de Engenharia de São Carlos Universidade de São Paulo Fator de Impacto Índice H Rosana Alvarez Paschoalino Serviço de Biblioteca Escola de Engenharia de São Carlos Universidade de São Paulo Onde publicar artigos? Baseado em quais critérios? A quem interessa?

Leia mais

Técnicas de recuperação de informação: filtragem, agrupamento

Técnicas de recuperação de informação: filtragem, agrupamento Técnicas de recuperação de informação: filtragem, agrupamento 1 Nome usado para descrever uma variedade de processos envolvendo a entrega de informação para pessoas que precisam dela; Compreende um método

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

5 Agregação das Reservas das Entidades

5 Agregação das Reservas das Entidades 5 Agregação das Reservas das Entidades Neste capítulo é apresentado o procedimento de agregação das reservas das entidades. É importante ressaltar que as entidades probabilísticas sofrem agregação probabilística,

Leia mais

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 3: 1 /54 Programa Dia 1: Apresentação

Leia mais

Tabelas Hash. informação, a partir do conhecimento de sua chave. Hashing é uma maneira de organizar dados que:

Tabelas Hash. informação, a partir do conhecimento de sua chave. Hashing é uma maneira de organizar dados que: Tabelas Hash Tabelas Hash O uso de listas ou árvores para organizar informações é interessante e produz bons resultados. Porem, em nenhuma dessas estruturas se obtém o acesso direto a alguma informação,

Leia mais

Caracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil. Suellen Silva de Almeida David Menotti

Caracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil. Suellen Silva de Almeida David Menotti Caracterização Automática dos Agentes Causadores de Lesões em Folíolos de Cultivares do Brasil Suellen Silva de Almeida David Menotti 1 Introdução Grande ocorrência de ataques de pragas nos cultivares

Leia mais

3 Técnica Baseada em Treinamento e Cascata de Classificadores

3 Técnica Baseada em Treinamento e Cascata de Classificadores 3 Técnica Baseada em Treinamento e Cascata de Classificadores 3.1. Introdução A utilização de algoritmos para a extração de características de objetos e a geração de classificadores em cascata capazes

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha

Leia mais

Inteligência nos Negócios (Business Inteligente)

Inteligência nos Negócios (Business Inteligente) Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7) Fundamentação da disciplina Analise de dados Decisões

Leia mais

Redes Neurais Artificiais - Introdução. Visão Computacional

Redes Neurais Artificiais - Introdução. Visão Computacional Redes Neurais Artificiais - Introdução Visão Computacional Inspiração 2 Inspiração 3 Inspiração Atividade seletivanas conexões Soma os impulsos e passa a diante 4 Inspiração As conexões entre os dendritos

Leia mais

Combinação de Classificadores (fusão)

Combinação de Classificadores (fusão) Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado

Leia mais

2 Processo de Agrupamentos

2 Processo de Agrupamentos 20 2 Processo de Agrupamentos A análise de agrupamentos pode ser definida como o processo de determinação de k grupos em um conjunto de dados. Para entender o que isso significa, observe-se a Figura. Y

Leia mais

Consultas por Similaridade em Domínios de Dados Complexos

Consultas por Similaridade em Domínios de Dados Complexos Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração

Leia mais

Clustering - c-means e Self Organizing Maps

Clustering - c-means e Self Organizing Maps - c-means e Self Organizing Maps Sarajane M. Peres e Clodoaldo A. M. Lima 13 de abril de 2015 Material baseado em: HAN, J. & KAMBER, M. Data Mining: Concepts and Techniques. 2nd. 2006 FAUSETT, L. Fundamentals

Leia mais

Redes Neurais Artificiais

Redes Neurais Artificiais Redes Neurais Artificiais Marcelo K. Albertini 24 de Julho de 2014 2/34 Conteúdo Perceptron Gradiente descendente Redes multicamadas Retropropagação de erros 3/34 Modelos conexionistas Humanos Tempo de

Leia mais

Manual do Usuário FEB

Manual do Usuário FEB UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL UFRGS CENTRO INTERDISCIPLINAR DE NOVAS TECNOLOGIAS NA EDUCAÇÃO - CINTED GT - FEB Manual do Usuário FEB Porto Alegre, RS, Brasil 2009 Manual do Usuário - FEB 2

Leia mais

Rede RBF (Radial Basis Function)

Rede RBF (Radial Basis Function) Rede RBF (Radial Basis Function) André Tavares da Silva andre.silva@udesc.br Roteiro Introdução à rede neural artificial RBF Teorema de Cover da separabilidade de padrões RBF x MLP RBF Função de ativação

Leia mais

2 Definição do Problema

2 Definição do Problema Definição do Problema. Formulação Matemática O problema do Fluxo Máximo entre todos os pares de nós surge no contexto de redes, estas representadas por grafos, e deriva-se do problema singular de fluxo

Leia mais

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes

Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes Utilização do Corte Percentual na categorização de documentos da Web com o algoritmo Naive Bayes José Alberto Sousa Torres/ Grinaldo Oliveira /Cláudio Alves Amorim * Em um momento em que é crescente a

Leia mais

Exame de Aprendizagem Automática

Exame de Aprendizagem Automática Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores

Leia mais

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados Seleção FSS Alguns indutores geralmente degradam seu desempenho quando são fornecidos muitos atributos irrelevantes para o conceito a ser aprendido Feature Subset Selection (FSS) é o processo de selecionar

Leia mais

CIC 111 Análise e Projeto de Algoritmos II

CIC 111 Análise e Projeto de Algoritmos II CIC 111 Análise e Projeto de Algoritmos II Prof. Roberto Affonso da Costa Junior Universidade Federal de Itajubá AULA 27 Square root algorithms Combining algorithms Integer partitions Mo s algorithm Square

Leia mais

Hashing: conceitos. Hashing

Hashing: conceitos. Hashing Hashing: conceitos hashing é uma técnica conhecida como espalhamento, mapeamento ou randomização que tenta distribuir dados em posições aleatórias de uma tabela (array) associa cada objeto (de um determinado

Leia mais

Agrupamento Espectral e Hierárquico

Agrupamento Espectral e Hierárquico Agrupamento Espectral e Hierárquico Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Agrupamento Espectral 2. Agrupamento Hierárquico 1 Agrupamento Espectral Agrupamento Espectral Nem

Leia mais

Ordenação Externa. Ordenação Externa. Ordenação Externa. Ordenação Externa

Ordenação Externa. Ordenação Externa. Ordenação Externa. Ordenação Externa Ordenação Externa Ordenação Externa Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação

Leia mais

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013 Inteligência Artificial de prof. Dr. Rogério R. de Vargas Universidade Estadual de Santa Cruz - UESC Ilhéus-Ba, Outubro de 2013 http://rogerio.in slide 1 Introdução http://rogerio.in slide 2 Como agrupar?

Leia mais

Métodos para Classificação: - Naïve Bayes.

Métodos para Classificação: - Naïve Bayes. Métodos para Classificação: - 1R; - Naïve Bayes. Visão Geral: Simplicidade em primeiro lugar: 1R; Naïve Bayes. 2 Classificação: Tarefa: Dado um conjunto de exemplos préclassificados, construir um modelo

Leia mais

Framework para Deduplicação de Dados com Apache Spark

Framework para Deduplicação de Dados com Apache Spark Framework para Deduplicação de Dados com Apache Spark César Magrin - magrin@inf.ufpr.br Disciplina: Metodologia Científica - CI860 Professor: Alexandre Direne Sumário 1. Qualidade de Dados 2. Deduplicação

Leia mais

Reconhecimento de Faces Utilizando Redes Neurais MLP

Reconhecimento de Faces Utilizando Redes Neurais MLP Reconhecimento de Faces Utilizando Redes Neurais MLP Autor: Adilmar Coelho Dantas 1, Orientador: Márcia Aparecida Fernandes 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal do

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 5 - Peso de termos GSI024-ORI Pg:5. 1 Busca paramétrica usando atributos Regiões em documentos

Leia mais

Correção Ortográfica. Processamento Estatístico da Linguagem Natural. Correção de Erros. Distância Mínima de Edição. Distância Mínima de Edição

Correção Ortográfica. Processamento Estatístico da Linguagem Natural. Correção de Erros. Distância Mínima de Edição. Distância Mínima de Edição Processamento Estatístico da Linguagem Natural Aula 6 Professora Bianca (Sala 302 Bloco E) bianca@ic.uff.br http://www.ic.uff.br/~bianca/peln/ Correção Ortográfica Três tipos de problemas: Detecção de

Leia mais

Programação: Vetores

Programação: Vetores Programação de Computadores I Aula 09 Programação: Vetores José Romildo Malaquias Departamento de Computação Universidade Federal de Ouro Preto 2011-1 1/62 Motivação Problema Faça um programa que leia

Leia mais

Otimização Combinatória - Parte 4

Otimização Combinatória - Parte 4 Graduação em Matemática Industrial Otimização Combinatória - Parte 4 Prof. Thiago Alves de Queiroz Departamento de Matemática - CAC/UFG 2/2014 Thiago Queiroz (DM) Parte 4 2/2014 1 / 33 Complexidade Computacional

Leia mais

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar Introdução Comidas podem apresentar deformações e variações em sua forma, além de conter muitos ingredientes, nem todos visíveis; Métodos tradicionais de reconhecimento requerem a detecção de características

Leia mais

Análise de Clusters. Aplicações da formação de Grupos (Clustering)

Análise de Clusters. Aplicações da formação de Grupos (Clustering) Análise de Clusters Aplicações da formação de Grupos (Clustering) Ver e analisar vastas quantidades de dados biológicos como um todo pode ser difícil É mais fácil interpretar os dados se forem divididos

Leia mais

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Susana Rosich Soares Velloso SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção

Leia mais

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de

Leia mais

Cluster. Larissa Sayuri Futino Castro dos Santos

Cluster. Larissa Sayuri Futino Castro dos Santos Cluster Larissa Sayuri Futino Castro dos Santos Agenda O que faremos Modelos de Mistura LDA Reconhecimento Overview Mét. Particionais E Hierárquicos Melhorias K-Medians K-Medoids K-Modes Mét. Probabilís

Leia mais

UNIVERSIDADE ESTADUAL PAULISTA Campus de Sorocaba. Segmentação

UNIVERSIDADE ESTADUAL PAULISTA Campus de Sorocaba. Segmentação UNIVERSIDADE ESTADUAL PAULISTA Campus de Sorocaba Segmentação A separação dos pixeis relativos a cada objeto, ou região, é uma etapa fundamental para o sucesso do processo de análise da imagem. Embora

Leia mais

Árvores Binárias e AVL Felipe Barros Pontes Gustavo Márcio de Morais Cunha Márcio de Medeiros Ribeiro

Árvores Binárias e AVL Felipe Barros Pontes Gustavo Márcio de Morais Cunha Márcio de Medeiros Ribeiro Universidade Federal de Alagoas - UFAL Departamento de Tecnologia da Informação - TCI Ciência da Computação Árvores Binárias e AVL Felipe Barros Pontes Gustavo Márcio de Morais Cunha Márcio de Medeiros

Leia mais

4 Algoritmos de Aprendizado

4 Algoritmos de Aprendizado 4 Algoritmos de Aprendizado Este capítulo apresenta os algoritmos utilizados ao longo da dissertação e alguns utilizados como base por eles. Os algoritmos adotados são todos de aprendizado supervisionado.

Leia mais

Implementação dos Algoritmos e Resultados

Implementação dos Algoritmos e Resultados Capítulo 6 Implementação dos Algoritmos e Resultados 6.1 Considerações Iniciais Diversas situações foram exploradas neste trabalho visando analisar qual seria a wavelet mais adequada para sistemas de extração

Leia mais