Detecção de Autores Duplicados Utilizando Estrutura de Comunidades em Redes de Cooperação Científica
|
|
- Vasco Castelhano
- 5 Há anos
- Visualizações:
Transcrição
1 Detecção de Autores Duplicados Utilizando Estrutura de Comunidades em Redes de Cooperação Científica Breno Júnio V. da Silva 1, Robson Motta 2, Alneu de Andrade Lopes 3 1 Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo (USP) São Carlos SP Brazil Abstract. In collections of scientific papers is frequent to find different quotational names of a same author. For many applications, these duplicate records need to be identified. This is an instance of the problem known as identification of duplicates, for which good results have not been achieved yet. This study investigated the use of scientific cooperation networks and community detection techniques to deal with the problem of identifying duplicates. The results indicate that such strategy not only improves the accuracy of the identification of duplicates, but also reduces the computational cost associated with this task when compared with approaches in which a record is compared against all the others. Resumo. Nas coleções de artigos científicos é frequente encontrar nomes diferentes de citação de um mesmo autor. Para muitas aplicações, estes registros duplicados devem ser identificados. Esta é uma instˆancia do problema conhecido como a identificação de duplicados, para o qual bons resultados não foram alcançados ainda. Este estudo investigou a utilização de redes de cooperação científica e técnicas de detecção da comunidade para lidar com o problema de identificação de duplicados. Os resultados indicam que essa estratégia não só melhora a precisão da identificação de duplicatas, mas também reduz o custo computacional associado a esta tarefa quando comparado com as abordagens em que um registro é comparado com todos os outros. 1. Introdução A grande quantidade de dados armazenados em meio digital cresceu consideravelmente nas últimas décadas, dificultando a possibilidade de exploração de conhecimento específico e relevante. Desta forma, diversos trabalhos em diferentes áreas da ciência desenvolvem métodos automáticos para extrair conhecimento a partir de grandes volumes de dados [Fayyad et al. 1996]. Aprendizado de Máquina, subárea de Inteligência Artificial, é uma das áreas de pesquisa que estuda algoritmos e técnicas relacionadas a obtenção automática de conhecimento a partir de dados. O aprendizado de máquina é uma área multidisciplinar envolvendo conhecimentos de estatística, computação, matemática, biologia entre outros [Mitchell 1997]. Para o uso das técnicas de aprendizado de máquina é fundamental definir como os dados e o conhecimento serão representados, bem como o mecanismo de inferência apropriado para a tarefa em questão. A representação dos dados de entrada para a maioria dos algoritmos pode ser dividida em dois modelos: a representação proposicional, na qual os objetos são representados somente pelas suas características; e a
2 representação relacional, na qual considera as características individuais e as relações existentes entre os objetos [Raedt 2008]. Um grafo (ou rede) pode ser utilizado para representação dos dados de forma relacional. Redes são estruturas compostas por um conjunto de vértices e um conjunto de arestas que ligam os pares de vértices conforme as relações existentes no mundo real ou no sistema em questão [Newman 2003]. Redes Complexas refere-se a uma rede que apresenta uma estrutura de conexões não trivial, como por exemplo, a World Wide Web ou as redes sociais como Orkut 1, Facebook 2 e outras [Reka Albert and Barabasi 1999]. A representação relacional, neste trabalho, é usada para agregar informações sobre cooperação científica entre pesquisadores e usar essa informação para melhorar a detecção de registros duplicados em base de dados. Bases de dados podem conter registros que se referem à mesma entidade no mundo real, porém, não são sintaticamente idênticos. Variações na representação dos dados podem surgir de erros de digitação, erros ortográficos, abreviações, não padronização na entrada de dados e integração de múltiplas bases de dados. Dados extraídos de documentos não estruturados, semi-estruturados ou páginas da web tendem a propagar mais ruídos às bases de dados [Bilenko and Mooney 2003]. Neste trabalho, quaisquer pares de registros que sejam sintaticamente diferentes, mas representem o mesmo objeto no mundo real, serão identificados como duplicados. O problema de registros duplicados se estende a bibliotecas digitais, onde a não utilização de padrões de citações e/ou união de diversas bibliotecas, fazem com que surjam registros duplicados de autores. É comum o mesmo autor aparecer em portais de periódicos com nomes de citação diferentes, por exemplo, M. E. J. Newman, Mark Newman e Newman, Mark E.. Esse problema é tradicionalmente tratado por uma tediosa análise manual dos dados e com técnicas automáticas e semi-automáticas que ainda não alcançam uma precisão desejável. Além disso, detectar um autor duplicado, grafado de formas distintas, é um problema computacionalmente caro. Uma implementação básica, em que são confrontados todos os autores de uma base de dados, seria no mínimo de complexidade computacional de ordem quadrática no número de registros. Considerando o problema de autores duplicados, o objetivo deste trabalho é usar o formalismo de redes complexas de cooperação científica e de detecção de comunidades para identificar registros duplicados de autores em uma coleção de artigos científicos. A abordagem investigada detecta grupos de vértices fortemente conectados em uma rede de cooperação científica, e os utiliza para reduzir a complexidade do problema, minimizando a quantidade de pares de autores a serem comparados, e melhorar a precisão da detecção de duplicados. O trabalho está organizado da seguinte forma. Na Seção 2, é apresentada uma revisão dos trabalhos relacionados ao problema. Na Seção 3, a modelagem proposta para simular o problema é apresentada. Na Seção 4, os resultados de cobertura e precisão da técnica são apresentados, bem como sua avaliação da complexidade de tempo. Por fim, na Seção 5 a conclusão e proposta de trabalhos futuros
3 2. Detecção de Registros Duplicados Em grandes bases de dados, são facilmente encontrados dados duplicados ou referências erradas. No mundo real, o problema se torna ainda mais complexo quando várias bases de dados são agrupadas. O problema se estende para bibliotecas digitas, pois, a falta de convenções para referências agrava o problema, dificultando obter medidas que caracterizam a base de dados. Medidas tradicionais de similaridade entre cadeias de caracteres podem ser usadas para identificar erros tipográficos e outros tipos de ruídos. No entanto, é difícil identificar quando referências sintaticamente distintas se referem ao mesmo objeto no mundo. Bhattacharya e Getoor [Bhattacharya and Getoor 2004, Bhattacharya and Getoor 2007] utilizaram um algoritmo iterativo para eliminar registros duplicados em bases de dados a partir dos relacionamentos existentes entre as entidades. A modelagem utilizada procura por evidências que determinam se dois registros idênticos são na verdade distintos, por exemplo, dois registros de nome de pessoas idênticos em uma base de dados cadastrais de pessoas. Essas evidências são informações adicionais a um registro, as quais não são consideradas em abordagens tradicionais que utilizam medidas de aproximação de cadeia de caracteres. Como evidência adicional há, por exemplo, informação de filiação nos registros ou nome do cônjuge. Algoritmos genéticos foram aplicados para descobrir uma função de similaridade que é capaz de dizer se dois registros são o mesmo objeto no mundo real [de Carvalho et al. 2006]. A motivação para usar tal técnica é a capacidade existente nos algoritmos genéticos de se adaptar aos dados, identificar padrões de informações que não são óbvias e diminuir a interferência do especialista na definição dos parâmetros de entrada dos modelos de detecção dos registros duplicados. Dong e colegas [Dong et al. 2005] usaram um algoritmo que se baseia na construção de um grafo de dependência. As dependências são informações contidas no próprio trabalho científico, como instituição do autor, endereço eletrônico, grupo de pesquisa entre outros. Os vértices representam as referências e as arestas representam as dependências entre as referências. A construção do grafo visa o uso extensivo de informações de contexto para fornecer evidências necessárias para identificar registros duplicados. Por exemplo, dados duas pessoas, considera-se as relações de co-autoria e o endereço eletrônico para auxiliar na decisão de identificar se são a mesma pessoa. No contexto da web, observou-se que um determinado registroapode ser um registro duplicado de B, se A aparece frequentemente associado a um tipo de informação, em queb também aparece. Utilizando motores de busca e um conjunto de entidades fornecidas, o algoritmo proposto por Elmacioglu e colegas [Elmacioglu et al. 2007] utiliza uma função de densidade baseada nos resultados obtidos dos motores de busca para identificar os registros duplicados. Diferentemente dos outros modelos propostos, este por sua vez, utiliza informações da web, então os resultados variam no tempo conforme ocorrem mudanças na web. Conforme a quantidade de registros aumenta, a natureza quadrática torna algumas abordagens proibitiva para o problema [Kim and Lee 2007]. Diante deste contexto, são propostas diversas formas de abordarem ao problema, considerando-se o relacionamento entre os registros da base de dados, com resultados consideráveis.
4 De maneira geral, as propostas de soluções para o problema consideram o relacionamento entre os registros, medida de similaridade e grupos ou classes de registros, porém, os métodos necessitam de interferência humana. A proposta de substituir os parâmetros estimados por especialista para métodos dinâmicos que alteram e adaptam os parâmetros aos dados em tempo de execução aumentam as chances de classificar corretamente um registro, porém, não ajuda no problema de custo computacional [Paskalev and Antonov 2006, Paskalev and Antonov 2007]. 3. Detecção de Comunidades na Identificação de Duplicados As bases de dados de artigos científicos são, de uma maneira geral, compostas por documentos não estruturados, ou seja, documentos nos quais não existem etiquetas separando as informações no texto. Para a construção das redes de cooperação científica é necessário extrair informações pertinentes dos documentos. Para isto, a ferramenta IESystem, desenvolvida no ICMC para extração de informações em artigos, se mostrou eficiente [Rossi et al. 2010]. A ferramenta IESystem foi desenvolvida especificamente para extrair metadados (título, autores, resumo, referências e etc) de artigos científicos em diferentes idiomas. Utilizando um esquema de modelos proposto pelo autor, a ferramenta IESystem transforma o texto não estruturado em um modelo estruturado. Por exemplo, se utilizar o modelo contendo título, autores e referências, o texto é separado por tags em que o título é inserido entre as etiquetas <Título> e < \Título>, a lista de autores é inserida em <Autores> e < \Autores> e por último, as referências são inseridas entre <Referências> e < \Referências>. Figura 1. Sequência de atividades para extrair as informações dos artigos científicos e então construir a rede de cooperação científica. Com as informações já identificadas pela ferramenta, uma nova base de dados parcialmente pré-processada e que mantêm as características de relacionamento original é construída. Para geração da rede de cooperação científica somente as informações referentes aos autores é necessária, sendo que neste trabalho somente os artigos completos estão sendo considerados, eliminando os autores das referências. A Figura 1 sintetiza as etapas do processo utilizado para construção das redes, utilizando scripts para processar os dados extraídos pela ferramenta IESystem e construir a rede de cooperação científica, conectando-se dois autores que estão presentes em um mesmo artigo. A técnica proposta consiste em construir um sistema capaz de identificar autores duplicados em uma rede de cooperação científica, tendo como entrada a coleção de artigos
5 científicos em formato PDF. Para avaliar a qualidade da ferramenta na execução da tarefa foram utilizadas as medidas cobertura, precisão e f-measure [Witten and Frank 2005]. A ferramenta foi construída com a linguagem de programação Python 3. O processo de detecção de autores duplicados é dinâmico e não dispensa a avaliação do especialista. A Figura 2 ilustra o modelo simplificado do funcionamento geral do sistema. Na entrada de dados, o sistema recebe uma rede de cooperação científica (ou co-autoria). Então processa essa rede e sugere ao especialista os possíveis autores duplicados. O especialista analisa os resultados e altera os parâmetros, de forma que se observe melhoria na qualidade dos resultados. Por fim, é possível atualizar a base de dados eliminando os itens duplicados. Figura 2. Sequência de atividades executadas pelo sistema para identificar autores duplicados na rede cooperação científica fornecida. O sistema é dividido em quatro partes. Primeiro são as tarefas de préprocessamento da entrada de dados, em seguida detecção de comunidades na rede fornecida. Terceiro o processamento das comunidades com a medida de similaridade proposta e por fim o pós-processamento dos resultados. A tarefa de pré-processamento da entrada de dados consiste em atribuir um número identificador (ID) para da cada elemento de entrada. Eliminar caracteres especiais como pontos (usados em abreviações) e espaços em branco entre nomes e sobrenomes. A eliminação desses caracteres formam as chaves de busca usadas na identificação dos duplicados, e o ID representa o vértice da rede. Feito o pré-processamento da entrada de dados, inicia-se a fase de detecção de comunidades da rede. Estrutura de comunidades é uma característica comumente presente em redes complexas. As comunidades são formadas por vértices que são densamente conectados entre si e fracamente conectados a outros grupos [Newman 2004]. Normalmente, essas comunidades conectam vértices com alguma similaridade entre si. Para detecção de comunidades exige-se como parâmetros uma rede e o número desejado de comunidades. Neste trabalho, utilizou-se o método de detecção de comunidades baseado na remoção de betweenness [Girvan and Newman 2002]. Neste método gera-se o caminho mínimo entre todos os pares de vértices na rede, e assume-se que arestas que fazem parte de muitos caminhos mínimos ligam grupos fortemente conectados, ou seja, as comunidades. A remoção iterativa destas arestas gera cada vez mais componentes, que são as comunidades identificadas na rede. Após a detecção das comunidades, estas podem ser processadas individualmente. Comparando objeto por objeto a fim de identificar elementos duplicados usando a medida 3
6 de similaridade entre cadeia de caracteres (Medida de Levenshtein, também conhecida como Distância de Edição). A similaridade é definida em porcentagem sobre o comprimento da cadeia de caracteres. Por exemplo, dada uma cadeia de caracteres A de comprimento 10 e definido um limiar de diferença de 30% (ou limiar de similaridade em 70%), então diz-se que uma outra cadeia de caracteres B é similar a A se for necessário mudar 30% (ou manter 70%) dos caracteres deapara que esse se iguale ab. Por fim, para cada comunidade é construída uma lista de itens duplicados, considerando o valor definido para o limiar de diferença utilizado na medida de similaridade. A fase de pós-processamento, exige que um especialista avalie os resultados, efetuando, se necessário, alterações no valor do limiar de diferença e no número de comunidades, refazendo o procedimento de identificação de duplicados. Um especialista pode também avaliar os itens duplicados, já os unificando na rede, permitindo, possivelmente, uma melhoria nos resultados futuros. 4. Resultados Obtidos Para avaliação do modelo proposto, foi realizado um estudo de caso com um conjunto de artigos científicos. O conjunto de dados é formado por 992 artigos, sendo 654 documentos publicados entre 1994 e 2008 na área de Case-Based Reasoning, e 338 documentos publicados entre 1997 e 2008, na área de Inductive Logic Programming. Para avaliar o modelo proposto a partir dos resultados obtidos foram utilizados 7 diferentes limiares de diferença para a medida de Levenshtein (20%, 25%, 30%, 35%, 40%, 45% e 50%), e o intervalo de 1 à 20 comunidades para cada limiar de diferença. A Tabela 1 contêm informações complementares da base de dados que se aplicam à rede de cooperação científica, no caso, cada autor é um vértice da rede e cada aresta é uma relação de co-autoria. Base de Dados Total de Artigos Total de Autores CBR-ILP Tabela 1. Informações complementares da base de artigo científicos CBR-ILP. Devido a dificuldade de saber exatamente quais são os duplicados existente na coleção, para a avaliação da metodologia, nesta base de dados foram inseridos 268 erros controlados, alterando então o número de objetos referentes ao mundo real de 856 para Os erros inseridos foram de alteração no formato de citação de um mesmo autor e erros de digitação. Erros de citação se referem a aproximadamente 70% dos erros inseridos, por exemplo, ao autor Mobyen Uddin Ahmed são inseridas abreviações para o nome como Mobyen U. A. e M. U. Ahmed. Erros de digitação correspondem aos outros 30%, por exemplo, ao autor José Ramon Méndez, são inseridos erros de digitação José Ramom Méndez e José Ramon Méndes. A avaliação foi feita com base na precisão e cobertura alcançada pela proposta, considerando o total de erros inseridos. A primeira configuração para processar a base de dados CBR-ILP foi o limiar de diferença em 20% e quantidade de comunidades de 1 à 20. A média de objetos identificados como duplicados foi 170 e a média dos objetos identificados corretamente como duplicado foi 166, de um total de 268 erros inseridos.
7 Na Figura 3 observa-se o que no primeiro experimento a precisão é alta nos dados recuperados, porém, a cobertura dos objetos recuperados é baixa, e a variação na quantidade de comunidades não tem influência direta nos resultados. Tais características ocorrem também para os limiares de diferença em 25% e 30%, com uma pequena variação quando considerada uma comunidade ou valores acima de 15 comunidades, porém, conforme incrementa-se o limiar de diferença, consequentemente melhora-se a cobertura e prejudica-se a precisão. Figura 3. Cobertura, precisão diferença em 20%. Figura 4. Cobertura, precisão diferença em 25%. Figura 5. Cobertura, precisão diferença em 30%. Figura 6. Cobertura, precisão diferença em 35%. Figura 7. Cobertura, precisão diferença em 40%. Figura 8. Cobertura, precisão diferença em 45%. Considerando os limiares de diferença 35% e 40%, observa-se que conforme aumenta-se o número de comunidades melhora-se a precisão e piora-se a cobertura, porém, a medida f-measure demonstra que a melhoria na precisão tem maior relevância
8 do que a perda da cobertura. Isso demonstra que a comparação somente entre objetos das comunidades apresenta uma melhoria comparada ao método que verifica todos os pares de objetos (equivalente a observar as Figuras 6 e 7 com 1 comunidade). Mesma característica ocorre para os limiares de diferença 45% e 50%, com a cobertura atingindo altos valores, mas a precisão é prejudicada, ocorrendo muitos falsos positivos, i.é, registros, de fato distintos, são apresentados como possíveis duplicados. Ou seja, foram recuperados uma quantidade de duplicados superior a quantidade de erro inserido, resumida na Tabela 2. Limiar de diferença 45% 50% Média de objetos recuperados Tabela 2. Objetos recuperados em média para limiares de diferença de 45% e 50%. Portanto, foi possível observar que os resultados se dividiram em três grupos. O primeiro, contendo os valores para os limiares de diferença iguais a 20%, 25% e 30%, não apresenta ganho de cobertura e precisão no uso das comunidades, comparados com a verificação de todos os pares de objetos nos dados (ou seja, 1 comunidade), mas apresenta ganho no processamento, pois menos pares são comparados. O segundo grupo é para um limiar intermediário, no caso os valores de 35% e 40%, demonstrando um ganho nos resultados com o uso das comunidades. E, por fim, o terceiro grupo contém os valores dos limiares de diferença acima de 40%, o qual apresenta grande cobertura, mas contendo muitos falsos positivos. Como já comentado, a complexidade computacional para determinar os autores duplicados no modelo tradicional é quadrática, sendo necessário comparar todos com todos, e considerando as comunidades encontradas este tempo é reduzido significativamente, comparando apenas elementos de uma mesma comunidade (Figura 9). Porém, para o método proposto há o custo computacional para identificação de comunidades. O método utilizado, baseado na remoção de betweenness [Girvan and Newman 2002], possui custo computacional quadrático no número de vértices, mas há outros métodos, que serão implementados e possuem custo computacional reduzido, por exemplo o método FastGreedy [Girvan and Newman 2002] com custo computacional O(Nlog 2 N), com N sendo o número de vértices. Por fim, analisando os resultados obtidos, a capacidade de identificar elementos duplicados na base de dados está relacionada ao erro dominante na base, ou seja, se a base contém erros de digitação no qual geralmente se caracteriza por troca ou falta de poucos caracteres na referência ao autor, o limiar de diferença deve ser pequena. Combinando bases de dados, geralmente, o erro dominante está relacionado a modelos de citação diferentes, então o limiar de diferença deve ser maior. 5. Conclusões A utilização de detecção de comunidades em redes de cooperação científica para reduzir a complexidade computacional se mostrou útil no estudo de caso realizado. O aumento no número de comunidades reduz o tempo necessário para identificar autores duplicados, porém, aumentar de maneira demasiada diminui a precisão na detecção de duplicados.
9 Figura 9. Tempo médio em segundos de execução dos métodos para identificar os autores duplicados na base de dados. Assim sendo, as redes de cooperação científica tendem a agrupar autores da mesma linha de pesquisa na mesma comunidade. Então, os registros duplicados acompanham essa tendência. Aplicar a medida de similaridade nas comunidades se mostrou eficiente comparado ao método tradicional que compara todos pares de objetos, pois, mesmo conseguindo uma cobertura menor, a precisão é alta nos registros identificados. As principais contribuições deste trabalho foram a abertura para uma nova abordagem ainda não explorada, até onde foi pesquisado em trabalhos relacionados, de uso de redes de cooperação científica e desenvolvimento do método de identificação de comunidades na detecção de duplicados. E, por fim, a aplicação da técnica de detecção de duplicados baseada nas comunidades, embora mantenha a complexidade computacional quadrática, ela passa a ser quadrática no número médio de elementos das comunidades. Como proposta de trabalhos futuros, primeiramente torna-se necessário uma avaliação considerando uma grande quantidade de conjunto de dados. A utilização de outros modelos de detecção de comunidades [Clauset et al. 2004], principalmente para redução da complexidade do problema, permitindo escalabilidade do algoritmo. Além disso, verificou-se que é possível realizar uma comparação mais eficiente entre os pares de autores de uma mesma comunidade, considerando não somente a medida de similaridade utilizada, mas também comparando, por exemplo, as abreviações presentes no nome de um autor com os nomes completos de outro autor. Além disso, as redes de cooperação científica foram construídas baseadas no relacionamento entre autores em trabalhos científicos. Outros modelos de rede podem ser utilizados, como modelos que consideram similaridade entre tópicos abordados nos artigos. Por fim, pode-se considerar aplicar processamento pararelo entre as comunidade, pois não existe relacionamento direto durante o processamento dos duplicados entre comunidades. Referências Bhattacharya, I. and Getoor, L. (2004). Iterative record linkage for cleaning and integration. In DMKD 04: Proceedings of the 9th ACM SIGMOD workshop on Research issues in data mining and knowledge discovery, pages 11 18, New York, NY, USA. ACM.
10 Bhattacharya, I. and Getoor, L. (2007). Collective entity resolution in relational data. ACM Trans. Knowl. Discov. Data, 1:5. Bilenko, M. and Mooney, R. J. (2003). Adaptive duplicate detection using learnable string similarity measures. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, KDD 03, pages 39 48, New York, NY, USA. ACM. Clauset, A., Newman, M., and Moore, C. (2004). Finding community structure in very large networks. Physical Review E, 70(1): de Carvalho, M. G., Gonçalves, M. A., Laender, A. H. F., and da Silva, A. S. (2006). Learning to deduplicate. In JCDL 06: Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries, pages 41 50, New York, NY, USA. ACM. Dong, X., Halevy, A., and Madhavan (2005). Reference reconciliation in complex information spaces. In SIGMOD 05: Proceedings of the 2005 ACM SIGMOD international conference on Management of data, pages 85 96, New York, NY, US. ACM. Elmacioglu, E., Kan, M.-Y., Lee, D., and Zhang, Y. (2007). Web based linkage. In WIDM 07: Proceedings of the 9th annual ACM international workshop on Web information and data management, pages , New York, NY, USA. ACM. Fayyad, U., Piatetsky-Shapiro, G., and Smyth, P. (1996). The kdd process for extracting useful knowledge from volumes of data. Communication of the ACM, 39(11): Girvan, M. and Newman, M. E. J. (2002). Community structure in social and biological networks. PNAS, 99(12): Kim, H.-s. and Lee, D. (2007). Parallel linkage. In Proceedings of the sixteenth ACM conference on Conference on information and knowledge management, CIKM 07, pages , New York, NY, USA. ACM. Mitchell, T. M. (1997). Machine Learning. McGraw-Hill. Newman, M. E. J. (2003). The structure and function of complex networks. SIAM Review, 45: Newman, M. E. J. (2004). Detecting community structure in networks. The European Physical Journal B - Condensed Matter and Complex Systems, 38: Paskalev, P. and Antonov, A. (2006). Intelligent application for duplication detection. Paskalev, P. and Antonov, A. (2007). Increasing the performance of an application for duplication detection. In CompSysTech 07: Proceedings of the 2007 international conference on Computer systems and technologies, pages 1 8, New York, NY, USA. ACM. Raedt, L. D. (2008). Logical and Relational Learning: From ILP to MRDM (Cognitive Technologies). Springer-Verlag New York, Inc., Secaucus, NJ, USA. Reka Albert, H. J. and Barabasi, A. L. (1999). Diameter of the world-wide web. Nature, 401: Rossi, R. G., Rezende, S. O., and de Andrade Lopes, A. (2010). Sistema para extração de informações de artigos científicos - iesystem. Technical Report 354, ICMC, São Carlos - SP.
11 Witten, I. H. and Frank, E. (2005). Data Mining Practical Machine Learning Tools and Techniques. Morgan Kaufmann, San Francisco, CA.
Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos
Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos Robson C. da Motta, e Alneu de A. Lopes Instituto de Ciências Matemáticas e de Computação - ICMC Universidade de
Mineração de Textos na Web
Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na
INFORMAÇÕES SUPLEMENTARES PROCEDIMENTO PARA REVISÃO MANUAL
INFORMAÇÕES SUPLEMENTARES PROCEDIMENTO PARA REVISÃO MANUAL Devido ao volume de registros pareados, próximo a 100 mil, foi necessário adotar algumas estratégias para tornar o processo mais ágil, uma vez
7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS
7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução
Uma ferramenta para expansão do vocabulário com base em coocorrência
Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira
Encontrando Comunidades
Capítulo 3 Encontrando Comunidades A transposição do conceito de comunidade, tal qual nós o conhecemos, para o ambiente virtual tem sido uma prática implementada em diversas aplicações, e.g Facebook, Linkedid
Um Método para Melhoria de Dados Estruturados de Imóveis
Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação
Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS
6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS
Desenvolvimento de Ferramentas no igeom: Utilizando a Geometria Dinâmica no Ensino
Desenvolvimento de Ferramentas no igeom: Utilizando a Geometria Dinâmica no Ensino Presencial e à Distância Seiji Isotani Orientador: Leônidas de Oliveira Brandão Defesa de Mestrado Departamento de Ciência
Integração de Dados. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri
Integração de Dados Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Integração de Dados Problema: dados armazenados nos provedores são
Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais
Classificação Hierárquica Multirrótulo Utilizando Redes Neurais Artificiais Ricardo Cerri Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo cerri@icmc.usp.br Roteiro Introdução
JADEX: A BDI REASONING ENGINE. Alexander Pokahr, Lars Braubach e Winfried Lamersdorf Springer US - Multi-Agent Programming 2005 pp.
JADEX: A BDI REASONING ENGINE Alexander Pokahr, Lars Braubach e Winfried Lamersdorf Springer US - Multi-Agent Programming 2005 pp. 149-174 Volume 15 Motivação Existem muitas plataformas para desenvolvimento
Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos
Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos Proposta de Trabalho
Mineração de Grafos e Predição de Links. Antonio Pecli Ronaldo Goldschmidt
Mineração de Grafos e Predição de Links Antonio Pecli Ronaldo Goldschmidt CONTEXTO Crescimento de aplicações de modelos de grafos para resolução de problemas do mundo real (biologia, economia, sistemas
Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo
Estudo de comparação do descritor de imagens coloridas BIC empregando diferentes abordagens de classificação de detecção de bordas: Canny e Operador Laplaciano Diego Martin Mancini Orientador: Prof. Paulo
INF Projeto de Banco de Dados Plano de ensino
INF01006 - Projeto de Banco de Dados Plano de ensino Carlos A. Heuser 2009/1 1 Identificação Nome do departamento: Informática Aplicada Nome da atividade de ensino: INF01006 - Projeto de Banco de Dados
KDD, Mineração de Dados e Algoritmo Apriori
Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC KDD, Mineração de Dados e Algoritmo Apriori Aluno: Rodrigo Moura J.
Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas
Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Luiz Henrique Dutra da Costa (PIBIC/Unioeste), Carlos Andres Ferrero, Cláudio Saddy Rodrigues
SBC - Sistemas Baseados em Conhecimento
Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O
Algoritmo CLIQUE (Clustering In QUEst)
Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research
MouseCam: aplicação de controle do mouse via câmera
MouseCam: aplicação de controle do mouse via câmera Introdução ao Processamento de Imagens COS756 PESC/COPPE/UFRJ 2013 1 Renan Garrot garrot@cos.ufrj.br 1. Introdução O processo de tracking por vídeo consiste
Uma Estratégia Eficiente de Treinamento para Programação Genética Aplicada a Deduplicação de Registros.
Uma Estratégia Eficiente de Treinamento para Programação Genética Aplicada a Deduplicação de Registros. Davi Guimarães da Silva 1, Moisés Gomes de Carvalho 2, Duivilly Brito 2 1 Instituto Federal de Educação
Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino
Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,
Descritores de Imagens
Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores
INTELIGÊNCIA ARTIFICIAL
INTELIGÊNCIA ARTIFICIAL Engenharia da Computação Professor: Rosalvo Ferreira de Oliveira Neto Dados pessoais Rosalvo Ferreira de Oliveira Neto Dr. em ciência da computação (UFPE) rosalvo.oliveira@univasf.edu.br
CC-226 Introdução à Análise de Padrões
CC-226 Introdução à Análise de Padrões Apresentação do Curso Carlos Henrique Q. Forster 1 1 Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica 25 de fevereiro de 2008 C. H. Q. Forster
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
RACIOCÍNIO BASEADO EM CASOS APLICADO PARA AUXÍLIO NA SELEÇÃO DE CURSOS DO INSTITUTO FEDERAL CATARINENSE
RACIOCÍNIO BASEADO EM CASOS APLICADO PARA AUXÍLIO NA SELEÇÃO DE CURSOS DO INSTITUTO FEDERAL CATARINENSE. Autores: Munyque MITTELMANN, Daniel Gomes SOARES. Identificação autores: Acadêmica do IFC-Rio do
Raciocínio Baseado em Casos
Raciocínio Baseado em Casos Augusto Cesar Castoldi, Marcos de Oliveira dos Santos. Bacharéis em Ciências da Computação 2º Semestre, 2002. Departamento de Informática e Estatística (INE) Universidade Federal
Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA
Sumário : Merging of Adaptive Finite Intervals Elaine Ribeiro de Faria Análise de Agrupamento de Dados ICMC-USP Dezembro 2010 Introdução Visão Geral e Objetivos do Algoritmo Grid Adaptativo Algoritmo Algoritmo
18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA
18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) JONAS RAFAEL ONOFRE Orientador(es) MARINA TERESA PIRES VIEIRA
Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017
Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas
Aprendizado de Máquina
Aprendizado de Máquina Template Matching Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net October 25, 2012 Luiz S. Oliveira (UFPR) Aprendizado
DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY
DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY APRESENTADO POR: BRUNO LUAN DE SOUSA QUA L I DA DE E MEDIÇÃO DE SOFTWA R E U N I V E R S I DA D E F E D E R A L D E MINAS G E
Time Series Trend Detection and Forecasting Using Complex Network Topology Analysis
WAIAF 2018 Time Series Trend Detection and Forecasting Using Complex Network Topology Analysis Leandro Anghinoni Universidade de São Paulo DCM/RP Liang Zhao Universidade de São Paulo DCM/RP AGENDA Introdução
18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA
18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio
Métodos de Acesso Métrico
Métodos de Acesso Métrico http://www.icmc.usp.br/img/novafaixa.png Arthur Emanuel de O. Carosia Profa. Dra. Cristina Dutra de Aguiar Ciferri Índice Conceitos Básicos Métodos de Acesso Onion-tree 2 Índice
Prof. Lorí Viali, Dr.
Prof. Lorí Viali, Dr. viali@pucrs.br http://www.pucrs.br/famat/viali/ Dentre a grande variedade de sistemas que podem ser modelados e para os quais a simulação pode ser aplicada com proveito, uma classe
Extração de objetos de interesse em imagens digitais utilizando a biblioteca de Visão Computacional OpenCV
Extração de objetos de interesse em imagens digitais utilizando a biblioteca de Visão Computacional OpenCV Izadora Aparecida RAMOS 1,3,4 ; Servílio Souza de ASSIS 1,3,4 ; Bruno Alberto Soares OLIVEIRA
IDENTIFICAÇÃO DE MARCADORES DE PAVIMENTAÇÃO NA ORIENTAÇÃO DE CEGOS. André Zuconelli 1 ; Manassés Ribeiro 2
IDENTIFICAÇÃO DE MARCADORES DE PAVIMENTAÇÃO NA ORIENTAÇÃO DE CEGOS André Zuconelli 1 ; Manassés Ribeiro 2 INTRODUÇÃO As tecnologias assistivas têm a finalidade de auxiliar pessoas com deficiência a alcançar
Extração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
Pesquisa e Extração de Informação de Grupos de Discussão na Web
Pesquisa e Extração de Informação de Grupos de Discussão na Web Apresentação da Dissertação Jorge Miguel Amado Moreira Orientadores: Prof. Doutora Eduarda Mendes Rodrigues, FEUP Eng.º. Cláudio Barradas,
Comparando, Distribuindo e Ordenando
Capítulo 5 Comparando, Distribuindo e Ordenando Algoritmos de ordenação podem ser agrupados tendo-se como base o comportamento da sua função de custo: Quadrática, NlogN e Linear. Os algoritmos de custo
4 Testes e experimentos realizados 4.1. Implementação e banco de dados
32 4 Testes e experimentos realizados 4.1. Implementação e banco de dados Devido à própria natureza dos sites de redes sociais, é normal que a maior parte deles possua uma grande quantidade de usuários
Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes
Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,
EndNote X2 ( ) Organizador de Referências
Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC X2 (1988-2008) Organizador de Referências Aluno: Pablo Freire Matos
FERRAMENTA PARA VISUALIZAÇÃO DA REDE SOCIAL DE PROFESSORES DO IFSP COM ENFOQUE NAS RELAÇÕES DE PESQUISA
FERRAMENTA PARA VISUALIZAÇÃO DA REDE SOCIAL DE PROFESSORES DO IFSP COM ENFOQUE NAS RELAÇÕES DE PESQUISA Gustavo Henrique Gonçalves Augusto, gustavo.ghga@gmail.com Elisandra Aparecida Alves da Silva, elissilva@gmail.com
O uso da Inteligência Articial no auxílio à tomada de decisões para alocação dinâmica de recursos. F. C. Xavier
O uso da Inteligência Articial no auxílio à tomada de decisões para alocação dinâmica de recursos F. C. Xavier Technical Report - RT-INF_001-11 - Relatório Técnico June - 2011 - Junho The contents of this
Aprendizagem de Máquina
Aprendizagem de Máquina Apresentação da Disciplina Alessandro L. Koerich 2008 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem
SIFT - Scale Invariant Feature Transform
SIFT - Scale Invariant Feature Transform Daniel Pinto Coutinho Prof. Ricardo Marroquim 1 Introdução A detecção de pontos de interesse em uma figura é uma tarefa muito comum no campo de processamento de
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos
Resolução da Heterogeneidade na Identificação de Pacientes
Resolução da Heterogeneidade na Identificação de Pacientes Fábio Filocomo 1, Marcelo Finger 2, Diogo F. C. Patrão 1 1 Laboratório de Informática Médica CIPE Fundação Antonio Prudente Hospital A.C. Camargo
Aula 2 BD Introdução. Profa. Elaine Faria UFU
Aula 2 BD Introdução Profa. Elaine Faria UFU - 2017 Motivação A quantidade de informação disponível está crescendo exponencialmente Os dados e as informações tem um papel importante para as organizações
Classificação Automática de Gêneros Musicais
Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação
Aspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas
19 a 21 de mar o de 2010 102 Aspectos Computacionais do Desenvolvimento de uma Biblioteca para Desenho de Redes Bayesianas Thales Lange 1, Raimundo C. G. Teive 1 1 Mestrado em Computação Aplicada Universidade
Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais
Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente
Caracterização de Imagens via Redes Neurais Artificiais
Caracterização de Imagens via Redes Neurais Artificiais Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal
Descoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
IMAGE MINING: CONCEITOS E TÉCNICAS
125 IMAGE MINING: CONCEITOS E TÉCNICAS Diogo Floriano diiogofloriano@gmail.com Resumo A facilidade em armazenar imagens e a grande concentração de imagens em bases de dados impulsionou a geração de aplicações
INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO
INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM Autores: Giulia Denise Kujat VIEIRA; Milene Karine GUBETTI. Identificação autores: Estudantes do Curso Técnico em Informática
Arquitetura de um Ambiente de Data Warehousing
Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri OLAP: Fonte: Arquitetura Vaisman, A., Zimányi,
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words
Visualização de Texto e Documento
Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação
Raciocínio Baseado em Casos (Case Based Reasoning CBR)
Inteligência Artificial Escola de Verão 2007 Laboratório Associado de Computação e Matemática Aplicada LAC Raciocínio Baseado em Casos (Case Based Reasoning CBR) www.lac.inpe.br/~demisio/ia_lac.html Paradigma
Implementação de Taxonomias para Regras de Associação em um Ambiente de Pós-processamento
Implementação de Taxonomias para Regras de Associação em um Ambiente de Pós-processamento Marcos Aurélio Domingues Solange Oliveira Rezende Marcos Ferreira de Paula Universidade de São Paulo Instituto
Oi, Ficou curioso? Então conheça nosso universo.
Oi, Somos do curso de Sistemas de Informação da Universidade Franciscana, e esse ebook é um produto exclusivo criado pra você. Nele, você pode ter um gostinho de como é uma das primeiras aulas do seu futuro
Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU
Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos
Unidade VI. Técnicas de Teste de Software Teste Estrutural. Profa. Dra. Sandra Fabbri
Unidade VI Técnicas de Teste de Software Profa. Dra. Sandra Fabbri Os requisitos de teste são extraídos de uma implementação em particular Teste dos detalhes procedimentais A maioria dos critérios dessa
19 Congresso de Iniciação Científica APLICAÇÃO DA LÓGICA NEBULOSA A MODELO DE CONHECIMENTO DO PROCESSO DE MINERAÇÃO DE DADOS
19 Congresso de Iniciação Científica APLICAÇÃO DA LÓGICA NEBULOSA A MODELO DE CONHECIMENTO DO PROCESSO DE MINERAÇÃO DE DADOS Autor(es) ANDRE DE ANDRADE BINDILATTI Orientador(es) ANDERSON BERGAMO, ANA ESTELA
RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO
RECONHECIMENTO DE CARACTERES EM IMAGENS COM RUÍDO Fernanda Maria Sirlene Pio SUMARIO Introdução Trabalhos Relacionados Metodologia Experimentos Conclusão Referências 2 INTRODUÇÃO Reconhecimento de Padrões
PREVISÃO EM SÉRIES TEMPORAIS COMBINANDO MODELOS ESTATÍSTICOS E CONCEITOS FUZZY
Especial Innovation Day 2015 PREVISÃO EM SÉRIES TEMPORAIS COMBINANDO MODELOS ESTATÍSTICOS E CONCEITOS FUZZY FORECASTING IN TIME SERIES COMBINING STATISTICAL MODELS AND FUZZY CONCEPTS Data de entrega dos
Mineração de Dados Aplicada no Contexto Educacional
Giana da Silva Bernardino ¹ e Alexandre Leopoldo Gonçalves Universidade Federal de Santa Catarina ¹gianagsb@gmail.com RESUMO Este trabalho faz uso da mineração de dados com o objetivo de encontrar informações
6 Conclusão. 6.1 Contribuições
91 6 Conclusão O uso dos padrões da Web Semântica, como o RDF e RDFa, na publicação de informações na Web vêm demonstrando ser a única forma viável de garantir a interoperabilidade [34][53][80-83] de dados
Sistema de Reconhecimento de Logotipos
Sistema de Reconhecimento de Logotipos Fellipe Duarte, Saulo T. Oliveira {duartefellipe,sto}@cos.ufrj.br Relatório Técnico, Introdução ao Processamento de Imagens Programa de Engenharia de Sistemas e Computação
Descoberta de conhecimento em redes sociais e bases de dados públicas
Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:
Aprendizagem de Máquina
Plano da Apresentação Aprendizagem de Máquina Alessandro L. Koerich 2007 Mestrado e Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Professor & Experiência Acadêmica Horários
2 Sentiment Analysis 2.1
2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico
Seiji Isotani CURRICULUM VITAE
Seiji Isotani CURRICULUM VITAE São Paulo 2004 1. Dados Pessoais Nome: Seiji Isotani Data e Local de Nascimento: 09/09/1979, Osasco/SP - Brazil Endereço Atual : Osasco, SP Brazil Telefone: (11) 3609-1033
Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed
Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação
Avaliação de Desempenho de Sistemas Operacionais em dispositivos embarcados para a provisão de serviços em Internet das Coisas
Avaliação de Desempenho de Sistemas Operacionais em dispositivos embarcados para a provisão de serviços em Internet das Coisas Vinícius Aires Barros Orientador: Prof. Dr. Júlio Cezar Estrella Distributed
Integração de Dados em GIS. Charles Ferreira Gonçalves
Integração de Dados em GIS Charles Ferreira Gonçalves Introdução Crescimento e Disponibilidade de dados GeoEspaciais tem aumentado o interesse em KDD aplicado a GIS Existem várias fontes de dados o que
Aprendizado por imitação usando Redes Neurais
Universidade de São Paulo Instituto de Ciências Matemáticas e Computação Aprendizado por imitação usando Redes Neurais Aluna: Valéria de Carvalho Santos Profª. Dra. Roseli A. F. Romero 2 Sumário Introdução
B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A
Mineração de Dados Espaciais B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Roteiro 2 Introdução Mineração de Dados Estado da Arte Artigo apresentado Conclusão
BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt
BIG DATA: UMA INTRODUÇÃO Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) ronaldo.rgold@ime.eb.br / ronaldo.rgold@gmail.com 70% 60% 50% 40% 30% 20%
Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas
Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de
Geração Automática de Metadados
Geração Automática de Metadados José David Fernández Curado Instituto de Matemática e Estatística - Universidade de São Paulo November 17, 2010 1 Introdução Motivação Metadados 2 Algoritmos de Geração
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Aluno: Larissa Lages de Oliveira (llo@cin.ufpe.br) Orientador: Daniel Carvalho da Cunha (dcunha@cin.ufpe.br)
Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados
Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Silvani Weber da Silva Borges 1 (PIBIC/CNPq/Unioeste), Renato B. Machado (Orientador), Newton Spolaôr
Metodologias para a Seleção de Atributos Relevantes
Metodologias para a Seleção de Atributos Relevantes José Augusto Baranauskas e Maria Carolina Monard Departamento de Computação e Estatística Instituto de Ciências Matemáticas e de Computação - Universidade
USO DE PARALELISMO DE DADOS PARA MAIOR EFICIÊNCIA DE ALGORITMOS DE PROCESSAMENTO DE IMAGENS
Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM USO DE PARALELISMO DE DADOS PARA MAIOR EFICIÊNCIA DE ALGORITMOS DE PROCESSAMENTO
Um mecanismo para identificação, representação e consulta de versões de objetos XML oriundos de bibliotecas digitais
Um mecanismo para identificação, representação e consulta de versões de objetos XML oriundos de bibliotecas digitais Eduardo Nunes Borges, Renata de Matos Galante Instituto de Informática Universidade
GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida
GESTÃO DE DADOS NAS ORGANIZAÇÕES Prof. Robson Almeida INFRA-ESTRUTURA DE SISTEMAS DE INFORMAÇÃO 3 CONCEITOS Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único
Framework para Deduplicação de Dados com Apache Spark
Framework para Deduplicação de Dados com Apache Spark César Magrin - magrin@inf.ufpr.br Disciplina: Metodologia Científica - CI860 Professor: Alexandre Direne Sumário 1. Qualidade de Dados 2. Deduplicação
UNIVERSIDADE FEDERAL DE P ERNAMBUCO
UNIVERSIDADE FEDERAL DE P ERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA 2016.1 AutoTestPlan: Uma ferramenta para criação de planos de teste e seleção de casos de teste PROPOSTA DE
UNIVERSIDADE FEDERAL DA BAHIA
UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO RECUPERAÇÃO DE ARQUITETURA DE SOFTWARE UTILIZANDO ALGORITMOS DE AGRUPAMENTO ALUNO: DENNIS LESSA
Programação musical para a web com o Mosaicode
Programação musical para a web com o Mosaicode MODALIDADE: COMUNICAÇÃO SUBÁREA: SONOLOGIA Flávio Luiz Schiavoni Universidade Federal de São João Del Rei - Departamento de Computação - fls@ufsj.edu.br Luan
19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA
19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ
Redes Complexas: Internet, Web e outras aplicações em computação: search, difusão, clustering
Redes Complexas: Internet, Web e outras aplicações em computação: search, difusão, clustering DCC/UFMG - PÓS e Graduação - 2 o Semestre de 2006 Virgílio A. F. Almeida: www.dcc.ufmg.br/~virgilio 1. Motivação:
ANÁLISE DE DESEMPENHO DAS TOPOLOGIAS PARA SISTEMAS SOC
ANÁLISE DE DESEMPENHO DAS TOPOLOGIAS PARA SISTEMAS SOC Bruno Cesar Puli Dala Rosa (PIBIC/CNPq/FA/Uem), Anderson Faustino Da Silva (Orientador), e-mail: bcesar.g6@gmail.com Universidade Estadual de Maringá