Comparação de técnicas para a construção de tesauros visando o enriquecimento de uma ontologia do domínio legal

Tamanho: px
Começar a partir da página:

Download "Comparação de técnicas para a construção de tesauros visando o enriquecimento de uma ontologia do domínio legal"

Transcrição

1 Comparação de técnicas para a construção de tesauros visando o enriquecimento de uma ontologia do domínio legal Roger Leitzke Granada (PUCRS) roger.granada@cpph.pucrs.br Mírian Bruckschen (PUCRS) mirian.bruckschen@cpph.pucrs.br Vera Lúcia Strube de Lima (PUCRS) vera.strube@pucrs.br Renata Vieira (PUCRS) renata.vieira@pucrs.br Caio Northfleet (HP Brasil) caio.northfleet@hp.com Resumo: Este artigo apresenta uma comparação de duas técnicas para a construção automática de tesauros, sendo uma delas baseada apenas em métodos estatísticos e a outra utilizando conhecimento linguístico. Neste trabalho, estes tesauros são associados a uma ontologia de domínio visando enriquecer os termos da ontologia com conjuntos de termos semelhantes. Palavras-chave: Construção Automática de Tesauros; Ontologia; Domínio legal. 1. Introdução Segundo Grefenstette (1993), a existência de um tesauro de domínio específico fornece uma visão hierárquica dos conceitos importantes de um domínio, bem como sugere termos alternativos que podem ser utilizados para descrever o mesmo conceito, em um domínio. Por sugerir termos alternativos a um termo-conceito (palavra-chave de entrada), um tesauro pode ser utilizado em associação com uma ontologia. Essa associação dos termos aos conceitos da ontologia facilita a compreensão do domínio (FREITAS, 2008). Se a ontologia for empregada no processo de recuperação de informações, poderão ser recuperados documentos relacionados a um conceito, mesmo que o termo original não apareça explicitamente nesses documentos. Inicialmente, tesauros eram construídos de forma manual, porém essa abordagem é custosa e demorada. Com o avanço da tecnologia, a quantidade de informação disponível em formato eletrônico tem aumentado e isso torna a criação manual de tesauros impraticável para determinados domínios. No domínio legal, por se tratar de um domínio dinâmico, onde novas leis aparecem de tempos em tempos, muitas vezes substituindo leis existentes, a manutenção de um tesauro se torna difícil. Por outro lado, o aumento da quantidade de leis e documentos

2 legais em formato digital permite a criação automática de tesauros a partir de uma coleção desses documentos. Como exemplo, podemos partir do conceito Spam_Act, que conteria as regulamentações para casos de spam. A este conceito podem estar associados termos como Act_129_of_2003, Act_45_of_2005, Australian_Spam_Act, etc, todos estes termos vinculados à mesma lei, que regulamenta o uso de spam na Austrália. Este trabalho visa comparar técnicas de construção automática de tesauros quando aplicadas ao domínio legal. O presente texto apresenta alguns trabalhos relacionados e recursos utilizados para a geração de um experimento (Seção 2), as técnicas escolhidas para construção automática de tesauros (Seção 3), o desenvolvimento de um experimento (Seção 4), a avaliação dos resultados (Seção 5) e as considerações finais e trabalhos futuros (Seção 6). 2. Problema, contexto e trabalhos relacionados Nos últimos anos tem crescido o volume de pesquisas envolvendo a construção de ontologias no domínio legal. Um exemplo desses trabalhos é o de Lame e Desprès (2005) que investiga técnicas automáticas para atualizar ontologias do domínio legal. A atualização de ontologias do domínio legal se faz necessária devido às constantes mudanças que as leis podem sofrer. Assim, em um determinado momento uma lei pode sofrer uma alteração e, com isso, poderão existir duas ontologias dessa mesma lei, sendo uma delas anterior à modificação, e outra da nova lei, resultando duas interpretações dessa lei. Lame e Desprès alinham os conceitos e relacionamentos das duas ontologias, resultando em uma ontologia final. Trabalhos como o de Lenci et al. (2009) visam a criação de estruturas ontológicas a partir de textos do domínio legal. Para fazer a extração de termos e relações e criar uma estrutura ontológica, Lenci et al. mesclam o uso de técnicas de Processamento de Linguagem Natural com aprendizado de máquina em um sistema chamado T2K. No experimento que realizam, são extraídos termos, bem como listas de hipônimos, de textos do domínio legal italiano, bem como relações de hipônimos. O trabalho apresentado por Bruckschen et al. (2010) faz o reconhecimento de Entidades Nomeadas (EN) no domínio legal para a população de uma ontologia previamente criada. Nesse trabalho, Bruckschen et al. fazem a identificação de entidades do tipo law,

3 rules e act., verificando termos que contenham essas palavras-chave. Caso esses termos não sejam verbos, o sistema procura por determinantes (the, this) e identificadores (números, ano e qualificadores), identificando-os como EN. Por fim, a ontologia é populada com essas EN identificadas. Embora os testes tenham sido preliminares, Bruckschen et al. encontraram resultados promissores quando da identificação de entidades nomeadas, tendo uma alta precisão (79.69%) porém uma baixa cobertura (21.21%), devido à limitação de alcance das heurísticas empregadas. O presente trabalho associa a uma ontologia do domínio legal um tesauro gerado para cada conceito desta ontologia. Os tesauros associados aos conceitos serão gerados a partir de um corpus formado por cem documentos, contendo aproximadamente um milhão de palavras. Esses documentos foram coletados de fontes de acesso público, normalmente sites governamentais, que disponibilizam leis, normas ou guidelines do domínio legal. Todos os documentos foram obtidos com versões em língua inglesa das normas, sendo aproximadamente metade obtidos de normas dos Estados Unidos. Austrália, Nova Zelândia, Reino Unido e Canadá são outros países com grande porcentagem de documentos. A ontologia utilizada foi construída manualmente, de forma a classificar entidades de interesse do domínio legal, visando principalmente a privacidade de dados, ações de responsabilidade, e riscos. Essa ontologia contém um total de 56 conceitos. Mais detalhes podem ser encontrados em Bruckschen et al. (2010). 3. Construção automática de tesauros A construção automática de um tesauro se baseia na identificação, de forma automatizada, dos relacionamentos semânticos entre as palavras, e agrupamento de termos similares a uma palavra-chave que é utilizada como entrada. Sabendo-se que palavras tendem a ter o mesmo significado se compartilham contextos semelhantes (HARRIS, 1954), os termos similares podem ser encontrados comparando termos que compartilham contextos análogos. Essa identificação automática pode se dar sem o uso de um corpus (como no caso de tesauros construídos apenas pela tradução de outros tesauros), ou com o uso de corpus. Neste trabalho é utilizado um corpus para a criação do tesauro. Para a identificação dos melhores relacionamentos entre as palavras, diversos trabalhos vêm sendo propostos (JING e CROFT, 1994; GREFENSTETTE, 1994; KAJI et al.,

4 2000; CHEN e CHEN, 2007; ANIC e SEBASTIAN, 2008; BING-GENG, 2008; ITO et al., 2008; KONGTHON et al., 2008; YANG e POWERS, 2008). Porém, mesmo sendo a criação automática de tesauros um assunto antigo, cabe ressaltar que ainda é um desafio encontrar os melhores relacionamentos entre as palavras de forma que o tesauro contenha termos que melhor cubram o escopo dos documentos da coleção. No presente trabalho são comparadas duas técnicas para a geração de termos semelhantes ao termo-chave, uma baseada apenas em métodos estatísticos para a geração dos termos semelhantes ao termo conceito e a outra fazendo uso da análise sintática, obtido com um POS Tagging, para a identificação dos termos relacionados ao conceito. 3.1 Construção baseada em métodos estatísticos (KAJI et al, 2000) Técnicas puramente estatísticas são consideradas técnicas mais simples para a construção automática de tesauros orientados a domínio pois não utilizam nenhum conhecimento linguístico. Foram as primeiras para a geração automática de tesauros, descritas em Kaji et al. (2000). Kaji et al. (2000) apresentam a técnica para a geração automática de um tesauro de associação, isto é, um tesauro onde os termos são associados pelo grau de semelhança em um corpus. Nessa abordagem é utilizada a associação entre as palavras, também conhecida como associação paradigmática (RUGE, 1991 apud KAJI et al., 2000). Essa abordagem propõe que a similaridade semântica possa ser computada pelo entendimento lexical entre os vizinhos. Por exemplo, a similaridade semântica entre as palavras vermelho e azul pode ser definida pelo fato de que ambas coocorrem frequentemente com palavras como cor, flor, carro, escuro, claro, e assim por diante. Corpus Extração de termos Termos com frequências Análise de correlação Tesauros Extração de coocorrências Coocorrências dos termos FIGURA 1 Passos para a geração do tesauro baseado em métodos estatísticos. Fonte: Adaptado de Kaji et al. (2000).

5 A criação de tesauro proposta por Kaji et al. (2000) consiste na extração de termos, extração de coocorrências dos termos e análise de correlação, como mostrado na FIGURA 1. Na extração de termos, Kaji et al. (2000) fazem a obtenção de termos com mais de uma palavra (N-grama) e, para isso, é utilizado um método de desambiguação estrutural, selecionando termos compostos mais frequentes contidos dentro de termos compostos menos frequentes. Assim, se existe um termo composto CN que inclui dois termos compostos CN1 e CN2, e esses termos são incompatíveis entre si, então, se um dos dois candidatos é mais frequente, a estrutura de CN incluindo a estrutura desse candidato mais frequente é escolhida. Na extração de coocorrências é coletado qualquer par de termos semanticamente ou contextualmente associados, não importando o tipo de associação. Nesse trabalho foi utilizada uma técnica de janela para a extração. A técnica de janela extrai pares de termos que ocorrem juntos dentro de uma janela que vai se movendo através do texto. Essa janela é composta por um conjunto de sentenças de n palavras, sendo n um número previamente escolhido. O tamanho da janela pode ser escolhido arbitrariamente e, devido ao custo computacional, os autores escolheram janelas com 20 a 50 palavras. Esses pares de palavras ainda são filtrados para que não apareçam pares de substantivos compostos que já foram previamente extraídos, pois se eles fossem incluídos na extração de coocorrência, causariam redundância. Por fim, é feita a análise de correlação entre os termos e, para isso, os autores utilizam a Informação Mútua, descrita no trabalho de Church e Hanks (1990), que irá medir o grau de semelhança dos termos do corpus com termos conceitos, permitindo decidir se certo termo vai para o tesauro. 3.2 Construção baseada em métodos linguísticos (GREFENSTETTE, 1994) Para a criação de um tesauro baseado em métodos lingüísticos, optou-se pelo método desenvolvido por Grefenstette (1994), por ter sido um dos primeiros trabalhos a utilizar informações sintáticas para a construção de um tesauro. Grefenstette (1994) descreve a criação de um tesauro a partir de um corpus, porém utilizando informações sintáticas para obter a similaridade entre termos. Os termos mais semelhantes a um termo

6 conceito são agrupados formando o tesauro. A FIGURA 2 apresenta os passos para a criação do tesauro proposto por Grefenstette. Nesse trabalho, Grefenstette (1994) inicia o processo de construção do tesauro fazendo a tokenização do corpus, isto é, marcando as categorias morfossintáticas dos termos contidos no corpus, e também tratando a ambiguidade sintática desses termos. Corpus Tokenização Identificação de sintagmas Extração de contextos sintáticos Aplicação da métrica de similaridade Tesauro FIGURA 2 Passos para a geração do tesauro baseado em sintaxe. Fonte: Inspirado em Grefenstette (1994). Após, um analisador sintático faz a identificação de Sintagmas Nominais e Sintagmas Verbais. Esses sintagmas são analisados e deles se obtêm os contextos sintáticos dos termos. Entende-se por contexto sintático qualquer termo que estabeleça uma relação sintática com outro termo no corpus. Para substantivos, são identificadas as relações sintáticas em que adjetivos os modificam; em que outros substantivos os modificam; e em que são modificados por outros substantivos com o uso de uma preposição. Para verbos são identificadas relações em que o substantivo faz o papel de sujeito, de objeto direto e de objeto indireto. Por fim, é utilizada uma variante da medida de Jaccard (TANIMOTO, 1958 apud GREFENSTETTE, 1994) que utiliza pesos associados aos contextos sintáticos. As duplas de termos mais similares, isto é, com uma medida de similaridade mais alta, formarão o conjunto de termos associados a determinado termo-chave. 4. Protótipo para a realização do experimento O sistema apresentado nesta seção foi projetado para fazer a criação de dois tipos de tesauros. O primeiro deles é o tesauro gerado apenas com a utilização de métodos estatísticos e foi baseado em Kaji et al. (2000). O outro tesauro é gerado com a adição de métodos linguísticos e foi baseado em Grefenstette (1994). O presente trabalho não visa a comparação da identificação de termos compostos, portanto esses termos foram inicialmente identificados no texto. Para a identificação dos n-gramas, foi feita a extração por padrões, isto é, a partir de um corpus previamente anotado com as categorias gramaticais são extraídos termos que seguem padrões pré-determinados. Para isso, procura-se no corpus por padrões como o

7 mostrado na TABELA 1, onde A refere-se a um adjetivo, P a uma preposição e N a um substantivo. TABELA 1. Padrões para a identificação de termos Padrão Exemplo A N linear function N N regression coefficients A A N Gaussian random variable A N N Cumulative distribution function N A N Mean square error N N N Class probability function N P N Degrees of freedom Fonte: Adaptado de Manning (1999). Após a identificação dos n-gramas, foi feito o processo de criação automática dos tesauros. A arquitetura do sistema para a criação dos mesmos pode ser vista na FIGURA 3. Limpeza do corpus Extração de termos Análise de correlação Tesauro Corpus Stoplist Ontologia Tokenização e POS Tagger Extração de contextos sintáticos FIGURA 3. Arquitetura do sistema para construção de tesauros Aplicação da métrica de similaridade Tesauro Para a construção do tesauro baseado em métodos estatísticos, inicialmente foi feita a limpeza do corpus, no qual foram retirados caracteres especiais e também a normalização dos termos, deixando-os em letras minúsculas, não diferenciando mais termos com letras maiúsculas (caso de termos que iniciavam frases) e termos em letras minúsculas. O próximo passo foi a extração de termos em janela e para isso, utilizou-se uma janela de tamanho 20, conforme descrito por Kaji et al. (2000). A seguir foram feitas as análises de correlação para termos descritos em uma ontologia do domínio legal, gerando assim um tesauro para cada conceito da ontologia. Para a construção do tesauro utilizando métodos linguísticos, seguiram-se basicamente os passos propostos por Grefenstette (1994). Assim, inicialmente foi feita a tokenização do corpus e a marcação das categorias gramaticais, bem como a marcação de sintagmas nominais e verbais utilizando um Part of Speech Tagger. Após foi feita a extração dos contextos sintáticos para os termos conceitos da ontologia e por fim, foi aplicada a

8 métrica de similaridade de Jaccard para medir a similaridade entre os contextos sintáticos. Os contextos sintáticos que tinham os maiores valores de similaridade se tornaram parte do tesauro. 5. Resultados No experimento realizado foram utilizados como entrada o corpus contendo cem documentos do domínio legal e uma lista contendo 56 termos, referentes aos conceitos de uma ontologia de domínio. O resultado obtido do experimento foi duas listas referentes aos tesauros gerados. Cada uma dessas listas é composta por cada palavrachave (referente a cada conceito da ontologia de domínio) seguida de n termos mais semelhantes a ela, organizados por ordem decrescente de similaridade. Para analisar o desempenho dos dois métodos de construção de tesauros, buscamos examinar os resultados obtidos no experimento. Para isso, comparamos inicialmente a quantidade de palavras-chave geradas em cada um dos tesauros. Dos 56 termos-chave contidos na lista de entrada do tesauro, foram encontrados 19 termos para o tesauro baseado em métodos estatísticos e 13 termos para o tesauro que utiliza recursos linguísticos. Porém como a ontologia utilizada foi construída manualmente e não a partir do corpus, procurou-se verificar quantos termos realmente existiam no corpus. Dos 56 termos existentes na lista referente aos conceitos da ontologia, 34 termos existem no corpus. Por questões de objetividade os termos que não foram encotrados no corpus foram descartados, não aplicando-se nenhum tipo de técnica, como stemming, para a verificação dos termos no corpus. Outra comparação realizada foi da quantidade de termos semelhantes encontrados para cada palavra-chave. Observou-se que, embora os tesauros gerados tenham uma média acima de cem termos relacionados, termos como credit_card_information tem um número bastante reduzido de termos semelhantes. No tesauro gerado com métodos estatísticos foram encontrados 7 termos semelhantes para essa palavra-chave, enquanto no tesauro que utiliza métodos linguísticos não foram encontrados termos semelhantes. Observando a quantidade de palavras-chave e a quantidade de termos semelhantes encontrados nos tesauros, podemos observar que a adição de recursos linguísticos na construção do tesauro pode diminuir a quantidade desses termos no tesauro gerado. Isso pode se dar pelo fato que embora o termo exista no corpus, ele não contenha uma

9 grande quantidade de relações sintáticas com outros termos do corpus, obtendo uma similaridade com outros termos muito próxima de zero, não entrando assim no tesauro. 6. Considerações finais e trabalhos futuros Neste artigo foi apresentada uma comparação entre dois métodos de construção automática de tesauros. Um dos métodos utiliza apenas cálculos estatísticos entre os termos para descobrir os termos que devem ser utilizados na construção do tesauro. O outro método faz uso além dos recursos estatísticos, também faz uso de conhecimento linguístico. Uma das vantagens de fazer a criação de tesauros baseados apenas em métodos estatísticos é a não necessidade de marcação sintática do corpus, tornando assim o processo mais rápido para geração dos termos relacionados. Por outro lado, essa técnica traz a inconveniência de existirem termos que não compartilham o mesmo contexto semântico da palavra-chave. Os tesauros gerados por métodos que utilizam uma marcação sintática, como o apresentado em (GREFENSTETTE, 1994), relacionam os termos semanticamente, extraindo os contextos sintáticos para cada termo. Esse relacionamento semântico melhora a qualidade dos termos evitando assim que se obtenham como termos semelhantes, preposições, verbos, artigos, etc. Porém, uma desvantagem ao utilizar a técnica proposta por Grefenstette é a necessidade da marcação com categorias morfossintáticas e posteriormente a separação em sintagmas nominais e verbais. Como continuação deste trabalho, ainda pretende-se criar tesauros que utilizem outras técnicas estatísticas durante o processo de geração dos termos similares, verificando assim a melhoria dos tesauros. Essas criações podem utilizar técnicas como a Análise Semântica Latente (do inglês Latent Semantic Analysis, ou LSA) ou ainda a Análise Semântica Latente Probabilística (do inglês Probabilistic Latent Semantic Analysis, ou PLSA). 7. Agradecimentos O presente trabalho foi alcançado em cooperação com a Hewlett-Packard Brasil Ltda. e com recursos provenientes da Lei de Informática (Lei nº 8.248, de 1991).

10 Referências ANICK, V.M.P.; SEBASTIAN, S. Similar term discovery using web search. Language Resources and Evaluation Conference LREC 08, BING-GENG, H. The Architecture and Algorithms of Retrieval Thesaurus on Web, In: Proceedings of the International Conference on Computer Science and Software Engineering, 2008, vol. 4, pp BRUCKSCHEN M.; NORTHFLEET, C.; SILVA, D. M.; BRIDI, P.; GRANADA, R.; VIEIRA, R.; RAO, P.; SANDER, T. Named entity recognition in the legal domain for ontology population. In LREC 2010, 2010, pp CHEN, L.; CHEN, S. A New Approach for Automatic Thesaurus Construction and Query Expansion for Document Retrieval. International Journal of Information and Management Sciences, 2007, vol. 18, n. 4, 299 p. CHURCH, K.W.; HANKS, P. Word association norms, mutual information, and lexicography. Computational Linguistics, 1990, vol. 16 pp FREITAS, K. F.; CAMPOS, M. L. M.; CAMPOS, M. L. A.; CAMPOS, L. M. Tesauro como base terminológica para a elaboração de ontologia de domínio: uma aplicação no domínio do Folclore e Cultura Popular. In: Seminário de Pesquisa em Ontologia no Brasil, 2008, Niterói. Anais do Seminário de Pesquisa em Ontologia no Brasil, GREFENSTETTE, G. Automatic thesaurus generation from raw text using knowledge-poor techniques. Making sense of Words. 9th Annual Conference of the UW Centre for the New OED and text Research, GREFENSTETTE, G. Explorations in automatic thesaurus discovery. Kluwer Academic Publishers Norwell, 1994, 306 p. HARRIS, Z. S. Distributional structure. Word, 1954, v. 10, n. 23, pp. 146,162. ITO, M.; NAKAYAMA, K.; HARA, T.; NISHIO, S. Association thesaurus construction methods based on link cooccurrence analysis for wikipedia. In: CIKM '08: Proceedings of the 17th ACM Conference on Information and Knowledge management, 2008, pp , New York, NY, USA. JING, Y.; CROFT, W.B. An association thesaurus for information retrieval. Proceedings of RIAO, 1994, v. 94, pp KAJI, H.; MORIMOTO, Y.; AIZONO, T.; YAMASAKI, N. Corpus dependent association thesauri for information retrieval. In: Proceedings of the 18th Conference on Computational Linguistics, 2000, pp KONGTHON, A.; HARUECHAIYASAK, C.; THAIPRAYOON, S. Constructing term thesaurus using text association rule mining. 5th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology, 2008, vol. 1. LAME, G; DESPRÈS, S. Updating ontologies in the legal domain. In Proceedings of the 10th international Conference on Artificial intelligence and Law (Bologna, Italy, June 06-11, 2005). ICAIL '05. ACM, New York, NY, DOI= LENCI, A.; MONTEMAGNI, S.; PIRRELLI, V.; VENTURI, G. Ontology learning from Italian legal texts. In Proceeding of the 2009 Conference on Law, ontologies and the Semantic Web, Eds. Frontiers in Artificial Intelligence and Applications, 2009, vol IOS Press, Amsterdam, The Netherlands, MANNING, C.D.; SCHUTZE H. Foundations of statistical natural language processing. MIT Press, RUGE, G. Experiments on linguistically based term associations. In RIAO, 1991, pp TANIMOTO, T. T. An elementary mathematical theory of classification. Technical report, 1958, IBM Research. WILKS, Y.A.; SLATOR, B.M.; GUTHRIE, L.M.. Electric words: dictionaries, computers, and meanings. MIT Press Cambridge, YANG, D.; POWERS, D.M.W. Automatic thesaurus construction. In: ACSC '08: Proceedings of the 31st Australasian conference on Computer science, 2008, vol. 74, pp

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

OntoLP: Engenharia de Ontologias em Língua Portuguesa

OntoLP: Engenharia de Ontologias em Língua Portuguesa OntoLP: Engenharia de Ontologias em Língua Portuguesa Luiz Carlos Ribeiro Jr. (PUCRS, lucarijr@gmail.com) Renata Vieira (PUCRS, renata.vieira@gmail.com) Patrícia Nunes Gonçalves (PUCRS, patt.nunes@gmail.com)

Leia mais

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto

Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Comparação dos algoritmos sequencial e paralelo para contagem de palavras e contexto Eduardo Delazeri Ferreira, Francieli Zanon Boito, Aline Villavicencio 1. Introdução 1 Instituto de Informática - Universidade

Leia mais

Leitura de Documentos. Priscila Engiel

Leitura de Documentos. Priscila Engiel Leitura de Documentos Priscila Engiel pengiel@inf.puc-rio.br Leitura de documentos Leitura de documentos formais que regulam ou descrevem o sistema ou aspectos que interferem em sua execução Quais documentos?

Leia mais

Algoritmo CLIQUE (Clustering In QUEst)

Algoritmo CLIQUE (Clustering In QUEst) Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research

Leia mais

Sistema de Aquisição semi-automática de Ontologias

Sistema de Aquisição semi-automática de Ontologias Sistema de Aquisição semi-automática de Ontologias Gabriel Gonçalves 1, Rodrigo Wilkens 1, Aline Villavicencio 1,2 1 Instituto de Informática, Universidade Federal do Rio Grande do Sul (Brasil) 2 CSAIL,

Leia mais

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP

Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Geração de Modelo para Reconhecimento de Entidades Nomeadas no OpenNLP Gabriel C. Chiele 1, Evandro Fonseca 1, Renata Vieira 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio Grande

Leia mais

Semântica no Reconhecedor Gramatical Linguístico

Semântica no Reconhecedor Gramatical Linguístico Workshop de Tecnologias Adaptativas WTA 2015 Semântica no Reconhecedor Gramatical Linguístico Ana Contier, Djalma Padovani, João José Neto Linguagem Natural - Desafios Crescente quantidade de documentos

Leia mais

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO

Leia mais

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática.

A/ART casa/n caiu/v./. Figura 3.1: Frase com anotação morfossintática. 3 Tarefa Esse capítulo começa dissertando sobre as vantagens de se agrupar as palavras em classes, como elas são agrupadas em part-of-speechs e suas aplicações. Em seguida é apresentado o Anotador Morfossintático

Leia mais

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos Universidade Federal do Rio Grande do Sul Grupo de Processamento de Linguagens Naturais Projeto Expressões Multipalavras Verificação automática de substantivos compostos através de reconhecimento de padrões

Leia mais

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo Estudo de comparação do descritor de imagens coloridas BIC empregando diferentes abordagens de classificação de detecção de bordas: Canny e Operador Laplaciano Diego Martin Mancini Orientador: Prof. Paulo

Leia mais

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria

Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria Hierarquias de conceitos extraídas automaticamente de corpus de domínio específico Um experimento sobre um corpus de Pediatria Lucelene Lopes, Renata Vieira, Daniel Martins Grupo Processamento de Linguagem

Leia mais

Determinação do Grau de Similaridade entre Frases

Determinação do Grau de Similaridade entre Frases Determinação do Grau de Similaridade entre Frases UC 21095 Projeto Final Licenciatura em Informática Estudante nº 1100194: Helena Sofia Felisberto Coelho Orientadora: Prof.ª Gracinda Carvalho Lisboa, setembro

Leia mais

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE

Ontologias Linguísticas e Processamento de Linguagem Natural. Ygor Sousa CIn/UFPE Ontologias Linguísticas e Processamento de Linguagem Natural Ygor Sousa CIn/UFPE ycns@cin.ufpe.br 2015 Roteiro Processamento de Linguagem Natural Ontologias Linguísticas WordNet FrameNet Desambiguação

Leia mais

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília

Linguagens Documentárias. Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília Linguagens Documentárias Profa. Lillian Alvares Faculdade de Ciência da Informação, Universidade de Brasília Contexto Organização da Informação...... procura criar métodos e instrumentos para elaborar

Leia mais

Resolução da Heterogeneidade na Identificação de Pacientes

Resolução da Heterogeneidade na Identificação de Pacientes Resolução da Heterogeneidade na Identificação de Pacientes Fábio Filocomo 1, Marcelo Finger 2, Diogo F. C. Patrão 1 1 Laboratório de Informática Médica CIPE Fundação Antonio Prudente Hospital A.C. Camargo

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte III Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

Recuperação de Informação em Bases de Texto

Recuperação de Informação em Bases de Texto Recuperação de Informação em Bases de Texto Mestrado em Engenharia Informática Universidade de Évora 2010/2011 Paulo Quaresma pq@di.uevora.pt http://www.moodle.uevora.pt 1 Objectivos Programa Avaliação

Leia mais

Matéria: Desenho e desenvolvimento de tecnologias linguísticas

Matéria: Desenho e desenvolvimento de tecnologias linguísticas Introdução às tecnologias linguísticas Pablo Gamallo Otero Departamento de Língua Espanhola Universidade de Santiago de Compostela Matéria: Desenho e desenvolvimento de tecnologias linguísticas Mestrado

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de

Leia mais

Descritores de Imagens

Descritores de Imagens Descritores de Imagens André Tavares da Silva PPGCA/UDESC Outubro de 2017 André Tavares da Silva (PPGCA/UDESC) Descritores de Imagens Outubro de 2017 1 / 17 Introdução Excelentes pesquisas sobre descritores

Leia mais

Webmedia 06 Diego Fiori de Carvalho Júlio Cézar Estrella Renata Pontin de Mattos Fortes Rudinei Goularte

Webmedia 06 Diego Fiori de Carvalho Júlio Cézar Estrella Renata Pontin de Mattos Fortes Rudinei Goularte Interoperabilidade XML com Web Services para modelo de arquitetura em Sistemas de Informação Geográfico Webmedia 06 Diego Fiori de Carvalho Júlio Cézar Estrella Renata Pontin de Mattos Fortes Rudinei Goularte

Leia mais

Geração de features para resolução de correferência: Pessoa, Local e Organização

Geração de features para resolução de correferência: Pessoa, Local e Organização Geração de features para resolução de correferência: Pessoa, Local e Organização Evandro B. Fonseca 1, Renata Vieira 1, Aline A. Vanin 1 1 Faculdade de Informática Pontifícia Universidade Católica do Rio

Leia mais

UNIVERSIDADE FEDERAL DE P ERNAMBUCO

UNIVERSIDADE FEDERAL DE P ERNAMBUCO UNIVERSIDADE FEDERAL DE P ERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA 2016.1 AutoTestPlan: Uma ferramenta para criação de planos de teste e seleção de casos de teste PROPOSTA DE

Leia mais

Automatização de um Método de Avaliação de Estruturas Retóricas

Automatização de um Método de Avaliação de Estruturas Retóricas Automatização de um Método de Avaliação de Estruturas Retóricas Erick Galani Maziero (erickgm@grad.icmc.usp.br) Thiago Alexandre Salgueiro Pardo (taspardo@icmc.usp.br) Núcleo Interinstitucional de Lingüística

Leia mais

Identificação em Documentos

Identificação em Documentos Identificação de Contexto Geográfico em Documentos Marcos Henrique Fonseca Ribeiro Bancos de Dados Geográficos Marcos Henrique Fonseca Ribeiro Slide 1 Roteiro Motivação e contexto Cenários a serem explorados

Leia mais

Descoberta Automática de Relações Não- Taxonômicas a partir de Corpus em Língua Portuguesa

Descoberta Automática de Relações Não- Taxonômicas a partir de Corpus em Língua Portuguesa Descoberta Automática de Relações Não- Taxonômicas a partir de Corpus em Língua Portuguesa Vinicius H. Ferreira, Lucelene Lopes, Renata Vieira PPGCC FACIN Porto Alegre Brasil vinihf@gmail.com, {lucelene.lopes,renata.vieira}@pucrs.br

Leia mais

DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D

DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D DESENVOLVIMENTO DE METODOLOGIA PARA AFERIÇÃO DA QUALIDADE DE UM SCANNER 3D Valeria S. PEREIRA 1 ; Marcelo A. dos REIS 2 RESUMO Nesse trabalho, apresentamos os resultados parciais do projeto que visa o

Leia mais

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado Gazetteers - Aplicação em RI Geográfica Ivre Marjorie R. Machado Julho de 2009 Sumário Introdução Gazetteer Exemplos Locus Limitações Conclusão Referências 2 Introdução Quem nunca usou uma máquina de busca

Leia mais

Indexação automática. CBD/ECA Indexação: teoria e prática

Indexação automática. CBD/ECA Indexação: teoria e prática Indexação automática CBD/ECA Indexação: teoria e prática Indexação documentária Identificar pela análise dos documentos, os seus assuntos extrair os conceitos que indicam o seu conteúdo traduzir os conceitos

Leia mais

Mineração de Grafos e Predição de Links. Antonio Pecli Ronaldo Goldschmidt

Mineração de Grafos e Predição de Links. Antonio Pecli Ronaldo Goldschmidt Mineração de Grafos e Predição de Links Antonio Pecli Ronaldo Goldschmidt CONTEXTO Crescimento de aplicações de modelos de grafos para resolução de problemas do mundo real (biologia, economia, sistemas

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Síntese de programas utilizando a linguagem Alloy

Síntese de programas utilizando a linguagem Alloy Universidade Federal de Pernambuco Centro de Informátiva Graduação em Ciência da Computação Síntese de programas utilizando a linguagem Alloy Proposta de Trabalho de Graduação Aluno: João Pedro Marcolino

Leia mais

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+

Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+ Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo

Leia mais

REVISÃO SISTEMÁTICA APLICADA À ENGENHARIA DE RISCOS DE PROJETOS DE SOFTWARE.

REVISÃO SISTEMÁTICA APLICADA À ENGENHARIA DE RISCOS DE PROJETOS DE SOFTWARE. REVISÃO SISTEMÁTICA APLICADA À ENGENHARIA DE RISCOS DE PROJETOS DE SOFTWARE P, D. 1 ; SANTANDER, V. F. A. 2 1,2 Universidade Estadual do Oeste do Paraná/Colegiado de Ciência da Computação. Câmpus Cascavel-PR

Leia mais

Análise de métodos de Inferência Ecológica

Análise de métodos de Inferência Ecológica Análise de métodos de Inferência Ecológica em dados de redes sociais Gustavo Penha 12, Thiago N. C. Cardoso 2, Ana Paula Couto da Silva 1, Mirella M. Moro 1 Outubro de 2016 1 / 13 Motivação Motivação Redes

Leia mais

2 Sentiment Analysis 2.1

2 Sentiment Analysis 2.1 2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico

Leia mais

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO

ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO ALINHAMENTO MANUAL DE TEXTOS E SUMÁRIOS EM UM CORPUS JORNALÍSTICO MULTIDOCUMENTO 1. Introdução Com o imenso volume de informação disponível na web, necessita-se de estratégias que permitam absorvê-la de

Leia mais

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos 17 I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos Renan Gomes Pereira 1 Maria Fernanda Moura 2 Resumo: O objetivo deste trabalho é apresentar a ferramenta I-Preproc,

Leia mais

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Universidade Federal do Rio Grande do Sul Instituto de Informática Programa de Pós-Graduação em Computação Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Otávio

Leia mais

5º Congresso de Pós-Graduação

5º Congresso de Pós-Graduação 5º Congresso de Pós-Graduação UMA FERRAMENTA PARA GERAÇÃO AUTOMÁTICA DE DIAGRAMA DE CLASSES A PARTIR DA ESPECIFICAÇÃO DE REQUISITOS EM LINGUAGEM NATURAL Autor(es) WILSON CARLOS DA SILVA Orientador(es)

Leia mais

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4

Manual OntoLP. 1-Introdução ao OntoLP Instalação do OntoLP Executando o OntoLP Observação Importante...4 Manual OntoLP Sumário: 1-Introdução ao OntoLP...2 2-Instalação do OntoLP...2 3-Executando o OntoLP...2 4-Observação Importante...4 5-Aba de Carga do Corpus...5 6-Aba de Extração de Termos...7 7- Aba de

Leia mais

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Patricia Nunes Gonçalves 1, António Horta Branco 1 1 Faculdade de Ciências da Universidade de Lisboa Lisboa - Portugal

Leia mais

Revisão Sistemática de Validação de Ontologias

Revisão Sistemática de Validação de Ontologias Revisão Sistemática de Validação de Ontologias Alex Mateus Porn e Cristiane Huve Professor: Alexandre Ibrahim Direne Metodologia Científica 2015 Sumário 1. Introdução; 2. Revisão Sistemática; 3. Resultados;

Leia mais

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face.

O reconhecimento facial é dividido em três etapas: i) detecção da face, ii) extração de características e iii) reconhecimento da face. ESTUDO SOBRE MÉTODOS DE RECONHECIMENTO FACIAL EM FOTOGRAFIAS DIGITAIS Ana Elisa SCHMIDT¹, Elvis Cordeiro NOGUEIRA² ¹ Orientadora e docente do IFC-Campus Camboriú; ² Aluno do curso de Bacharelado em Sistemas

Leia mais

PPGCC. Análise Comparativa de Métodos de Extração de Termos: Abordagens Linguística e Estatística. Relatório Técnico N 0 053

PPGCC. Análise Comparativa de Métodos de Extração de Termos: Abordagens Linguística e Estatística. Relatório Técnico N 0 053 Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Análise Comparativa de Métodos de Extração de Termos: Abordagens Linguística

Leia mais

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I

MCZA Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I MCZA017-13 Processamento de Linguagem Natural Semântica e similaridade de palavras: Parte I Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin.

Leia mais

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional

Inteligência Artificial. Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional Inteligência Artificial Prof. Esp. Pedro Luís Antonelli Anhanguera Educacional OBJETIVOS : Introduzir o estudo Processamento de Linguagem Natural. Histórico O processamento de linguagem natural, nasceu

Leia mais

Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática

Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática Alinhamento Sentencial e Lexical de Córpus Paralelos: Recursos para a Tradução Automática Helena de Medeiros Caseli 1, Maria das Graças Volpe Nunes 1 1 Núcleo Interinstitucional de Lingüística Computacional

Leia mais

Realimentação de Relevância

Realimentação de Relevância Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada

Leia mais

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino

Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,

Leia mais

Caracterização de Imagens via Redes Neurais Artificiais

Caracterização de Imagens via Redes Neurais Artificiais Caracterização de Imagens via Redes Neurais Artificiais Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal

Leia mais

SEMINÁRIO DOS ARTIGOS:

SEMINÁRIO DOS ARTIGOS: SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene

Leia mais

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA 18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) JONAS RAFAEL ONOFRE Orientador(es) MARINA TERESA PIRES VIEIRA

Leia mais

PALAVRAS-CHAVE COMO ELO ENTRE ARTIGOS E AUTORES: visualizações possíveis

PALAVRAS-CHAVE COMO ELO ENTRE ARTIGOS E AUTORES: visualizações possíveis PALAVRAS-CHAVE COMO ELO ENTRE ARTIGOS E AUTORES: visualizações possíveis Elaine Oliveira Lucas (UDESC) lani@udesc.br Marilda Lopes Ginez Lara (USP) larama@usp.br EIXO TEMÁTICO: Mapas da Ciência MODALIDADE:

Leia mais

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a

1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a 1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha

Leia mais

Classificação Contínua de Documentos com Vocabulários Temáticos Dinâmicos para a Desambiguação de Termos

Classificação Contínua de Documentos com Vocabulários Temáticos Dinâmicos para a Desambiguação de Termos Classificação Contínua de Documentos com Vocabulários Temáticos Dinâmicos para a Desambiguação de Termos Adriano A. Santos 1, Ulrich Schiel 2 1 Programa de Pós-Graduação da Universidade Federal de Campina

Leia mais

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras

Recapitulando... Abordagens: PLN. Abordagens: PLN 29/03/2012. Introdução ao Processamento de Línguas Naturais. Distribuição de palavras Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Recapitulando... Abordagens superficiais vs. profundas Simbolismo vs. estatística

Leia mais

Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA

Sumário. Referências utilizadas. Introdução. MAFIA: Merging of Adaptive Finite Intervals. Introdução Visão Geral e Objetivos do MAFIA Sumário : Merging of Adaptive Finite Intervals Elaine Ribeiro de Faria Análise de Agrupamento de Dados ICMC-USP Dezembro 2010 Introdução Visão Geral e Objetivos do Algoritmo Grid Adaptativo Algoritmo Algoritmo

Leia mais

Este capítulo aborda os fundamentos principais aplicados neste trabalho.

Este capítulo aborda os fundamentos principais aplicados neste trabalho. 2 Fundamentos Este capítulo aborda os fundamentos principais aplicados neste trabalho. 2.1 Linked Data Linked Data é um padrão de práticas a serem seguidas para a publicação e interligação de dados estruturados

Leia mais

Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining

Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining João R. Carrilho Jr., Marco Aurélio C. Pacheco ICA: Applied Computational Intelligence Laboratory Department of

Leia mais

Extração e Representação Semântica de Fatos Temporais

Extração e Representação Semântica de Fatos Temporais Extração e Representação Semântica de Fatos Temporais Leandro Gallina 1, Renata Galante 1 1 Instituto de Informática Universidade Federal do Rio Grande do Sul (UFRGS) Caixa Postal 15.064 91.501-970 Porto

Leia mais

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R.

DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO. Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R. DESENVOLVIMENTO DE FERRAMENTAS PARA A CONSTRUÇÃO ÁGIL DE EXTRATORES DE INFORMAÇÃO Matheus Silva Santos 1 Cassiano Bueno Silva 2 Eraldo R. Fernandes 3 1 Instituto Federal de Goiás/Campus Jataí/Técnico em

Leia mais

Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos

Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Predição de links em uma rede heterogênea baseada em dados geolocalizados e de relacionamentos Proposta de Trabalho

Leia mais

Pré-processamento textual para a extração de informação em bases de patentes

Pré-processamento textual para a extração de informação em bases de patentes Pré-processamento textual para a extração de informação em bases de patentes Bruno Silva Sette, Claudia Aparecida Martins Instituto de Computação Universidade Federal de Mato Grosso (UFMT) Av. Fernando

Leia mais

5º Congresso de Pós-Graduação

5º Congresso de Pós-Graduação 5º Congresso de Pós-Graduação UMA FERRAMENTA PARA GERAÇÃO AUTOMÁTICA DE DIAGRAMA DE CLASSES A PARTIR DA ESPECIFICAÇÃO DE REQUISITOS EM LINGUAGEM NATURAL Autor(es) Orientador(es) LUIZ EDUARDO GALVÃO MARTINS

Leia mais

UNIVERSIDADE FEDERAL DA BAHIA

UNIVERSIDADE FEDERAL DA BAHIA UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO RECUPERAÇÃO DE ARQUITETURA DE SOFTWARE UTILIZANDO ALGORITMOS DE AGRUPAMENTO ALUNO: DENNIS LESSA

Leia mais

Uma Abordagem ao PÁGICO baseada no Processamento e Análise de Sintagmas dos Tópicos

Uma Abordagem ao PÁGICO baseada no Processamento e Análise de Sintagmas dos Tópicos Uma Abordagem ao PÁGICO baseada no Processamento e Análise de Sintagmas dos Tópicos Ricardo Rodrigues Hugo Gonçalo Oliveira Paulo Gomes CISUC, Universidade de Coimbra CISUC, Universidade de Coimbra CISUC,

Leia mais

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação

Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA 2017.1 Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de

Leia mais

Compiladores. Motivação. Tradutores. Motivação. Tipos de Tradutores. Tipos de Tradutores

Compiladores. Motivação. Tradutores. Motivação. Tipos de Tradutores. Tipos de Tradutores Motivação Prof. Sérgio Faustino Compiladores Conhecimento das estruturas e algoritmos usados na implementação de linguagens: noções importantes sobre uso de memória, eficiência, etc. Aplicabilidade freqüente

Leia mais

Um Método para Melhoria de Dados Estruturados de Imóveis

Um Método para Melhoria de Dados Estruturados de Imóveis Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação

Leia mais

CC-226 Introdução à Análise de Padrões

CC-226 Introdução à Análise de Padrões CC-226 Introdução à Análise de Padrões Apresentação do Curso Carlos Henrique Q. Forster 1 1 Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica 25 de fevereiro de 2008 C. H. Q. Forster

Leia mais

MAPAS CONCEITUAIS COMPILADOS: UMA FERRAMENTA PARA CONSTRUÇÃO DE DIAGNÓSTICOS EM ENSINO A DISTÂNCIA

MAPAS CONCEITUAIS COMPILADOS: UMA FERRAMENTA PARA CONSTRUÇÃO DE DIAGNÓSTICOS EM ENSINO A DISTÂNCIA MAPAS CONCEITUAIS COMPILADOS: UMA FERRAMENTA PARA CONSTRUÇÃO DE DIAGNÓSTICOS EM ENSINO A DISTÂNCIA Márcio Roberto Machado da Silva; Marlise Geller Universidade Luterana do Brasil marcioms@ulbra.br; mgeller@terra.com.br

Leia mais

Uma avaliação de analisadores morfológicos do português

Uma avaliação de analisadores morfológicos do português Uma avaliação de analisadores morfológicos do português Jéssica O. de Souza, André C. Santiago, Katiuscia de M. Andrade, Mardônio J. C. de França, Hélio L. B. Silva, Ananda L. Freire, Leonel F. de Alencar,

Leia mais

Dados Abertos Governamentais e a Web Semântica

Dados Abertos Governamentais e a Web Semântica Dados Abertos Governamentais e a Web Semântica Disciplina: Ontologias e Web Semântica Professor: Fred Freitas Jônatas de Lira Rocha Roteiro Dados Abertos Lei de Acesso a Informação Dados Abertos Governamentais

Leia mais

Prof. Lorí Viali, Dr.

Prof. Lorí Viali, Dr. Prof. Lorí Viali, Dr. viali@pucrs.br http://www.pucrs.br/famat/viali/ Dentre a grande variedade de sistemas que podem ser modelados e para os quais a simulação pode ser aplicada com proveito, uma classe

Leia mais

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM

UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM UMA FERRAMENTA PARA A PESQUISA EM CORPORA DE AQUISIÇÃO DE LINGUAGEM 1. INTRODUÇÃO Corpora de linguagem dirigida a e produzida por crianças são recursos valiosos para estudos de aquisição da linguagem,

Leia mais

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM Autores: Giulia Denise Kujat VIEIRA; Milene Karine GUBETTI. Identificação autores: Estudantes do Curso Técnico em Informática

Leia mais

Sistemas de Recomendação Uma abordagem geral

Sistemas de Recomendação Uma abordagem geral Sistemas de Recomendação Uma abordagem geral Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação Mestrado em Ciência da Computação Disciplina: Seminários II Aluna: Késsia

Leia mais

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade

Análise Automática de Coerência Textual em Resumos Científicos: Avaliando Quebras de Linearidade Proceedings of Symposium in Information and Human Language Technology. Natal, RN, Brazil, November 4 7, 2015. c 2015 Sociedade Brasileira de Computação. Análise Automática de Coerência Textual em Resumos

Leia mais

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos CRI Minas Indústria 4.0 Case Vallourec: Golden Batch na produção de tubos 02 05 2018 G o l d e n B a t c h A n a l y s i s Case Vallourec Líder mundial em soluções tubulares premium, a Vallourec assegura

Leia mais

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY APRESENTADO POR: BRUNO LUAN DE SOUSA QUA L I DA DE E MEDIÇÃO DE SOFTWA R E U N I V E R S I DA D E F E D E R A L D E MINAS G E

Leia mais

FACILITANDO A AVALIAÇÃO DE TAXONOMIAS DE TÓPICOS AUTOMATICAMENTE GERADAS NO DOMÍNIO DO AGRONEGÓCIO

FACILITANDO A AVALIAÇÃO DE TAXONOMIAS DE TÓPICOS AUTOMATICAMENTE GERADAS NO DOMÍNIO DO AGRONEGÓCIO FACILITANDO A AVALIAÇÃO DE TAXONOMIAS DE TÓPICOS AUTOMATICAMENTE GERADAS NO DOMÍNIO DO AGRONEGÓCIO MERLEY DA SILVA CONRADO 1 MARIA FERNANDA MOURA 2 SOLANGE OLIVEIRA REZENDE 3 RESUMO: O custo de avaliação

Leia mais

Grupo de Estudos. Tópicos Avançados em Design de Artefatos Digitais. Design Science Research. Semestre André Neves

Grupo de Estudos. Tópicos Avançados em Design de Artefatos Digitais. Design Science Research. Semestre André Neves Grupo de Estudos André Neves andremneves@gmail.com Tópicos Avançados em Design de Artefatos Digitais Design Science Research Semestre 2018.1 Tabela de Conteúdos 1. Objetivo do Curso 2. Programa 3. Planejamento

Leia mais

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas

Análise Sintática de Frases utilizando Gramáticas Livres de Contexto Probabilísticas Universidade de São Paulo Mestrado em Ciência da Computação Instituto de Matemática e Estatística Disciplina MAC5725 Lingüística Computacional Análise Sintática de Frases utilizando Gramáticas Livres de

Leia mais

4 Algoritmos de Aprendizado

4 Algoritmos de Aprendizado 4 Algoritmos de Aprendizado Este capítulo apresenta os algoritmos utilizados ao longo da dissertação e alguns utilizados como base por eles. Os algoritmos adotados são todos de aprendizado supervisionado.

Leia mais

Ciência da Computação. Análise e Projeto Orientado a Objetos UML. Anderson Belgamo

Ciência da Computação. Análise e Projeto Orientado a Objetos UML. Anderson Belgamo Ciência da Computação Análise e Projeto Orientado a Objetos UML Anderson Belgamo 1 Evolução do Software O rápido crescimento da capacidade computacional das máquinas resultou na demanda por sistemas de

Leia mais

Aprendizagem de máquina: Regressão Linear em uma instituição de Ensino

Aprendizagem de máquina: Regressão Linear em uma instituição de Ensino Aprendizagem de máquina: Regressão Linear em uma instituição de Ensino Caio Vinicius Batista Martins, Lyncon Rodrigo de Melo Santos, Felipe Vieira Mota Faculdade de Tecnologia de São Vicente - FATEF Email:

Leia mais

GSI024 - Organização e Recuperação da

GSI024 - Organização e Recuperação da GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações

Leia mais

Categorização de Textos baseada em Conceitos

Categorização de Textos baseada em Conceitos Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Encontro de PLN Categorização de Textos baseada em Conceitos Silvia Maria

Leia mais

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases

NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases NEPaLE: Uma ferramenta computacional de suporte à avaliação de paráfrases Rafael de Oliveira Teixeira 1, Eloize Rossi Marques Seno 1, Helena de Medeiros Caseli 2 1 Instituto Federal de São Paulo câmpus

Leia mais

Ontologias: Definições e Tipos

Ontologias: Definições e Tipos Ontologias: Definições e Tipos Ricardo de Almeida Falbo Ontologias para Engenharia de Software Departamento de Informática Universidade Federal do Espírito Santo Agenda O que é uma ontologia Tipos de Ontologias

Leia mais

Marcação de Nomes Próprios usando técnicas de pesquisa local e recorrendo a fontes de conhecimento na Internet

Marcação de Nomes Próprios usando técnicas de pesquisa local e recorrendo a fontes de conhecimento na Internet Marcação de Nomes Próprios usando técnicas de pesquisa local e recorrendo a fontes de conhecimento na Internet João Laranjinho Universidade de Évora Évora, Portugal joao.laranjinho@gmail.com Irene Rodrigues

Leia mais