OPIS: Um Método para a Identicação e a Busca de Páginas-Objeto
|
|
- Dalila de Escobar Wagner
- 6 Há anos
- Visualizações:
Transcrição
1 OPIS: Um Método para a Identicação e a Busca de Páginas-Objeto Miriam Pizzatto Colpo 1, Edimar Manica 1,2, Renata Galante 1 1 Universidade Federal do Rio Grande do Sul, Brasil 2 Instituto Federal de Educação, Ciência e Tecnologia do Rio Grande do Sul - Campus Ibirubá, Brasil {mpcolpo, edimar.manica, galante}@inf.ufrgs.br Abstract. Este artigo propõe um novo método, denominado OPIS, para a identicação e a busca de páginas-objeto, que são páginas que representam um único objeto do mundo real na web. A motivação para este trabalho se encontra no fato de que os motores de busca convencionais não conseguem responder a buscas por páginas-objeto de forma satisfatória atualmente, já que a quantidade de páginas-objeto recuperada é bastante limitada. OPIS caracteriza-se por adotar técnicas de pré-processamento de texto e de aprendizagem de máquina na classicação de páginas. Quando integrado a um motor de busca convencional, ele permite que somente páginas classicadas como páginas-objeto sejam recuperadas pelas consultas do usuário, ao invés de todas as páginas que contêm os termos da consulta. Experimentos preliminares mostram que o OPIS melhora em média 56% da precisão dos resultados de busca por páginas-objeto, quando comparado a um motor de busca convencional. Categories and Subject Descriptors: H.2 [Database Management]: Miscellaneous; H.3 [Information Storage and Retrieval]: Information Search and Retrieval; I.7 [Document and Text Processing]: Miscellaneous Keywords: busca-objeto, classicação de páginas web, páginas-objeto 1. INTRODUÇÃO Objetos da web são unidades de dados sobre as quais informações da web são coletadas, indexadas e ordenadas. Esses objetos são conceitos usualmente reconhecidos (como autores, artigos, conferências ou revistas), relevantes a um domínio de aplicação e que podem ser representados por um conjunto de atributos, os quais dependem do domínio do objeto [Nie et al. 2007]. Páginas-objeto são páginas que representam exatamente um objeto inerente na web. Isso signica que páginas que listam diversos objetos não são consideradas páginas-objeto por não representarem um objeto em particular. A busca por páginas-objeto é feita através de consultas restringidas por atributos de domínio e pode ser chamada de busca-objeto [Pham et al. 2010]. Uma consulta desse tipo é professor de banco de dados da UFRGS, que restringe a área e a instituição de atuação de um objeto professor e tem como objetivo recuperar páginas que descrevam esse objeto. Os motores de busca convencionais da web (do inglês, General Search Engines GSEs) são programas que visam recuperar informações da web e apresentá-las, de forma organizada e eciente, aos usuários. Basicamente, um GSE recebe um conjunto de palavras-chave e, analisando apenas o texto não estruturado, gera uma lista de páginas que contenham essas palavras [Baeza-Yates and Ribeiro- Neto 1999]. Embora os GSEs consigam atender à maioria das consultas realizadas atualmente, eles se mostram inadequados para recuperar páginas-objeto [Pham et al. 2010]. Os resultados esperados para a busca-objeto apresentada anteriormente, por exemplo, são páginas institucionais, pessoais ou de currículos, etc. que descrevam um objeto professor e considerem as restrições (de instituição e área Este trabalho é parcialmente nanciado pelo Instituto Nacional de Pesquisa da Web, pelo CNPq e pela CAPES. 1
2 de atuação) estabelecidas. Porém, na realidade, muitas páginas relacionadas a notícias, projetos e concursos para professores serão retornadas, dicultando para o usuário a localização de informações de seu interesse. Este artigo propõe um novo método para a identicação e a busca de páginas-objetos, denominado OPIS (acrônimo para Object Page Identifying and Searching), que adota técnicas de préprocessamento de texto e de aprendizagem de máquina aplicadas na classicação baseada em conteúdo de páginas web. O OPIS envolve a integração de um classicador a um motor de busca, de modo a permitir que somente páginas identicadas (classicadas) como páginas-objeto sejam indexadas e posteriormente recuperadas pelas consultas dos usuários. A principal contribuição deste método é a melhoria na precisão de buscas-objeto, fornecendo aos usuários nais resultados que melhor atendam a suas necessidades de informação. Experimentos preliminares no domínio real de pesquisadores mostram que o OPIS superou o motor de busca convencional Lucene 1 com aumentos de precisão de 65% (0.600 vs ) nos primeiros cinco resultados e de 56% (0.453 vs ) nos primeiros 20. O restante desse artigo está organizado da seguinte forma. Na Seção 2, são apresentados trabalhos relacionados. Na Seção 3, o OPIS é detalhadamente especicado. Na Seção 4, é apresentada a implementação e a experimentação de um caso de estudo no domínio de pesquisadores e, na Seção 5, o artigo é concluído e direções futuras são apontadas. 2. TRABALHOS RELACIONADOS Muitos esforços têm sido feitos para melhorar os resultados recuperados pelos GSEs. A maioria deles propõe a criação de motores de busca verticais [Ji et al. 2009][Lee et al. 2011][Luo 2009], que são motores de busca especícos a determinados domínios, levando em consideração as particularidades de cada tópico. Além disso, outros trabalhos [Bennett et al. 2010][Geng et al. 2009][Pham et al. 2010] usam funções de ranking especícas para recuperar páginas relacionadas a domínios especícos. Em geral, esses trabalhos usam técnicas de processamento de texto e aprendizagem de máquina para extrair o conteúdo das páginas e, com base nisso: aprender um determinado domínio e ltrar apenas páginas consideradas pertencentes a esse domínio no processo de coleta; ou determinar as características do domínio a serem usadas em uma função de ranking especíca. O OPIS se difere desses trabalhos à medida que não deseja aprender apenas o tópico das páginas, mas também seu tipo funcional (se a página é ou não uma página-objeto). Blanco [Blanco et al. 2008] propõe um método para coletar automaticamente páginas da web que publicam dados relacionados à instancias de entidades conceituais com um esquema implícito. Esse método assume que o usuário fornece exemplos de páginas de entidades a partir de sites distintos e percorre cada um desses sites procurando por páginas que apresentam templates e caminhos similares aos respectivos exemplos. Esse trabalho difere do OPIS por focar na coleta de páginas de entidades com templates similares, enquanto o OPIS busca identicar páginas-objeto, sem considerar templates especícos, para melhorar a busca-objeto. Também com relação à coleta de páginas, Assis [Assis 2008] propõe um coletor focado para tópicos de interesse que possam ser representados por características de gênero e de conteúdo. Quando o usuário deseja buscar por páginas de planos de ensino de disciplinas de banco de dados, por exemplo, um conjunto de características (termos) que descreva o gênero (planos de ensino) e outro que descreva o conteúdo (banco de dados) devem ser informados por um usuário especializado, de modo que o coletor possa analisar cada página através da sua similaridade com os termos de ambos os aspectos. No OPIS, o conteúdo e o gênero das páginas não são considerados separadamente, o que reduz o nível de especialidade do usuário, uma vez que ele não precisa discernir entre esses dois aspectos e nem selecionar termos manualmente para caracterizá-los. Para Pham [Pham et al. 2010], cuja proposta esta mais próxima do OPIS, o problema de buscaobjeto se assemelha ao de aprendizagem de ranking, em que o principal objetivo é aprender uma função 1 Apache Lucene, 2
3 de ranking através de uma função de aprendizagem, com base em um conjunto de características relevantes. A solução proposta consiste em desenvolver diversos motores de busca verticais para suportar a busca por páginas-objeto em diferentes domínios. Para isso, uma função de ranking deve ser aprendida para cada domínio especíco. O desenvolvedor 2 deve submeter consultas por palavras-chave e anotar um conjunto de treinamento a partir das páginas recuperadas. Esse conjunto de treinamento tem suas características extraídas automaticamente e usadas em uma função de aprendizagem. O OPIS também adota o conteúdo das páginas para melhorar a busca-objeto através da classicação funcional (páginas-objeto ou não) das páginas. Porém, ele não considera a busca-objeto como um problema de aprendizagem de ranking. Ao invés disso, o processo de ranking ca a cargo do motor de busca ao qual acoplamos o método. Isso torna desnecessária a análise das informações estruturadas embutidas nas páginas, durante o processo de busca, para casá-las com as características que integram a função de ranking aprendida (por exemplo, a palavra professor aparece no título). 3. OPIS: OBJECT PAGE IDENTIFYING AND SEARCHING Esta seção descreve o método para identicação e busca de páginas-objeto, denominado OPIS (acrônimo para Object Page Identifying and Searching ). O OPIS caracteriza-se por adotar técnicas de pré-processamento de texto e de aprendizagem de máquina na classicação de páginas baseada em conteúdo, a m de permitir que somente páginas classicadas como páginas-objeto possam ser indexadas e recuperadas por consultas de usuários. O OPIS abrange a construção de um classificador e a integração deste a um motor de busca convencional, permitindo que os resultados de buscasobjeto se tornem mais precisos e, dessa forma, mais adequados às necessidades dos usuários. Fig. 1. Visão geral do OPIS: Integração das atividades de identicação e busca Na Figura 1 é apresentada uma visão geral do OPIS. Note que as páginas coletadas passam através de um processo de classicação e apenas as páginas classicadas como páginas-objeto seguem para a tarefa de indexação, permitindo que apenas estas sejam recuperadas em futuras consultas nesse domínio. Considerando o processo convencional realizado pelos GSEs, a única diferença é a introdução do classicador (identicador), após a tarefa de coleta, para a ltragem das páginas-objeto. O classicador do OPIS é construído com base em um conjunto de atividades. Inicialmente, o conjunto de treinamento, que é a base do processo de aprendizagem, deve ser criado, sendo ne- 2 Pessoa responsável por guiar o treinamento da função de ranking para um domínio especíco, permitindo que usuários possam, então, submeter consultas relacionadas a esse domínio. 3
4 cessária a denição de um domínio, a coleta (que pode ser simplicada com o auxílio de um coletor focado [Chakrabarti et al. 1999][Torkestani 2012]) de um conjunto de páginas relacionadas a esse domínio e a rotulação (quanto a ser ou não uma página-objeto) dessas páginas de treinamento. Após, devido a maioria do conteúdo das páginas web ser textual e não estruturado, algumas atividades de pré-processamento, como a remoção de tags HTML, a tradução de termos estrangeiros, a remoção de stopwords e a representação do conteúdo através do Modelo de Espaço Vetorial (do Inglês, Vector Space Model VSM) [Manning et al. 2008], são aplicadas às páginas coletadas. Por m, a criação do modelo de classificação, para a identicação de páginas-objeto, pode ser iniciada. Esse passo envolve a escolha e parametrização de um algoritmo de classicação, o seu treinamento através de um conjunto de páginas e a análise de desempenho do modelo gerado. 4. CASO DE ESTUDO Nesta seção, é apresentada a implementação e a avaliação do OPIS em um caso de estudo a m de demonstrar a aplicação e a viabilidade do método em um domínio real. O objetivo desse caso de estudo é permitir a realização de buscas-objeto, tanto em um motor de busca convencional quanto no OPIS integrado a esse motor, e mostrar, através da avaliação dos resultados, que o OPIS melhora a precisão de buscas-objeto. O domínio escolhido foi o de pesquisadores, por possuir um número representativo de páginas-objeto disponíveis e por abranger diferentes tipos de páginas-objeto (como institucionais, pessoais e currículos). 4.1 Implementação Inicialmente, um conjunto de páginas foi coletado, de modo que um subconjunto (25% dessa coleção) fosse considerado no treinamento do classicador e restante usado como coleção a ser indexada pelo motor de busca. Para isso, foram selecionadas páginas-hub, que se caracterizam por apresentarem uma lista de pesquisadores e links para suas páginas-objeto, relacionadas ao corpo docente de cursos de graduação em Ciência da Computação, Matemática e Estatística de 10 universidades brasileiras. Essas páginas-hub foram automaticamente analisadas, por meio de uma aplicação desenvolvida com o auxílio da biblioteca HTML Parser 3, e as páginas-objeto indicadas pelos links presentes nelas foram coletadas. A biblioteca Google Custom Search 4 foi utilizada para coletar exemplos negativos (páginas não objeto), através da submissão de consultas gerais, relacionadas às universidades consideradas, e do armazenamento das páginas resultantes. Após, todas as páginas armazenadas foram manualmente classicadas entre as classes páginas-hub, página-objeto e páginas não objeto, tendo cada uma obtido a quantidade de 114, 939 e 2012 páginas, respectivamente. A classe hub foi considerada nesse domínio na tentativa de melhorar a aprendizagem do classicador, uma vez que suas páginas podem conter diversas semelhanças com as páginas-objeto. Durante o pré-processamento, a biblioteca HTML Parser foi utilizada na extração do conteúdo textual (sem tags HTML) das páginas web. Como a coleção é composta por páginas de universidades brasileiras e, no domínio de pesquisadores, é frequente a ocorrência de termos em Inglês, usou-se também a biblioteca Web Translator Java 5 para traduzir esses termos para o Português. Para representar o conteúdo textual das páginas através do modelo VSM, usou-se o ltro StringToWordVector, considerando TF-IDF [Manning et al. 2008] como forma de ponderação dos termos e o uso de uma lista de stopwords em Português, fornecida pelo Snowball 6, em sua parametrização. Esse ltro pertence à biblioteca de mineração Weka 7, usada neste trabalho por ser de código aberto e apresentar diversos algoritmos tanto para o pré-processamento dos dados quanto para o processo de aprendizagem. 3 HTML Parser, 4 Google Custom Search, 5 Web Translator Java API, 6 Snowball Portuguese Stop Word List, 7 Weka Data Mining Software API, 4
5 Para a criação do modelo de classificação foram testados três algoritmos: J48 (Árvore de Decisão), NaiveBayes (Probabilístico) e LibSVM (Máquinas de Vetores de Suporte). Embora não tenham apresentado grandes diferenças quanto à precisão da classicação, o primeiro algoritmo se mostrou mais lento e o terceiro obteve melhor precisão que os demais. Dessa forma, o LibSVM [Chang and Lin 2013] foi utilizado, com núcleo linear (por ser de rápida execução), através do Weka e treinado com 25% da coleção criada anteriormente. O motor de busca convencional Lucene foi usado na integração do classificador, de modo a permitir que somente páginas classicadas como páginasobjeto sejam indexadas e recuperadas. O Lucene, assim como as ferramentas já mencionadas, fornece uma biblioteca livre em Java, o que garante a portabilidade do sistema. Para a integração, uma aplicação em Java, que usa as bibliotecas Lucene e Weka para classicar, indexar e buscar páginas, foi desenvolvida. Quando o método de indexação é chamado, o documento a ser indexado passa por uma atividade adicional, onde é testado pelo classicador, e somente passa pelo processo de indexação se for classicado como uma página-objeto. 4.2 Avaliação Experimental Experimentos foram realizados, considerando o caso de estudo desenvolvido, com o objetivo de avaliar a inuência exercida pelo OPIS nos resultados de busca-objeto, em relação a um motor de busca convencional. Os experimentos foram executados em um PC padrão, usando as ferramentas mencionadas anteriormente, e consistiram na submissão de buscas-objeto do domínio de pesquisadores e na avaliação da relevância dos resultados recuperados por essas consultas. Participaram desses experimentos 10 usuários, que submeteram e avaliaram cinco consultas cada. A m de tornar o processo menos exaustivo, os usuários foram divididos em dois grupos, de modo que cada grupo realizasse suas consultas em apenas um dos métodos, ou seja, no motor de busca com a adição do classicador (OPIS) ou sem (baseline). Após, essas consultas foram reproduzidas e avaliadas no método oposto. Para evitar o uso de diferentes critérios de relevância durante a reprodução das consultas, os usuários especicaram o objetivo e os tipos de resultados que consideraram relevantes em cada uma de suas consultas através de uma área de texto adicional presente na interface de usuário, que foi especialmente desenvolvida para a realização desses experimentos. Como não era viável solicitar que os usuários avaliassem todos os resultados recuperados pelas consultas, apenas os 20 primeiros foram apresentados para serem analisados. Para medir a precisão das páginas apresentadas e ter um indicativo de suas posições no ranking, a métrica de precisão em n (p@n)[manning et al. 2008], que considera somente os primeiros n resultados recuperados pelo sistema, foi usada com n de 5, 10, 15, e 20. As médias para todas as consultas em ambos os casos (com e sem o OPIS) são apresentadas na Tabela I. Considerando as 20 primeiras páginas retornadas, o OPIS apresenta uma melhora de 56% na precisão. Isso acontece devido ao fato de muitas páginas irrelevantes (páginas não objeto) retornadas pelo motor de busca convencional para buscas-objeto serem descartadas pelo OPIS, o que torna os resultados mais precisos. Com base no Teste-T, é possível armar que o OPIS melhora signicativamente (valor-p do Teste-T < 0.01) a precisão para buscas-objeto, em todos os pontos de corte considerados, quando comparado ao motor de busca convencional. Table I. Resultados para todas as consultas em ambos os métodos Média das 50 consultas dos usuários p@5 p@10 p@15 p@20 OPIS Baseline
6 5. CONSIDERAÇÕES FINAIS Neste artigo, foi proposta uma solução para o problema de busca-objeto em motores de busca convencionais, através de um novo método, denominado OPIS, para a identicação e a busca de páginas-objeto. O OPIS usa técnicas aplicadas na classicação baseada em conteúdo da web, como atividades de préprocessamento de texto e algoritmos de aprendizagem de máquina, para permitir que apenas páginas classicadas como páginas-objeto sejam indexadas e recuperadas pelas consultas dos usuários. O OPIS teve sua viabilidade e aplicação demonstrada através da implementação de um caso de estudo no domínio de pesquisadores. Experimentos preliminares foram realizados nesse caso de estudo, contando com a contribuição de usuários, que submeteram e avaliaram buscas-objeto tanto em um motor de busca convencional quanto no OPIS integrado a esse motor. Os resultados mostraram que o OPIS forneceu um ganho de aproximadamente 56%, considerando a média das precisões das 20 primeiras páginas recuperadas por todas as consultas. Como trabalhos futuros, pretende-se simplicar a construção do classicador através do uso de realimentação de relevância e reduzir o problema de ambiguidade das palavras-chave por meio da expansão automática de consultas. Uma experimentação mais exaustiva, considerando um domínio adicional e o trabalho de busca-objeto desenvolvido por Pham [Pham et al. 2010], apresentado nos trabalhos relacionados, como baseline, também faz-se necessária. REFERENCES Assis, G. T. Uma Abordagem Baseada em Gênero para Coleta Temática de Páginas da Web. M.S. thesis, Universidade Federal de Minas Gerais (UFMG), Brazil, Baeza-Yates, R. A. and Ribeiro-Neto, B. A. Modern Information Retrieval. ACM Press / Addison-Wesley, Bennett, P. N., Syore, K., and Dumais, S. T. Classication-Enhanced Ranking. In Proceedings of the International World Wide Web Conferences. Raleigh, EUA, pp , Blanco, L., Crescenzi, V., Merialdo, P., and Papotti, P. Supporting the Automatic Construction of Entity Aware Search Engines. In Proceedings of the ACM Workshop on Web Information and Data Management. Napa Valley, EUA, pp , Chakrabarti, S., Berg, M., and Dom, B. Focused Crawling: a New Approach to Topic-Specic Web Resource Discovery. In Proceedings of the International World Wide Web Conferences. Toronto, Canada, pp , Chang, C. and Lin, C. LIBSVM: A Library for Support Vector Machines, cjlin/libsvm. Geng, B., Yang, L., Xu, C., and Hua, X. Ranking Model Adaptation for Domain-Specic Search. In Proceedings of the Conference on Information and Knowledge Management. Hong Kong, China, pp , Ji, L., Yan, J., Liu, N., Zhang, W., Fan, W., and Chen, Z. ExSearch: A Novel Vertical Search Engine for Online Barter Business. In Proceedings of the Conference on Information and Knowledge Management. Hong Kong, China, pp , Lee, H., Nazareno, F., Jung, S., and Cho, W. A Vertical Search Engine for School Information Based on Heritrix and Lucene. In Proceedings of the International Conference on Convergence and Hybrid Information Technology. Daejeon, Korea, pp , Luo, G. Design and Evaluation of the imed Intelligent Medical Search Engine. In Proceedings of the IEEE International Conference on Data Engineering. Shanghai, China, pp , Manning, C. D., Raghavan, P., and Schütze, H. An Introduction to Information Retrieval. Cambridge University Press, Nie, Z., Ma, Y., Shi, S., Wen, J., and Ma, W. Web Object Retrieval. In Proceedings of the International World Wide Web Conferences. Ban, Canada, pp. 8190, Pham, K. C., Rizzolo, N., Small, K., Chang, K. C., and Roth, D. Object Search: Supporting Structured Queries in Web Search Engines. In Proceedings of the NAACL HTL - Workshop on Semantic Search. Los Angeles, EUA, pp. 4452, Torkestani, J. A. An Adaptive Focused Web Crawling Algorithm Based on Learning Automata. Applied Intelligence vol. 37, pp ,
1 Introdução Motivação
1 Introdução 1.1. Motivação Informações podem ser armazenadas das mais variadas maneiras. O modo mais clássico de armazenamento de informação é através da palavra escrita, impressa. O acesso à informação
Descoberta de conhecimento em redes sociais e bases de dados públicas
Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:
UNIVERSIDADE FEDERAL DE P ERNAMBUCO
UNIVERSIDADE FEDERAL DE P ERNAMBUCO GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO CENTRO DE INFORMÁTICA 2016.1 AutoTestPlan: Uma ferramenta para criação de planos de teste e seleção de casos de teste PROPOSTA DE
Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais
Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente
Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário
Roteiro PCC142 / BCC444 - Mineração de Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Introdução Tarefas
OPIS: Um Método para Identificação e Busca de Páginas-Objeto
UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL INSTITUTO DE INFORMÁTICA PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO MIRIAM PIZZATTO COLPO OPIS: Um Método para Identificação e Busca de Páginas-Objeto Dissertação
Recuperação de Informação em Bases de Texto
Recuperação de Informação em Bases de Texto Mestrado em Engenharia Informática Universidade de Évora 2010/2011 Paulo Quaresma pq@di.uevora.pt http://www.moodle.uevora.pt 1 Objectivos Programa Avaliação
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração
Recuperação de Informação
Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha
I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos
17 I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos Renan Gomes Pereira 1 Maria Fernanda Moura 2 Resumo: O objetivo deste trabalho é apresentar a ferramenta I-Preproc,
4 Recuperação de Informação
4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de
Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais
72 Resumos Expandidos: XII Mostra de Estagiários e Bolsistas... Os efeitos do paralelismo e relações de thesaurus em uma ferramenta de busca em bases textuais Renan Gomes Pereira¹ Maria Fernanda Moura²
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos
Ambiente de Data Warehouse Para Imagens Médicas Baseado Em Similaridade
Universidade de São Paulo - USP Instituto de Ciências Matemáticas e de Computação - ICMC Programa de Pós-Graduação em Ciências da Computação e Matemática Computacional Ambiente de Data Warehouse Para Imagens
Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de
Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado
Gazetteers - Aplicação em RI Geográfica Ivre Marjorie R. Machado Julho de 2009 Sumário Introdução Gazetteer Exemplos Locus Limitações Conclusão Referências 2 Introdução Quem nunca usou uma máquina de busca
Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS
6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS
Color Eyes Detector. Duarte Petiz. DCC/FCUP
Color Eyes Detector Duarte Petiz DCC/FCUP up201204625@fc.up.pt Resumo Este relatório descreve a implementação da aplicação desenvolvida Color Eyes Detector bem como mostra os resultados finais da execução
B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A
Mineração de Dados Espaciais B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Roteiro 2 Introdução Mineração de Dados Estado da Arte Artigo apresentado Conclusão
Uma ferramenta para expansão do vocabulário com base em coocorrência
Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira
Desenvolvimento de um Web Crawler para indexação de documentos científicos
Desenvolvimento de um Web Crawler para indexação de documentos científicos Heitor de Sousa Miranda¹, Rafael Gonçalves Barreira², Edeilson Milhomem da Silva³ Curso de Sistemas de Informação - CEULP/ULBRA
Mineração de Textos. Mineração de Textos
Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados
2 Reconhecimento Facial
2 Reconhecimento Facial Em termos gerais, o reconhecimento facial é o processo pelo qual se mede o grau de similaridade entre duas imagens faciais com o proposito de identificar a um indivíduo ou de verificar
Universidade Católica Dom Bosco Curso de Bacharelado em Engenharia de Computação
Universidade Católica Dom Bosco Curso de Bacharelado em Engenharia de Computação Desenvolvimento de um sistema de identicação de espécies de peixes utilizando Visão Computacional e aprendizagem automática
Mineração de Textos na Web
Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na
Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -
Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof.
Ferramentas para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações Fabrício J. Barth 1,2 1 Fundação Atech Tecnologias Críticas (fbarth@atech.br) 2 Centro Universitário SENAC (fabricio.jbarth@sp.senac.br) 9 de
Introdução 12 que inuenciam a execução do sistema. As informações necessárias para o diagnóstico de tais problemas podem ser obtidas através da instru
1 Introdução Atualmente a demanda pela construção de novos sistemas de software tem aumentado. Junto com esse aumento também cresce a complexidade das soluções que estão sendo desenvolvidas, o que torna
Revisão/Mapeamento Sistemático
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação SSC0572 - Computadores, Sociedade e Ética Profissional Revisão/Mapeamento Sistemático Prof. Dr. José Carlos Maldonado PAE: Pedro
Seleção de Atributos 1
Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas
Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed
Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios
MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB
MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB Acadêmico: Leonardo José Correia Orientador: Prof. Ricardo Alencar Azambuja Blumenau, Julho/2004 1 Roteiro Introdução Objetivo
Sumário. Trabalho que foi desenvolvido. Introdução
Proposta de um sistema de Classificação de Notícias utilizando técnicas de Aprendizagem de Máquina integrado com o ClippingBr Bruno Campagnolo de Paula PROJETO FINAL DA DISCIPLINA DE MACHINE LEARNING Mestrado
Caracterização de Imagens via Redes Neurais Artificiais
Caracterização de Imagens via Redes Neurais Artificiais Autor: Eduardo Ferreira Ribeiro 1, Orientadora: Celia Zorzo Barcelos 1 1 Programa de Pós-Graduação em Ciência da Computação Universidade Federal
Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes
Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,
CC-226 Introdução à Análise de Padrões
CC-226 Introdução à Análise de Padrões Apresentação do Curso Carlos Henrique Q. Forster 1 1 Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica 25 de fevereiro de 2008 C. H. Q. Forster
Análise e conversão de tabloides de. Igor dos Santos Montagner Orientador: Prof. Dr. Roberto Marcondes Cesar Junior. promoções
Análise e conversão de tabloides de Igor dos Santos Montagner Orientador: Prof. Dr. Roberto Marcondes Cesar Junior promoções Agenda Problema Objetivo nal Solução proposta Atenção visual e mapa de saliências
4 Coleta de Informações, Extração de Atributos e Métodos de Classificação
Coleta de Informações, Extração de Atributos e Métodos de Classificação 33 4 Coleta de Informações, Extração de Atributos e Métodos de Classificação 4.1. Coleta de Informações O processo de coleta de informações
Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino
Máquinas de Vetores de Suporte Aplicadas à Classificação de Defeitos em Couro Bovino Ricardo Cezar Bonfim Rodrigues 24 de abril de 2006 1 Antecedentes e Justificativa Hoje, em diversos processos industriais,
Classificação Automática de Gêneros Musicais
Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação
Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso
Detecção de Réplicas de Sítios Web em Máquinas de Busca Usando Aprendizado de Máquina Rickson Guidolini Orientador: Nivio Ziviani Co-orientador: Adriano Veloso Universidade Federal de Minas Gerais LATIN
Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri
Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados
Integração de Dados. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri
Integração de Dados Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Integração de Dados Problema: dados armazenados nos provedores são
UNIVERSIDADE FEDERAL DA BAHIA
UNIVERSIDADE FEDERAL DA BAHIA INSTITUTO DE MATEMÁTICA E ESTATÍSTICA DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO RECUPERAÇÃO DE ARQUITETURA DE SOFTWARE UTILIZANDO ALGORITMOS DE AGRUPAMENTO ALUNO: DENNIS LESSA
6 Trabalhos Relacionados
6 Trabalhos Relacionados Existem vários projetos, tais como DILLEO e ILUMINA, que constroem Bibliotecas Digitais de LOs, mas não integram os repositórios nem os ambientes. Portanto, eles retratam abordagens
BibIme - Um Software Gerenciador de Bibliotecas Produzido de Forma Cooperativa
BibIme - Um Software Gerenciador de Bibliotecas Produzido de Forma Cooperativa Dairton Bassi, Kelly Braghetto, Eduardo Colli, Fabio Kon, João Eduardo Ferreira Instituto de Matemática e Estatística Universidade
Indexação e Modelos Clássicos
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir
Introdução. Estrutura de Dados II Prof Jairo Francisco de Souza
Introdução Estrutura de Dados II Prof Jairo Francisco de Souza Conteúdo Programático Parte 1 Manipulação de arquivos Ordenação, arquivos em série e sequências, classificação externa, arquivos de acesso
Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR
Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words
Mineração de Opinião Aplicada ao Cenário Político
Mineração de Opinião Aplicada ao Cenário Político Leandro Massetti Ribeiro Oliveira 1, Vandecia Rejane Monteiro Fernandes 1 1 Engenharia da Computação - Universidade Federal do Maranhão (UFMA) São Luis
Seiji Isotani CURRICULUM VITAE
Seiji Isotani CURRICULUM VITAE São Paulo 2004 1. Dados Pessoais Nome: Seiji Isotani Data e Local de Nascimento: 09/09/1979, Osasco/SP - Brazil Endereço Atual : Osasco, SP Brazil Telefone: (11) 3609-1033
Visualização de Texto e Documento
Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação
Descoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
Aula 2: Planejamento da RS
Universidade de São Paulo Instituto de Ciências Matemática e de Computação SSC 5905 - Revisão Sistemática Aula 2: da RS Profa. Dra. Elisa Yumi Nakagawa 1. Semestre de 2013 Processo de Revisão Sistemática
19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA
19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ
Realimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Identificação de alertas de segurança virtual veiculados no Twitter
Identificação de alertas de segurança virtual veiculados no Twitter Orientador: Daniel M. Batista Coorientadora: Elisabeti Kira Instituto de Matemática e Estatística IME-USP 27 de Janeiro de 2015 Introdução
7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS
7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução
Algoritmo CLIQUE (Clustering In QUEst)
Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research
Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados
Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI Conceitos Básicos Disciplina: Banco de Dados Prof: Márcio Palheta, Esp Manaus - AM ROTEIRO Introdução Dados
DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO
Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO Aluno: Rafael
Medidas de Avaliação
Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor
BCC390 - Monografia I
BCC390 - Monografia I DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO Rafael Belini Souza November 9, 2012 Tópicos 1 Introdução 2 Justificativa 3 Objetivo 4 Fontes 5 Pré-processamento
Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC
Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio
18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA
18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio
Melhorando a Recuperação de Informação
Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço
Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de Graduação
UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA 2017.1 Utilização de técnicas de Process Mining em Sistemas de Middleware Adaptativos Proposta de Trabalho de
Arquitetura de um Ambiente de Data Warehousing
Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário
Aprendizado de Máquina. Combinando Classificadores
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores
"Análise de Extratores de Característica para Reconhecimento de Face"
Universidade Federal de Pernambuco Centro de Informática Graduação em Engenharia de Computação Proposta de Trabalho de Graduação "Análise de Extratores de Característica para Reconhecimento de Face" Orientador:
SEMINÁRIO DOS ARTIGOS:
SEMINÁRIO DOS ARTIGOS: Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning End-to-End Text Recognition with Convolutional Neural Networks Fernanda Maria Sirlene
Pré-processamento textual para a extração de informação em bases de patentes
Pré-processamento textual para a extração de informação em bases de patentes Bruno Silva Sette, Claudia Aparecida Martins Instituto de Computação Universidade Federal de Mato Grosso (UFMT) Av. Fernando
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Análise de Requisitos
Análise de Requisitos Prof.ª: Érika A. Barrado Analisar x Projetar Análise: significa investigar, descobrir ou desvendar algo; Consiste em encontrar o conjunto de requisitos para um dado software; Definida
Sistemas de Recomendação Uma abordagem geral
Sistemas de Recomendação Uma abordagem geral Universidade Estadual de Maringá Departamento de Informática Programa de Pós-Graduação Mestrado em Ciência da Computação Disciplina: Seminários II Aluna: Késsia
Raciocínio Baseado em Casos
Raciocínio Baseado em Casos Augusto Cesar Castoldi, Marcos de Oliveira dos Santos. Bacharéis em Ciências da Computação 2º Semestre, 2002. Departamento de Informática e Estatística (INE) Universidade Federal
4 Framework Proposto para Construção de Mediadores
41 4 Framework Proposto para Construção de Mediadores Neste capitulo apresentamos um framework que implementa a estratégia para enriquecimento de dados a partir de informações da Deep Web, descrita no
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo TR+
Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Aplicação de uma Técnica Tradicional de Expansão de Consulta ao Modelo
Inteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem (Redes Neurais - Complementar) Prof. a Joseana Macêdo
Pesquisa e Extração de Informação de Grupos de Discussão na Web
Pesquisa e Extração de Informação de Grupos de Discussão na Web Apresentação da Dissertação Jorge Miguel Amado Moreira Orientadores: Prof. Doutora Eduarda Mendes Rodrigues, FEUP Eng.º. Cláudio Barradas,
5 Crawler Focado Definição
5 Crawler Focado No presente capítulo são apresentadas e detalhadas as técnicas e heurísticas envolvidas no processo de coleta específica de dados baseado em crawler focado. A pesquisa sobre este assunto
PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO
PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos Carla Fernandes da SILVA 1 ; Clayton Silva MENDES 2. RESUMO A evasão escolar é um dos principais desafios a ser superado
Evento: XXV SEMINÁRIO DE INICIAÇÃO CIENTÍFICA
INTEGRAÇÃO DE APLICAÇÕES APLICADA À EXTRAÇÃO E QUALIFICAÇÃO AUTOMÁTICA DE PUBLICAÇÕES DE PESQUISADORES: UM CASO BASEADO NO CURRÍCULO LATTES 1 APPLICATION INTEGRATION APPLIED TO AUTOMATIC EXTRACTION AND
Classificação Hierárquica de Documentos Textuais Digitais usando o Algoritmo knn
Classificação Hierárquica de Documentos Textuais Digitais usando o Algoritmo knn Leonardo Cavalheiro Langie, Vera Lúcia Strube de Lima Programa de Pós-Graduação em Ciência da Computação Faculdade de Informática
Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos
Introdução Laboratório de Computação para Ciências Módulo II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional
Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira
Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas
3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes
3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes Neste capítulo, é apresentada uma nova proposta de combinação de múltiplos classificadores
6 Conclusões e Trabalhos Futuros
6 Conclusões e Trabalhos Futuros O presente trabalho tem por objetivo analisar o modelo desenvolvido por Jon Kleinberg, o HITS, bem como os seus desdobramentos existentes na literatura e, ainda, desenvolver
APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA.
APLICAÇÃO DE ALGORITMO DE APRENDIZAGEM DE MÁQUINA NÃO-SUPERVISIONADO PARA CLASSIFICAÇÃO DE USUÁRIOS NA REDE SOCIAL ACADÊMICA SCIENTIA.NET Heloína Alves Arnaldo (bolsista do PIBIC/UFPI), Vinicius Ponte
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO
UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO
4 Testes e experimentos realizados 4.1. Implementação e banco de dados
32 4 Testes e experimentos realizados 4.1. Implementação e banco de dados Devido à própria natureza dos sites de redes sociais, é normal que a maior parte deles possua uma grande quantidade de usuários
Consultas por Similaridade em Domínios de Dados Complexos
Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração
Metodologias para a Seleção de Atributos Relevantes
Metodologias para a Seleção de Atributos Relevantes José Augusto Baranauskas e Maria Carolina Monard Departamento de Computação e Estatística Instituto de Ciências Matemáticas e de Computação - Universidade
3 Recuperação de Informações Textuais
3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que
4 Experimentos. 4.1 Introdução
Experimentos 4 Experimentos 4.1 Introdução Foram realizados experimentos com os dois algoritmos propostos no capítulo anterior em duas bases de documentos, Reuters-21578 e Ohsumed. Primeiramente serão
MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V.
CINTED- Novas Tecnologias na Educação 1 MODELO DE CLASSIFICAÇÃO AUTOMÁTICA DE QUESTÕES NA LÍNGUA PORTUGUESA Henrique Maia Braum 1, Sandro José Rigo 1, Jorge L. V. Barbosa 1 1 UNISINOS Universidade do Vale