Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas

Documentos relacionados
Marcos Borges Pessoa. Geração e execução automática de scripts de teste para aplicações web a partir de casos de uso direcionados por comportamento

Sistema para Consultas sobre Banco de Dados Relacional Baseado em Palavras-Chave

Estudo Comparativo de Estratégias de Classificação de Páginas Web

Bruno de Figueiredo Melo e Souza. Modelos de fatoração matricial para recomendação de vídeos. Dissertação de Mestrado

Mineração de Dados voltada para Recomendação no Âmbito de Marketing de Relacionamento

Bruno Loureiro Rezende. Um Framework para a Automação de Testes com Linguagens de Especificação Configuráveis DISSERTAÇÃO DE MESTRADO

Matchmaking Uma infraestrutura para alinhamento de esquemas

Geração semi-automática de massas de testes funcionais a partir da composição de casos de uso e tabelas de decisão

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Elicitação de requisitos de software através da utilização de questionários

Iam Vita Jabour. O Impacto de Atributos Estruturais na Identificação de Tabelas e Listas em Documentos HTML. Dissertação de Mestrado

Tatiana Waintraub. Modelagem da calçada de Copacabana. Dissertação de Mestrado

Gerenciando Conflitos em Reuniões: Uma Estratégia para a Elicitação de Requisitos de Software

Coordenação entre pequenos fundos de investimento em um mercado relativamente ilíquido: efeitos sobre volume e preços

Desenvolvimento e avaliação de um jogo de computador para ensino de vocabulário para crianças com autismo

Trigonometria: Fórmulas de Adição e Subtração de Arcos

Vinci Pegoretti Amorim. Uma Arquitetura Flexível para Replicação de Bases Distribuídas Heterogêneas. Dissertação de Mestrado

Uma meta-ferramenta de geração de diagramas utilizada na engenharia reversa de sistemas legados.

Vinicius Mothé Maia. Suavização do sorriso da volatilidade. através do Modelo de Corrado-Su. Dissertação de Mestrado

Utilização de uma estratégia para identificação de fontes de informação na fase de elicitação

QEEF-G: Execução Paralela Adaptativa de Consultas Iterativas

Renato Figueiró Maia. Um Framework para Sistemas Baseados em Componentes Distribuídos. Informática DEPARTAMENTO DE INFORMÁTICA

Bruno Siqueira Silva. Workflows dinâmicos em gerência de projetos ágeis. Dissertação de Mestrado

Análise e Avaliação do Equity Premium Puzzle no Mercado Acionário Brasileiro sob diferentes Contextos Econômicos

Um modelo para cobertura de notícias na Web

Integração de Ontologia com Modelagem de Processo: Um Método para Facilitar a Elicitação de Requisitos

Aprendizado de Máquina para o Problema de Sentiment Classification

Aplicação da Análise de Sistemas à Definição de Processos de Desenvolvimento de Software

Geraldo da Silva Rocha Netto. Escalonamento Flexível de Workflows com Restrições Temporais. Dissertação de Mestrado

Gustavo Simão Rodrigues

Francisco Benjamim Filho. XHITS: Estendendo o Algoritmo HITS para Extração de Tópicos na WWW DISSERTAÇÃO DE MESTRADO

Gingando em Português: como os aspectos culturais presentes na Capoeira auxiliam o estrangeiro na aquisição de competência intercultural

Um ambiente de suporte para uma linguagem de modelagem de sistemas multi-agentes

Luzia da Costa Tonon. O Teorema de Cramér-Lundberg via martingais DISSERTAÇÃO DE MESTRADO. Programa de Pós Graduação em Matemática

Adriano Medeiros dos Santos. Suporte a Componentes Compostos Para o Middleware SCS. Dissertação de Mestrado

Um Framework de Jogos Sérios para Mercado de Informações com Aplicação em Ética Empresarial

Criação Automática de Visões Materializadas em SGBDs Relacionais

Debora Carvalho Capella. Um estudo descritivo do vocativo em linguagem oral para Português L2. Dissertação de Mestrado

Impactos do processo de aculturação na fusão das empresas Y e Z: Uma análise quantitativa

Entropia de Rényi e Informação Mútua de Cauchy-Schwartz Aplicadas ao Algoritmo de Seleção de Variáveis MIFS-U: Um Estudo Comparativo

Proposta de um sistema de suporte à decisão para programação de navios baseado em otimização: um caso prático

Experimentos de Previsão da Estrutura a Termo da Taxa de Juros Americana: Reversão à Media, Inércia e Influência de Variáveis Macroeconômicas

Marketing de Relacionamento: Cross-selling na Telefonia Móvel

Mariana Figueiredo de Castro Pereira

Tânia Cristina Soeiro Simões O uso das preposições locais no processo de aquisição formal da língua alemã como segunda língua

Renata Thomaz Lins do Nascimento. Visualização por Imagens Auto-animadas de Campos Vetoriais Baseada na sua Topologia. Dissertação de Mestrado

Uma abordagem baseada em SPH para animação interativa de águas rasas em jogos

Adriano Francisco Branco. Um modelo de programação para RSSF com. Dissertação de Mestrado

Carla Jardim Dias. Um modelo estocástico para o fluxo de caixa de um plano de previdência de um indivíduo. Dissertação de Mestrado

Pontifícia Universidade Católica do Rio de Janeiro

Laura Gonçalves Carvalho

OPERADORES LOGÍSTICOS E SEUS CLIENTES: UM ESTUDO EMPÍRICO

Previsão da Produção Industrial do Brasil: Uma Aplicação do Modelo de Índice de Difusão Linear

Liberdade e verdade na filosofia cartesiana

As notícias sobre crime e a construção da realidade:

A INTERNET E A EDUCAÇÃO A DISTÂNCIA DOS SURDOS NO BRASIL: UMA EXPERIÊNCIA DE INTEGRAÇÃO EM UM MEIO EXCLUDENTE

Memes: Conceito de Conteúdo de Informação Como Alternativa de Pesquisa de Posicionamento de Marca

João Paulo de Freitas Araujo. Algoritmos para acelerar a computação de Árvores de corte de Gomory e Hu. Dissertação de Mestrado

Aposentadoria e o Trade-off entre Renda e Lazer: Implicações para o Valor do Capital Humano de Funcionários Públicos

Avaliação Preliminar dos Movimentos Aéreos no Aeroporto Internacional Antônio Carlos Jobim Galeão

Cristiano Prado Martins Barbosa. Parada brusca de financiamento externo: fatores políticos, efeitos reais. Dissertação de Mestrado

UMA IMPLEMENTAÇÃO DO SERVIÇO WMS SOBRE A BIBLIOTECA TERRALIB

Aliana Pereira Simões. Avaliação Ergonômica da Usabilidade do Ambiente Virtual de Aprendizagem: CEAD-IFES/ES, um estudo de caso

Vinícius Garcia de Freitas Pacheco. O letramento funcional e linguagem das embalagens de óleos lubrificantes. Dissertação de Mestrado

Joana da Costa Macedo. Reforma Política: antigas questões novos sentidos da governabilidade à corrupção. Dissertação de Mestrado

Thomas de Campos Tsuchida. Modelagem da localização de pólos de venda de derivados de petróleo. Dissertação de Mestrado (Opção Profissional)

Mapeamento Automático de Horizontes e Falhas em Dados Sísmicos 3D baseado no algoritmo de Gás Neural Evolutivo

Gerenciamento de projetos no âmbito da Economia Criativa Um estudo de caso das Incubadoras Rio Criativo

Rodrigo Pereira David. Técnica de Estimação de Canal Utilizando Símbolos Pilotos em Sistemas OFDM. Dissertação de Mestrado

Elisa Figueira de Souza Corrêa. Formas de tratamento de parentesco:

Influência de Avaliações Online Negativas na Atitude e na Intenção de Compra

Quais as Bases do Comprometimento dos Indivíduos da Geração Y em uma Empresa do Setor Privado no Brasil?

Mulher madura: Um estudo sobre a influência da idade cognitiva na atitude em relação a anúncios de moda

Suzana Soares Duprat. Entretenimento Via Celular para Baixa Renda. Dissertação de Mestrado. Dissertação apresentada ao Programa de Pósgraduação

Augusto Seibel Machado. A questão das embalagens e sua relação com a sustentabilidade. Dissertação de Mestrado

Roberto Pereira Cavalcante. Filtragem Colaborativa aplicada a Publicidade Direcionada. Dissertação de Mestrado

O Efeito Coorte e o Desenvolvimento das Preferências por Moda Feminina

Mônica Nogueira de Assis. Cancioneiro Transgressor Um estudo sobre a poética da canção em Renato Russo e Cazuza. Dissertação de Mestrado

Bernardo de Mendonça G. Ferreira. Valoração de uma opção sobre um contrato futuro. Dissertação de Mestrado

Pedro Tiago Barbosa do Couto. Resolução de problemas de transporte rodoviário de cargas utilizando programação inteira DISSERTAÇÃO DE MESTRADO

Guilherme Faria Gonçalves. Análise das Estratégias Competitivas da Indústria Farmacêutica Brasileira Segundo a Tipologia de Chrisman

APLICAÇÃO DE CONCEITOS DE ENGENHARIA DE FATORES HUMANOS: UM ESTUDO DE CASO EM UMA EMPRESA DE OPERAÇÕES LOGÍSTICAS

Rafael Antônio Pinto Pena. Suporte semântico à publicação de conteúdo jornalístico na Web. Dissertação de Mestrado

A utilização da animação no Ensino Fundamental para a Educação em Saúde

Bruno Baère Pederassi Lomba de Araujo. Um estudo sobre adaptatividade dinâmica de dificuldade em jogos. Dissertação de Mestrado

Regysane Botelho Cutrim Alves. A crítica de traduções na teoria e na prática: o caso da Versão Brasileira. Dissertação de mestrado

Um Estudo sobre a Importância das Características dos Projetos de Patrocínio na Visão das Empresas Patrocinadoras de Eventos

Considerações sobre o Afeto em Psicanálise

Relação entre Governança Corporativa e Remuneração de Executivos no Brasil

Liquidez e Formação de Preço: Evidência do mercado acionário brasileiro

Mauricio Kreczmarsky Guimarães Meinicke. Opacidade 3D na Visualização Volumétrica de Dados Sísmicos

Bases do Comprometimento da Geração Y em uma Empresa Pública: um estudo de caso

Uma Proposta de Sistema de Dependência a Distância Usando a Plataforma Moodle

Análise do Perfil do Investidor: Desenvolvimento e Validação de Questionário Padrão

Comercialização do Serviço de Venda de Seguro: Ampla Energia e Serviços S.A. Um estudo de caso

Alexandra de Almeida. A noção de sublime em Kant e a questão da comoção na arte. Dissertação de Mestrado

MAURICIO LANE ESCOAMENTO DE FLUIDOS NÃO NEWTONIANOS ATRAVÉS DE CANAIS CONVERGENTES-DIVERGENTES DISSERTAÇÃO DE MESTRADO

Transcrição:

Demetrius Costa Rapello Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas Dissertação de mestrado Dissertação apresentada como requisito parcial para a obtenção do grau de Mestre pelo Programa de Pós-graduação em Informática do Departamento de Informática do Centro Técnico e Científico da PUC- Rio. Orientador: Prof. Marco Antonio Casanova Rio de Janeiro Março de 2012

Demetrius Costa Rapello Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas Dissertação apresentada como requisito parcial para a obtenção do grau de Mestre pelo Programa de Pósgraduação em Informática do Departamento de Informática do Centro Técnico e Científico da PUC-Rio. Aprovada pela Comissão Examinadora abaixo assinada. Prof. Marco Antonio Casanova Orientador Departamento de informática - PUC-Rio Antonio Luz Furtado Departamento de informática - PUC-Rio Ruy Luiz Milidiú Departamento de informática - PUC-Rio Karin K. Breitman Departamento de informática - PUC-Rio Prof. José Eugenio Leal Coordenador Setorial do Centro Técnico Científico PUC-Rio Rio de Janeiro, 15 de março de 2012

Todos os direitos reservados. É proibida a reprodução total ou parcial do trabalho sem autorização da universidade, do autor e do orientador. Demetrius Costa Rapello Graduou-se em Ciência da Computação pela Universidade de Augusto Motta (UNISUAM) em dezembro de 2000. Tem experiência na área de Ciência da Computação, com ênfase em Desenvolvimento de Software. Tem trabalhado em analise de sistemas desde 1997. Demetrius Costa Rapello Ficha Catalográfica Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas / Demetrius Costa Rapello; orientador: Marco Antonio Casanova. - Rio de Janeiro: PUC-Rio, Departamento de Informática, 2012. v., 72 f.: il. ; 29,7 cm Dissertação de Mestrado - Pontifícia Universidade Católica do Rio de Janeiro, Departamento de Informática Referências bibliográficas incluídas. Sistemas de Recomendação; Recuperação da Informação; Extração de Entidades Nomeadas; CDD: 004

A Deus, aos meus pais, a minha esposa e aos meus filhos.

Agradecimentos A Deus pelo apoio incondicional, conforto de coração e paz de espírito que tanto foram importantes para alcançar este objetivo. Aos meus pais, Tarciso Rapello e Maria da Conceição Costa Rapello, pelo apoio, educação, carinho e dedicação. A minha esposa Gabriela Barbosa da Silva Rapello, pelo apoio constante, carinho e compreensão. Aos meus filhos Gabriel e Matheus que entenderam a ausência do pai com carinho e compreensão. Ao meu orientador, prof. Marco Antonio Casanova, por sua dedicação, motivação, ensinamentos e orientação. À Globo.com, pelo financiamento e auxílios concedidos, sem os quais este trabalho não poderia ter sido realizado. Aos professores da Comissão examinadora. A todos os amigos e familiares que de alguma forma contribuíram para a realização deste trabalho.

Resumo Rapello, Demetrius Costa; Casanova, Marco Antonio. Sistema de recomendação de segundo nível para suporte à produção de matérias jornalísticas. Rio de Janeiro, 2011. 72p. Dissertação de Mestrado - Departamento de Informática, Pontifícia Universidade Católica do Rio de Janeiro. Sistemas de recomendação têm sido amplamente utilizados pelos grandes portais na Web, em decorrência do aumento do volume de dados disponíveis na Web. Tais sistemas são basicamente utilizados para sugerir informações relevantes para os seus usuários. Esta dissertação apresenta um sistema de recomendação de segundo nível para auxiliar equipes de jornalistas de portais de notícias no processo de recomendação de notícias relacionadas para os usuários do portal. O sistema é chamado de segundo nível pois apresenta recomendações aos jornalistas para que, por sua vez, geram recomendações aos usuários do portal. O modelo seguido pelo sistema consiste na recomendação de notícias relacionadas com base em características extraídas do próprio texto da notícia original. As características extraídas permitem a criação de consultas contra um banco de dados de notícias anteriormente publicadas. O resultado de uma consulta é uma lista de notícias candidatas à recomendação, ordenada pela similaridade com a notícia original e pela data de publicação, que o editor da notícia original manualmente processa para gerar a lista final de notícias relacionadas. Palavras-chave Sistemas de Recomendação; Recuperação da Informação; Extração de Entidades Nomeadas.

Abstract Rapello, Demetrius Costa; Casanova, Marco Antonio. Second level recommendation system to support news editing. Rio de Janeiro, 2011. 72p. MSc Dissertation - Departamento de Informática, Pontifícia Universidade Católica do Rio de Janeiro. Recommendation systems are widely used by major Web portals due to the increase in the volume of data available on the Web. Such systems are basically used to suggest information relevant to their users. This dissertation presents a second-level recommendation system, which aims at assisting the team of journalists of a news Web portal in the process of recommending related news for the users of the Web portal. The system is called second level since it creates recommendations to the journalists Who, in turn, generate recommendations to the users. The system follows a model based on features extracted from the text itself. The extracted features permit creating queries against a news database. The query result is a list of candidate news, sorted by score and date of publication, which the news editor manually processes to generate the final list of related news. Keywords Recommendation Systems; Information Retrieval; Named Entity Extraction.

Sumário 1. Introdução 13 1.1. Motivação 13 1.2. Objetivo da dissertação 14 1.3. Organização da dissertação 14 2. Conceitos, técnicas e trabalhos relacionados 16 2.1. Conceitos e Técnicas 16 2.1.1. Vector Space Model 16 2.1.2. PageRank 17 2.1.3. Classificador bayesiano ingênuo 17 2.1.4. Part-of-speech Tagging 19 2.2. Trabalhos relacionados 19 2.2.1. Sistemas de recomendação 19 2.2.2. Ferramentas para extração de entidades nomeadas 22 2.2.3. Outras Ferramentas 24 3. GRNews Sistema de recomendação de segundo nível para suporte a produção de matérias jornalísticas 29 3.1. Visão geral do sistema GRNews 29 3.2. Extrator de features 32 3.2.1. Discussão geral sobre features 32 3.2.2. Termos mais frequentes 33 3.2.3. Tags HTML informativas 34 3.2.4. Texto em títulos de vídeos e fotos 35 3.2.5. Reconhecimento de entidades nomeadas 35 3.3. Seleção de candidatos 44 3.3.1. Definição dos critérios de filtragem e ordenação 44 3.3.2. Combinação de features 46 3.3.3. Recuperação das candidatas 47 3.4. Recomendação 49

3.4.1. Fator de Similaridade 49 3.4.2. Fator de popularidade 50 3.5. Comentários do projeto 50 4. Experimento 53 4.1. O corpus 53 4.2. Critério para avaliação do sistema 54 4.3. Resultados obtidos 55 5. Conclusões e trabalhos futuros 61 5.1. Resumo do trabalho 61 5.2. Principais contribuições 62 5.3. Limitações do sistema 62 5.4. Trabalhos futuros 63 6. Bibliografia 64 7. APÊNDICE A 68

Lista de imagens Figura 1 Modelo do classificador... 18 Figura 2 GRNews arquitetura... 29 Figura 3 Interface Web do formulário de matéria... 30 Figura 4 Componente de matérias recomendadas... 32 Figura 5 Exemplo de matéria... 35 Figura 6 Processo de extração de entidades... 37 Figura 7 Acurácia do POS-tagger... 40 Figura 8 Resultado do classificador 1... 41 Figure 9 Resultado do classificador 2... 41 Figura 10 Exemplo de matéria publicada... 47 Figure 11 Fórmula de Precisão... 55 Figura 12 Tabela de acurácia por editoria com 5 recomendações e sem o fator de similaridade... 69 Figura 13 Tabela de acurácia por editoria com 5 recomendações com o fator de similaridade... 70 Figura 14 Tabela de acurácia por editoria com 10 recomendações e sem o fator de similaridade... 71 Figura 15 Tabela de acurácia por editoria com 10 recomendações e com o fator de similaridade... 72

Lista de tabelas Tabela 1 Comparativo de extratores de entidades... 23 Tabela 2 Exemplo de frases substantivas... 27 Tabela 3 Campos do formulário de matéria... 31 Tabela 4 Formatos de n-grams... 33 Tabela 5 Lista de n-grams... 38 Tabela 6 Corpora para reconhecer entidades... 39 Tabela 7 Comparativo de entidades extraídas... 42 Tabela 8 Comparativo entre extratores... 43 Tabela 9 Exemplo de combinação de features... 46 Tabela 10 Representação do corpus... 54 Tabela 11 Acurácia por feature com 5 recomendações sem similaridade... 56 Tabela 12 Acurácia por feature com 5 recomendações com similaridade... 58 Tabela 13 Acurácia por feature com 10 recomendações sem similaridade... 59 Tabela 14 Acurácia por feature com 10 recomendações com similaridade... 60

Sistema de recomendação para suporte a produção de artigos do portal G1 12 Lista de funções Função 1 Fórmula de distância dos cossenos 17 Função 2 Exemplo de pagerank 17 Função 3 Função de recomendação do PURE 25 Função 4 Cálculo do Z-score no PURE 26 Função 5 Cálculo de score do Lucene 45