Relatório sobre Webist 2011 Rodrigo Dias Arruda Senra Instituto de Computação - UNICAMP Noordwijk - Holanda - Maio 2011
1. Introdução Este relatório descreve minha participação no Webist 2011 - International Conference on Web Information Systems and Technologies, no período de 6 a 9 de maio de 2011 em Noordwijk/Holanda. Meu objetivo foi apresentar o short paper: Organographs: Multi-faceted Hierarchical Categorization of Web Documents de minha autoria, em conjunto com minha orientadora Prof.Dra. Claudia Bazuer Medeiros. Adicionalmente tive a oportunidade de apresentar o pôster : AGMI - an Agent Mining Tool and its Application to Brazilian Government Auditing representando os autores Carlos Vinícius Sarmento Silva e sua orientadora a Prof.Célia Ghedini Ralha da Universidade de Brasília, que não puderam participar do evento e solicitaram que eu os representasse. Esta experiência só foi possível graças ao apoio do Brazilian Institute of Web Science Research (http://webscience.org.br). 2. Contexto da Viagem A Conferência Webist 2011 foi sediada na cidade de Noordwijk na Holanda. Sua história data de 2000 a.c., mas ganhou destaque quando se tornou um centro de peregrinação após a morte do padre escocês beneditino Jeroen em 857 d.c, que chegara 10 anos antes para construir uma capela, mas pereceu em um ataque Normando 10 anos depois. Durante os séculos 18 e 19 a cidade se tornou o mais importante centro herbário da Holanda. Após o século 19 a cidade voltou sua economia para o cultivo de bulbos de flores, e hoje mais de 311 hectares de terra são dedicados à esta atividade. Após 1866 a cidade também tornou-se um resort turístico à beira mar, e atualmente hospeda a ESTEC: European Space Research and Technology Centre - o coração técnico da Agência Espacial Européia. A cidade possui aproximandamente 25.000 habitantes, com 13 km de linha costeira, estando situada à 25 km de Amsterdam (centro comercial e turístico)e a 40 km de Rotterdam(centro industrial). Por todas estas razões é o segundo principal destino de Congressos organizados na Holanda, hospedando mais de 250 congressos internacionais anualmente. Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 2
3. Evento O Webist 2011 foi a sétima instância da Conferência Internacional sobre Tecnologias e Sistemas de Informação para a Web, que é organizada e patrocinada pelo INSTICC - Institute for Systems and Technologies of Information, Control and Communication em cooperação com o ACM Special Interest Group on Management Information Systems (ACM SIGMIS). O Webist possui 5 áreas principais: Internet Technology, Web Interfaces and Applications, Society, Society, e-business, e-government, Web Intelligence and Web Security. Neste ano de 2011 o evento recebeu 156 submissões de artigos de 43 países diferentes. Deste conjunto, 14 artigos foram aceitos como full papers, 38 artigos foram aceitos como short papers, e 38 artigos foram aceitos como pôsters. O encontro foi complementado por 4 sessões especiais: WSPA 2011 - Web Services Principles and Applications; SWAT 2011 - SemanticWeb Applications and Tools; SSeB 2011 - e-business; WTM 2011 - Web and Text Mining. A qualidade do evento deste ano esteve refletida na seleção de suas keynote lectures: The Cloud Service Supply Chain. Donald Ferguson (CA Technologies, U.S.A) Challenges for Software Agents Supporting Decision-Makers in Trading Flowers Worldwide. Eric van Heck (Erasmus University Rotterdam, The Netherlands) Cloud Computing in Education: The Intersection of Challenges and Opportunities. Ivan Ivanov (SUNY Empire State College, U.S.A) Smart Cloud Engineering, Nomenclature, and Enablement. Tony Shan (Keane Inc. U.S.A.) Search with a Little Help from Your Friends: Making Web Search More Collaborative. Barry Smyth (CLARITY Centre for Sensor Web Technologies, University College Dublin/Ireland) O responsável pelo Conference Chair foi o Sr. Joaquim Filipe, o responsável pelo Program Chair foi o Sr. José Cordeiro, o secretário foi o incansável Sr. João Teixeira. Todos três membros do INSTICC-Portugal. Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 3
Palestras Nesta seção comentarei sobre as apresentações que assisti durante o evento. Exceto pelas keynotes lectures, as apresentações de artigos foram realizadas em sessões paralelas, de forma que nem todas puderam ser vistas. Harnessing the wisdom of the cloud - Barry Smyth: Apresentação rápida durante o painel, onde Prof.Smyth introduz o tema de sua futura keynote, que abordará as áreas de information recovery, recommendation systems e collective intelligence. Uma das premissas deste trabalho é extrair informação de qualidade a partir da interação de amadores na Web. Como por exemplo, a iniciativa do Google de rastrear a propagação da influenza a partir de padrões de buscas no motor de buscas. Outro exemplo, foi o projeto re-captcha que auxilia na solução de erros de OCR, submetendo textos sintetizados misturados a textos digitalizados para identficação por um usuário. Outros exemplos foram citados como o precurssor jogo ESP para rotular imagens, ou o serviço mechanical turk da Amazon. Hybrid Cloudification - Tony Shan: Outra apresentação rápida durante o painel de apresentação dos palestrantes em destaque. Nesta introdução o Sr.Shan apresentou 4 abordagens através das quais uma empresa ou instituição pode usufruir de serviços na Nuvem. As abordagens são: top-down, middle-out, bottom-up e hybrid. O Sr.Shan conclui explicando os 3 níveis de serviços oferecidos, nominalmente: SaaS (software como serviço), IaaS (infra-estrutura como serviço) e PaaS (plataforma como serviço). Cloud Computing in Education: The Intersection of Challenges and Opportunities - Ivan Ivanov Fechando o painel, o Prof.Ivanov discorreu sobre desafios e oportunidades que surgem no cenário de computação em nuvem relacionadas a educação, tais como: redução de custos, serviços interativos e integração com plataformas móveis. Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 4
LazyDOM. Transparent Partial DOM Loading and Unloading for Memory Restricted Environments - Daniel Peintner et al. Daniel apresentou uma estratégia baseada em DOM para ambientes com restrições de alocação de memória, que consiste em não carregar toda a árvore XML para memória de uma só vez. A técnica consiste em rastrear as porções do arquivo XML que estão sendo uilizado pela aplicação, e apenas realizar o parse destas seções. O footprint de consumo de memória pode corresponder a 4 vezes o tamanho do arquivo no formato XML, ou até 100 vezes se o arquivo XML estiver na representação binária. Diversity of the Mashup Ecosystem - Solange Sari et al. Solange apresentou como a diversidade do ecosistema de mashups pode ser estimada a partir da construção da árvole filogenética de relacionamentos entre mashups. O resultado principal deste trabalho é que a diversidade de mashups está crescendo, mas de forma não-monotônica. Entropy on Ontological and Indexing in Information Retrieval - Yevgeniy Guseynov Prof.Guseynov apresentou uma formalização de um processo de indexação de bancos de dados textuais, baseados na teoria da informação de Shannon e na medida de similaridade semântica de Resnik. O processo consiste em um algoritmo de clusterização que utiliza entropia para calcular a proximidade semântica entre termos do banco e termos de uma ontologia (thesauro). Este algoritmo obteve 70% de casamento com os resultados atingidos por humanos especialisatas sobre a base MEDLINE. Concept-based Clustering for Open-sourced Software (OSS) Development Forum Threads - Masanori Akiyoshi Neste trabalho, Masanori apresentou uma técnica para medir a similaridade entre documentos baseado no peso semântico de cada palavra na sentença, no texto e no corpus. Essa medida de similaridade é utilizada em uma técnica de clusterização que não precisa de valores limites (threshold) para encerrar a clusterização. Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 5
VIZGR, Combining Data on a Visual Level - Daniel Hienert Daniel apresenta uma abordagem de re-utilizar visualizações, interconectando-as entre diferentes sites na Web de forma intuitiva e interativa através de recursos como: gráficos, nuvens de tags, mapas e linhas de tempo. Este artigo foi agraciado com o prêmio de melhor artigo estudantil no evento. Navigation Along Database Relationships - Andreas Schmidt et al Nesta apresentação Andreas introduziu uma ferramenta para visualizar o conteúdo de bancos de dados relacionais na forma de grafos de objetos disponíveis na Web, cujo foco é explorar os relacionamentos de chaves estrangeiras e tabelas de realcionamentos. An Event Distribution Platform for Recommending Cultural Activities - Toon de Pessemier Sr.Pessemier propôs a combinação de um sistema de recomendação personalizado com filtragem baseada em conteúdo para cosntrução de uma plataforma de distribuição de eventos que faz que faz uso do modelo Linked Data para enriquecer a informação associada aos eventos. Content-based Recommendation Algorithms on the Hadoop MapReduce Framework - Toon de Pessemier Em uma segunda apresentação consecutiva, o Sr.Pessemier complementou a apresentação anterior mostrando como a plataforma Hadoop poderia ser utilizada para resolver o problema de escalabilidade na construção de sistemas de recomendação na Nuvem. The Stone Age is Back:HCI Effects on Recommender Systems - Yuval Dan-Gur Prof.Dan-Gur discorreu sobre aspectos sociais na construção de sistemas de recomendação apresentando resultados da exposição do sistema QSIA de Q&A que foi exposto a usuários na Web cuja interação foi monitorada ao longo de 2 anos. O resultado principal foi observar que a recomendação ori- Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 6
unda da interação social prevaleceu sobre a recomendação oriunda do sistema (baseada na similaridade computada). News Recommending Based on Text Similarity and User Behaviour - Dusan Zeleník Dusan apresenta uma técnica de similaridade baseada em árvore utilizada na construção de um sistema de recomendação utilizado em um portal de notícias na Eslováquia. O interesse dos usuários é descoberto em real-time durante a navegação do portal, através da interação dos usuários com uma árvore de conceitos que alimenta o algoritmo de recomendação. Apresentação Pôster Antes do início do Webist 2011 fui contactado pelo comitê de organização sobre a possibilidade de apresentar um pôster de um outro brasileiro que não poderia participar do evento. Me coloquei à disposição e fui contactado por Carlos Vinícius Sarmento Silva, orientado pela Profa. Célia Ghedini Ralha da Universidade de Brasília. Solicitei uma cópia do artigo, os comentários dos revisores e o arquivo-fonte do pôster. Dessa forma pude me preparar para representá-los na apresentação do pôster: AGMI - An Agent-Mining Tool and its Application to Brazilian Government Auditing. Este trabalho utiliza uma plataforma de agentes distribuídos para realizar mineiração de dados sobre licitações governamentais em busca de tentativas de fraude sobre dados reais. Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 7
Apresentação do Meu Artigo Finalmente, tive a oportunidade de apresentar meu próprio artigo na última sessão paralela na área de Web Intelligence: Organographs - Multi-faceted Hierarchical Categorization of Web Documents. Minha apresentação focou em 3 problemas: conteúdo textual é naturalmente multi-facetado, as metáforas de organização hierárquica (ex.:sistemas de diretórios) não permitem uma recategorização dinâmica e o compartilhamento de estrutura organizacional não é realizado dissociado do conteúdo. Minha proposta é que uma organização de conteúdo traz implicitamente em sua estrutura uma tarefa de usuário, para a qual aquela organização de mostra útil. Todavia, a mudança de tarefa pode implicar em uma mudança de organização. Para tanto, os usuários deveriam ser capazes de tornar explícitos os critérios de organização e que tarefa uma dada organização resolve. Para tanto, devemos municiar os usuários de ferramentas para: avaliar se uma dada organização de fato atende as necessidades de uma tarefa, recategorizar (re-organizar) conteúdo dinâmicamente toda vez que o usuário chaveia de uma tarefa para outra, e sobretudo permitir que o usuário seja capaz de trocar a capacidade de organizar conteúdo e não apenas conteúdo organizado. A receptividade da audiência em relação à palestra foi muito boa, fomentando diversos comentários e sugestões. 4. Conclusão O Webist 2011 foi muito proveitoso sob diversos aspectos. Houve aprendizado e enriquecimento de conhecimentos nas áreas de mineiração de dados, sistemas de recomendação, técnicas de categorização e clusterização e computação em nuvem. Todos estes temas relevantes para o contexto da minha própria pesquisa de doutorado. Houve oportunidade de networking com pesquisadores brasileiros e sobretudo estrangeiros, com os quais pude exercitar o diálogo em Inglês, Francês e Espanhol; aprender sobre suas áreas de pesquisa e culturas e divulgar as minhas. Houve ainda oportunidade de enriquecimento cultural e até um pouco de entreterimento e turismo no último dia do evento. Por tudo isso sou grato por esta oportunidade, que aproveitei ao limite das possibilidades. Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 8
5. Agradecimentos Gostaria de agradecer uma vez mais ao Brazilian Institute of Web Science Research, presentemente dirigido pelo Prof. Carlos José Pereira de Lucena do Departamento de Informática da PUC-Rio. Em especial, gostaria de agradecer o apoio logístico recebido da Uliana e do Prof. Raul Martins, ambos da PUC-Rio. Sobretudo, gostaria de agradecer à minha orientadora Claudia Bauzer Medeiros pela confiança, pela vigilância e por bancar os custos de inscrição no evento. Minha pesquisa, bem como outras teses e dissertações do Laboratório de Sistemas de Informação (LIS) do Instituto de Computação da Unicamp, tem recebido o apoio finaceiro da Fapesp, do CNPq, da CAPES e do INCT em Web Science (CNPq 557.128/2009-9). Rodrigo D. A. Senra email: rsenra@acm.org http://rodrigo.senra.nom.br 9