Web mining Quintino Izidio S. Neto 1, Ricardo Romão 2, Bruno de Abreu Cárceres 1 Departamento de Ciência e Tecnologia 2 Ledes Laboratório de Desenvolvimento de Software Universidade Federal de Mato Grosso do Sul (UFMS) Campo Grande, MS Brasil quintino@cnpgc.embrapa.br, {ricardoromao.as,brunocarceres}@gmail.com Abstract. With the explosive growth of the World Wide Web, it also brought the necessity of automatized use processes for discovery of knowledge in the Web documents and user s models of the site. These factors, bring the needs to create, in both side client/server, efficient systems that can effectively search this knowledge. Web mining is a technique of mining data knowledge extraction in the Web, using Web documents, Hyperlinks, Web sites logs, etc. Resumo. Com o explosivo crescimento da World Wide Web, veio também a necessidade da utilização de processos automatizados para descoberta de conhecimento nos documentos Web e modelos de usuários do site. Esses fatores levam à necessidade de criar, no lado cliente e no lado servidor, sistemas eficientes que podem efetivamente minerar esse conhecimento. Web mining é uma técnica de mineração de dados para extração de conhecimento de dados da Web, usando documentos da Web, Hyperlinks, Logs de Web sites no servidor, etc. 1. Introdução Mineração na Web mostra padrões de comportamento no uso da Web, para isso, são aplicadas técnicas de Data Mining no conteúdo Web. A análise pode ser feita sobre páginas visitadas, tempo gasto em cada uma, quais as mais freqüentadas, associações entre páginas e padrões transversos (páginas não ligadas diretamente por Hyperlinks, e sim por meio de outras páginas). Estão sendo discutidas estratégias para analisar seqüências de páginas para definir comportamento de usuários. Identificar certos tipos de usuários, comparar padrões de compradores e não compradores, identificar diferenças entre usuários visitantes rápidos, usuários investigadores e usuários compradores. O conhecimento obtido com essa investigação pode servir para projetar páginas com o objetivo de maximizar a eficiência de contato com o cliente. Web Mining é freqüentemente associado com Recuperação de Informação, mas na verdade trata-se de um processo mais amplo, interdisciplinar, envolvendo técnicas de Recuperação de Informação, estatística, inteligência artificial e mineração de dados. Em geral, as tarefas principais de Web Mining são as seguintes: Busca de documentos: consiste em se encontrar sites Web contendo documentos
especificados por palavras-chave. É o processo de se extrair dados a partir de fontes de textos disponíveis na Internet, tais como conteúdos de textos de documentos HTML obtidos removendo-se as tags HTML, textos extraídos de grupos de discussão, newsletters, etc. Esta tarefa envolve a utilização de técnicas de Recuperação de Informação. Seleção e pré-processamento da informação: consiste em selecionar e préprocessar automaticamente informações obtidas na Internet. O préprocessamento envolve qualquer tipo de transformação da informação obtida na busca, como, por exemplo, corte de textos, transformação da representação da informação em outros formalismos. Generalização: consiste em descobrir automaticamente padrões gerais em sites Web ou entre vários sites Web. Esta tarefa envolve a utilização de técnicas de inteligência artificial e de mineração de dados. Análise: validação e interpretação dos padrões minerados. 2. As categorias de Web Mining Web Mining normalmente é subdividido em três categorias principais, que constituem as áreas de interesse onde minerar informação: Web Content Mining ou Mineração do Conteúdo de Documentos na Web. Web Log Mining (Web Usage Mining) ou Mineração do Uso da Web. Web Structure Mining ou Mineração da Estrutura de Documentos na Web. Mineração na Web Mineração do conteúdo da Web Mineração da estrutura da Web Mineração do uso da Web Mineração do conteúdo da página Web Mineração nos resultados da pesquisa Rastreamento nos padrões gerais de acesso Rastreamento de uso customizado Estrutura da Web Mining
2.1. Mineração do conteúdo da Web Mineração de conteúdo da Web é o processo de extração do máximo de informações do conteúdo de um documento Web. Conteúdo dos dados corresponde a fatos que uma página Web foi designada para informar aos usuários. Isto pode consistir de textos, imagens, áudio, vídeo ou registros estruturados, tais como, listas ou tabelas. Text mining e suas aplicações para conteúdo da Web foram extensamente pesquisadas. Algumas pesquisas foram direcionadas para Text Mining, que é a retirada de conhecimento ocultos em textos da Web, descoberta de tópicos (topic discovery), extração de modelos associados (extracting association patterns), agrupamento de documentos da Web (custering of web documents) e classificação de páginas da Web (classification of Web Pages). Existem dois pontos de vista principais quando se fala de Mineração do Conteúdo da Web: o ponto de vista da Recuperação de Informação (RI) e o ponto de vista de Banco de Dados (BD). O objetivo, sob o ponto de vista de RI, é auxiliar o usuário no processo de busca ou filtragem de informação. É o que realiza os principais mecanismos de busca na Internet ao procurar atender da melhor maneira possível as solicitações feitas por usuários através de palavras-chave. O objetivo, sob o ponto de vista de BD, é modelar os dados da Web e integrá-los de tal modo que consultas mais sofisticadas do que simplesmente consultas baseadas em palavras-chave possam ser feitas. Isto pode ser realizado descobrindo-se os esquemas dos documentos na Web, construindo-se Web Warehouses ou uma base de conhecimento de documentos. A pesquisa nesta área lida, sobretudo, com dados semiestruturados (XML). Dados semi-estruturados se referem a dados que possuem alguma estrutura, mas não esquemas rígidos como é o caso dos bancos de dados. Quando se trata em obter conhecimento de uma imagem, nesse campo de processamento de imagem e visão computacional, aplicação da técnica de mineração de conteúdo não é muito rápida. Na mineração de dados na Web, os dados podem ser coletados: Do lado do servidor No lado do cliente No proxy dos servidores Banco de dados das organizações Cada tipo de dado difere não só pela localização, mas também nos tipos de dados. Existem vários tipos de dados que podem ser usados na mineração na Web: Categorias de dados: Conteúdo: Constituem-se nos dados reais das páginas Web, isto é, a página projetada para atender ao usuário. Esta geralmente constitui-se de textos e gráficos. Estrutura: Dados os quais descrevem a organização dos conteúdos. A estrutura interna das páginas inclui o conjunto de tags HTML ou XML. A principal estrutura de informação entre páginas se constitui nos hiperlinks que conectam uma página a outra.
Uso: Dados que descrevem os padrões de uso de páginas Web, como o endereço IP, páginas acessadas e a data e hora de acesso. Perfil do usuário: Constitui-se em dados que fornecem informações sobre usuários de um site Web. Quanto às fontes que originam estes dados: - Coleção no lado do servidor: O arquivo de log de um servidor Web constitui-se em uma fonte importantíssima de informações para a realização de mineração do uso da Web. Isto pode ser explicado pelo fato destes arquivos apresentarem registros da navegação dos visitantes do site. Entretanto, os dados do uso do site armazenados por arquivos de log podem não ser inteiramente confiáveis, por exemplo, as views de páginas (número de vezes que a página foi requisitada, e não recarregada ou atualizada) não são gravadas no arquivo de log do servidor. - Coleção no lado do cliente: As informações também podem ser coletadas do lado do cliente, esta coleta de informações pode ser implementada usando programas remotos como os implementados com a linguagem baseada em objetos javascript ou com os applets da linguagem orientada a objetos Java. As implementações de applets podem ser uma ótima solução para coleta de informações do lado do cliente, mas o overhead causado, principalmente, na sua execução inicial pode causar uma inibição em seu uso como uma solução. O uso do javascript aparentemente é uma melhor solução pelo fato de sua interpretação exigir menor tempo, mas as implementações com javascript não podem capturar todos os clicks que o usuário realiza. - No proxy dos servidores O proxy Web atua em um nível intermediário entre o Browser do cliente e do servidor Web. O proxy pode ser utilizado para diminuir o tempo de carga das páginas Web. A atividade final do proxy é garantir que as páginas mais requisitadas estejam disponíveis para facilitar no momento de cópia, proporcionando que a realização desta atividade seja feita de forma mais rápida. Através deste tipo de informação é possível identificar as páginas mais requisitadas por um grupo de usuários anônimos. 2.2. Mineração da Estrutura de Documentos na Web A Mineração da Estrutura de Documentos na Web tenta descobrir o modelo subjacente à estrutura de links da Web. O modelo é baseado na topologia dos hiperlinks. Este modelo pode ser utilizado para classificar páginas Web e é útil para gerar informações tais como a similaridade ou relacionamentos entre diferentes sites Web. Esta categoria de mineração na Web pode ser utilizada para se descobrir, por exemplo, os sites de autoridade (authority sites), isto é, sites cujos links aparecem freqüentemente em outros sites. É bom ressaltar que a distinção entre estas três categorias não é totalmente clara, isto é, uma das categorias (por exemplo, Mineração do Conteúdo) pode utilizar links (objeto principal da Mineração de Estrutura) e mesmo perfis de usuário (um dos objetos
centrais da Mineração do Uso). 2.3. Minerando do Uso da Web A Mineração do uso da Web tenta descobrir regularidades nos caminhos percorridos pelos usuários quando estão navegando pela Web. Enquanto a Mineração do Conteúdo e a mineração da Estrutura utilizam os dados reais presentes nos documentos da Internet, a Mineração do Uso utiliza dados secundários derivados da interação do usuário com a Web. Tais dados secundários incluem registros de log de servidores de acesso a Web (daí o nome alternativo Web Log Mining ), registros de log de servidores proxy, perfis de usuários, transações do usuário, consultas do usuário, dados de arquivos Bookmarks (Favoritos), etc.
3. Conclusão Este artigo apresentou uma visão geral da mineração de dados da Web. Foi apresentada uma visão geral da técnica de mineração de dados em páginas web. Também foram apresentadas as principais tarefas de mineração de dados na web: busca de documentos, seleção e pré-processamento da informação, generalização e análise. Foi descrita a estrutura do processo de mineração: mineração de conteúdo da web, mineração na estrutura da web e mineração do uso da web. O que dificulta o estudo da mineração da Web é a delimitação de seu escopo por se tratar de uma área multidisciplinar vinculada a outras áreas, como a recuperação de informação, a aprendizagem de máquina e os agentes da informação. Este trabalho procurou, de uma forma concisa, caracterizar e definir o alcance da mineração da Web; estabelecer seu relacionamento com outras disciplinas e oferecer indicações para o aprofundamento no estudo dos diferentes tópicos da área.
Bibliografia João Paulo da Costa Cordeiro. Extracção de Elementos Relevantes em Texto/Páginas da World Wide Web Sandra de Amo. Curso de Data Mining Sílvio César Cazella. Tópicos Especiais IV, Recuperação e extração de informação na web Stanley Loh, Ramiro Saldaña Garin. Web Intelligence Inteligência Artificial Para Descoberta de Conhecimento Na Web Leandro Balby Marinho, Rosario Girardi. Mineração na Web Raymond Kosala, Hendrik Blockeel. Web Mining Research: A Survey Lívia Maria Rocha de Vasconcelos, Cedric Luiz de Carvalho. Aplicação de Regras de Associação para Mineração de Dados na Web R. Cooley, B. Mobasher, J. Srivastava. Web Mining: Information and Pattern Discovery on the World Wide Web