Web mining. Universidade Federal de Mato Grosso do Sul (UFMS) Campo Grande, MS Brasil

Documentos relacionados
SBC - Sistemas Baseados em Conhecimento

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Banco de Dados Data Mining Data Warehouse Big Data

Curso de Data Mining. Sandra de Amo. Aula 18 - Mineração de padrões em caminhos percorridos por usuários da Internet

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TCE Informática Dados Estruturados e Não-Estruturados Prof. Marcelo Ribeiro

MINERAÇÃO DE DADOS EM ARQUIVOS DE LOG GERADOS POR SERVIDORES DE PÁGINAS WEB

Internet Explorer 8.0 Navegador (Browser)

WEB-MINING: CONCEITOS E APLICAÇÕES

Banco de Dados e Aplicações em Negócios: Introdução.

2011 Profits Consulting. Inteligência Computacional

Sistema Gestor de Bancos de Dados (SGBD)

POLÍTICA DE PRIVACIDADE

Sistemas de Informação

O uso da Mineração de Dados na Web aplicado a um Ambiente de Ensino a Distância

Arquitetura de um Ambiente de Data Warehousing

POLÍTICA DE PRIVACIDADE DO nsmobile RESUMO DA POLÍTICA DE PRIVACIDADE POLÍTICA DE PRIVACIDADE COMPLETA

MINERAÇÃO DA UTILIZAÇÃO DE PÁGINAS WEB, IDENTIFICANDO PADRÕES ATRAVÉS DAS REQUISIÇÕES DOS USUÁRIOS

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Aula 2 BD Introdução. Profa. Elaine Faria UFU

Capítulo 7. A camada de aplicação

Arquitetura de um Ambiente de Data Warehousing

Introdução a Web. Programação para a Internet. Prof. Vilson Heck Junior

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

Extração de Informações na Web

Arquitetura de um Ambiente de Data Warehousing

Banco de Dados. SGBD - Sistema de Gerenciamento de Banco de Dados Parte 1. Prof. Leonardo Vasconcelos

POLÍTICA DE PRIVACIDADE (em vigor a partir de 30 de Agosto de 2017) ESCOPO DA POLÍTICA DE PRIVACIDADE E CONSENTIMENTO

Banco de Dados. Banco de Dados

Nesta disciplina aprenderemos. HTML CSS JavaScript Jquery PHP

Desenvolvimento de Aplicações Distribuídas

1 Introdução Motivação

INTRODUÇÃO A PROGRAMAÇÃO PARA WEB

Leitura de Documentos. Priscila Engiel

Resumo da Política de Privacidade. Política de privacidade completa

Introdução. Qual é a importância dos bancos de dados no nosso dia a dia? Imaginem como seria as grandes empresas sem os bancos de dados?

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Textos na Web

Uma ferramenta para expansão do vocabulário com base em coocorrência

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Introdução à Ciência da Computação

Descoberta de Conhecimento em Bancos de Dados - KDD

GERENCIAMENTO DE DADOS Exercícios

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

partir da navegação de usuários em sites Web

Engenharia de Requisitos

Capítulo 7. A camada de aplicação

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados

Arquiteturas. capítulo

BD e Aplicações em Negócios

2 Mineração de Textos: Fundamentos e Aplicações

Capítulo 9: Sistemas de banco de dados

Política de Privacidade do mobile Cartão Virtual

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

Web I F R N I N S T I T U TO F E D E R A L D E E D U C A Ç Ã O, C I Ê N C I A E T E C N O LO G I A D O R I O G R A N D E D O N R T E.

Extração de Conhecimento & Mineração de Dados

Universidade Federal de Santa Catarina UFSC. Data mining na Web 2.0

Modelagem de dados usando MER. Andre Noel

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Futbolista FC FUTBOLISTA FC. Política de privacidade. Futbolista Todos os direitos reservados

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Linguagens de Programação

Pesquisa e Extração de Informação de Grupos de Discussão na Web

1. Conceitos de Bancos de Dados

FERRAMENTA PARA VISUALIZAÇÃO DA REDE SOCIAL DE PROFESSORES DO IFSP COM ENFOQUE NAS RELAÇÕES DE PESQUISA

Engenharia de Requisitos

Conteúdo. Integração de Dados, Web e Warehousing. Introdução. Introdução. BD Heterogêneos. Introdução. Introdução

POLÍTICA DE PRIVACIDADE

SISTEMAS DE BANCOS DE DADOS: CONCEITOS E ARQUITETURA

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

APLICAÇÃO DA TÉCNICA TEXT MINING PARA AUXÍLIO NA CLASSIFICAÇÃO DE INCIDENTES DE SERVICE DESK

Prof. Marcelo Cunha Parte 6

INTRODUÇÃO À INTERNET E À WORLD WIDE WEB

WEB USAGE MINING APLICADA NA CONSTRUÇÃO DE UM MESSENGER

Entre os tipos de dados pessoais que este aplicativo recolhe, por si só ou por meio

Os dados pessoais podem ser livremente fornecidos pelo usuário, ou coletados automaticamente quando se utiliza este aplicativo.

O CMS JOOMLA! UM GUIA PARA INICIANTES

Desenvolvimento Web. Aula 1 - Introdução. Professor Emiliano S. Monteiro

REDES DE COMPUTADORES Prof. Ricardo Rodrigues Barcelar

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Sistemas de Banco de Dados

Tutorial sobre o MineraFórum I. Introdução

1 Introdução Motivação

5 Arquitetura Proposta

Características de Sistemas Distribuídos

Política de Privacidade Este aplicativo coleta alguns dados pessoais de seus usuários. Resumo

Modelagem de Sistemas Web. Modelagem de BD

Extração de informação como base para descoberta de conhecimento em dados não estruturados

Portal Inteligente Senior TI Baseado em Data Webhouse

Trabalho 2 - Detalhamento

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan

WePerformYourBusiness. Política de Privacidade

Características de Sistemas Distribuídos

Desenvolvimento de Software. Testes de Software. Tópicos da Aula. Onde estamos... Verificação x Validação. Testes de Software

Visualizando Padrões: A visualização do Universo de Metadados

JAVA PARA WEB E EJB APLICAÇÕES WEB, SERVIDORES DE APLICAÇÃO, CONTAINERS WEB

INTRODUÇÃO A PROGRAMAÇÃO AVANÇADA PARA WEB E AO HTML. Prof. Msc. Hélio Esperidião

Bancos de Dados Notas de Aula Introdução Prof. Dr. Daniel A. Furtado

Banco de Dados. Aula 2 - Prof. Bruno Moreno 19/08/2011

Transcrição:

Web mining Quintino Izidio S. Neto 1, Ricardo Romão 2, Bruno de Abreu Cárceres 1 Departamento de Ciência e Tecnologia 2 Ledes Laboratório de Desenvolvimento de Software Universidade Federal de Mato Grosso do Sul (UFMS) Campo Grande, MS Brasil quintino@cnpgc.embrapa.br, {ricardoromao.as,brunocarceres}@gmail.com Abstract. With the explosive growth of the World Wide Web, it also brought the necessity of automatized use processes for discovery of knowledge in the Web documents and user s models of the site. These factors, bring the needs to create, in both side client/server, efficient systems that can effectively search this knowledge. Web mining is a technique of mining data knowledge extraction in the Web, using Web documents, Hyperlinks, Web sites logs, etc. Resumo. Com o explosivo crescimento da World Wide Web, veio também a necessidade da utilização de processos automatizados para descoberta de conhecimento nos documentos Web e modelos de usuários do site. Esses fatores levam à necessidade de criar, no lado cliente e no lado servidor, sistemas eficientes que podem efetivamente minerar esse conhecimento. Web mining é uma técnica de mineração de dados para extração de conhecimento de dados da Web, usando documentos da Web, Hyperlinks, Logs de Web sites no servidor, etc. 1. Introdução Mineração na Web mostra padrões de comportamento no uso da Web, para isso, são aplicadas técnicas de Data Mining no conteúdo Web. A análise pode ser feita sobre páginas visitadas, tempo gasto em cada uma, quais as mais freqüentadas, associações entre páginas e padrões transversos (páginas não ligadas diretamente por Hyperlinks, e sim por meio de outras páginas). Estão sendo discutidas estratégias para analisar seqüências de páginas para definir comportamento de usuários. Identificar certos tipos de usuários, comparar padrões de compradores e não compradores, identificar diferenças entre usuários visitantes rápidos, usuários investigadores e usuários compradores. O conhecimento obtido com essa investigação pode servir para projetar páginas com o objetivo de maximizar a eficiência de contato com o cliente. Web Mining é freqüentemente associado com Recuperação de Informação, mas na verdade trata-se de um processo mais amplo, interdisciplinar, envolvendo técnicas de Recuperação de Informação, estatística, inteligência artificial e mineração de dados. Em geral, as tarefas principais de Web Mining são as seguintes: Busca de documentos: consiste em se encontrar sites Web contendo documentos

especificados por palavras-chave. É o processo de se extrair dados a partir de fontes de textos disponíveis na Internet, tais como conteúdos de textos de documentos HTML obtidos removendo-se as tags HTML, textos extraídos de grupos de discussão, newsletters, etc. Esta tarefa envolve a utilização de técnicas de Recuperação de Informação. Seleção e pré-processamento da informação: consiste em selecionar e préprocessar automaticamente informações obtidas na Internet. O préprocessamento envolve qualquer tipo de transformação da informação obtida na busca, como, por exemplo, corte de textos, transformação da representação da informação em outros formalismos. Generalização: consiste em descobrir automaticamente padrões gerais em sites Web ou entre vários sites Web. Esta tarefa envolve a utilização de técnicas de inteligência artificial e de mineração de dados. Análise: validação e interpretação dos padrões minerados. 2. As categorias de Web Mining Web Mining normalmente é subdividido em três categorias principais, que constituem as áreas de interesse onde minerar informação: Web Content Mining ou Mineração do Conteúdo de Documentos na Web. Web Log Mining (Web Usage Mining) ou Mineração do Uso da Web. Web Structure Mining ou Mineração da Estrutura de Documentos na Web. Mineração na Web Mineração do conteúdo da Web Mineração da estrutura da Web Mineração do uso da Web Mineração do conteúdo da página Web Mineração nos resultados da pesquisa Rastreamento nos padrões gerais de acesso Rastreamento de uso customizado Estrutura da Web Mining

2.1. Mineração do conteúdo da Web Mineração de conteúdo da Web é o processo de extração do máximo de informações do conteúdo de um documento Web. Conteúdo dos dados corresponde a fatos que uma página Web foi designada para informar aos usuários. Isto pode consistir de textos, imagens, áudio, vídeo ou registros estruturados, tais como, listas ou tabelas. Text mining e suas aplicações para conteúdo da Web foram extensamente pesquisadas. Algumas pesquisas foram direcionadas para Text Mining, que é a retirada de conhecimento ocultos em textos da Web, descoberta de tópicos (topic discovery), extração de modelos associados (extracting association patterns), agrupamento de documentos da Web (custering of web documents) e classificação de páginas da Web (classification of Web Pages). Existem dois pontos de vista principais quando se fala de Mineração do Conteúdo da Web: o ponto de vista da Recuperação de Informação (RI) e o ponto de vista de Banco de Dados (BD). O objetivo, sob o ponto de vista de RI, é auxiliar o usuário no processo de busca ou filtragem de informação. É o que realiza os principais mecanismos de busca na Internet ao procurar atender da melhor maneira possível as solicitações feitas por usuários através de palavras-chave. O objetivo, sob o ponto de vista de BD, é modelar os dados da Web e integrá-los de tal modo que consultas mais sofisticadas do que simplesmente consultas baseadas em palavras-chave possam ser feitas. Isto pode ser realizado descobrindo-se os esquemas dos documentos na Web, construindo-se Web Warehouses ou uma base de conhecimento de documentos. A pesquisa nesta área lida, sobretudo, com dados semiestruturados (XML). Dados semi-estruturados se referem a dados que possuem alguma estrutura, mas não esquemas rígidos como é o caso dos bancos de dados. Quando se trata em obter conhecimento de uma imagem, nesse campo de processamento de imagem e visão computacional, aplicação da técnica de mineração de conteúdo não é muito rápida. Na mineração de dados na Web, os dados podem ser coletados: Do lado do servidor No lado do cliente No proxy dos servidores Banco de dados das organizações Cada tipo de dado difere não só pela localização, mas também nos tipos de dados. Existem vários tipos de dados que podem ser usados na mineração na Web: Categorias de dados: Conteúdo: Constituem-se nos dados reais das páginas Web, isto é, a página projetada para atender ao usuário. Esta geralmente constitui-se de textos e gráficos. Estrutura: Dados os quais descrevem a organização dos conteúdos. A estrutura interna das páginas inclui o conjunto de tags HTML ou XML. A principal estrutura de informação entre páginas se constitui nos hiperlinks que conectam uma página a outra.

Uso: Dados que descrevem os padrões de uso de páginas Web, como o endereço IP, páginas acessadas e a data e hora de acesso. Perfil do usuário: Constitui-se em dados que fornecem informações sobre usuários de um site Web. Quanto às fontes que originam estes dados: - Coleção no lado do servidor: O arquivo de log de um servidor Web constitui-se em uma fonte importantíssima de informações para a realização de mineração do uso da Web. Isto pode ser explicado pelo fato destes arquivos apresentarem registros da navegação dos visitantes do site. Entretanto, os dados do uso do site armazenados por arquivos de log podem não ser inteiramente confiáveis, por exemplo, as views de páginas (número de vezes que a página foi requisitada, e não recarregada ou atualizada) não são gravadas no arquivo de log do servidor. - Coleção no lado do cliente: As informações também podem ser coletadas do lado do cliente, esta coleta de informações pode ser implementada usando programas remotos como os implementados com a linguagem baseada em objetos javascript ou com os applets da linguagem orientada a objetos Java. As implementações de applets podem ser uma ótima solução para coleta de informações do lado do cliente, mas o overhead causado, principalmente, na sua execução inicial pode causar uma inibição em seu uso como uma solução. O uso do javascript aparentemente é uma melhor solução pelo fato de sua interpretação exigir menor tempo, mas as implementações com javascript não podem capturar todos os clicks que o usuário realiza. - No proxy dos servidores O proxy Web atua em um nível intermediário entre o Browser do cliente e do servidor Web. O proxy pode ser utilizado para diminuir o tempo de carga das páginas Web. A atividade final do proxy é garantir que as páginas mais requisitadas estejam disponíveis para facilitar no momento de cópia, proporcionando que a realização desta atividade seja feita de forma mais rápida. Através deste tipo de informação é possível identificar as páginas mais requisitadas por um grupo de usuários anônimos. 2.2. Mineração da Estrutura de Documentos na Web A Mineração da Estrutura de Documentos na Web tenta descobrir o modelo subjacente à estrutura de links da Web. O modelo é baseado na topologia dos hiperlinks. Este modelo pode ser utilizado para classificar páginas Web e é útil para gerar informações tais como a similaridade ou relacionamentos entre diferentes sites Web. Esta categoria de mineração na Web pode ser utilizada para se descobrir, por exemplo, os sites de autoridade (authority sites), isto é, sites cujos links aparecem freqüentemente em outros sites. É bom ressaltar que a distinção entre estas três categorias não é totalmente clara, isto é, uma das categorias (por exemplo, Mineração do Conteúdo) pode utilizar links (objeto principal da Mineração de Estrutura) e mesmo perfis de usuário (um dos objetos

centrais da Mineração do Uso). 2.3. Minerando do Uso da Web A Mineração do uso da Web tenta descobrir regularidades nos caminhos percorridos pelos usuários quando estão navegando pela Web. Enquanto a Mineração do Conteúdo e a mineração da Estrutura utilizam os dados reais presentes nos documentos da Internet, a Mineração do Uso utiliza dados secundários derivados da interação do usuário com a Web. Tais dados secundários incluem registros de log de servidores de acesso a Web (daí o nome alternativo Web Log Mining ), registros de log de servidores proxy, perfis de usuários, transações do usuário, consultas do usuário, dados de arquivos Bookmarks (Favoritos), etc.

3. Conclusão Este artigo apresentou uma visão geral da mineração de dados da Web. Foi apresentada uma visão geral da técnica de mineração de dados em páginas web. Também foram apresentadas as principais tarefas de mineração de dados na web: busca de documentos, seleção e pré-processamento da informação, generalização e análise. Foi descrita a estrutura do processo de mineração: mineração de conteúdo da web, mineração na estrutura da web e mineração do uso da web. O que dificulta o estudo da mineração da Web é a delimitação de seu escopo por se tratar de uma área multidisciplinar vinculada a outras áreas, como a recuperação de informação, a aprendizagem de máquina e os agentes da informação. Este trabalho procurou, de uma forma concisa, caracterizar e definir o alcance da mineração da Web; estabelecer seu relacionamento com outras disciplinas e oferecer indicações para o aprofundamento no estudo dos diferentes tópicos da área.

Bibliografia João Paulo da Costa Cordeiro. Extracção de Elementos Relevantes em Texto/Páginas da World Wide Web Sandra de Amo. Curso de Data Mining Sílvio César Cazella. Tópicos Especiais IV, Recuperação e extração de informação na web Stanley Loh, Ramiro Saldaña Garin. Web Intelligence Inteligência Artificial Para Descoberta de Conhecimento Na Web Leandro Balby Marinho, Rosario Girardi. Mineração na Web Raymond Kosala, Hendrik Blockeel. Web Mining Research: A Survey Lívia Maria Rocha de Vasconcelos, Cedric Luiz de Carvalho. Aplicação de Regras de Associação para Mineração de Dados na Web R. Cooley, B. Mobasher, J. Srivastava. Web Mining: Information and Pattern Discovery on the World Wide Web