Curso de Data Warehousing PUC-Rio TecBD Prof. Rubens Melo Tendências Web Warehousing e Web Mining Questões sobre Web Mining e Web Warehousing Quais são as características da plataforma WEB Quais os tipos de exploração de dados na Web? Que é Web Mining, Webhousing ou Web Warehousing? Que são WebLogs? Que é XML e como XML entra em Webhousing? Como se faz Warehousing em clickstreams? Exemplo de Análises de Weblogs em EAD
Características da plataforma WEB Dinâmica, não estruturada, heterogênea. Ainda sem padrões Crescimento atual: Um novo servidor Web a cada 2 horas 5 milhões de documentos em 1995 320 milhões de documentos em 1998 Catálogos e índices rapidamente desatualizados Necessidade de melhores técnicas para descoberta e extração do conhecimento Características da Web para DWing Porte: Muito ampla para DW e DM efetivos Muita informação sem utilidade, sem qualidade Falta de Estrutura: Complexidade muito maior do que uma simples coleção de documentos Dinâmica: informações atualizadas constantemente Cobertura limitada : muitos recursos escondidos Configuração limitada com relação a cada usuário
Motivação para exploração da Web A Web é uma enorme coleção de recursos, acrescida de: Informação de hiperlinks Informação de acesso Antes, a web era vista como uma forma de disponibilizar informação e/ou sistemas. Hoje, a Web é vista como um grande banco de dados. Web Web Web Exemplos de exploração de informações na Web Informações financeiras» cotações de bolsas Livrarias» Amazon.com Preços de Produtos» jácotei.com, amélia.com Artigos científicos» em bases médicas: www.
Tipos de Exploração de informações na Web Diferentes abordagens Exploração de <estrutura, conteúdo, utilização> Alguns exemplos de aplicações Mining sobre o que os mecanismos de busca retornam Classificação de documentos da Web Análise da aprendizagem do aluno em EAD Warehousing de Metadados da Web: serviço de páginas amarelas Análise e Mining de Weblog (uso e evolução) A necessidade de Metadados em Webhousing: XML O XML pode ajudar a extrair os descritores necessários? <NAME> extensible Markup Language</NAME> <RECOM>World-Wide Web Consortium</RECOM> <SINCE>1998</SINCE> <VERSION>1.0</VERSION> <DESC>Meta language that facilitates more meaningful and precise declarations of document content</desc> <HOW>Definition of new tags and DTDs</HOW> XML ajuda, especialmente em contextos específicos, mas a liberdade de criar tags pode dificultar a integração de informações mais geral. Elementos do Dublin Core TITLE CREATOR SUBJECT DESCRIPTION PUBLISHER CONTRIBUTOR DATE TYPE FORMAT IDENTIFIER SOURCE LANGUAGE RELATION COVERAGE RIGHTS
Usando XML para Web Mining Imagine a maioria dos documentos na Web publicados no formato XML e com uma DTD válida DTD e XML Schema funcionam como um esquema de BD Documentos XML podem ser armazenados em bancos de dados relacionais, OO ou em bancos de dados especialmente desenvolvidos para XML (ex. Tamino) Mining as respostas de mecanismos de busca na Web Atuais mecanismos de busca na Web keyword-based, retornam muitas respostas de baixa qualidade, ainda deixam muitas boas respostas de fora, não personalisado, etc. Data Mining pode contribuir: cobertura: Estender para depois encolher usando sinônimos e hierarquias de conceito (ontologias) melhores primitivas de busca: preferências do usuário/ dicas análise de ligações: authoritative pages personalização: home page + Weblog + user profiles
Weblogs e Web Warehousing Servidor Web mantém um log de todos os acessos Um grande número de acessos é registrado, sendo em geral pouco explorado, a não ser em casos particulares A análise destas informações pode fornecer informações muito ricas sobre a dinâmica de acesso, ajudando a melhorar a qualidade das interações com os usuários, podendo levar a maior lealdade e consequente aumento de receita (em aplicações de e-comm por ex.) Ex de dados em um de WebLog
DWing com Weblogs A análise dos Web logs pode ajudar a compreender o comportamento dos usuários com relação à estrutura do site, podendo ajudar no projeto dos sites e das aplicações web, visando clientes potenciais de comércio eletrônico, etc. Entradas do Web log não possuem informações suficientes Limpeza e transformação dos dados são fundamentais e requerem conhecimento da estrutura do site e da aplicação OLAP fornece visões dos dados segundo diferentes perspectivas e diferentes níveis conceituais Data Mining do Web Log provê exploração mais detalhada dos dados, como análise de séries de tempo, associações, classificações, etc. Ferramentas de Análise de Web Log existentes Existem várias aplicações comercialmente disponíveis: Muitas são lentas e fazem simplificações para reduzir o tamanho do arquivo de log existente. Possum diversos relatórios pré-definidos: Total de pedidos por página Total de pedidos por domínio Estatisticas de ocorrência de cada tipo de evento Estatísticas de sessões Estatísticas do tráfego na rede (hits e bytes transferidos) Estatísticas de mensagens de erro A maioria é limitada quanto à abrangência e profundidade das análises.
DWing o Web Log Criação de um Data Mart para exploração de Weblog visando: Melhoria de desempenho WWW Melhoria da navegação» Ajuste de ligações» Personalização Servidor Web Documentos Web» Web caching Melhoria do projeto de aplicações Web Classificação de Clientes para comércio eletrônico Identificação de locais para propaganda Log de Acessos Sobre os arquivos do Weblog Informação NÃO contida nos arquivos de log: uso de funções do navegador pedidos de páginas armazenadas no cache ou servidor proxy Problemas com estes arquivos: Enorme volume (um site realmente ativo pode chegar a mais de 30 milhões de hits por dia!) A mesma ação do usuário em períodos diferentes pode chamar diferentes scripts cgi Diferentes ações podem chamar o mesmo script cgi Um usuário usando mais de um navegador ao mesmo tempo
Projeto de um Data Mart Clickstream Web log is filtrado para gerar um bd intermediário (um DW) Este bd pode ser complementado com outras informações Um Data Mart é projetado e criado. OLAP é usado para análises. Data Mining é usado para explorações mais sofisticadas. Web log BD intermediário Data Mart Análises 1 Limpeza e extração 2 Criação do Data Mart 3 OLAP 4 Data Mining Ex. de Cubo do Weblog URL do recurso Evento Tipo do recurso Tamanho do recurso Tempo do pedido Tempo gasto no recurso Domínio da Requisição Usuário Status do servidor
Dimensão Tempo Contém um registro para cada dia do calendário No caso de necessitar também HORA, esta será criada como dimensão separada não é prático criar uma única dimensão com todos as horas, minutos ou segundos de um ano inteiro! os nomes para as horas e os dias são independentes Deve ser criada explicitamente e especificamente para a aplicação pois há diversos atributos, alguns específicos de sua área de negócio, a serem incluídos (estações, feriados, dias de trabalho locais, períodos fiscais, etc.) Ex. de Dimensão Tempo Chave tempo Tipo Data Tipo de Calendário Data SQL completa Dia da semana Número do dia na semana Número do dia no mês Número do dia no ano Dia de trabalho Feriado Último dia no mês Número da semana no ano Mês Mês abreviado Trimestre no ano Ano Período fiscal Estação do ano
Exemplos de Análises OLAP de Data Marts de Clickstream OLAP e Mining do Data Mart OLAP: Quais componentes ou serviços são os mais e menos utilizados? Qual a distribuição do tráfego na rede ao longo do tempo? Quais as diferenças de acesso entre os usuários de diferentes regiões geográficas? Mining. Em que circunstâncias são os componentes ou serviços usados? Quais as sequências típicas de eventos? Existem padrões de comportamento entre todos os usuários? O comportamento de usuários muda ao longo do tempo e como?
OLAP e Mining de Data Mart sobre Weblog Suponha que uma área de negócio da empresa tem um site na internet. Que tipo de benefícios esta área de negócio poderia obter a partir do monitoramento da navegação dos usuários de seu site? Quais os principais itens de informação que poderiam compor um DM para suporte ao monitoramento da navegação dos usuários. Alguns desses itens seriam disponíveis em um web log outros seriam coletados em outras fontes. Quais seriam estas fontes complementares? Projete o DM na forma de um esquema estrela, identificando potenciais dimensões e medidas de fatos Liste possíveis análises e explorações a serem realizadas sobre este data mart. Que outras estratégias poderiam complementar este tipo de análise? OLAP e Mining de Data Mart sobre um Weblog Dimensões a serem analisadas: Sites de Origem - Página (URL e dominio) do site de onde o usuário veio. Dia - Data da visita Hora - Hora da Visita Página Web - Página sendo acessada. Serviço / Recurso - Serviço ou produto dentro do site sendo utilizado. São considerados como serviços do site o Web Mail, o serviço de busca e a área de comércio eletrônico formada com parcerias de sites de vendas. Site de Destino - Link (URL e dominio) p/onde foi ao sair do site. Usuário - Cliente identificado do site através de cookies. Sessão Dimensão que guarda o código identificador de cada sessão aberta, no servidor. Esta dimensão será degenerada, logo sem outros atributos, e servirá para identificar grupos de páginas que são acessadas ao mesmo tempo. Estímulo ao Acesso - Algum tipo de estímulo externo ao acesso a uma determinada página como por exemplo uma promoção ou a execução de um determinado programa ou anúncio na televisão.
OLAP e Mining de Data Mart sobre Weblog Medidas do Fato: PageViews Hits Tempo de permanência na página OLAP e Mining de Data Mart sobre Weblog Hora Dia Hora Turno Dia Mes Trimestre Ano PageView Identificador_Sessão Hits PageViews TempodePermanecia Site de Origem URL Portal Página Web URL Área Portal Site de Destino URL Portal Estímulo Descrição Tipo Usuário Identificador Serviço Nome
OLAP e Mining de Data Mart sobre Weblog Análises ou explorações a serem feitas neste Data Mart.» Páginas com maior e menor tempo de permanência» Número de pageviews em um portal ao longo do tempo» Número de visitas em um site ao longo do tempo.» Número de visitas em um site em horários específicos, ou dias específicos como feriados ou finais de semana.» Número de arquivos (hits) baixados do servidor em um determinado horário de pico.» Sites que levaram o usuário ao site da empresa.» Links de destino mais utilizados. WebHousing e WebMining em EAD ❺ ❺ ❺ Que é Educação à Distância (EAD): Com o progresso da tecnologia Web aplicada a EAD temos que: º Um número enorme de registros de acesso (log) está sendo coletado; º Melhorar o ensino a partir desses dados n ão é uma tarefa trivial de ser realizada; º O uso dos arquivos de web log proporcionam: º análise do desempenho dos sistemas; º melhoramento do projeto de sistemas; º compreensão da natureza do tráfego da web; º entendimento das reações e motivações dos alunos. º Os sites devem se aprimorar mediante informações obtidas pela análise realizada através dos seus web logs. E nessa análise pode-se usar Dwing nos Weblogs de cursos.
Esquema Estrela (DM-EAD) Possíveis Análises Usando o Data Mart (DM-EAD) 1- total de conexões por status (erro/falha/sucesso) por período do tempo e por URL e por evento; 2- lista das URLs mais/menos requeridas pelos usuários que mais acessaram, identificando o tipo e classificação dos recursos mais acessados por tipo de usuário; 3- lista de usuários que mais acessaram, considerando o domínio desse requisitante, com isso será possível descobrir, por exemplo, em que região o sistema de EAD tem conseguido maior aceitação; 4- lista de eventos mais solicitados pelos usuários que mais acessaram em um determinado tempo; 5- análise da participação do usuário do tipo aluno com relação ao método da requisição de cada recurso de classificação didática; 6- lista de browsers (agentes) mais usados para o acesso aos recursos que tenham retornado com o status de erro na conexão;
Possíveis Análises Usando o Data Mart (DM-EAD) 7- lista de recursos mais acessados por usuários de uma determinada região identificando onde está contido esse recurso acessado ao longo do tempo, com isso pode ser identificado, por exemplo, em que página um determinado tipo de propaganda (banner) poderia ser colocado de forma a ser mais acessado; 8- lista de mês/dia/semana/horário mais usado para o acesso; 9- relatório de acessos por domínio; 10- o tráfego no servidor Web por um dado tipo de mídia no tempo (hora do dia, dia da semana, mês do ano, etc); 11- a distribuição de usuários em áreas de domínio diferentes; 12- descobrir o tipo de recurso (imagem/texto/áudio/vídeo) mais acessado por região; 13- descobrir em que domínio de requisitante (educação/indústria) os recursos são mais usados. Outras Estratégias Relacionadas com EAD BSC (Balanced Scored Card) O BSC usa o conceito de balanceamento de quatro perspectivas fundamentais (financeiro, satisfação, agilidade, recursos humanos) para avaliação correta do sistema de ensino a distância [Barbieri, 2001]. CRM (Customer Relationship Management) A idéia é obter informações dos estudantes (cliente) por meio de seus acessos às páginas do site e aprimorar o produto oferecido; (Similar a exposta) EAI (Enterprise Application Integration) Estratégia de soluções de negócios que integra a funcionalidade de aplicações existentes no site de EAD, aplicações de pacotes comerciais e novos códigos, usando um middleware comum. EDI (Eletronic Data Interchange) É a transmissão de dados de negócio entre empresas, de computador a computador, em formato eletrônico. Exemplo: processo de matrícula nos cursos de EAD para que seja acessado pelos alunos em qualquer computador que esteja conectado à Internet.
EAI: Enterprise Application Integration Benefícios do uso de WebHousing em EAD análise sistemática de grande quantidade de dados referentes a utilização da aplicação, visto que os dados podem ser colocados em logs e depois extraídos para o DW; o desempenho do sistema pode ser analisado; o projeto do sistema pode ser melhorado, uma vez entendida a natureza do tráfego na Web; alterações podem ser feitas na aplicação após a análise da reação do usuário e de suas motivações no uso do sistema; já existem sites Web que se auto configuram após conhecerem o usuário, por meio de técnicas de aprendizado de padrões de acesso de usuários
Conclusão Webhousing-Ead A web é uma excelente ferramenta para a Educação à Distância por permitir disponibilizar cursos on-line a todo tipo de usuário que tenha acesso a Internet; Web fornece os dados necessários a análises que vão desde o projeto do sistema de EAD ao comportamento dos usuários; As informações requerem um tratamento não trivial para o aproveitamento dos dados úteis utilização das técnicas de Webhousing e Webmining permitindo aos educadores avaliarem o comportamento de acesso, validar o modelo de ensino utilizado, avaliar as atividades de ensino, comparar alunos e seus padrões de acesso.