Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um comportamento futuro. Objetivo: identificar novos padrões de dados válidos, compreensíveis e com potencial de uso. Origem do Data Mining Surgiu no início dos anos 90 para solucionar o problemas em se conseguir informações estratégicas nos bancos de dados das organizações. A mineração de dados surgiu como alternativa a métodos tradicionais (SQL, Planilhas, investigação manual) e inviáveis para a solução do problema. Foi utilizado idéias de várias áreas: Banco de Dados Aprendizado de Máquina Estatística 1
Aplicações Comuns do Data Mining Segmentação de mercado Identifica as características comuns dos clientes que compram os mesmos produtos de uma empresa. Análise das cestas de mercado Compreende como produtos e serviços podem ser comumente adquiridos juntos (cerveja e fraldas). Reclamação de cliente Prevê quais clientes estão mais propensos a abandonar uma empresa e ir para a empresa concorrente. Mineração de Dados Processo realizado através de estratégias automatizadas que tem por objetivo a descoberta de conhecimento valioso em grandes bases de dados. Um pequeno diamante de informação é extraído a partir de uma verdadeira montanha de dados. Mineração de Dados Um Data Warehouse possui Terabytes de dados. Encontrar informações em grandes bases de dados não é uma tarefa fácil. Existe a necessidade de organizar os dados e de utilizar ferramentas para recuperar informações relevantes. Ferramentas de Data Mining recuperam automaticamente informações do Data Warehouse. 2
Propriedades de um Conhecimento Relevante O conhecimento descoberto através de processos de mineração de dados é considerado interessante quando apresenta certas propriedades: Propriedades de um Conhecimento Relevante Conhecimento Relevante: Representava uma informação nova. Não era conhecida pelos analistas da empresa. Associação inesperada. Os analistas imaginavam que as vendas de cerveja estivessem associadas apenas a produtos como salgados, carne para churrasco e outras bebidas alcoólicas, mas nunca a produtos de higiene infantil. A regra é válida. Possuía expressividade estatística. Uma porcentagem considerável das compras realizadas nas noites de quinta-feira continha ambos os produtos. A regra é interpretável Pôde ser entendida e explicada pelos analistas. Sugere que nas noites de quinta-feira casais jovens com filhos pequenos estocam fraldas e cervejas para o fim-de-semana. A regra é útil Os gerentes puderam tomar ações capazes de aumentar as vendas de cerveja. Ex: os produtos foram colocados em prateleiras próximas. Descoberta de Associações Objetivo: descobrir combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. Exemplo: Mineração do BD de um supermercado. Regra de associação: {fraldas} Þ {cerveja} 50% das compras que contêm fraldas, também contêm cerveja e 15% de todas as compras contêm os dois produtos. Regra de associação: {milho verde} Þ {ervilhas} A compra do produto milho verde aumenta em 5 vezes a chance de um cliente comprar ervilhas. 3
Descoberta de Associações Exemplo: Sistema de Recomendação (sugerem itens que considera interessantes para um usuário). Regra de associação: {produto} Þ {produto recomendado} Livro 1 e Livro2. Notícia 1 e Notícia 2. Música 1 e música 2. Vídeo 1 e vídeo 2. Exemplo: Segurança de Sistemas (aprimoram banco de dado de antivírus e sistema de detecção de intrusos). Regra de associação: {serviço x} Þ {operação y} (Service = telnet ) (FailedLogins 1) (Intrusion = yes ) Regra indica que as conexões nas quais o serviço de rede utilizado foi o telnet e que apresentaram uma ou mais operações de login rejeitadas, tendem a ser tentativas de intrusões. Descoberta de Padrões Sequenciais Objetivo: descobrir sequências de eventos frequentes (leva em conta a ordem ou a data de ocorrência dos eventos). Exemplo: Mineração do BD de loja de suprimentos de eletrônica. Padrão sequencial: {netbook} Þ {hard disk} 50% dos consumidores que adquirem um netbook compram um hard disk externo de 2 a 4 meses após a aquisição do netbook. Padrão sequencial: {navegação na Web} Þ {cliques} Análise de sequência de cliques em um site de ecommerce. Classificação Objetivo: a partir de um banco de dados contendo objetos préclassificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe é desconhecida) em função de suas características através de um modelo classificador. Exemplo: Mineração do BD de uma seguradora. Análise de classificação de risco por característica de cliente. Sexo feminino : não se envolve em acidente Sexo masculino e idade superior a 25 anos : não se envolve em acidente. Sexo masculino e idade igual ou inferior a 25 anos: se envolve em acidente 4
Exemplo: Mineração do BD de uma seguradora. Análise de classificação de risco por característica de cliente. A classificação é uma tarefa preditiva. Tarefa preditiva: predizer (dizer antecipadamente o que vai acontecer) o valor de um determinado atributo baseado nos valores de outros atributos Determinação de Agrupamentos Objetivo: dividir automaticamente um conjunto de objetos em grupos (clusters) de acordo com algum de tipo de relacionamento de similaridade existente. Exemplo: Personagens Simpsons. Divisão em grupos de similaridade Determinação de Agrupamentos Exemplos de agrupamentos Simpsons 5
Outros tipos Mineração de Texto: descoberta de novas informações a partir da análise de texto livre (artigos, documentos WORD ou PDF, etc.) ou semiestruturado (ex: arquivos HTML ou XML). Mineração Web: uso de algoritmos para minerar conhecimento útil de documentos e serviços da Web. Regressão: similar à tarefa de classificação. A principal diferença é que o atributo alvo é do tipo contínuo. Exemplo: valor de um imóvel em função das características dele e do bairro. Padrões em Séries Temporais: os dados de séries temporais contém observações adjacentes e ordenadas, tipicamente uma sequência de valores numéricos com um atributo representando o tempo. Mineração de Exceções: o objetivo da tarefa é determinar objetos que sejam diferentes da maioria dos outros objetos. Aplicações práticas: detecção de fraudes, previsão de distúrbios no ecossistema, e outras. Tecnicas de Data Mining Cada tarefa de mineração de dados possui um conjunto de técnicas associadas, que representam os algoritmos que podem ser empregados para a sua execução. Ferramentas de Data Mining Ferramentas comerciais: Oracle SAS SPSS SQL Server Ferramentas livres: R : já existem diversos pacotes para data mining que podem ser integrados a este tradicional software open source para estatística. Weka: ferramenta para Data Mining. 6