Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações Prof. Dr. Paulo Roberto Schroeder de Souza Artefatos para a Inteligência
DCBD 2 Agenda CONTEXTUALIZAÇÃO Inteligência Organizacional METODOLOGIAS CRISP-DM Modelagem do conhecimento FERRAMENTAS WEKA APLICAÇÕES xxx
DCBD 3 Inteligência Organizacional Aprendizagem Organizacional Habilidade de uma empresa aprender e rapidamente traduzir em ações o conhecimento como um meio eficaz de atingir vantagem competitiva O que uma empresa conhece, como usa o que conhece e com que rapidez pode assimilar algo novo Um dos objetivos da Inteligência Organizacional: Melhorar a qualidade da tomada de decisão em todos os níveis da organização, através do aumento do acesso às informações e da redução do problema de sobrecarga de informações.
DCBD 4 Inteligência Organizacional Ciclo do conhecimento COMPREENSÃO, ANÁLISE, SÍNTESE Técnicas de visualização,... DESCOBERTA DE CONHECIMENTO Projeto de busca de padões, Data Mining, Estatística,... ORGANIZAÇÃO/TRANSFORMAÇÃO/ANÁLISE Data Warehouse, Data Mart, OLAP, consultas, relatórios,... COLETA Papel, arquivos, bases de dados operacionais,... Decisão Conhecimento Informação Dado Realidade Potencial de apoio a decisões estratégicas AÇÃO
DCBD 5 Inteligência Organizacional Contexto de organizações no mundo competitivo (O modelo das 5 forças de Porter)
DCBD 6 Inteligência Organizacional Definição Conjunto de conceitos e metodologias que, fazendo uso de acontecimentos (fatos) e sistemas baseados nesses acontecimentos, apóia a tomada de decisões em negócios Elementos técnico-organizacionais Database Marketing CRM Balanced Scorecard Data warehousing BI DCBD Negócio Inteligência Organizacional Gestão Tecnologia da Informação
DCBD 7 Inteligência Organizacional Para que sistemas de IO? Database Marketing ( Marketing de precisão ) Ajuda a melhorar os contatos futuros e assegura um planejamento mais realista do marketing Usa canais e meios de comunicação de marketing para: Ampliar a ajuda na busca do público-alvo da empresa Estimular a demanda de seu público Estar perto do público, registrando e mantendo uma memória eletrônica sobre clientes, clientes potenciais, todos os contatos comerciais e de comunicação
DCBD 8 Inteligência Organizacional Para que sistemas de IO? CRM (Customer Relationship Management) Estratégia de negócio voltada ao atendimento e à antecipação das necessidades dos clientes atuais e potenciais Envolve...... a captura dos dados dos clientes ao longo de toda a empresa... a consolidação em um banco de dados central... a análise e distribuição dos resultados da análise para todos os pontos de contato, utilizando as informações ao interagir com os clientes por meio de qualquer ponto de contato com a empresa Engloba...... conceitos, métricas, processos, soluções, gestão de canais e estratégias... ferramentas das áreas de marketing, vendas e serviços
DCBD 9 Inteligência Organizacional Para que sistemas de IO? Balanced Scorecard Sistema de gestão da estratégia a longo prazo Busca traduzir a missão e a estratégia das organizações num conjunto abrangente de desempenho como base para um sistema de medição e gestão estratégica Empresas podem adotar esta metodologia para... Esclarecer e obter consenso em relação à estratégia Comunicar a estratégia a toda a organização Alinhar as metas departamentais e pessoais à estratégia corporativa Associar objetivos estratégicos metas de longo prazo orçamentos anuais Identificar e alinhar as iniciativas estratégicas Realizar revisões estratégicas periódicas e sistemáticas Obter feedback p/aprofundar o conhecimento da estratégia e aperfeiçoá-la
DCBD 10 Inteligência Organizacional Sistemas de Suporte à Decisão Problema: Explosão de dados Ferramentas automáticas de coleta de dados e tecnologia madura de armazenamento acarretam o surgimento de grandes bancos de dados e outros repositórios de informação Estamos nos afogando em dados, mas carentes de conhecimento! Excesso de dados nas Organizações Disseminação de sistemas de informação (aplicações) Eficiência para coletar e armazenar grandes volumes de dados Dificuldade de se extrair informações táticas e estratégicas e se obter conhecimento dos negócios Sistemas de Suporte à Decisão
DCBD 11 Inteligência Organizacional Sistemas de Suporte à Decisão... necessitam de informação / conhecimento (Análises, Diagnósticos, Recomendações, Ações realizadas / em curso,...) Devem extrair e integrar dados de múltiplas fontes Servem-se da experiência para analisar dados contextualizados Trabalham com hipóteses (criação de cenários) Procuram relações de causa/efeito Transformam os registros obtidos em informação útil para o conhecimento empresarial
DCBD 12 Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento refere-se à habilidade de criar um modelo mental que descreva objetos e indique ações a realizar Conhecimento tácito, segundo a gestão do conhecimento, Está nas pessoas (Experiências, casos, rotinas, observações, requisitos, códigos, especificações, mensagens,...) Não permite representação Difícil de explicar e se elicitar Se torna dados e informação quando assume forma explícita Conhecimento explícito ( informação ) Bases de Dados, documentos, correspondências, arquivos, livros, filmes, textos, planilhas,..
DCBD 13 Inteligência Organizacional Onde está o conhecimento das Organizações? Conhecimento na IA IA busca viabilizar a transferência desses processos para sistemas capazes de simular o processo de decisão do ser humano Representação do conhecimento Simbólica (Frames, Redes Semânticas, Ontologias, Regras de Produção, Árvores de Decisão,...) Conexionista (Redes Neurais Artificiais) Métodos de aprendizagem Agrupamento - Clustering (Não supervisionados) Classificação (Supervisionados) Associação... if... then...
DCBD 14 Inteligência Organizacional Explicitação do conhecimento Processo de articulação do conhecimento tácito em conceitos explícitos. O tácito se torna explícito expresso na forma de metáforas, analogias, Elicitação de conceitos, hipóteses ou modelos. (Nonaka & Takeuchi) conhecimento Engenharia do conhecimento CommonKADS Modelo organizacional Modelo Tarefas Modelo Agentes Modelo Conhecimento Modelo Comunicação Modelo Projeto Descoberta de conhecimento (Reconhecimento de padrões) Fayyad CRISP-DM
DCBD 15 CRISP-DM Introdução CRISP-DM = Cross Industry Standard Process for Data Mining Projeto que padroniza conceitos e técnicas na busca de informações em banco de dados Surgiu a partir da experiência de três empresas pioneiras no setor (1996): DaimlerChrysler - Aplica análises de data mining em seus negócios NCR - Provê soluções de datawarehouse SPSS - Disponibiliza soluções baseadas no processo de mineração de dados Padroniza os passos do processo de descoberta de conhecimento e sua aplicação em diferentes mercados, independente do segmento Agiliza grandes projetos de DCBD, com mais eficiência e com menor custo Pode ser usada por qualquer analista de informações, tendo como base qualquer software de DM Manual disponível em www.crisp-dm.org
DCBD 16 CRISP-DM Fases Compreensão do problema Compreensão dos dados Preparação dos dados Modelagem Avaliação Aplicação (Deployment)
DCBD 17 CRISP-DM Compreensão do problema 1.1 - Objetivos do negócio Plano de fundo Objetivos do negócio Critério de sucesso do negócio 1.2 - Avaliação da situação Inventário de recursos Exigências, suposições e limitações Riscos e contingências Terminologia Custos e benefícios 1.3 - Objetivos do data mining (DCBD) Objetivos do data mining Critério do sucesso do data mining 1.4 - Plano de projeto Plano de projeto Avaliação inicial de ferramentas e técnicas
DCBD 18 CRISP-DM Entendimento dos dados 2.1 - Coleta inicial dos dados Relatório da coleta inicial dos dados 2.2 - Descrição dos dados Relatório da descrição dos dados 2.3 - Exploração de dados Relatos da exploração de dados 2.4 - Verificação da qualidade dos dados Relatório de qualidade dos dados
DCBD 19 CRISP-DM Preparação dos dados 3.1 - Seleção dos dados Racionalização para inclusão/exclusão 3.2 - Limpeza dos dados Relatório da limpeza de dados 3.3 -Construção dos dados Atributos derivados Registros gerados 3.4 - Integração dos dados Dados combinados 3.5 - Formatação dos dados Dados reformatados
DCBD 20 CRISP-DM Modelagem 4.1 - Seleção da técnica de modelagem Técnica de modelagem 4.2 - Geração do design de teste Design de teste 4.3 - Construção do modelo Ajustes de parâmetros Modelos Descrição dos modelos 4.4 - Avaliação do modelo (Acurácia e generalidade do modelo) Avaliação do modelo (Validação cruzada, taxas de erro, etc) Avaliação do modelo revisado
DCBD 21 CRISP-DM Avaliação do modelo 5.1 - Avaliar resultados Avaliação dos resultados do data mining a respeito dos critérios do sucesso do negócio Modelos aprovados 5.2 - Processo de revisão Revisão do processo 5.3 - Determinação dos próximos passos Lista das ações possíveis Decisão
DCBD 22 CRISP-DM Aplicação (Deployment) 6.1 - Planejamento da implantação Plano de implantação 6.2 - Planejamento do monitoramento e manutenção Plano de monitoramento e manutenção 6.3 - Produção do relatório final Relatório final Apresentação final 6.4 - Revisão o projeto Documentação de experiências Exemplos: Estruturação de Call Center com televendas Marketing de precisão baseado em segmentação de mercado Refinamento de perfis de clientes Combate a fraudes (cartões de crédito, TRE, TCU, CGU, etc). Gestão epidemiológica Gestão de Ciência & Tecnologia Avaliação do cumprimento de objetivos
DCBD 23 Modelagem do conhecimento Objetivo: construção de uma base de conhecimento... Base de Conhecimento IF... THEN... Modelo organizacional Modelo Tarefas Modelo Agentes IF... THEN... IF... THEN... IF... THEN... Modelo Conhecimento Modelo Comunicação Modelo Projeto
DCBD 24 Modelagem do conhecimento... no contexto organizacional Benchmarking, Monitoramento, Head-hunting,... Inteligência Competitiva Coleta/Busca, Captura,... INTERNET GC Rotinas Livros e-mail IO Requisitos Gravações DW Código de sistemas Bases de dados Regras de negócio Casos Textos Filmes Planilhas Especificações Documentos Experiências Observações OLAP Data Mart Método empírico Engenharia do Conhecimento Reconhecimento de Padrões Método analítico Base de Conhecimento Sistemas de Suporte à Decisão
DCBD 25 Modelagem do conhecimento Data Mining Utiliza técnicas sofisticadas de análise estatística e modelagem (aprendizagem de máquina) para descobrir padrões e relações escondidas nas bases de dados das organizações Padrões que métodos tradicionais não encontrariam! Padrões encontrados pela construção de modelos (representações abstratas da realidade) Um bom modelo ajuda a compreender um negócio e sugere ações que podem ajudar uma organização a ter sucesso É um processo iterativo!
DCBD 26 Modelagem do conhecimento Data Mining Treino (estimativa) do modelo com um conjunto dos dados Teste com os dados restantes Às vezes, é preciso uma validação com um terceiro grupo de dados (grupo de validação) Dados de teste podem ser um fatores de influência no modelo Grupo de validação atua como uma medida independente da precisão do modelo BD Treino Teste Mineração Modelo Teste Acurácia Treinamento BD 1 BD 2 A precisão resultante é uma boa estimativa para como o modelo se irá comportar com futuras bases de dados Isto não garante que o modelo está correto! Se mesma técnica fosse utilizada numa sucessão de bases com dados semelhantes aos de treino e teste, a precisão média estaria próxima à obtida desta forma Por melhor que seja a precisão, não há garantia de que o modelo reflita de fato o mundo real Existem sempre circunstâncias que podem levar a modelos incorretos Teste BD 3 BD 2 BD 3 BD 1 Ac 1 BD 1 BD 3 BD 2 Ac 2 Ac 3 Ac
DCBD 27 Modelagem do conhecimento Data Mining Tecnologias de suporte Conhecimento if... then... Informação DM DM OLAP DW Dado
DCBD 28 Modelagem do conhecimento Data Mining O que Data Mining pode fazer Data Mining permite Confirmar relações empíricas Descobrir padrões novos e úteis Pode trazer melhoria de desempenho, se comparado com os que não utilizam eficientemente estas técnicas Às vezes, descobre-se fatos que podem conduzir a melhorias radicais no negócio! O que Data Mining NÃO pode fazer Não se pode prescindir de conhecer o negócio, compreender os dados disponíveis ou de compreender os métodos analíticos Ajuda a encontrar padrões nos dados, mas nada diz sobre seu valor para a organização! Os padrões encontrados devem ser verificados no mundo real! É conveniente que se compreenda o funcionamento das ferramentas escolhidas e os algoritmos em que se baseiam! Não encontra respostas a perguntas que não se fez deve-se saber a priori o tipo de padrão que se procura Não substitui analistas e gestores de negócio, mas lhes oferece uma poderosa ferramenta para melhorarem o seu trabalho!
DCBD 29 Modelagem do conhecimento Data Mining Modelos preditivos Utilizam dados com resultados conhecidos para desenvolver um modelo que possa ser utilizado para prever valores para diferentes dados Fazem uma previsão explícita Modelos descritivos Descrevem padrões em dados existentes, que podem ser utilizados para guiar decisões Podem ser utilizados para ajudar a construir um modelo preditivo ou para fazer uma previsão implícita quando formam a base para uma ação ou decisão Data Mining Atividades preditivas Atividades descritivas Classificação Séries Regressão Regras de Clustering temporais associação Sumarização
DCBD 30 Modelagem do conhecimento Atividades preditivas Classificação É preciso identificar as características ou casos que indicam a que grupo cada caso pertence Utilizado para compreender os dados existentes e para prever a classe de novas instâncias (variável discreta) Os modelos de classificação são criados examinando dados previamente classificados (casos) e ajustando-se o modelo em construção para mapear o padrão preditivo Os casos existentes podem derivar de uma base de dados histórica ou de uma experiência em que uma amostra de uma base de dados é testada no mundo real Regressão Funciona como a classificação, tendo como saída um valor numérico (variável contínua) No caso mais simples, utilizam-se técnicas estatísticas padrão, como regressão linear No entanto, a maioria dos problemas reais não são projeções lineares, demandando métodos mais sofisticados (geração de modelos não lineares) Séries temporais Baseia-se na evolução temporal para, dados valores referentes a um determinado momento, prever valores em momentos futuros Consideram-se propriedades temporais diferenciadoras, como sazonalidade, efeitos do calendário (feriados),...
DCBD 31 Modelagem do conhecimento Atividades descritivas Agrupamento (Clustering) Divide a base de dados em grupos diferentes Encontrar grupos diferentes cujos membros são aparentemente semelhantes Ao contrário da classificação, não há uma variável que identifique os grupos, ou por quais atributos os dados serão agrupados Os grupos devem ser analisados por alguém que conheça muito bem o negócio Associações Identifica co-ocorrência de valores que caracterizam os casos Por exemplo, itens que, com frequência, aparecem juntos em compras de supermercado Descobrem regras do tipo: Sequenciamento Se o item A é parte de um evento, então em x% das vezes (fator de confiança) o item B também é parte do evento Funciona como a associação, mas os itens relacionados ocorrem em tempos diferentes Para se encontrar seqüências, além da captura dos detalhes de cada transação, é preciso garantir a a origem única de cada sequência Por exemplo, em análise de logs, é preciso associar cada clickstream a um único ator
DCBD 32 Modelagem do conhecimento Técnicas Análise Estatística Árvores de Decisão (ID3 e suas derivações,...) Redes Neurais (MLP,...) Agrupamento (K-médias,...) Associação (Apriori,...)...
DCBD 33 Modelagem do conhecimento Técnicas Estatística Estuda a coleta, organização e interpretação de dados numéricos Assim como Data Mining, tenta encontrar padrões e regularidades nos dados Data Mining se serve da Estatística para descoberta de padrões, cálculo de aproximações, médias, taxas de erro e desvios Técnicas estatísticas mais utilizadas Técnicas baseadas em modelos lineares e não-lineares Amostragem Avaliação de hipóteses e do conhecimento obtido Modelo bayesiano Análise multivariada
DCBD 34 Modelagem do conhecimento Técnicas Classificação CONHECIMENTO DO DOMÍNIO Especialista CONHECIMENTO DO DOMÍNIO Variáveis independentes (atributos) Variável dependente (classe) X 1 X 2... X m Y Classificador Especificação do problema T 1 x 11 x 12... x 1m Y 1 T 2 x21 x 22... x 2m Y 2...... T n x 1n x 2n x nm Y n Aprendizado de máquina Dados brutos Avaliação
DCBD 35 Modelagem do conhecimento Técnicas Árvores de Decisão Dívida 20000 10000 100 o R 1 o R 4 o o o o o x x o x R 3 x x x o o R 2 1000 10000 o R 1 : Se R 1000 Então Não rentável R 2 : Se 1000 < R < 10.000 E D 100 Então Não rentável R 3 : Se 1000 < R < 10.000 E 100 < D < 10.000 Então Rentável R 4 : Se 1000 < R < 10.000 E D 10.000 Então Não rentável R 5 : Se R 10.000 E D < 20.000 Então Rentável R 6 : Se R 10.000 E D 20.000 Então Não rentável o o o x o x R 6 R 5 Renda Neste caso, o diagrama de retângulos é a representação mais adequada para se visualizar a partição do espaço de características gerada pela árvore de decisão Todos os pontos dentro de um retângulo são classificados da mesma forma, pois todos satisfazem a regra que define o retângulo
DCBD 36 Modelagem do conhecimento Técnicas Árvores de Decisão X 1 Raiz <a 1 >a 1 X 2 Regra X 2 X 2 Nó a 3 <a 3 >a 3 <a 2 >a 2 X 1 a 2 <a 4 >a 4 a 4 a 1 X 1
DCBD 37 Modelagem do conhecimento Técnicas Árvores de Decisão Árvore pensada
DCBD 38 Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação E 1 E 7 E 11 Sono Pouco Pouco Não Transporte Carro Carro Carro UCB Sim Sim Não Álcool Sim Não Sim Sair Não Sim Sim Fome Sim Sim Sim Vai pra balada? Sim Sim Sim E 3 Sim Carro Não Sim Sim Sim Não E 9 Sim Carro Não Sim Sim Não Não E 2 Pouco Carona Não Não Sim Sim Sim E 4 Pouco Carona Não Não Sim Não Sim E 12 Não Carona Não Sim Sim Sim Sim E 8 Pouco Carona Não Não Não Sim Não E 10 Não Outros Sim Sim Sim Não Sim E 5 Sim Outros Sim Sim Sim Não Não E 6 Pouco Outros Não Sim Não Sim Não Transporte? carro carona outros +: {E 1, E 7, E 11 } : {E 3, E 9 } +: {E 2, E 4, E 12 } : {E 8 } +: {E 10 } : {E 5, E 6 }
DCBD 39 Modelagem do conhecimento Técnicas Árvores de Decisão Ganho de informação E 1 E 2 E 4 Sono Pouco Pouco Pouco Transporte Carro Carona Carona UCB Sim Não Não Álcool Sim Não Não Sair Não Sim Sim Fome Sim Sim Não Vai pra balada? Sim Sim Sim E 7 Pouco Carro Sim Não Sim Sim Sim E 6 Pouco Outros Não Sim Não Sim Não E 8 Pouco Carona Não Não Não Sim Não E 3 Sim Carro Não Sim Sim Sim Não E 5 Sim Outros Sim Sim Sim Não Não E 9 Sim Carro Não Sim Sim Não Não E 10 Não Outros Sim Sim Sim Não Sim E 11 Não Carro Não Sim Sim Sim Sim E 12 Não Carona Não Sim Sim Sim Sim Sono? sim pouco não +: {} : {E 3, E 5, E 9 } +: {E 1, E 2, E 4, E 7 } : {E 6, E 8 } +: {E 10, E 11, E 12 } : {}
DCBD 40 Modelagem do conhecimento Técnicas Árvores de Decisão Árvore calculada
DCBD 41 Modelagem do conhecimento Técnicas Redes Neurais Artificiais Técnica computacional que utiliza modelos matemáticos inspirados na estrutura neural de organismos inteligentes e que adquirem conhecimento através da experiência
DCBD 42 Modelagem do conhecimento Técnicas Redes Neurais Artificiais
DCBD 43 Modelagem do conhecimento Técnicas Redes Neurais Artificiais Iniciar todas as conexões com w i = 0 (ou aleatórios) Repita Para cada padrão de treinamento (X, d) faça Calcular a saída y Se (d y) então atualizar pesos até o erro ser aceitável Classe B Classe B Classe A Classe A Modelos lineares Modelos não lineares
DCBD 44 Modelagem do conhecimento Técnicas Agrupamento Dado um conjunto de objetos, colocar os objetos em grupos baseados na similaridade entre eles Utilizado para encontrar padrões inesperados nos dados Aquático Ovíparo Mamífero
DCBD 45 Modelagem do conhecimento Técnicas Agrupamento Clustering - Técnica de aprendizado não-supervisionado, ou seja, quando não há uma classe associada a cada exemplo Os exemplos são colocados em clusters (grupos), cujos membros são similares entre si Por outro lado, os clusters devem ser diferentes entre si Representações de agrupamentos:
DCBD 46 Modelagem do conhecimento Técnicas Agrupamento Métricas de similaridade A distância é o método mais natural para dados numéricos Valores pequenos indicam maior similaridade Não generaliza muito bem para dados não numéricos (Qual a distância entre masculino e feminino?) Métricas de Distância mais comuns Hamming - Usada para dados categóricos dist ( v 1 1, v 2 0, sev ) 1, sev 1 1 v v 2 2 Euclidiana - Usada para dados numéricos Normalização As distâncias são freqüentemente normalizadas dividindo a distância de cada atributo pelo intervalo de variação (i.e. diferença entre valores máximo e mínimo) daquele atributo Assim, a distância para cada atributo é normalizada para o intervalo [0,1]
DCBD 47 Modelagem do conhecimento Técnicas Agrupamento Passos para se fazer um agrupamento Passo 1: Escolha aleatória de clusters e cálculo dos centróides (círculos maiores) Passo 2: Atribua cada ponto ao centróide mais próximo Passo 3: Recalcule centróides (neste exemplo, a solução é agora estável)
DCBD 48 Modelagem do conhecimento Técnicas Agrupamento Exemplo
DCBD 49 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 2)
DCBD 50 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 3)
DCBD 51 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 4)
DCBD 52 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 5)
DCBD 53 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 6)
DCBD 54 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 7)
DCBD 55 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 8)
DCBD 56 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 9)
DCBD 57 Modelagem do conhecimento Técnicas Agrupamento Exemplo (K = 10)
DCBD 58 Modelagem do conhecimento Técnicas Associação Notoriedade em DCBD pela descoberta da relação compra de fraldas cerveja Mas o que fazer? Colocar as fraldas junto com as cervejas para facilitar a venda? Colocá-las distantes para obrigar o cliente a passear por outras gôndolas? Decisões cabem ao especialista em marketing, baseado na sua experiência Regras de associação ou regras associativas: {X 1, X 2,..., X n } Y Se todos os itens X 1, X 2,..., X n estão numa transação, então há uma boa chance de se encontrar também Y
DCBD 59 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori
DCBD 60 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 3 {café,pão,manteiga} 3 3 4 {café,pão} {pão,manteiga} {café,manteiga} 3 5 5 {leite} {café} {cerveja} {pão} {manteiga} {arroz} {feijão}
DCBD 61 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 Conjunto de regras - Conjunto de itens: {café, pão} Se café Então pão [conf = 1,0] Se pão Então café [conf = 0,6] - Conjunto de itens: {café, manteiga} Se café Então manteiga [conf = 1,0] Se manteiga Então café [conf = 0,6] - Conjunto de itens: {pão, manteiga} Se pão Então manteiga [conf = 0,8] Se manteiga Então pão [conf = 0,8] - Conjunto de itens: {café, manteiga, pão} Se café, manteiga Então pão [conf = 1,0] Se café, pão Então manteiga [conf = 1,0] Se manteiga, pão Então café [conf = 0,75] Se café Então manteiga, pão [conf = 1,0] Se manteiga Então café, pão [conf = 0,6] Se pão Então café, manteiga [conf = 0,6]
DCBD 62 Modelagem do conhecimento Técnicas Associação O algoritmo Apriori Exemplo: Suporte mínimo: 0,3 Conjunto de regras - Padrões descobertos, minsup = 0,3 e minconf = 0,8: Se café Então pão [conf = 1,0] Se café Então manteiga [conf = 1,0] Se pão Então manteiga [conf = 0,8] Se manteiga Então pão [conf = 0,8] Se café, manteiga Então pão [conf = 1,0] Se café, pão Então manteiga [conf = 1,0] Se café Então manteiga, pão [conf = 1,0]
DCBD 63 Ferramentas Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo PolyAnalyst Classificação, regressão, regras de associação, clustering, sumarização e modelagem de dependência Megaputer Intelligence www.megaputer.com Pacote Magnum Opus Regras de associação Rule Quest www.rulequest.com Específico XpertRule Miner Classificação, regras de associação e clustering Attar Software Ltd. www.attar.com Pacote DataMite Regras de associação Dr. Philip Vasey através do LPA Prolog Específico Microsoft Data Analyzer 2002 Classificação e clustering Microsoft Corp. www.microsoft.com Pacote Oracle 9i Data Mining Classificação e regras de associação Oracle Corp. www.oracle.com Pacote Darwin Classificação, regressão e clustering Oracle Corp. www.oracle.com Pacote Data-Miner Software Kit Classificação e regressão Data-Miner Pty LTd www-data-miner.com Específico
DCBD 64 Ferramentas Nome Técnicas disponíveis Fabricante Site Tipo de aplicativo MineSet Classificação, regressão, regras de associação e clustering Silicon Graphics Inc. www.sgi.com Pacote WEKA Classificação, regressão e regras de associação University of Waikato www.cs.waikato.ac.nz Pacote Intelligent Miner Regras de associação, padrões seqüenciais, classificação, clustering, sumarização e modelagem de dependência IBM Corp. www.ibm.com Pacote MLC++ Classificação, regressão e clustering Silicon Graphics Inc. www.sgi.com/tech/mlc Biblioteca See5 Classificação Rule Quest www.rulequest.com Específico Cubist Regressão Rule Quest www.rulequest.com Específico Clementine Classificação, regras de associação, clustering e padrões seqüenciais SPSS Inc. www.spss.com Pacote
DCBD 65 WEKA Software de Aprendizagem de Máquina/Data Mining escrito em Java (GNU Public License) Usado para pesquisa, educação e aplicações Complementa o livro Data Mining - Practical Machine Learning Tools and Techniques de Ian W. Witten & Eibe Frank Principais características: Conjunto abrangente de ferramentas para pré-processamento de dados, algoritmos de aprendizagem e métodos de avaliação Interface Gráfica (visualização de dados) Ambiente para comparação de algoritmos de aprendizagem Versões: WEKA 3.3: É a que vamos utilizar para a a apresentação WEKA 3.4: Versão compatível com o livro (2ª Edição) WEKA 3.6: Versão estável atual WEKA 3.7: Developpment Version
DCBD 66 WEKA Entrada de dados WEKA só manipula arquivos planos Atributo numérico Atributo nominal @relation heart-disease-simplified @attribute age numeric @attribute sex { female, male} @attribute chest_pain_type { typ_angina, asympt, non_anginal, atyp_angina} @attribute cholesterol numeric @attribute exercise_induced_angina { no, yes} @attribute class { present, not_present} @data 63,male,typ_angina,233,no,not_present 67,male,asympt,286,yes,present 67,male,asympt,229,yes,present 38,female,non_anginal,?,no,not_present... Arquivo no formato.arf
DCBD 67 WEKA Abertura
DCBD 68 WEKA Abertura Simple CLI Antiga interface em linha de comando Explorer Principal interface gráfica do WEKA Dá acesso a todas as funcionalidades por meio de seleção de menus e fornecimento de parâmetros Experimenter Permite a realização de experimentos em larga escala com diversas configurações de parâmetros Pode rodar em ambientes de grid KnowledgeFlow Permite executar um conjuto de ações em uma sequência controlada
DCBD 69 WEKA Pré-processamento Dados podem ser importados de um arquivo em diversos formatos: ARFF CSV com os nomes das variáveis na primeira linha (pode ser gerado pelo EXCEL) C4.5 (sistema de Quinlan) 2 arquivos, um com nomes e outro com dados binary formato gerado pelo Java para compactar grandes arquivos de dados Dados podem também ser lidos de uma URL ou de um banco de dados SQL (usando JDBC) Ferramentas de pré-processamento no WEKA são chamadas filters WEKA contém filtros para: Discretização Normalização Amostragem Seleção de atributos Transformação Combinação de atributos
DCBD 70
DCBD 71
DCBD 72
DCBD 73
DCBD 74
DCBD 75
DCBD 76
DCBD 77
DCBD 78
DCBD 79
DCBD 80
DCBD 81
DCBD 82 WEKA Construção de classificadores Classificadoes no WEKA são modelos para predição nominal ou de quantidades numéricas (sic) Incluem: Árvores e listas de decisão Classificadores baseados em instâncias Support Vector Machines (Método baseado em aprendizagem estatística) Redes neurais (Multi-Layer Perceptrons, ) Regressão logística (Método estatístico de predição de valores de variáveis categóricas) Redes bayesianas (Método probabilístico) Ferramentas para melhoria do desenpenho dos classificadores (Meta-classificadores)
DCBD 83
DCBD 84
DCBD 85
DCBD 86
DCBD 87
DCBD 88
DCBD 89
DCBD 90
DCBD 91
DCBD 92
DCBD 93
DCBD 94
DCBD 95
DCBD 96
DCBD 97
DCBD 98
DCBD 99
DCBD 100
DCBD 101
DCBD 102 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.
DCBD 103 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.
DCBD 104
DCBD 105
DCBD 106
DCBD 107
DCBD 108
DCBD 109 Quic k Time and a TIFF (LZW) dec ompres s or are needed to s ee this pic ture.
DCBD 110
DCBD 111
DCBD 112
DCBD 113
DCBD 114 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.
DCBD 115
DCBD 116 QuickTime and a TIFF (LZW) decompressor are needed to see this picture.
DCBD 117
DCBD 118
DCBD 119
DCBD 120
DCBD 121
DCBD 122
DCBD 123 WEKA Agrupamento de dados WEKA contém agrupadores para encontrar grupos de instâncias similares em um conjunto de dados Métodos implementados: k-means EM Cobweb X-means FarthestFirst Agrupamentos podem ser visualizados e comparados a agrupamentos verdadeiros (se existir)
DCBD 124
DCBD 125
DCBD 126
DCBD 127
DCBD 128
DCBD 129
DCBD 130
DCBD 131
DCBD 132
DCBD 133
DCBD 134 WEKA Associação WEKA contém uma implementação do algoritmo Apriori para aprendizagem de regras de associação Só trabalha com dados discretos Pode identificar dependências estatísticas entre grupos de atributos: leite, manteiga pão (com confiança 0.9 e suporte 4) Apriori pode computar todas as regras com um suporte mínimo e uma certa confiança
DCBD 135
DCBD 136
DCBD 137
DCBD 138
DCBD 139 WEKA Seleção de atributos Painel que pode ser usado para investigar quais (subconjunto de) atributos são os mais preditivos Seus métodos contêm um método de busca e um método de avaliação WEKA disponibiliza combinações (semi-)arbitrárias desses métodos
DCBD 140
DCBD 141
DCBD 142
DCBD 143
DCBD 144
DCBD 145
DCBD 146 WEKA Visualozação de dados Bastante útil na prática: Por exemplo, ajuda a determinar a dificuldade do problema de aprendizagem WEKA pode visualizar atributos simples (1-d) e pares de atributos (2-d) Valores de classe codificados por cores Opção de Jitter para lidar com atributos nominais (e detectar pontos de dados escondidos ) Função Zoom-in
DCBD 147
DCBD 148
DCBD 149
DCBD 150
DCBD 151
DCBD 152