Knowledge Discovery and Data Mining Extensão-UFMS-DCT
Introdução ao Processo de KDD Esta introdução se baseou quase que integralmente nas transparências produzidas por: Daniel L. Silver (dsilver@mgmt.dal.ca) Ph.D. Ciênc. Computação/Aprendizado de Máquina Dalhousie University Fundador da CogNova Technologies (London, 1993) MBA6522-1996
We are drowning(afogando) in information, but starving (famintos) for knowledge. John Naisbett Objetivo do Curso: Introduzir os principais aspectos do Processo de Descoberta de Conhecimento e teoria e aplicações de algumas tecnologias de Data Mining
1. Introdução - Aula 1 Sumário 2. Mini-Curso de Data Mining
Introdução Um campo que está emergindo rapidamente... Também denominado: Data dredging( dragar ), Data harvesting( colheita ), Data archeology( arqueologia ) Um campo multidisciplinar: Bancos de Dados e data warehousing Dados e métodos visualização de modelos Estatística e aprendizado de máquina Sistemas Especialistas e aquisição de conhecimento
Introdução Porque está se distinguindo agora? Abundância de dados do comércio e da industria Competividade - Administração do Conhecimento Computadores poderosos e baratos Forte fundamentação teórico/matemático aprendizado de máquina & inferência lógica estatística e sistemas dinâmicos sistemas de gerenciamento de bancos de dados
Introdução O que é KDD? Um Processo A seleção e processamento de dados para: a identificação de padrões novos, precisos e úteis. A modelagem de fenômenos do mundo real. Data mining é o maior componente do processo de KDD - descoberta automática de padrões e o desenvolvimento de modelos de previsão e de explanação(explicação).
Introdução O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados
Introdução KDD em Contexto 9 The KDD Process Interpretation and Evaluation Problema Data Consolidation Selection and Preprocessing W arehouse Data Mining Prepared Data p(x) =0.02 Patterns & M odels K now ledge Conhecimento Consolida ted Data Data Sources C og No va T ec hnologies Identificar o Problema ou Oportunidade O ciclo virtuoso Agir sobre o conhecimento Etratégia Medir o Efeito da Ação Resultados
Introdução KDD em Contexto Marketing Database Marketing Data Warehousing KDD & Data Mining
Áreas de Aplicação e Oportunidades Marketing: segmentação, interesse dos clientes,... Finanças: apoio a investimentos Operações Bançárias & Segurança: aprovação de crédito e de apólice, Segurança: bomba, icebergue e detecção de fraudes Ciência e medicina: descoberta de hipóteses, previsão, classificação, diagnóstico, Produção: modelagem de processo, controle de qualidade, alocação de recursos, Engenharia: simulação e analise, reconhecimento de padrões, processamento de sinal Internet:mecanismo de busca inteligente, web marketing
O Processo de KDD Problemas Principais & Abordagens Problemas: identificação dos dados relevantes representação dos dados busca por padrões ou modelos válidos Abordagens: dedução top-down por especialista visualização interativa dos dados/modelos * indução bottom-up a partir dos dados * Probabilidade de venda renda OLAP Data Mining idade
O Processo de KDD A Arquitetura de um sistema KDD Interface Gráfica com Usuário Consolidação dos dados Seleção e Preprocessamento Data Mining Interpretação e Avaliação Fontes dos dados Warehouse Conhecimento
Consolidação dos Dados & Preparação A qualidade dos resultados está diretamente relacionada à qualidade dos dados 50%-70% dos esforços do processo de KDD serão gastos na consolidação e preparação dos dados Principal justificativa para um data warehouse cooperativa
Consolidação dos Dados Das fontes de dados para os repositórios de dados consolidados RDBMS Legacy DBMS Flat Files External Consolidação de Dados e Limpeza Warehouse Objeto/Relação DBMS Multidimensional DBMS Bases de Dados Dedutivas Flat files
Consolidação dos Dados Determinar lista preliminar de atributos Consolidar dados em bases de dados de trabalho Fontes Internas e Externas Eliminar ou estimar valores que faltam Remover outliers (exceções óbvias) Determinar probabilidades a priori de categorias e tratar com volume bias
Consolidação dos Dados Opções de escolha para repositórios warehouse Bases de dados OLTP - poucas ferramentas analíticas, lento. ORDBMS - o melhor de relação e orientado a objeto: transações SQL + tipos de dados e métodos, classes de objetos, herança. Bases de Dados Dedutivas - extensão de RDBMS, insere lógica na base de dados (níveis de abstração). MDBMS - arrays multidimensionais de muitas variáveis: rotacionar, selecionar intervalos, drill-down hierarquias. Flat files - um lugar para começar, compatível com as ferramentas de data mining atuais.
O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados
Seleção e Preprocessamento Gerar um conjunto de exemplos escolher método de amostragem considerar a complexidade amostral tratar com questões de volume bias Reduzir a dimensão dos atributos remover atributos redundantes e/ou correlacionados combinar atributos (somar, multiplicar, diferença) Reduzir intervalo de variação dos atributos agrupar valores discretos simbólicos quantificar valores numéricos contínuos OLAP e ferramentas de visualização assumem um papel importante
OLAP - Processamento Analítico ON-Line Este termo refere-se ao tipo de processamento e ferramentas voltados para a análise de dados típica do apoio à decisão, onde os dados são apresentados através de uma visão multidimensional (ao invés de registros em tabelas armazena os
Seleção e Pre-processamento Transformar dados extrair correlações e normalizar valores mapear dados de series temporais para representação estática Codificar dados representação deve ser apropriada para a ferramenta de Data Mining que será usada continuar a reduzir a dimensão dos atributos, quando possível, sem perda de informação Ferramentas OLAP e de visualização e também software de transformação e de codificação
Introdução O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados
Alguns Métodos de Data Mining Exploração/Descoberta Automática ex. Descobrir novos segmentos de mercado Algoritmos de agrupamento(clustering) probabilísticos e de distancia x2 Previsão/Classificação ex. previsão de venda dados os fatores atuais regressão, redes neurais, algoritmos genéticos Explanação/Descrição x1 f(x) x e.g.. Caracterizando clientes pela demografia e história de compra árvores de decisão indutiva, sistemas de regras de associação. if age > 35 and income < $35k then...
Métodos de Data Mining Exploração e Descoberta Automática Agrupamento(clustering) numérico baseado em distância agrupamento métrico de exemplos(knn) visualização gráfica pode ser usada Agrupamento bayesiano buscar o número de classes que resulta em melhor ajuste de uma distribuição de probabilidade para os dados AutoClass x2 (NASA) um dos melhores exemplos x1
Métodos de Data Mining Previsão e Classificação Aprender um modelo que faz previsão Classificação de um novo caso/exemplo Métodos: Redes Neurais Artificiais Árvores de decisão indutivas e sistema de regras Algoritmos Genéticos Algoritmos de agrupamento Nearest neighbour Estatística (paramétrica, e não-paramétrica)
Métodos de Data Mining Generalização O objetivo da aprendizagem é encontrar boa generalização para novos casos. Generalização pode ser definida como uma interpolação matemática ou regressão sobre um conjunto de pontos de treinamento: f(x) x
Métodos de Data Mining Detecção de Exceção/Desvio Gerar um modelo da atividade normal Desvios do modelo causam estado de alerta Métodos: Redes Neurais Artificiais Árvores de decisão indutiva e sistemas de regras Métodos estatísticos Ferramentas de vizualização
Métodos de Data Mining Explanação e Descrição Aprender uma hipótese generalizada (modelo) usando os dados selecionados Descrição/Interpretação do modelo fornece novos conhecimentos Métodos: Árvores de decisão indutiva e sistemas de regras Sistemas de regras de associação Analise de Link
Introdução O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados
Interpretação e Avaliação Avaliação Validação estatística e teste de significância Revisão qualitativa por especialista do domínio Fazer estudos pilotos para avaliar a precisão do modelo Interpretação Árvores indutivas e modelos de regras podem ser lidos diretamente Resultados de agrupamentos(clustering) podem ser colocados em gráficos e tabelas Códigos podem ser gerados automaticamente por alguns sistemas (ANNs, IDTs, Modelos de Regressão)
Interpretação e Avaliação Ferramentas de visualização podem ser muito úteis: análise de sensitividade (relacionamento E/S) histogramas da distribuição de valores gráficos de séries temporais e animação requer treino e pratica Resposta Velocidade Tempo
Benefícios do KDD Máxima utilidade a partir de dados corporativos descoberta de novos conhecimentos geração de modelos preditivos e exploratórios modelos feedback importante para o esforço de data warehousing - identificação de dados essenciais e irrelevantes Redução de aplicação dev t backlog desenvolvimento de modelo e Desenvolvimento de software Efeito sobre a hierarquia das organizações vantagem competitiva, redução de custo, aumenta produtividade, evitar riscos, confiabilidade
Exigências e Custos do KDD Hardware - a intensidade computacional exige rapidez e processadores paralelos para grandes projetos Software - sistema integrado de KDD é composto componentes dedutiva, indutiva e de visualização todas ligadas ao data warehouse. Recursos Humanos- especialista em DB/DC, analistas para seleção e pré-processamento, competência em aprendizado de máquina e and estatística, conhecimento da aplicação, administração do projeto 70% do esforço é gasto nas atividades de consolidação, seleção, e pré-processamento dos dados.
O Estado Atual do KDD(1996) Metodologias atrasadas em relação as tecnologias Muitos produtos, poucos integrados a sistemas KDD Os custos de Software subiram 600% no último ano Muitos atores(players) sendo envolvidos a lever to sell proprietary hardware and software Cautela - principais atores ainda a serem determinados Especialistas em KDD têm medo da propaganda que está sendo gerada Questões éticas e legais no horizonte
Principais Tecnologias para KDD Data warehousing e bases de dados distribuídas Computadores Paralelos AI e sistemas especialistas Aprendizado de máquina e inferência estatística Visualização (incluindo VR) Internet e bons serviços de rede
Questões Atuais de Administração Propriedade dos dados e conhecimento Proteção para os dados dos clientes Responsabilidade de precisão nas informações Pratica da ética - uso lícito dos dados
Uma Lista de Ferramentas Disponíveis Muitos atores Approaching market from hardware, bases de dados, estatística,aprendizado de máquina, educação, financeiro/marketing, e logo... Consultores de administração: IBM, NCR, SGI, Thinking Machines, Ultragem, ZDM Scientific, Neuralware, SAS, SPSS, Information Discovery, American Heuristics, Data Distilleries, SuperInduction, GTE, NASA, various univeristies
O Mini-Curso de Data Mining CONTEÚDO - Aprendizagem indutiva. - Aprendizagem supervisionada e não supervisionada. - A teoria da aprendizagem por regras de decisão (paradigma simbólico). - Apresentação do Software WizRule e de outros, como por exemplo C4.5, aplicado ao banco de dados do vestibular. - Apresentação de técnicas de avaliação quantitativa e qualitativa de regras. - A teoria da aprendizagem por árvores de decisão(paradigma simbólico). - Apresentação do algoritmo ID.3 e outros da mesma família. - Apresentação de técnicas de avaliação de árvores de decisão. - Introdução aos paradigmas conexionista, estatístico, instance- based e genético.