Knowledge Discovery and Data Mining Extensão-UFMS-DCT

Documentos relacionados

Aprendizagem de Máquina

Data Mining: Conceitos e Técnicas

Mineração de Dados. Prof. Júlio Cesar Nievola Especialização em Inteligência Computacional PPGIA - PUCPR

Chapter 3. Análise de Negócios e Visualização de Dados

Aula 02: Conceitos Fundamentais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Gerenciamento de Dados e Gestão do Conhecimento

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

LISTA DE EXERCÍCIOS. 1. Binário: Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único caractere

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Professor: Disciplina:

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Extração de Conhecimento & Mineração de Dados

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Planejamento Estratégico de TI. Prof.: Fernando Ascani

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Projeto 6.12 Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software

Classificação dos Sistemas de Informação

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

SAD orientado a MODELO

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Motivação: inundação de informação. Data warehouse. Inteligência computacional aplicada em finanças, comércio e indústria

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Projeto Pedagógico do Bacharelado em Ciência da Computação. Comissão de Curso e NDE do BCC

INTELIGÊNCIA COMPUTACIONAL

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining

EMENTAS DAS DISCIPLINAS

Sistemas de Apoio à Decisão (SAD) - Senado

Exemplo de Aplicação do DataMinig

CURSO DE SISTEMAS DE INFORMAÇÃO

Interatividade aliada a Análise de Negócios

ADM041 / EPR806 Sistemas de Informação

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

GRADUAÇÃO E PÓS-GRADUAÇÃO APRESENTAÇÃO E GRADE CURRICULAR DOS CURSOS

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Prof. Msc. Paulo Muniz de Ávila

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

CURSO DE INFORMÁTICA LICENCIATURA 1 PERÍODO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

MBA Inteligência Competitiva Com ênfase em BI/CPM. Metadados

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

DATA WAREHOUSE. Introdução

MESTRADO EM PESQUISA DE MERCADOS

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Pós-Graduação Lato Sensu em ENGENHARIA DE MARKETING

Planejamento Estratégico de TI. Prof.: Fernando Ascani

4. SISTEMAS DE APOIO À DECISÃO

Fase 1: Engenharia de Produto

Introdução à Computação

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Introdução. Capítulo 1

Criação e uso da Inteligência e Governança do BI

Programa do Curso de Pós-Graduação Lato Sensu MBA em Engenharia de Software Orientada a Serviços (SOA)

A Preparação dos Dados

CURSO DE SISTEMAS DE INFORMAÇÃO

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

SISTEMA. Tecnologia. Software. Hardware. Prazos. Pessoas. Qualidade. Custo GERENCIAMENTO DE RISCO: COMO GARANTIR O SUCESSO DOS PROJETOS DE TI?

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Aprendizagem de Máquina

SAD orientado a DADOS

Modelo de dados do Data Warehouse

Administração de CPD Chief Information Office

Apresentação, xix Prefácio à 8a edição, xxi Prefácio à 1a edição, xxiii. Parte I - Empresa e Sistemas, 1

Extração de Requisitos

Ciência dos Dados. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

CURSO DE GRADUAÇÃO PRESENCIAL SISTEMAS DE INFORMAÇÃO

BIG DATA INTRODUÇÃO. Humberto Sandmann

14 de dezembro de 2012 MONITORAMENTO DO PROGRAMA APRENDIZ LEGAL/ FUNDAÇÃO ROBERTO MARINHO

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

UTILIZANDO O SOFTWARE WEKA

Uma estrutura (framework) para o Business Intelligence (BI)

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

Business Intelligence. BI CEOsoftware Partner YellowFin

MBA EM BUSINESS INTELLIGENCE

Institucional. CS Treina

TEMPLATES DE REFERÊNCIA PARA PLANEJAMENTO DE PROJETOS DE INVESTIMENTO

ENGENHARIA DA PRODUÇÃO 2.0

Arquitetura e Organização de Computadores

Planejamento Estratégico de TI. Prof.: Fernando Ascani

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

Concepção e Elaboração

Microsoft Innovation Center

Fundação Comunitária de Ensino Superior de Itabira Grade Curricular. Faculdade de Ciências Administrativas e Contábeis de Itabira

Declaração de Escopo. Projeto PDTI Informações Gerenciais

Universidade Estadual do Centro-Oeste Reconhecida pelo Decreto Estadual nº 3.444, de 8 de agosto de 1997

Transcrição:

Knowledge Discovery and Data Mining Extensão-UFMS-DCT

Introdução ao Processo de KDD Esta introdução se baseou quase que integralmente nas transparências produzidas por: Daniel L. Silver (dsilver@mgmt.dal.ca) Ph.D. Ciênc. Computação/Aprendizado de Máquina Dalhousie University Fundador da CogNova Technologies (London, 1993) MBA6522-1996

We are drowning(afogando) in information, but starving (famintos) for knowledge. John Naisbett Objetivo do Curso: Introduzir os principais aspectos do Processo de Descoberta de Conhecimento e teoria e aplicações de algumas tecnologias de Data Mining

1. Introdução - Aula 1 Sumário 2. Mini-Curso de Data Mining

Introdução Um campo que está emergindo rapidamente... Também denominado: Data dredging( dragar ), Data harvesting( colheita ), Data archeology( arqueologia ) Um campo multidisciplinar: Bancos de Dados e data warehousing Dados e métodos visualização de modelos Estatística e aprendizado de máquina Sistemas Especialistas e aquisição de conhecimento

Introdução Porque está se distinguindo agora? Abundância de dados do comércio e da industria Competividade - Administração do Conhecimento Computadores poderosos e baratos Forte fundamentação teórico/matemático aprendizado de máquina & inferência lógica estatística e sistemas dinâmicos sistemas de gerenciamento de bancos de dados

Introdução O que é KDD? Um Processo A seleção e processamento de dados para: a identificação de padrões novos, precisos e úteis. A modelagem de fenômenos do mundo real. Data mining é o maior componente do processo de KDD - descoberta automática de padrões e o desenvolvimento de modelos de previsão e de explanação(explicação).

Introdução O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados

Introdução KDD em Contexto 9 The KDD Process Interpretation and Evaluation Problema Data Consolidation Selection and Preprocessing W arehouse Data Mining Prepared Data p(x) =0.02 Patterns & M odels K now ledge Conhecimento Consolida ted Data Data Sources C og No va T ec hnologies Identificar o Problema ou Oportunidade O ciclo virtuoso Agir sobre o conhecimento Etratégia Medir o Efeito da Ação Resultados

Introdução KDD em Contexto Marketing Database Marketing Data Warehousing KDD & Data Mining

Áreas de Aplicação e Oportunidades Marketing: segmentação, interesse dos clientes,... Finanças: apoio a investimentos Operações Bançárias & Segurança: aprovação de crédito e de apólice, Segurança: bomba, icebergue e detecção de fraudes Ciência e medicina: descoberta de hipóteses, previsão, classificação, diagnóstico, Produção: modelagem de processo, controle de qualidade, alocação de recursos, Engenharia: simulação e analise, reconhecimento de padrões, processamento de sinal Internet:mecanismo de busca inteligente, web marketing

O Processo de KDD Problemas Principais & Abordagens Problemas: identificação dos dados relevantes representação dos dados busca por padrões ou modelos válidos Abordagens: dedução top-down por especialista visualização interativa dos dados/modelos * indução bottom-up a partir dos dados * Probabilidade de venda renda OLAP Data Mining idade

O Processo de KDD A Arquitetura de um sistema KDD Interface Gráfica com Usuário Consolidação dos dados Seleção e Preprocessamento Data Mining Interpretação e Avaliação Fontes dos dados Warehouse Conhecimento

Consolidação dos Dados & Preparação A qualidade dos resultados está diretamente relacionada à qualidade dos dados 50%-70% dos esforços do processo de KDD serão gastos na consolidação e preparação dos dados Principal justificativa para um data warehouse cooperativa

Consolidação dos Dados Das fontes de dados para os repositórios de dados consolidados RDBMS Legacy DBMS Flat Files External Consolidação de Dados e Limpeza Warehouse Objeto/Relação DBMS Multidimensional DBMS Bases de Dados Dedutivas Flat files

Consolidação dos Dados Determinar lista preliminar de atributos Consolidar dados em bases de dados de trabalho Fontes Internas e Externas Eliminar ou estimar valores que faltam Remover outliers (exceções óbvias) Determinar probabilidades a priori de categorias e tratar com volume bias

Consolidação dos Dados Opções de escolha para repositórios warehouse Bases de dados OLTP - poucas ferramentas analíticas, lento. ORDBMS - o melhor de relação e orientado a objeto: transações SQL + tipos de dados e métodos, classes de objetos, herança. Bases de Dados Dedutivas - extensão de RDBMS, insere lógica na base de dados (níveis de abstração). MDBMS - arrays multidimensionais de muitas variáveis: rotacionar, selecionar intervalos, drill-down hierarquias. Flat files - um lugar para começar, compatível com as ferramentas de data mining atuais.

O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados

Seleção e Preprocessamento Gerar um conjunto de exemplos escolher método de amostragem considerar a complexidade amostral tratar com questões de volume bias Reduzir a dimensão dos atributos remover atributos redundantes e/ou correlacionados combinar atributos (somar, multiplicar, diferença) Reduzir intervalo de variação dos atributos agrupar valores discretos simbólicos quantificar valores numéricos contínuos OLAP e ferramentas de visualização assumem um papel importante

OLAP - Processamento Analítico ON-Line Este termo refere-se ao tipo de processamento e ferramentas voltados para a análise de dados típica do apoio à decisão, onde os dados são apresentados através de uma visão multidimensional (ao invés de registros em tabelas armazena os

Seleção e Pre-processamento Transformar dados extrair correlações e normalizar valores mapear dados de series temporais para representação estática Codificar dados representação deve ser apropriada para a ferramenta de Data Mining que será usada continuar a reduzir a dimensão dos atributos, quando possível, sem perda de informação Ferramentas OLAP e de visualização e também software de transformação e de codificação

Introdução O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados

Alguns Métodos de Data Mining Exploração/Descoberta Automática ex. Descobrir novos segmentos de mercado Algoritmos de agrupamento(clustering) probabilísticos e de distancia x2 Previsão/Classificação ex. previsão de venda dados os fatores atuais regressão, redes neurais, algoritmos genéticos Explanação/Descrição x1 f(x) x e.g.. Caracterizando clientes pela demografia e história de compra árvores de decisão indutiva, sistemas de regras de associação. if age > 35 and income < $35k then...

Métodos de Data Mining Exploração e Descoberta Automática Agrupamento(clustering) numérico baseado em distância agrupamento métrico de exemplos(knn) visualização gráfica pode ser usada Agrupamento bayesiano buscar o número de classes que resulta em melhor ajuste de uma distribuição de probabilidade para os dados AutoClass x2 (NASA) um dos melhores exemplos x1

Métodos de Data Mining Previsão e Classificação Aprender um modelo que faz previsão Classificação de um novo caso/exemplo Métodos: Redes Neurais Artificiais Árvores de decisão indutivas e sistema de regras Algoritmos Genéticos Algoritmos de agrupamento Nearest neighbour Estatística (paramétrica, e não-paramétrica)

Métodos de Data Mining Generalização O objetivo da aprendizagem é encontrar boa generalização para novos casos. Generalização pode ser definida como uma interpolação matemática ou regressão sobre um conjunto de pontos de treinamento: f(x) x

Métodos de Data Mining Detecção de Exceção/Desvio Gerar um modelo da atividade normal Desvios do modelo causam estado de alerta Métodos: Redes Neurais Artificiais Árvores de decisão indutiva e sistemas de regras Métodos estatísticos Ferramentas de vizualização

Métodos de Data Mining Explanação e Descrição Aprender uma hipótese generalizada (modelo) usando os dados selecionados Descrição/Interpretação do modelo fornece novos conhecimentos Métodos: Árvores de decisão indutiva e sistemas de regras Sistemas de regras de associação Analise de Link

Introdução O Processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Preprocessamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento Dados Consolidados Fontes de dados

Interpretação e Avaliação Avaliação Validação estatística e teste de significância Revisão qualitativa por especialista do domínio Fazer estudos pilotos para avaliar a precisão do modelo Interpretação Árvores indutivas e modelos de regras podem ser lidos diretamente Resultados de agrupamentos(clustering) podem ser colocados em gráficos e tabelas Códigos podem ser gerados automaticamente por alguns sistemas (ANNs, IDTs, Modelos de Regressão)

Interpretação e Avaliação Ferramentas de visualização podem ser muito úteis: análise de sensitividade (relacionamento E/S) histogramas da distribuição de valores gráficos de séries temporais e animação requer treino e pratica Resposta Velocidade Tempo

Benefícios do KDD Máxima utilidade a partir de dados corporativos descoberta de novos conhecimentos geração de modelos preditivos e exploratórios modelos feedback importante para o esforço de data warehousing - identificação de dados essenciais e irrelevantes Redução de aplicação dev t backlog desenvolvimento de modelo e Desenvolvimento de software Efeito sobre a hierarquia das organizações vantagem competitiva, redução de custo, aumenta produtividade, evitar riscos, confiabilidade

Exigências e Custos do KDD Hardware - a intensidade computacional exige rapidez e processadores paralelos para grandes projetos Software - sistema integrado de KDD é composto componentes dedutiva, indutiva e de visualização todas ligadas ao data warehouse. Recursos Humanos- especialista em DB/DC, analistas para seleção e pré-processamento, competência em aprendizado de máquina e and estatística, conhecimento da aplicação, administração do projeto 70% do esforço é gasto nas atividades de consolidação, seleção, e pré-processamento dos dados.

O Estado Atual do KDD(1996) Metodologias atrasadas em relação as tecnologias Muitos produtos, poucos integrados a sistemas KDD Os custos de Software subiram 600% no último ano Muitos atores(players) sendo envolvidos a lever to sell proprietary hardware and software Cautela - principais atores ainda a serem determinados Especialistas em KDD têm medo da propaganda que está sendo gerada Questões éticas e legais no horizonte

Principais Tecnologias para KDD Data warehousing e bases de dados distribuídas Computadores Paralelos AI e sistemas especialistas Aprendizado de máquina e inferência estatística Visualização (incluindo VR) Internet e bons serviços de rede

Questões Atuais de Administração Propriedade dos dados e conhecimento Proteção para os dados dos clientes Responsabilidade de precisão nas informações Pratica da ética - uso lícito dos dados

Uma Lista de Ferramentas Disponíveis Muitos atores Approaching market from hardware, bases de dados, estatística,aprendizado de máquina, educação, financeiro/marketing, e logo... Consultores de administração: IBM, NCR, SGI, Thinking Machines, Ultragem, ZDM Scientific, Neuralware, SAS, SPSS, Information Discovery, American Heuristics, Data Distilleries, SuperInduction, GTE, NASA, various univeristies

O Mini-Curso de Data Mining CONTEÚDO - Aprendizagem indutiva. - Aprendizagem supervisionada e não supervisionada. - A teoria da aprendizagem por regras de decisão (paradigma simbólico). - Apresentação do Software WizRule e de outros, como por exemplo C4.5, aplicado ao banco de dados do vestibular. - Apresentação de técnicas de avaliação quantitativa e qualitativa de regras. - A teoria da aprendizagem por árvores de decisão(paradigma simbólico). - Apresentação do algoritmo ID.3 e outros da mesma família. - Apresentação de técnicas de avaliação de árvores de decisão. - Introdução aos paradigmas conexionista, estatístico, instance- based e genético.