INFOIMAGEM 2002. Princípios. Essenciais do. Data Mining. Sergio Navega. Intelliwise Research and Training http://www.intelliwise.



Documentos relacionados
Data Mining. Rodrigo Leite Durães

Prof. Daniela Barreiro Claro

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Aula 13: Regras de Associação. Rafael Izbicki

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Inteligência nos Negócios (Business Inteligente)

Descoberta de Conhecimento em Bancos de Dados - KDD

Inteligência Artificial

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Metodologia de Desenvolvimento de Sistemas Informação

CC-226 Introdução à Análise de Padrões

Mineração de Dados em Biologia Molecular

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP

Aprendizado de Máquina (Machine Learning)

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

Minerando regras de associação

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Aula 2 BD Introdução. Profa. Elaine Faria UFU

Sistemas de Informação

Fundamentos de Mineração de Dados

Aula 5. Sistemas de Apoio à Decisão (SAD) Conceituação de Data Warehouse Principais Características

Evandro Deliberal Aula 01

Inteligência nos Negócios (Business Inteligente)

Oi, Ficou curioso? Então conheça nosso universo.

PROJETO GENESYS-SE SISTEMAS ESPECIALISTAS. Prof. Ronaldo R. Goldschmidt. Julio Barbieri G. de Almeida

Inteligência Artificial

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

KDD, Mineração de Dados e Algoritmo Apriori

INTELIGÊNCIA ARTIFICIAL

DIVISÃO DE REGISTROS ACADÊMICOS Registros Acadêmicos da Graduação. Ementas por Currículo 07/02/ :25. Centro de Ciências Exatas e Naturais

MINERAÇÃO DE DADOS DATA MINING AGO/ TEN AV ZEDNIK

Inteligência nos Negócios (Business Inteligente)

A contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe

Exame de Aprendizagem Automática

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

PESQUISA OPERACIONAL -PROGRAMAÇÃO LINEAR. Prof. Angelo Augusto Frozza, M.Sc.

2. ALGORITMOS. Unesp Campus de Guaratinguetá

Métodos para Classificação: - Naïve Bayes.

Aula 02. Evandro Deliberal

Descoberta de conhecimento em redes sociais e bases de dados públicas

Universidade Federal de Uberlândia - Mestrado em Ciência da Computação. Profa. Sandra A. de Amo

Inteligência Artificial

Lógica de Programação. Profas. Simone Campos Camargo e Janete Ferreira Biazotto

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Data Mining. O Processo de KDD. Mauricio Reis

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Mineração de padrões frequentes

A Inteligência Artificial no Auxílio de Tomadas de Decisão

Aprendizado de Máquina (Machine Learning)

Extração de Conhecimento & Mineração de Dados

Figura 1. Tela de inicialização do WEKA. 2. Será apresentada a seguinte janela, que iremos utilizar para testar as respostas do WEKA.

Sumário. RObust Clustering using links ROCK. Thiago F. Covões. Motivação. Motivação. Links. Market basket analys. Motivação

Introdução a Sistemas Inteligentes

Agenda. Conceitos Iniciais. Modelos de aprendizado. Oportunidades e casos de uso. Ferramentas. Desafios

Plano de Projeto. Tema 3. Gerência de Projetos Profa. Susana M. Iglesias

Data Science e Big Data

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Aprendizado de Máquina

Tecnologia e Administração

Aplicações de Sistemas Inteligentes

KDD E MINERAÇÃO DE DADOS

Roteiro. Introdução. Introdução. Introdução. Abordagens. Aprendizado de máquina. (machine learning) Introdução. Arquitetura

Data Analytics Prevenção e deteção de Fraude

5 Conclusão e trabalhos futuros

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

SBC - Sistemas Baseados em Conhecimento

Conteúdo: Sistemas Fuzzy Fuzzifier Inferência Regras Máquina de Inferência Defuzzifier

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

partir da navegação de usuários em sites Web

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

Inteligência Artificial

Banco de Dados I Unidade 3: Projeto de BD Relacional. Cláudio Baptista

Banco de Dados Data Mining Data Warehouse Big Data

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

Aula 11: Desvios e Laços

Tópicos Especiais em Reconhecimento de Padrões [2COP329] Mestrado em Ciência da. Sylvio Barbon Jr

Teoria do aprendizado

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

CLARA. Resumo. Introdução. Artigo de Referência [1] Introdução PAM. Modelagem como grafo CLARANS. Comparação de eficiência Conclusão

Sistemas de Produção Reativos e Algoritmo de Rete

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

Aprendizagem de Máquina

ASSISTENTE DIGITAL PARA BUSCA INTELIGENTE DE INFORMAÇÕES

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Informática Parte 19 Prof. Márcio Hunecke

Aprendizagem de máquina

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

Aprendizado de Máquina (Machine Learning)

Data, Text and Web Mining

Aprendizado de Máquina (Machine Learning)

Plano de Gestão de Logística Sustentável dos Correios PLS - Relatório do 3º Trimestre

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

Transcrição:

INFOIMAGEM 2002 Princípios Essenciais do Data Mining Sergio Navega Intelliwise Research and Training http://www.intelliwise.com/snavega

Conteúdo A Pirâmide do Conhecimento O Processo de Data Mining DM e Outras Disciplinas Dedução e Indução A Questão dos Níveis Indução Orientada a Atributos Algumas Técnicas Importantes Árvores de Decisão Regras Caracterizadoras Regras Associativas Regras de Evolução Temporal

Uma História Interessante Em Em 1974, 1974, uma uma caldeira caldeira de de um um destróier destróier da da Marinha Marinha americana explodiu. explodiu. Investigadores descobriram que que a caldeira caldeira já já havia havia sido sido reparada reparada muitas muitas vezes vezes Bancos Bancos de de dados dados acumulavam dados dados dos dos reparos; reparos; informação permanecia escondida Marvin MarvinDenicoff (Office (Officeof ofnaval Research) Research) ficou ficou encarregado de de pesquisar pesquisar o problema problema

O Valioso é Raro (e vice-versa) Sabedoria Esta hierarquia é muito similar ao que ocorre no cérebro de organismos inteligentes Conhecimento Informação Dados

A Pirâmide, Para o Data Mining Decisão Visualização, apresentação Data Mining Limpeza, agrupamento Data Warehouses (Data Marts) Papel, arquivos, www, logs, etc

Uma Visão do Processo Inteiro Limpeza Limpeza * * Dinâmicas Dinâmicas * * Incompletas Incompletas * * Reduntantes Reduntantes * * Incoerentes Incoerentes * * Ruidosas Ruidosas * * Esparsas Esparsas DECISÕES Visualização Data Mining Data Warehouses Bases de de Dados Fontes Diversas

Interface Data Mining - Estatística Data Mining Estatística Assim como em estatística, em DM você tem o privilégio de nunca precisar dizer que está totalmente certo sobre uma conclusão! Objetivo comum de sumarizar quantidades de dados Identificar estruturas e relações interessantes em conjuntos de dados (data sets) Construir (ou auxiliar) no desenvolvimento de preditores baseados nos dados coletados

DM Está no Meio de Uma Teia de Disciplinas Ciência da Computação Linguagens de Programação Algoritmos Information Retrieval Sistemas Operacionais Bancos de Dados Machine Learning Psicologia Data Mining Lógica Estatística Inteligência Artificial Matemática Teoria Probabilidade Knowledge Representation Linguística Filosofia Neurociência

Filosofia: Os Dois Lados da Questão Dedução Indução Garante a verdade Garante a consistência Conclusões são certeiras Conclusões são prováveis Aumento do número de proposições Racionalismo Redução no número de proposições Empirismo

Dedução Prova a Conclusão Pelas Premissas VERDADEIRO! VERDADEIRO! Todas as Baleias são Mamíferos Todos os Mamíferos têm Pulmões Portanto, Todas as Baleias têm Pulmões Mamíferos bípedes, onívoros FALSO! FALSO! Todos os Homens São Mapeludos Todos os Ursos São Mapeludos Portanto, Todos os Homens São Ursos

Indução é Parecida (mas nem tanto) Indução Forte PROVÁVEL! PROVÁVEL! Meu cão é amigável O cão de meu vizinho é amigável Portanto, a maioria dos cães são amigáveis Algumas instâncias são usadas para justificar uma regra genérica; a indução tem caráter probabilístico

Nem Sempre Induções São Boas Indução Fraca Esta pessoa conhece o Sergio Esta outra pessoa conhece o Sergio Portanto, todas as pessoas deste prédio conhecem o Sergio Mesmo com essas desvantagens, a indução (e alguns outros raciocínios fracos) são a única forma de gerar conhecimento novo

Conceituando o Data Mining Bancos de dados corporativos são volumosos e potencialmente cheios de informações valiosas. Técnicas tradicionais de B.D. são inadequadas para gerar novos padrões (são dedutivas). A extração de informações preditivas escondidas em grandes bancos de dados Extração de padrões interessantes de grandes volumes de dados brutos Data Mining é o processo não trivial de identificação de padrões em dados que sejam válidos, novos, potencialmente úteis e ultimamente compreensíveis Usama Fayyad (1995) Nós estamos nos afogando em dados, mas morrendo de fome de conhecimento Dr. Jaiwei Han, Simon Fraser University

Manipulação de B.D. é Dedução Dedução: Inferências comprovadamente corretas Funcionários Departamentos Departamentos Gerentes Operador Join Funcionários Gerentes Dedução é naturalmente suportada pelos B.D.

Data Mining é Indução Usando a mesma B.D., uma indução produz: Funcionários Departamentos Departamentos Gerentes Indução de Regras ILP Inductive Logic Programming Todo Funcionário Tem Um Gerente x, y Funcionário( x) Gerente( y, x)

Novas Técnicas São Necessárias Indução não é gerada por manipulação dedutiva de bases de dados Data Mining é a resposta Perda de informação, compactação Para fazer indução é necessário desprezar algumas características; Data Mining precisa perder alguns dados Este é um medo que precisamos perder!

A Questão dos Níveis Em Bancos de de Dados, as as informações estão estruturadas em em níveis primitivos Filial Conhecimento é expresso em em níveis mais elevados Divisão Operacional Gerência Informática Funcionário Pessoa José da Silva Mineração deve se se preocupar com o nível de de análise

A Questão dos Níveis Filial Divisão Operacional Gerência Informática Funcionário Pessoa José da Silva Nível Alto Demais Regras são óbvias, revelam o senso comum Nível Baixo Demais Regras descobertas são muito fracas e suscetíveis a ruído Mineração Mineração em em múltiplos múltiplos níveis, níveis, provê provê diversas diversas visões visões em em múltiplos múltiplos estágios estágios de de abstração abstração Interação Interação providencia providencia (em (em tempo tempo real) real) foco foco em em áreas áreas mais mais interessantes, interessantes, aprofundando aprofundando o processo processo de de mineração mineração de de forma forma seletiva seletiva e controlada controlada

A Indução Orientada a Atributos Compressão de dados onde valores de atributos são trocados por conceitos generalizados, de hierarquias superiores Hierarquias são normalmente fornecidas por um especialista no domínio ou gerados através de sugestões de outros métodos (ID3, C4.5) Pode-se remover atributos que têm grande número de valores distintos e que não possuam hierarquia superior (Ex: chaves de acesso a B.D.) Pode-se generalizar atributos que tenham como ser categorizados sob um mesmo nome

Exemplos de IOA Um banco de dados gigantesco esconde relações valiosas Estado Cidade População Orç.Saúde........................................................................ Estado População Gastos Norte, Nordeste, Sudeste, Sul, etc. Pequena, Média, Grande 0-5%, 5-15%, 15-20% arrecadação Generalização de atributos reduz (comprime) o tamanho do banco de dados

Exemplos de IOA Hobby de Uma Pessoa Tênis, futebol, piano, nintendo, ópera, playstation Esportes, Música, videogame Redução de atributos promove uma generalização que pode favorecer o aparecimento de certos padrões

Três Técnicas Importantes Árvores de Decisão Descoberta de Regras Regras Associativas ID3 (Quinlan 1986) C4.5 (Quinlan 1992) Piatetsky-Shapiro 1991 Agrawal 1993 Existe atualmente um grande número de técnicas, várias delas sendo publicadas no momento em que falamos

Indução de Árvores de Decisão Método ID3 já é obsoleto, mas é importante em termos teóricos Caso Risco Histórico Débito Garantia Salário 1 alto ruim alto nenhuma 15k 2 alto desc. alto nenhuma 35k 3 moder. desc. baixo nenhuma 35k 4 alto desc. baixo nenhuma 15k 5 baixo desc. baixo nenhuma >35k 6 baixo desc. baixo adeq. >35k 7 alto ruim baixo nenhuma 15k 8 moder. ruim baixo adeq. >35k 9 baixo bom baixo nenhuma >35k 10 baixo bom alto adeq. >35k 11 alto bom alto nenhuma 15k 12 moder. bom alto nenhuma 35k

A Árvore Obtida Pelo ID3 alto alto risco débito? desc. baixo histórico? nenh. ruim alto risco garantia? alto risco bom adequ. débito? alto baixo baixo risco garantia? nenh. garantia? adequ. 15k salário? 35k >35k baixo risco alto risco risco moder. baixo risco

O Que é Uma Regra? Expressões que relacionam condições iniciais a conclusões. Em argumentação, as condições iniciais são chamadas de premissas e as conclusões são chamadas de alegação. Em nosso caso, vamos usar esta nomenclatura: Antecedente 1 Antecedente 2 Antecedente 3... Antecedente n Consequente Se (emprestimo > 5000) e (salário < 1500) então {recusar crédito}

Técnicas Mais Comuns Regras Caracterizadoras Regras Discriminantes Regras Associativas Regras Classificadoras Métodos Para Clustering Regras de Evolução Temporal Além dessas técnicas existem várias outras que não veremos aqui (algoritmos genéticos, métodos bayesianos, support vector machine, análise de discriminantes, regressão linear, etc.)

As Regras Caracterizadoras Regras que caracterizam um conceito satisfeito por todos (ou pela maioria) dos exemplos. Também conhecidas como Regras de Sumarização. Aqui usa-se a IOA de forma a sugerir quais são os atributos que caracterizam uma determinada coleção de dados. Exemplos: Sintomas de uma doença específica podem ser sumarizados por uma regra caracterizadora Características típicas dos estudantes de MBA que decidiram pelo curso logo após terminarem graduação

Regras Caracterizadoras: Análise de Crédito tempo t1 tempo t2 tempo t3 Cliente: 10015 Anos cliente: 6 Empréstimo:$2800 Salário:$4800 Possui casa:sim Contas em atraso:2 Num. Pagtos. Atraso:3 Cliente rentável:? Cliente: 10015 Anos cliente: 6 Empréstimo:$4200 Salário:? Possui casa:sim Contas em atraso:2 Num. Pagtos. Atraso:4 Cliente rentável:? Cliente: 10015 Anos cliente: 7 Empréstimo:$6720 Salário:? Possui casa:sim Contas em atraso:3 Num. Pagtos. Atraso:6 Cliente rentável:não Se [contas em atraso] > 2 e [num.pagtos.atraso] > 1 Então Se [cliente rentável] = Não Então {Recusar Crédito} Se [contas em atraso] = 0 e ([salário] > 3000 ou ([anos cliente] > 3) Então {Aceitar Solicitação de Crédito}

Regras Associativas Dado um B.D. qualquer, descobrir quais as associações entre itens de forma que a presença de um item em um registro implica na presença de outro(s) item(s) no mesmo registro Exemplo: Para a maioria das pessoas que adquiriram pão e leite conjuntamente, também foi adquirido manteiga {pão, leite} manteiga

Características das Regras Associativas Em geral, despreza quantidades, só interessando a presença ou ausência de determinada associação. Por isso, é um processo booleano por natureza (Sim/Não) Jiawei Han propôs algoritmos que desenvolvem associações sobre faixas de quantidades

Regras Associativas Multi-Níveis Dr. Han também propôs descobrir regras em níveis conceituais específicos, como as MLAR (Multiple- Level Association Rules) leite leite desnatado leite desnatado Parmalat pão pão integral pão integral Pullman

Market Basket Analysis Esta é uma das mais interessantes aplicações das Regras Associativas, de fundamental importância para marketing A) Achar todas as regras que tenham diet coke como consequentes. Irá auxiliar no planejamento de lojas para vender melhor esse produto B) Achar todas as regras com iogurte como antecedente. Irá auxiliar a determinar o impacto nas vendas, caso esse produto seja retirado das prateleiras C) Achar todas as regras com salsicha no antecedente e mostarda no consequente. Auxilia na obtenção de melhores regras para determinar que produtos devem ser vendidos em conjunto com salsichas para aumentar as vendas de mostarda

Regras de Evolução Temporal Procuram acompanhar a evolução no tempo de um conjunto de dados, tentando obter padrões Exemplo: Comprou um PC com CD-ROM hoje, poderá comprar um DVD-ROM em seis meses Comprou impressora hoje, precisará de novos suprimentos em dois meses Quem comprou videocassete hoje tem 3 vezes mais probabilidade de adquirir uma camcorder 7 meses após a compra Na Evolução Temporal interessa-nos dados que sofrem variações constantemente. Anti-exemplo: departamento de um funcionário

Usa as Outras Técnicas Como Base As Regras de Evolução Temporal são construídas através das técnicas anteriores (caracterização, classificação, associação, clustering) Achar as principais características das empresas cujas ações em bolsas de valores tiveram crescimento de 20% Achar as empresas que tenham ações subindo em conjunto (regras associativas)

Para Terminar Perguntas? Sergio Navega snavega@attglobal.net Artigo sobre DM e cópia destes slides: http://www.intelliwise.com/reports