Sistemas de Apoio à Decisão



Documentos relacionados
Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento)

Sistemas de Apoio à Decisão Introdução ao DataMining V 1.0, V.Lobo, EN/ISEGI, 2005

Data Mining II Modelos Preditivos

Introdução à aprendizagem

Aprendizagem de Máquina

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Prof. Msc. Paulo Muniz de Ávila

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

MLP (Multi Layer Perceptron)

Introdução a Sistemas de Apoio à Decisão 4ºAno M, AN,FZ,EN-MEC,EN-AEL V 1.6, V.Lobo, EN 2014

Projeto de Redes Neurais e MATLAB

Aula 02: Conceitos Fundamentais

Inteligência de Negócio. Brian Cowhig

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Data Mining: Conceitos e Técnicas

Planejamento Estratégico de TI. Prof.: Fernando Ascani

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Aprendizagem de Máquina

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Capítulo. Sistemas de apoio à decisão

Professor: Disciplina:

Mineração de Dados: Introdução e Aplicações

Capítulo. Sistemas empresariais

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Introdução. Capítulo 1

Avaliando o que foi Aprendido

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Data, Text and Web Mining

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Interatividade aliada a Análise de Negócios

UTILIZANDO O SOFTWARE WEKA

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Aprendizagem de Máquina

Soluções de análise preditiva para optimizar os processos de negócio. João Pequito. Director Geral da PSE

A Grande Importância da Mineração de Dados nas Organizações

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Ciência dos Dados. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

INF 1771 Inteligência Artificial

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Descoberta de Conhecimento em Bases de Dados. Classificação

KDD UMA VISAL GERAL DO PROCESSO

Uma peça estratégica para o seu negócio

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Web Data mining com R: aprendizagem de máquina

BUSINESS INTELLIGENCE Prof. Fabio Purcino

MESTRADO EM PESQUISA DE MERCADOS

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 1.1: Exemplo de links patrocinados no Google

Reconhecimento de Padrões

DATA WAREHOUSE. Introdução

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

Metodologia Projectual?

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Análise de Sistemas. Conceito de análise de sistemas

Matemática Aplicada às Ciências Sociais

Aula 2 RNA Arquiteturas e Treinamento

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Ferramentas Livres de Armazenamento e Mineração de Dados

1. Objectivo Durante uma experiência, medem-se certas variáveis, ex.: concentrações, pressões, temperaturas,

INFORMAÇÃO PROVA FINAL DE CICLO A NÍVEL DE ESCOLA. Aplicações Informáticas B 12º Ano - Prova /2015

Cadeira de Tecnologias de Informação. Conceitos fundamentais de sistemas e tecnologias de informação e de gestão do conhecimento.

Selling Tools. Dale Carnegie Training Portugal

ORGANIZAÇÃO DO ENSINO DE DISCIPLINA / CRÉDITO RESUMO INTRODUTÓRIO

Desenvolvimento do Módulo de Pré-processamento e Geração de Imagens de. Imagens de Teste do Sistema DTCOURO

6 Construção de Cenários

Hierarquia de modelos e Aprendizagem de Máquina

Sistema Tutor Inteligente baseado em Agentes. Pedagógicas da Universidade Aberta do Piauí. Prof. Dr. Vinicius Ponte Machado

PENTAHO. História e Apresentação

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

Análise de técnicas de selecção de atributos em Bioinformática

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular ESTATÍSTICA MULTIVARIADA Ano Lectivo 2014/2015

Gerenciamento de Dados e Gestão do Conhecimento

Sistemas de Informação

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

IV.4 Análise de Dados da Avaliação

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Define claramente o tema, o seu objectivo e os aspectos a desenvolver. De seguida deves ser capaz de levantar questões sobre o que pretendes

LISTA DE EXERCÍCIOS. 1. Binário: Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único caractere

Orientação a Objetos

Adriano Maranhão BUSINESS INTELLIGENCE (BI),


Transcrição:

Sistemas de Apoio à Decisão Data Mining & Optimização Victor Lobo Objectivos gerais Abrir horizontes em temas actuais Aprender técnicas usadas em Sistemas de apoio à decisão ou Business Intelligence Métodos de DataMining Pesquisa de informação em grandes bases de dados Aprender com experiência passada Métodos de Optimização Resolver problemas de pesquisa complicados 1

Programa (parte relativa a técnicas) 1. Introdução a Data Mining 2. Redes Neuronais Perceptrão multicamada (MLP) 3. Redes Neuronais Mapas auto-organizados (SOM) 4. Árvores de decisão 5. Introdução às técnicas de optimização 6. Algoritmos Genéticos Bibliografia Data Mining Techniques, for sales and customer support Berry, M., Linoff, G., John Wiley and Sons, 1997 Principles of Data Mining Hand, D., Mannila,H,,Smyth,P.; MIT Press, 2001 Machine Learning Mitchell, Tom,, McGraw-Hill, 1997 Haykin, Bishop, Hertz, Breiman, Salvador, 2

Software SAS - Enterprise Miner SPSS - Clementine IBM - Intelligent Miner open source em Java - WEKA Nosso patrocinador! Disponível nas salas SAP Módulos de Business Intelligence Matlab Toolboxs de NN, DT, GA, etc Outros Statistica Neural Networks, SOM_PAK, C4.5(original), SNNS, plug- ins para Excel, etc, etc, etc, etc, Alguns sites interessantes Machine Learning Network www.mlnet.org Software, dados, conferências, projectos, etc. Repositório de Irvine www.ics.uci.edu/~mlearn Dados, software, artigos Homepage do WEKA www.mkp.com/datamining SOM (H.U.T.) www.cis.hut.fi/research/som-research/ Software, bibliografia sobre SOM 3

Introdução ao Data Mining O que é Data Mining? Data Mining é a pesquisa de informação útil em grande quantidades de dados O que é ser útil? O que pretende obter? Consequência do enorme volume de informação actualmente disponível 4

Informação é poder... Água é vida... Todos os anos morre gente afogada... É necessário trabalhar a informação Hierarquia de compreensão e utilidade Conhecimento Informação Dados E o que fazer depois de ter os dados organizados? 5

O ciclo de data mining Escolher dados Identificar probelmas ANALISAR (DATA MINING) AGIR MEDIR Simplificando, Data Mining é A utilização de três técnicas diferentes: Bases de dados Estatística Vamos estudar tudo isto? Aprendizagem máquina. (Machine Learning) Para resolver dois tipos de problemas Predição Descobrir novo conhecimento 6

Predição e novo conhecimento Predição é aprender critérios de decisão para ser capaz de classificar casos desconhecidos Descobrir novo conhecimento é encontrar padrões desconhecidos existentes nos dados Gostava de ver exemplos? Tipos de problemas Predição Classificação Regressão O que vamos estudar? Descoberta de conhecimento Detecção de desvios Segmentação de bases de dados Clustering Regras de associação Sumarização Visualização Pesquisa em texto 7

Exemplos Detecção de fraudes na utilização de um cartão de crédito Deferir, ou não, um pedido de crédito Prever perdas com seguros Como descrevo os exemplos? Prever os níveis de audiência dos canais de televisão Classificar os efeitos hidrofónicos produzidos por diferentes navios Analisar as respostas de um inquérito médico Escolher clientes a quem direccionar uma campanha de marketing Cross-selling, fidelização, etc, etc, Problemas a montante... Recolha de dados Representação dos dados Armazenagem, organização, e disponibilização dos dados Pré-processamento dos dados 8

Representação dos dados Representação mais usada = tabela (Existem muitas outras...) Exemplo Empresa de seguros de saúde Dado, vector, registo ou padrão Um exemplo? Variável, característica, ou atributo Altura Peso Sexo Idade Ordenado Usa ginásio Encargos para seguradora 1.60 79 M 41 3000 S N 1.72 82 M 32 4000 S N 1.66 65 F 28 2500 N N 1.82 87 M 35 2000 N S 1.71 66 F 42 3500 N S Tipos de atributos Booleanos ou binários Só tomam dois valores Nominais Tomam um conjunto de valores não ordenados Ordinais Tomam um conjunto (finito) de valores ordenados Numéricos 9

Como organizar os dados? Data warehouse É o suporte centralizado de informação importante para a decisão. É uma base de dados? Como organizo tudo isto? O modelo de data warehouse Bases de dados Métodos preditivos Data Warehouse Forma Standard 10

Passos para construir a data warehouse Extrair Transformar Limpar Integrar Data Warehouse Bases de dados Pré-processamento dos dados Tratar dos missing values Eliminá-los, substituí-los, etc Corrigir factores de escala entre atributos Normalização linear por min/max Normalizar média e desvio padrão Outras Transformações de variáveis... Vidé Data preparation for Data Mining, Dorian Pyle, Morgan Kaufmann, 1999 11

Alguns problemas importantes que NÃO vamos tratar... Escolha dos atributos Visualização Dados multidimensionais Problema central em datamining OLAP e outras técnicas de reporting On-line Analytical Processing Regras de Associação e Market Basket Analysis Introdução à aprendizagem Aprender a partir dos dados conhecidos 12

Fases do processo Exemplos (Treino) Algoritmo Conhecimento Aprendizagem Classificação Exemplos (novos) Interpretador CLASSIFICAÇÃO Exemplo de aprendizagem (1) Agência imobiliária pretende estimar qual a gama de preços para cada clinente Exemplos de treino: Dados históricos Ordenado vs custos de casas compradas Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Custo da casa Ordenado 13

Exemplo de aprendizagem (2) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Algoritmo Regressão linear Representação do conhecimento Recta (declive e ordenada na origem) Custo da casa Ordenado Exemplo de aprendizagem (3) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Exemplos novos Um novo cliente, com ordenado x Interpretação Usar a recta (método de previsão usado) para obter uma PREVISÃO Custo da casa x Ordenado 14

Outro problema de predição Exemplo da seguradora Existem um conjunto de dados conhecidos Conjunto de treino Queremos prever o que vai ocorrer noutros casos Empresa de seguros de saúde quer estimar custos com um novo cliente Conjunto de treino (dados históricos) E o Manel? Altura 1.60 1.72 1.66 Peso 79 82 65 Sexo M M F Idade 41 32 28 Ordenado 3000 4000 2500 Usa ginásio S S N Encargos para seguradora N N N Altura=1.73 Peso=85 Idade=31 Ordenado=2800 Ginásio=N 1.82 1.71 87 66 M F 35 42 2000 3500 N N S S Terá encargos para a seguradora? Tipos de sistemas de previsão Clássicos Regressões lineares, logísticas, etc... Redes Neuronais Árvores de decisão Regressões lineares Dados Redes neuronais Árvores de decisão Previsões 15

Tipos de Aprendizagem SUPERVISIONADA vs NÃO SUPERVISIONADA INCREMENTAL vs BATCH PROBLEMAS Professor/Aluno Todo o processo de aprendizagem pode ser caracterizado por um protocolo entre o professor e o aluno. O professor pode variar entre o tipo dialogante e o não cooperante. Onde já vi isto? 16

Protocolos Professor/Aluno Professor nada cooperante Só dá os exemplos => não supervisionada Professor cooperante Dá exemplos classificados => supervisionada Professor pouco cooperante Só diz se os resultados estão certos ou errados => aprendizagem por reforço Professor dialogante - ORÁCULO Formas de adquirir o conhecimento Incremental Os exemplos são apresentados um de cada vez e a estrutura de representação vai-se alterando Não incremental (batch) Os exemplos são apresentados todos ao mesmo tempo e são considerados em conjunto. 17

Acesso aos exemplos Aprendizagem offline Todos os exemplos estão disponíveis ao mesmo tempo Aprendizagem online Os exemplos são apresentados um de cada vez Aprendizagem mista Uma mistura dos dois casos anteriores Problema do nº de atributos Poucos atributos Não conseguimos distinguir classes Muitos atributos Caso mais vulgar em Datamining Praga da dimensionalidade Visualização difícil e efeitos estranhos Atributos importantes vs redundantes Quais os atributos importantes para a tarefa? 18

Problema da separabilidade Separáveis Erro Ø possível Não separáveis Erro sempre > Ø Erro de Bayes Erro mínimo possível para um classificador Problema do melhor tipo de modelo A representação de conhecimento mais simples. Mais fácil de entender Árvores de decisão vs redes neuronais A representação de conhecimento com menor probabilidade de erro. A representação de conhecimento mais provável Navalha de Occam... 19

Problemas... Adequabilidade da representação do conhecimento à tarefa que se quer aprender Ruído Ruído na classificação dos exemplos ou nos valores dos atributos. Má informação é pior que nenhuma informação Enormes quantidades de dados Quais são importantes? Tempo de processamento Aprender demais Decorar os dados. Vamos ver isso agora... Generalização e overfitting 20

Os dados Universo Amostra (bem conhecida) Exemplo de overfitting Seja um conjunto de 11 pontos. Encontrar um polinómio de grau M que represente esses 11 pontos. 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 y M ( x) = i= 0 w i x i 21

Aproximação M = 1 ( x) = w w x y 0 + 1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Aproximação M = 3 2 3 ( x) = w + w x + w x w y + 0 1 2 3x 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=3 22

Aprocimação M = 10 2 3 5 6 7 8 9 10 ( x) = w + w x + w x + w x + w x + w x + w x + w x + w x w y + 0 1 2 3 4 6 7 8 9 10x 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=10 Overfitting 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=1 M=3 M=10 23

Curva de Overfiting Probabilidade de erro 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 A melhor Representação Conjunto de Teste Conjunto de treino Complexidade da representação do conhecimento Fases do processo Exemplos (Validação) Exemplos (Treino) Algoritmo Conhecimento Aprendizagem Classificação Exemplos (Teste) Interpretador CLASSIFICAÇÃO 24

Generalização O objectivo não é aprender a agir no conjunto de treino mas sim no universo desconhecido! Como preparar para o desconhecido? Manter um conjunto de teste de reserva Conjunto de treino/validação/teste Dados Known, conhecidos labeled data Conjunto Training de treino set Validation Conj. de Validação set Dados New, unlabeled Novos data Treina Controla o processo de aprendizagem Conj. Test Teste set Trabalho útil Classificador Classifier Prevê a capacidade de generalização 25

Divisão dos dados Conjunto de treino Quanto maior, melhor o classificador obtido Conjunto de validação Quanto maior, melhor a estimação do treino óptimo Conjunto de teste Quanto maior, melhor a estimação do desempenho do classificador Processo de aprendizagem A aprendizagem é um processo de optimização (Minimização do erro) Algoritmo de optimização Método do gradiente Subir a encosta Guloso Algoritmos genéticos Simulated annealing O que é o bias da pesquisa? Formas de adquirir o conhecimento 26

Projecto do sistema de aprendizagem Tarefas do projecto Preparação dos dados. Redução dos dados. Modelação e predição dos dados. Casos e análise das soluções 27

Aproximação exploratória... Fenómeno Physical phenomena Medições experimentais Dados Raw em data bruto Extracção de características (feature extraction) Extracção optimizada das características Classificador Classifier perspectivas Análise exploratória de dados Desenho do classificador Características fundamentais Fundamental features Características Features Selecção de características (feature selection) Informação útil Validação Preparação dos dados Objectivos Data Warehouse Transformação dos dados Forma Standard Dependências temporais 28

Redução dos dados Métodos de redução Conjunto de treino Forma standard inicial Conjunto de treino inicial Atributos reduzidos Forma standard reduzida Conjunto de validação Conjunto de teste inicial Conjunto de teste Modelação iterativa e predição Mudança de parâmetros Conjunto de treino Método de predição Solução Testa o melhor Conjunto de validação 29

Análise das soluções Conjunto de teste Conjunto de treino Selecção de um subconjunto Análise da medida de desempenho Subconjunto de treino Método de predição Solução Considerações finais 30

Os principais paradigmas Redes Neuronais Baseados em instâncias Algoritmos genéticos Indução de regras Aprendizagem analítica Alguns pontos para meditar(1) Que modelos são mais adequados para um caso específico? Que algoritmos de treino são mais adequados para um caso específico? Quantos exemplos são necessários? Qual a confiança que podemos ter na medida de desempenho? Como pode o conhecimento a priori ajudar o processo de indução? 31

Alguns pontos para meditar(2) Qual a melhor estratégia para escolher o processo exemplo? Em que medida a estratégia altera o processo de aprendizagem? Quais as funções objectivo que se devem escolher para aprender? Poderá esta escolha ser automatizada? Como pode o sistema alterar automaticamente a sua representação para melhorar a capacidade de representar e aprender a função objectivo? Exemplos de problemas 32

Exemplos (1) Um banco quer estudar as características dos seus clientes. Para isso precisa de encontrar grupos de clientes para os caracterizar. Quais as variáveis do problema? Como descrever os diferentes clientes. Que problema de aprendizagem se está a tratar? Exemplo (2) Uma empresa de ramo automóvel resolveu desenvolver um sistema automático de condução de automóveis. Quais as variáveis do problema? Como descrever os diferentes ambientes. Que problema de aprendizagem se está a tratar? 33

Exemplo (3) Quer estudar-se a relação entre o custo das casas e os bairros de Lisboa. Quais as variáveis do problema? Como descrever os diferentes bairros. É um problema problema de predição, mas será de classificação ou de regressão? Exemplo (4) Uma empresa de seguros do ramo automóvel quer detectar as fraudes das declarações de acidentes. Quais as variáveis do problema? Como descrever os clientes e os acidentes? É um problema problema de predição, mas será de classificação ou de regressão? 34