Data Mining II Modelos Preditivos



Documentos relacionados
Introdução a Sistemas de Apoio à Decisão 4ºAno M, AN,FZ,EN-MEC,EN-AEL V 1.6, V.Lobo, EN 2014

Sistemas de Apoio à Decisão

Introdução a Datamining (previsão e agrupamento)

Introdução a Datamining (previsão e agrupamento)

Aprendizagem de Máquina

Sistemas de Apoio à Decisão Introdução ao DataMining V 1.0, V.Lobo, EN/ISEGI, 2005

Aprendizagem de Máquina

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Introdução a SAD V 1.3, V.Lobo, EN/ISEGI, 2009

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Sistemas de Apoio à Decisão

UNIVERSIDADE CATÓLICA PORTUGUESA Centro Regional das Beiras Pólo de Viseu Instituto Universitário de Desenvolvimento e Promoção Social

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Data, Text and Web Mining

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

A Grande Importância da Mineração de Dados nas Organizações

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Introdução a IO V 1.1, V.Lobo, EN/ISEGI, 2007

Sistemas de Apoio à Decisão. Vocabulário e conceitos Vista geral

Inteligência de Negócio. Brian Cowhig

Investigação Operacional e Gestão de Projectos

Investigação Operacional

BIG DATA INTRODUÇÃO. Humberto Sandmann

Prof. Msc. Paulo Muniz de Ávila

Investigação Operacional e Gestão de Projectos

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Web Data mining com R: aprendizagem de máquina

Ciência dos Dados. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

Aula 02: Conceitos Fundamentais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

SISTEMAS DE APOIO À DECISÃO SAD

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

Inteligência Computacional [2COP229]

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Data Mining: Ferramenta JAVA

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

Ferramentas Livres de Armazenamento e Mineração de Dados

ADM041 / EPR806 Sistemas de Informação

Capítulo. Sistemas de apoio à decisão

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Professor: Disciplina:

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Sistemas de Informação

Cadeira de Tecnologias de Informação. Conceitos fundamentais de sistemas e tecnologias de informação e de gestão do conhecimento.

como ferramenta de análise de informações no mercado de saúde: o caso da Unimed-BH Ana Paula Franco Viegas Pereira

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

LISTA DE EXERCÍCIOS. 1. Binário: Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único caractere

Microsoft Innovation Center

Website disponível em: Nome de Utilizador: Palavra-chave: *aluno*

Matemática Aplicada às Ciências Sociais

UTILIZANDO O SOFTWARE WEKA

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares


MBA Analytics em Big Data

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

Universidade de Brasília. Faculdade de Ciência da Informação. Profa. Lillian Alvares

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

GESTÃO. Gestão dos Processos e Operações Gestão de Sistemas e Tecnologias de Informação (dentro do capítulo 6) CLF

Projeto 6.12 Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software

KDD E MINERAÇÃO DE DADOS:

Web Data Mining com R

INF 1771 Inteligência Artificial

CRM e Prospecção de Dados

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Interatividade aliada a Análise de Negócios

SIS17-Arquitetura de Computadores

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Com as mudanças tecnológicas e acirramento da competitivadade, Advanced Analytics tornou-se uma prioridade para as áreas de negócio

BUSINESS INTELLIGENCE Prof. Fabio Purcino

Chapter 3. Análise de Negócios e Visualização de Dados

Informativo Bimestral da Siqueira Campos Associados agosto de ano VII - Número 21. Catálogo de Treinamentos 2013

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares

Contexto de Big Data, Ciência de Dados e KDD

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010

Sistemas de Informação e Decisão. Douglas Farias Cordeiro

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

Considerações sobre Conhecimento Incerto e Redes Bayesianas

IIH Introdução à Informática e Hardware

Estatística Básica. Introdução à Análise Exploratória de Dados. Renato Dourado Maia. Instituto de Ciências Agrárias

UNIVERSIDADE PRESBITERIANA MACKENZIE Faculdade de Computação e Informática MATRIZ CURRICULAR ELETIVAS

Software PHC com MapPoint

Métodos de Investigação em Sistemas de Informação


Sistemas de Informação

Aplicação de Métodos de Inteligência Artificial em Inteligência de Negócios

3) Descreva resumidamente a função do módulo de Compras do ERP da Microsiga e qual é a sua relação com o conceito de e-procurement.

UNIVERSIDADE LUSÍADA DE LISBOA. Programa da Unidade Curricular PLANIFICAÇÃO ESTRATÉGICA DOS MEDIA Ano Lectivo 2014/2015

A plataforma. Sistemas de Gestão de Aprendizagem. Carlos Nunes

Tecnologias da Informação, Comunicação e Sistemas de Inteligência

Motor de Pesquisa Baseado na Web Semântica

6. QUADRIMESTRE IDEAL 7. NÍVEL Graduação 8. Nº. MÁXIMO DE ALUNOS POR TURMA

Transcrição:

Data Mining II Modelos Preditivos Prof. Doutor Victor Lobo Mestre André Melo Mestrado em Estatística e Gestão de Informação Objectivo desta disciplina Fazer previsões a partir de dados. Conhecer os principais problemas relacionados com previsões baseadas em dados ( data driven ) Conhecer as principais técnicas: Métodos clássicos: regressões, interpolações, extrapol. Decisões Bayesianas Sistemas baseados em instâncias Árvores de decisão Redes neuronais Ensambles 1

Programa (tarços gerais) 1. Introdução aos métodos de previsão em Data Mining 2. Dados, pré-processamento, e estimativas de erro 3.Teoria da decisão e sistemas Bayesianos 4. Aprendizagem e classificação baseada em instâncias 5. Árvores de decisão 6. Redes Neuronais 7. Ensambles Programa (detalhado) 2/5 1. Introdução às técnicas preditivas em DM 2. Dados, pré-processamento, e estimativas de erro 2.1 2.2 2.3 2.4 2.3 2.5 Tipos de dados Métricas para dados numéricos e categóricos Técnicas de normalização O problema dos valores em falta Estimativas de erro de sistemas de classificação e regressão Técnicas para extracção de características e projecções 2

Programa (detalhado) 3/5 3. Teoria da decisão e sistemas Bayesianos 3.1 3.2 Conceitos gerais Decisões óptimas Bayesianas. 4. Aprendizagem e classificação baseada em instâncias 4.1 Algoritmo do vizinho mais próximo 4.2 Variantes do vizinho mais próximo 4.3 Escolha selectiva Programa (detalhado) 5/5 5. Indução de Árvores de Decisão 5.1 Princípios gerais 5.2 Algoritmo DDT 5.3 Outros algoritmos 6. Redes Neuronais 7.1 Perceptrões Multi-camada (MLP) 7.2 Redes de RBF 7.3 Redes de Hopfield 7.4 Support Vector Machines (SVM) 7.5 Outros tipos de redes 11. Ensambles 3

Bibliografia Livros de texto (nenhum é seguido à risca ) Data mining: practical machine learning tools and techniques; Ian H. Witten, Eibe Frank, Mark A. Hall: Morgan Kaufmann, 2011 Machine Learning, Tom M.Mitchell, McGraw Hill, 1997 Pattern Classification, Duda, Hart, & Stork, Wiley, 2001 Outra Bibiliografia Decision Support and Business Intelligence Systems, Turban, E., J. E. Aronson, et al., Prentice Hall, 2010 Principles of data mining, David. J. Hand, Heikki Mannila, Padhric Smyth, MIT Press, 2001 Predictive data mining, Sholom M. Weiss, Nitin Indurkhya, Morgan Kaufmann, 1997 C4.5:Programs for Machine Learning, John Ross Quinlan, Morgan Kaufmann, 1992 4

Avaliação Prova Escrita de Exame (Final) 60% da nota Trabalhos Trabalho prático de grupo (20%) A entregar na altura da prova escrita de Exame 2 alunos por grupo Trabalhos de Casa (20%) 1º para entregar a 18/04/2013 2º para entregar a 17/5/2013 Individual NOTA MÍNIMA EM TODAS AS PROVAS 9 valores Horário de dúvidas e contactos Email: vlobo@isegi.unl.pt Dúvidas 4ª Feira às 19:00 (ou quando combinarmos) Por mail em qualquer altura Sempre que estiver no ISEGI (!) Material de apoio www.isegi.unl.pt/docentes/vlobo 5

Resolução de problemas práticos WEKA SAS Enterprise Miner Outros MS-Excel Matlab Microsoft SQL server Dias de aulas 20 02 2013 4 Aula 1 27 02 2013 4 Aula 2 06 03 2013 4 Aula 3 13 03 2013 4 20 03 2013 4 Aula 4 27 03 2013 4 02 04 2013 3 Aula 5 03 04 2013 4 Aula 6 10 04 2013 4 Aula 7 17 04 2013 4 24 04 2013 4 Aula 8 07 05 2013 3 Aula 9 08 05 2013 4 Aula 10 14 05 2013 3 Aula 11 15 05 2013 4 Aula 12 22 05 2013 4 27 05 2013 2 Aula 13 4ªfeira sem aulas Aula prática Aula à 3ª/2ª feira 6

Software (para esta cadeira e para DM2) Excel! Resolve muitos problemas. Teste de métodos para poucos dados SAS - Enterprise Miner Escalável para problemas a sério Grande variedade de ferramentas Pouca informação detalhada sobre métodos Nosso patrocinador! Disponível nas salas Bom interface visual mas programação pouco amigável www.sas.com Muita informação sobre aplicações Software (pacotes facilmente disponíveis) WEKA Para Datamining e Machine Learning open source em Java Corre em muitos ambientes, bastante completo (v3) http://www.cs.waikato.ac.nz/ml/weka/ Matlab (ou Octave e SciLab que são GNU) Toolboxs de NN, DT, GA, ML, etc SOMTOOLBOX (som), NETLAB (machine learning) www.mathworks.com (site comercial da mathworks) http://www.gnu.org/software/octave/ http://www.scilab.org/ R Package estatístico com muito suporte para datamining Parecido com Matlab (mas diferente ) http://www.r-project.org/ Outros Statistica Neural Networks, SOM_PAK, C4.5(original), SNNS, plug-ins para Excel, etc, etc, etc, etc, 7

Software (pacotes comerciais genéricos) SPSS Clementine Muito difundido nalgumas universidades Versão de educação brevemente disponível www.spss.com IBM - Intelligent Miner Tem uma versão para dowload gratuito http://www-306.ibm.com/software/data/iminer/ SAP - Módulos de Business Intelligence Grande variedade de módulos http://www.sap.com/platform/netweaver/components/bi/index.epx Outros sites interessantes DSS Resources Prof. Daniel Power, livros, referências, etc http://dssresources.com/ Decisionarium Software GNU, referências, etc http://www.decisionarium.tkk.fi Machine Learning Network www.mlnet.org Software, dados, conferências, projectos, etc. Repositório de Irvine www.ics.uci.edu/~mlearn Dados, software, artigos Fabricantes de soluções dedicadas Para gestão de terrenos, para marketing, etc, etc 8

Factores importantes: Quantidade de dados disponíveis Dados operacionais, sensores de baixo custo Poder de cálculo e armazenamento de dados Sistemas computacionais de baixo custo Desenvolvimento científico e tecnológico Inteligência Artificial e Aprendizagem Máquina (Machine Learning), e convergência com as técnicas mais clássicas da área da estatística, da investigação operacional, e do reconhecimento de padrões Software de fácil utilização SAS, SAP, etc. Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação 9

Recolher dados para quê? Exemplo de Janus Olhar o passado e o futuro Estudar o passado para compreender o presente, e prever o futuro 10

Ideias base Aprender com o passado Inferir a partir da experiência Ferramentas: técnicas de datamining by any other name Datamining (lato senso) Componente cognitiva das organizações Objectivo Extrair conhecimento da experiência adquirida Prever acontecimentos, identificar situações, optimizar processos, A PARTIR DA EXPERIÊNCIA Processos de aprendizagem PREVISÕES DADOS Processos de aprendizagem Processos de aprendizagem AGRUPAMENTOS OPTIMIZAÇÃO 11

Modelos versus Dados (ciência versus dataminig?) Model based Incorporam o conhecimento à priori F=ma, PV=nRT Conhecimento certo pelas causas Eventualmente é necessário estimar algum parâmetro (mas poucos) Data driven Procuram relações nos dados Relações não implicam causa/efeito Ou não há modelo, ou há um modelo genérico que normalmente é um aproximador universal (com muitos parâmetros) O ciclo de datamining Escolher dados Identificar problemas ANALISAR (DATA MINING) AGIR MEDIR 12

Simplificando, Datamining é A utilização de três técnicas diferentes: Bases de dados Estatística Aprendizagem máquina. (Machine Learning) Vamos estudar tudo isto? Para resolver principalmente dois tipos de problemas Predição Descobrir novo conhecimento Predição e novo conhecimento Predição é aprender critérios de decisão para ser capaz de classificar casos desconhecidos Descobrir novo conhecimento é encontrar padrões desconhecidos existentes nos dados Gostava de ver exemplos? 13

Tipos de problemas Predição Classificação Regressão O que vamos estudar? Descoberta de conhecimento Detecção de desvios Segmentação de bases de dados Clustering Regras de associação Sumarização Visualização Pesquisa em texto Exemplos Detecção de fraudes na utilização de um cartão de crédito Deferir, ou não, um pedido de crédito Prever perdas com seguros Como descrevo os exemplos? Prever os níveis de audiência dos canais de televisão Classificar os efeitos hidrofónicos produzidos por diferentes navios Analisar as respostas de um inquérito médico Escolher clientes a quem direccionar uma campanha de marketing Cross-selling, fidelização, etc, etc, 14

Problemas a montante... Recolha de dados Representação dos dados Armazenagem, organização, e disponibilização dos dados Pré-processamento dos dados Representação usual dos dados Representação mais usada = tabela (Existem muitas outras...) Exemplo Empresa de seguros de saúde Dado, vector, registo ou padrão Um exemplo? Variável, característica, ou atributo Altura Peso Sexo Idade Ordenado Usa ginásio Encargos para seguradora 1.60 79 M 41 3000 S N 1.72 82 M 32 4000 S N 1.66 65 F 28 2500 N N 1.82 87 M 35 2000 N S 1.71 66 F 42 3500 N S 15