Introdução a Datamining (previsão e agrupamento)



Documentos relacionados
Introdução a Datamining (previsão e agrupamento)

Sistemas de Apoio à Decisão

Sistemas de Apoio à Decisão Introdução ao DataMining V 1.0, V.Lobo, EN/ISEGI, 2005

Introdução à aprendizagem

Data Mining II Modelos Preditivos

Introdução ao Datamining 4ºAno M, AN,FZ,EN-MEC,EN-AEL V 1.3, V.Lobo, EN 2008

Aprendizagem de Máquina

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

MLP (Multi Layer Perceptron)

Avaliando o que foi Aprendido

Matemática Aplicada às Ciências Sociais

Capítulo. Sistemas de apoio à decisão

Exemplo de Aplicação do DataMinig

Projeto de Redes Neurais e MATLAB

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Introdução. Capítulo 1

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

INF 1771 Inteligência Artificial

Prof. Msc. Paulo Muniz de Ávila

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Métodos Matemáticos para Gestão da Informação

Reconhecimento de Padrões

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Figura 1.1: Exemplo de links patrocinados no Google

Análise de complexidade

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Descoberta de Conhecimento em Bases de Dados. Classificação

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Regressão Linear Multivariada

Análise de técnicas de selecção de atributos em Bioinformática

Data Mining: Conceitos e Técnicas

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

MESTRADO EM PESQUISA DE MERCADOS

Aula 02: Conceitos Fundamentais

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por


AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO. Escola Básica e Secundária Dr. Vieira de Carvalho. Departamento de Ciências Experimentais

como ferramenta de análise de informações no mercado de saúde: o caso da Unimed-BH Ana Paula Franco Viegas Pereira

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

ORGANIZAÇÃO DO ENSINO DE DISCIPLINA / CRÉDITO RESUMO INTRODUTÓRIO

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Classificação - avaliação de resultados - 1. Mineração de Dados 2013

Novas Tecnologias de Informação

Gestão de Produção Indústria Têxtil e Confecções

ADM041 / EPR806 Sistemas de Informação

CRM e Prospecção de Dados

Aprendizagem de Máquina

1. Objectivo Durante uma experiência, medem-se certas variáveis, ex.: concentrações, pressões, temperaturas,

O que Vês na Imagem?

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

Prof. Dr. Guanis de Barros Vilela Junior

SISTEMA. Tecnologia. Software. Hardware. Prazos. Pessoas. Qualidade. Custo GERENCIAMENTO DE RISCO: COMO GARANTIR O SUCESSO DOS PROJETOS DE TI?

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Algoritmos Indutores de Árvores de

Possui como idéia central a divisão de um universo de dados a ser organizado em subconjuntos mais gerenciáveis.

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Cap.1 Introdução a NTI, DataMining, e Aprendizagem Automática V 3.0, V.Lobo, EN/ISEGI, 2005

1.-A Gestão e a evolução das teorias da Gestão

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

Análise e Complexidade de Algoritmos

DATA WAREHOUSE. Introdução


Define claramente o tema, o seu objectivo e os aspectos a desenvolver. De seguida deves ser capaz de levantar questões sobre o que pretendes

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

Dois Quentes, Dois Frios

1. Motivação para o sucesso (Ânsia de trabalhar bem ou de se avaliar por uma norma de excelência)

Computação Adaptativa

UTILIZANDO O SOFTWARE WEKA

Matemática para as Artes

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Metodologia Projectual?

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

SisDEA Home Windows Versão 1

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pré processamento de dados II. Mineração de Dados 2012

Diagrama de transição de Estados (DTE)

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

BRINCANDO COM GRÁFICOS E MEDINDO A SORTE

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Matlab - Neural Networw Toolbox. Ana Lívia Soares Silva de Almeida

Análise de Sistemas. Conceito de análise de sistemas

Introdução a Química Analítica. Professora Mirian Maya Sakuno

EXERCÍCIO: R: / 12,00 = quotas

O que é Estudo de Caso?

Indice. Prefácio CAPÍTULO 1 - Introdução à gestão da qualidade

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

Web Data Mining com R: design de projetos para criação de modelos preditivos

Aprendizagem de Máquina

ARQUITECTURAS DE SOFTWARE

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

Microsoft Innovation Center

Transcrição:

Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação E o que fazer depois de ter os dados organizados?

Ideias base Aprender com o passado Inferir a partir da experiência Ferramentas: técnicas de datamining by any other name Datamining (lato senso) Componente cognitiva das organizações Objectivo Extrair conhecimento da experiência adquirida Prever acontecimentos, identificar situações, optimizar processos, A PARTIR DA EXPERIÊNCIA Processos de aprendizagem PREVISÕES DADOS Processos de aprendizagem Processos de aprendizagem AGRUPAMENTOS OPTIMIZAÇÃO

Modelos versus Dados (ciência versus dataminig?) Model based Incorporam o conhecimento à priori F=ma, PV=nRT Conhecimento certo pelas causas Eventualmente é necessário estimar algum parâmetro (mas poucos) Data driven Procuram relações nos dados Relações não implicam causa/efeito Ou não há modelo, ou há um modelo genérico que normalmente é um aproximador universal (com muitos parâmetros) O ciclo de datamining Escolher dados Identificar problemas ANALISAR (DATA MINING) AGIR MEDIR

Simplificando, Datamining é A utilização de três técnicas diferentes: Bases de dados Estatística Aprendizagem máquina. (Machine Learning) Vamos estudar tudo isto? Para resolver principalmente dois tipos de problemas Predição Descobrir novo conhecimento Predição e novo conhecimento Predição é aprender critérios de decisão para ser capaz de classificar casos desconhecidos Descobrir novo conhecimento é encontrar padrões desconhecidos existentes nos dados Gostava de ver exemplos?

Tipos de problemas Predição Classificação Regressão O que vamos estudar? Descoberta de conhecimento Detecção de desvios Segmentação de bases de dados Clustering Regras de associação Sumarização Visualização Pesquisa em texto Exemplos Detecção de fraudes na utilização de um cartão de crédito Deferir, ou não, um pedido de crédito Prever perdas com seguros Como descrevo os exemplos? Prever os níveis de audiência dos canais de televisão Classificar os efeitos hidrofónicos produzidos por diferentes navios Analisar as respostas de um inquérito médico Escolher clientes a quem direccionar uma campanha de marketing Cross-selling, fidelização, etc, etc,

Problemas a montante... Recolha de dados Representação dos dados Armazenagem, organização, e disponibilização dos dados Pré-processamento dos dados Representação usual dos dados Representação mais usada = tabela (Existem muitas outras...) Exemplo Empresa de seguros de saúde Dado, vector, registo ou padrão Um exemplo? Variável, característica, ou atributo Altura Peso Sexo Idade Ordenado Usa ginásio 1.60 79 M 41 3000 S N 1.72 82 M 32 4000 S N 1.66 65 F 28 2500 N N 1.82 87 M 35 2000 N S 1.71 66 F 42 3500 N S Encargos para seguradora

Introdução à aprendizagem Aprender a partir dos dados conhecidos Fases do processo Exemplos (Treino) Algoritmo Conhecimento Aprendizagem Classificação Exemplos (novos) Interpretador CLASSIFICAÇÃO

Exemplo de aprendizagem Classificação Agência imobiliária pretende estimar qual a gama de preços para cada clinente Exemplos de treino: Dados históricos Ordenado vs custos de casas compradas (1) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Custo da casa Ordenado Exemplo de aprendizagem (2) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Algoritmo Regressão linear Representação do conhecimento Recta (declive e ordenada na origem) Custo da casa Ordenado

Exemplo de aprendizagem (3) Exemplos (Treino) Classificação Algoritmo Exemplos (novos) Conhecimento Interpretador Aprendizagem CLASSIFICAÇÃO Exemplos novos Um novo cliente, com ordenado x Interpretação Usar a recta (método de previsão usado) para obter uma PREVISÃO Custo da casa x Ordenado Outro problema de predição Exemplo da seguradora (seguros de saúde) Existe um conjunto de dados conhecidos Conjunto de treino Queremos prever o que vai ocorrer noutros casos Empresa de seguros de saúde quer estimar custos com um novo cliente Conjunto de treino (dados históricos) E o Manel? Altura Peso Sexo Idade Ordenado Usa ginásio 1.60 79 M 41 3000 S N 1.72 82 M 32 4000 S N 1.66 65 F 28 2500 N N 1.82 87 M 35 2000 N S 1.71 66 F 42 3500 N S Encargos para seguradora Altura=1.73 Peso=85 Idade=31 Ordenado=2800 Ginásio=N Terá encargos para a seguradora?

Tipos de sistemas de previsão Clássicos Regressões lineares, logísticas, etc... Vizinhos mais próximos Redes Neuronais Árvores de decisão Regras Dados ensembles Regressões lineares Redes neuronais Árvores de decisão Previsões Tipos de Aprendizagem SUPERVISIONADA vs NÃO SUPERVISIONADA INCREMENTAL vs BATCH PROBLEMAS

Professor/Aluno Todo o processo de aprendizagem pode ser caracterizado por um protocolo entre o professor e o aluno. O professor pode variar entre o tipo dialogante e o não cooperante. Onde já vi isto? Protocolos Professor/Aluno Professor nada cooperante Só dá os exemplos => não supervisionada Professor cooperante Dáexemplos classificados => supervisionada Professor pouco cooperante Só diz se os resultados estão certos ou errados => aprendizagem por reforço Professor dialogante - ORÁCULO

Formas de adquirir o conhecimento Incremental Os exemplos são apresentados um de cada vez e a estrutura de representação vai-se alterando Não incremental (batch) Os exemplos são apresentados todos ao mesmo tempo e são considerados em conjunto. Acesso aos exemplos Aprendizagem offline Todos os exemplos estão disponíveis ao mesmo tempo Aprendizagem online Os exemplos são apresentados um de cada vez Aprendizagem mista Uma mistura dos dois casos anteriores

Problema do nº de atributos Poucos atributos Não conseguimos distinguir classes Muitos atributos Caso mais vulgar em Datamining Praga da dimensionalidade Visualização difícil e efeitos estranhos Atributos importantes vs redundantes Quais os atributos importantes para a tarefa? Problema da separabilidade Separáveis Erro Ø possível Não separáveis Erro sempre > Ø Erro de Bayes Erro mínimo possível para um classificador

Problema do melhor tipo de modelo A representação de conhecimento mais simples. Mais fácil de entender Árvores de decisão vs redes neuronais A representação de conhecimento com menor probabilidade de erro. A representação de conhecimento mais provável Navalha de Occam... Problemas... Adequabilidade da representação do conhecimento à tarefa que se quer aprender Ruído Ruído na classificação dos exemplos ou nos valores dos atributos. Má informação é pior que nenhuma informação Enormes quantidades de dados Quais são importantes? Tempo de processamento Aprender demais Decorar os dados. Vamos ver isso agora...

Generalização e overfitting Os dados Universo Amostra (bem conhecida) Onde queremos fazer previsões Onde é feita a aprendizagem

Exemplo de overfitting Seja um conjunto de 11 pontos. Encontrar um polinómio de grau M que represente esses 11 pontos. y M ( x) = i= 0 w i x i 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Aproximação M = 1 ( x) w w x y = + Erro grande 0 1 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1

Aproximação M = 3 2 3 ( x) = w + w x + w x w y + 0 1 2 3x 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=3 Aproximação M = 10 2 3 4 5 6 7 8 9 10 ( x ) = w + w x + w x + w x + w x + w x + w x + w x + w x + w x w y + 0 1 2 3 4 5 6 7 8 9 10x 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=10 Erro zero

Overfitting 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 0,2 0,4 0,6 0,8 1 Data M=1 M=3 M=10 Curva de Overfiting Probabilidade de erro 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 A melhor Representação Conjunto de Teste Conjunto de treino 0,1 0 Complexidade da representação do conhecimento

Fases do processo Exemplos (Validação) Exemplos (Treino) Algoritmo Conhecimento Aprendizagem Classificação Exemplos (Teste) Interpretador CLASSIFICAÇÃO Generalização O objectivo não é aprender a agir no conjunto de treino mas sim no universo desconhecido! Como preparar para o desconhecido? Manter um conjunto de teste de reserva

Conjunto de treino/validação/teste Dados Known, conhecidos labeled data Conjunto Training de treino set Validation Conj. de set Validação Dados New, unlabeled Novos data Treina Controla o processo de aprendizagem Conj. Test Teste set Trabalho útil Classificador Classifier Prevê a capacidade de generalização Divisão dos dados Conjunto de treino Usado para construir o classificador Quanto maior, melhor o classificador obtido Conjunto de validação Usado para controlar a aprendizagem (opcional) Quanto maior, melhor a estimação do treino óptimo Conjunto de teste Usado para estimar o desempenho Quanto maior, melhor a estimação do desempenho do classificador

Estimativas do erro do classificador Em problemas de classificação Taxa de erro = nº de erros/total (ou missclassification error) Possibilidade de usar o custo do erro Em problemas de regressão Erro quadrático médio, erro médio, etc Estimativas optimistas ou não-enviesadas Erro no conjunto de treino (erro de resubstituição) Optimista Erro no conjunto de validação Ligeiramente optimista Erro no conjunto de teste Não enviesado. A melhor estimativa possível (no entanto se estes dados fossem usados para treino ) Estimativas robustas do erro Validação cruzada Cross-validation, ou leave n out Dividir os mesmos dados em diferentes partições treino/teste Calcular erro médio Nenhum dos classificadores é melhor que os outros!!! Treino Teste 1 2 3 4 1 2 3 4 1 2 4 3 1 3 4 2 2 3 4 1 e 4 e 3 e 2 e 1 Erro=Σe i /4

Outras medidas de erro em classificação Matriz de Classificado Classificado Matriz de confusão Confusão como SIM como NÃO Separa os diversos tipos de erro Realmente é SIM TP FN Falso Positivo (FP) Realmente é NÃO FP TN O classificador diz que é, e não é Falso Negativo (FN) O classificador não detecta que é Permite compreender em que é que o classificador é bom Medidas de erro Taxa de erro = (FP+FN)/n Confiança positiva = TP/(TP+FP) Confiança negativa = TN/(TN+FN) Sensibilidade = TP/(TP+FN) Precisão (acuracy) = (TP+TN)/n Há mais medidas, adaptadas a cada problema em particular! Erro mais tradicional Quão definitivo é um resultado positivo Quão definitivo é um resultado negativo Quão bom é a apanhar os positivos O complementar da taxa de erro Processo de aprendizagem A aprendizagem é um processo de optimização (Minimização do erro) Algoritmo de optimização Método do gradiente Subir a encosta Guloso Algoritmos genéticos Simulated annealing O que é o bias da pesquisa? Formas de adquirir o conhecimento

Iterações sucessivas do sistema de aprendizagem Tarefas do projecto do sistema Preparação dos dados. Redução dos dados. Modelação e predição dos dados. Casos e análise das soluções

Aproximação exploratória... Extracção optimizada das características novos dados Fenómeno Physical phenomena Classificador Classifier Medi ções Experimentais Conjunto de dados controlados perspectivas Análise exploratória de dados Desenho do classificador Dados Raw em data bruto Características fundamentais Fundamental features Extracção de características (feature extraction) Características Features Selecção de características (feature selection) Informação útil Valida ção Preparação dos dados Objectivos Data Warehouse Transformação dos dados Forma Standard Dependências temporais

Redução dos dados Métodos de redução Conjunto de treino Forma standard inicial Conjunto de treino inicial Atributos reduzidos Forma standard reduzida Conjunto de validação Conjunto de teste inicial Conjunto de teste Modelação iterativa e predição Mudança de parâmetros Conjunto de treino Método de predição Solução Testa o melhor Conjunto de validação

Análise das soluções Conjunto de teste Conjunto de treino Selecção de um subconjunto Análise da medida de desempenho Subconjunto de treino Método de predição Solução Os principais paradigmas Redes Neuronais Baseados em instâncias Algoritmos genéticos Indução de regras Aprendizagem analítica

Alguns pontos para meditar(1) Que modelos são mais adequados para um caso específico? Que algoritmos de treino são mais adequados para um caso específico? Quantos exemplos são necessários? Qual a confiança que podemos ter na medida de desempenho? Como pode o conhecimento a priori ajudar o processo de indução? Alguns pontos para meditar(2) Qual a melhor estratégia para escolher os exemplos? Em que medida a estratégia altera o processo de aprendizagem? Quais as funções objectivo que se devem escolher para aprender? Poderá esta escolha ser automatizada? Como pode o sistema alterar automaticamente a sua representação para melhorar a capacidade de representar e aprender a função objectivo?

Exemplos de problemas Exemplos (1) Um banco quer estudar as características dos seus clientes. Para isso precisa de encontrar grupos de clientes para os caracterizar. Quais as variáveis do problema? Como descrever os diferentes clientes. Que problema de aprendizagem se está a tratar?

Exemplo (2) Uma empresa de ramo automóvel resolveu desenvolver um sistema automático de condução de automóveis. Quais as variáveis do problema? Como descrever os diferentes ambientes. Que problema de aprendizagem se está a tratar? Exemplo (3) Quer estudar-se a relação entre o custo das casas e os bairros de Lisboa. Quais as variáveis do problema? Como descrever os diferentes bairros. É um problema problema de predição, mas será de classificação ou de regressão?

Exemplo (4) Uma empresa de seguros do ramo automóvel quer detectar as fraudes das declarações de acidentes. Quais as variáveis do problema? Como descrever os clientes e os acidentes? É um problema problema de predição, mas será de classificação ou de regressão?