Introdução a Datamining (previsão e agrupamento)



Documentos relacionados
Introdução a Datamining (previsão e agrupamento)

Sistemas de Apoio à Decisão

Sistemas de Apoio à Decisão Introdução ao DataMining V 1.0, V.Lobo, EN/ISEGI, 2005

Introdução à aprendizagem

Data Mining II Modelos Preditivos

Introdução ao Datamining 4ºAno M, AN,FZ,EN-MEC,EN-AEL V 1.3, V.Lobo, EN 2008

Aprendizagem de Máquina

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Matemática Aplicada às Ciências Sociais

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Avaliando o que foi Aprendido

MLP (Multi Layer Perceptron)

Exemplo de Aplicação do DataMinig

Capítulo. Sistemas de apoio à decisão

Projeto de Redes Neurais e MATLAB

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Prof. Msc. Paulo Muniz de Ávila

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

INF 1771 Inteligência Artificial

Introdução. Capítulo 1

Figura 1.1: Exemplo de links patrocinados no Google

Análise de complexidade

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Regressão logística na identificação de factores de risco em acidentes automóveis e fraude de seguros.

Métodos Matemáticos para Gestão da Informação

Descoberta de Conhecimento em Bases de Dados. Classificação

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Reconhecimento de Padrões

Análise de técnicas de selecção de atributos em Bioinformática

Data Mining: Conceitos e Técnicas

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu


AGRUPAMENTO DE ESCOLAS DR. VIEIRA DE CARVALHO. Escola Básica e Secundária Dr. Vieira de Carvalho. Departamento de Ciências Experimentais

como ferramenta de análise de informações no mercado de saúde: o caso da Unimed-BH Ana Paula Franco Viegas Pereira

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

Regressão Linear Multivariada

Possui como idéia central a divisão de um universo de dados a ser organizado em subconjuntos mais gerenciáveis.

Aula 02: Conceitos Fundamentais

Novas Tecnologias de Informação

MESTRADO EM PESQUISA DE MERCADOS

CRM e Prospecção de Dados

Gestão de Produção Indústria Têxtil e Confecções

Matemática para as Artes

ADM041 / EPR806 Sistemas de Informação

ORGANIZAÇÃO DO ENSINO DE DISCIPLINA / CRÉDITO RESUMO INTRODUTÓRIO

1. Objectivo Durante uma experiência, medem-se certas variáveis, ex.: concentrações, pressões, temperaturas,

O que Vês na Imagem?

Prof. Dr. Guanis de Barros Vilela Junior

O que é Estudo de Caso?

INTELIGÊNCIA ARTIFICIAL Data Mining (DM): um pouco de prática. (1) Data Mining Conceitos apresentados por

O QUE É E COMO FUNCIONA O CREDIT SCORING PARTE I

Classificação - avaliação de resultados - 1. Mineração de Dados 2013

Cap.1 Introdução a NTI, DataMining, e Aprendizagem Automática V 3.0, V.Lobo, EN/ISEGI, 2005

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

DATA WAREHOUSE. Introdução


TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

por João Gomes, Director Executivo do Instituto de Planeamento e Desenvolvimento do Turismo e Professor Associado da Universidade Fernando Pessoa

Dois Quentes, Dois Frios

Metodologia Projectual?

SisDEA Home Windows Versão 1

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Análise e Desenvolvimento de Sistemas ADS Programação Orientada a Obejeto POO 3º Semestre AULA 03 - INTRODUÇÃO À PROGRAMAÇÃO ORIENTADA A OBJETO (POO)

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

Pré processamento de dados II. Mineração de Dados 2012

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

BRINCANDO COM GRÁFICOS E MEDINDO A SORTE

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Sistemas de Apoio à Decisão Árvores de decisão V 1.2, V.Lobo, EN/ISEGI, 2010

SISTEMA. Tecnologia. Software. Hardware. Prazos. Pessoas. Qualidade. Custo GERENCIAMENTO DE RISCO: COMO GARANTIR O SUCESSO DOS PROJETOS DE TI?

Aprendizagem de Máquina

Introdução a Química Analítica. Professora Mirian Maya Sakuno

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Análise e Complexidade de Algoritmos

Algoritmos Indutores de Árvores de

Indice. Prefácio CAPÍTULO 1 - Introdução à gestão da qualidade

Web Data Mining com R: design de projetos para criação de modelos preditivos

COMENTÁRIO AFRM/RS 2012 ESTATÍSTICA Prof. Sérgio Altenfelder

UNISINOS - UNIVERSIDADE DO VALE DO RIO DOS SINOS

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

Extração de Requisitos

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Define claramente o tema, o seu objectivo e os aspectos a desenvolver. De seguida deves ser capaz de levantar questões sobre o que pretendes

Classificação da imagem (ou reconhecimento de padrões): objectivos Métodos de reconhecimento de padrões

UTILIZANDO O SOFTWARE WEKA

1. Motivação para o sucesso (Ânsia de trabalhar bem ou de se avaliar por uma norma de excelência)

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Como elaborar um Plano de Negócios de Sucesso

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Análise da mortalidade em Portugal.

Explorações de alunos

Diagrama de transição de Estados (DTE)

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

Computação Adaptativa

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Transcrição:

E o que fazer depois de ter os dados organizados? Introdução a Datamining (previsão e agrupamento) Victor Lobo Mestrado em Estatística e Gestão de Informação Ideias base Aprender com o passado Inferir a partir da experiência Datamining (lato senso) Componente cognitiva das organizações Objectivo Extrair conhecimento da experiência adquirida Prever acontecimentos, identificar situações, optimizar processos, A PARTIR DA EXPERIÊNCIA Processos de PREVISÕES Ferramentas: técnicas de datamining byany other name DADOS Processos de Processos de AGRUPAMENTOS OPTIMIZAÇÃO Modelos versus Dados (ciência versus dataminig?) O ciclo de datamining Model based Incorporam o conhecimento à priori F=ma, PV=nRT Conhecimento certo pelas causas Eventualmente é necessário estimar algum parâmetro (mas poucos) Data driven Procuram relações nos dados Relações não implicam causa/efeito Ou não há modelo, ou há um modelo genérico que normalmente é um aproximador universal (com muitos parâmetros) Escolher dados Identificar problemas ANALISAR (DATA MINING) MEDIR AGIR

Simplificando, Datamining é A utilização de três técnicas diferentes: Bases de dados Estatística máquina. (Machine Learning) Vamos estudar tudo isto? Para resolver principalmente dois tipos de problemas Predição Descobrir novo conhecimento Predição e novo conhecimento Predição é aprender critérios de decisão para ser capaz de classificar casos desconhecidos Descobrir novo conhecimento é encontrar padrões desconhecidos existentes nos dados Gostava de ver exemplos? Tipos de problemas Predição Classificação Regressão O que vamos estudar? Descoberta de conhecimento Detecção de desvios Segmentação de bases de dados Clustering Regras de associação Sumarização Visualização Pesquisa em texto Detecção de fraudes na utilização de um cartão de crédito Deferir, ou não, um pedido de crédito Prever perdas com seguros Como descrevo os exemplos? Prever os níveis de audiência dos canais de televisão Classificar os efeitos hidrofónicos produzidos por diferentes navios Analisar as respostas de um inquérito médico Escolher clientes a quem direccionar uma campanha de marketing Cross-selling, fidelização, etc, etc, Problemas a montante... Recolha de dados Representação dos dados Armazenagem, organização, e disponibilização dos dados Pré-processamento dos dados Representação usual dos dados Representação mais usada = tabela (Existem muitas outras...) Exemplo Empresa de seguros de saúde Dado, vector, registo ou padrão Altura Peso Sexo Idade Ordenado Usa ginásio Um exemplo?.6 79 M 4 3 S N.72 82 M 32 4 S N.66 65 F 28 25 N N.82 87 M 35 2 N S.7 66 F 42 35 N S Variável, característica, ou atributo Encargos para seguradora

Algoritmo Algoritmo Conhecimento Interpretador Conhecimento Interpretador CLASSIFICAÇÃO CLASSIFICAÇÃO Algoritmo Conhecimento Interpretador CLASSIFICAÇÃO Fases do processo Introdução à (Treino) Algoritmo Conhecimento Aprender a partir dos dados conhecidos Classificação (novos) Interpretador CLASSIFICAÇÃO Exemplo de () (Treino) Classificação (novos) Exemplo de (2) (Treino) Classificação (novos) Agência imobiliária pretende estimar qual a gama de preços para cada clinente Algoritmo Regressão linear de treino: Dados históricos Ordenado vs custos de casas compradas Representação do conhecimento Recta (declive e ordenada na origem) Custo da casa Custo da casa Ordenado Ordenado Exemplo de novos Um novo cliente, com ordenado x Interpretação Usar a recta (método de previsão usado) para obter uma PREVISÃO Custo da casa Ordenado x (3) (Treino) Classificação (novos) Outro problema de predição Exemplo da seguradora (seguros de saúde) Existe um conjunto de dados conhecidos de treino Queremos prever o que vai ocorrer noutros casos Empresa de seguros de saúde quer estimar custos com um novo cliente de treino (dados históricos) E o Manel? Altura Peso Sexo Idade Ordenado Usa Encargos para ginásio seguradora.6 79 M 4 3 S N.72 82 M 32 4 S N.66 65 F 28 25 N N.82 87 M 35 2 N S.7 66 F 42 35 N S Altura=.73 Peso=85 Idade=3 Ordenado=28 Ginásio=N Terá encargos para a seguradora?

Tipos de sistemas de previsão Clássicos Regressões lineares, logísticas, etc... Vizinhos mais próximos Redes Neuronais Árvores de decisão Regras ensembles Dados Regressões lineares Redes neuronais Árvores de decisão Previsões Tipos de SUPERVISIONADA vs NÃO SUPERVISIONADA INCREMENTAL vs BATCH PROBLEMAS Professor/Aluno Protocolos Professor/Aluno Todo o processo de pode ser caracterizado por um protocolo entre o professor e o aluno. O professor pode variar entre o tipo dialogante e o não cooperante. Onde já vi isto? Professor nada cooperante Só dá os exemplos => não supervisionada Professor cooperante Dá exemplos classificados => supervisionada Professor pouco cooperante Só diz se os resultados estão certos ou errados => por reforço Professor dialogante - ORÁCULO Formas de adquirir o conhecimento Incremental Os exemplos são apresentados um de cada vez e a estrutura de representação vai-se alterando Não incremental (batch) Os exemplos são apresentados todos ao mesmo tempo e são considerados em conjunto. Acesso aos exemplos offline Todos os exemplos estão disponíveis ao mesmo tempo online Os exemplos são apresentados um de cada vez mista Uma mistura dos dois casos anteriores

Problema do nº de atributos Poucos atributos Não conseguimos distinguir classes Muitos atributos Caso mais vulgar em Datamining Praga da dimensionalidade Visualização difícil e efeitos estranhos Atributos importantes vs redundantes Quais os atributos importantes para a tarefa? Problema da separabilidade Separáveis Erro Ø possível Não separáveis Erro sempre > Ø Erro de Bayes Erro mínimo possível para um classificador Problema do melhor tipo de modelo A representação de conhecimento mais simples. Mais fácil de entender Árvores de decisão vs redes neuronais A representação de conhecimento com menor probabilidade de erro. A representação de conhecimento mais provável Navalha de Occam... Problemas... Adequabilidade da representação do conhecimento à tarefa que se quer aprender Ruído Ruído na classificação dos exemplos ou nos valores dos atributos. Má informação é pior que nenhuma informação Enormes quantidades de dados Quais são importantes? Tempo de processamento Aprender demais Decorar os dados. Vamos ver isso agora... Os dados Generalização e overfitting Universo Amostra (bem conhecida) Onde queremos fazer previsões Onde é feita a

Exemplo de overfitting Aproximação M = Seja um conjunto de pontos. Encontrar um polinómio de grau M que represente esses pontos. y M ( x) = i = i w i x,9,8,7,6,5,4,3,2,,2,4,6,8,9,8,7,6,5,4,3,2, ( x) = w w x y +,2,4,6,8 Erro grande Aproximação M = 3 2 3 ( x) = w + w x + w x w y + 2 3x Aproximação M = 2 3 4 5 6 7 8 9 ( x) = w + w x + w x + w x + w x + w x + w x + w x + w x + w x w y + 2 3 4 5 6 7 8 9 x,9,8,7,6,5,4,3,2,,2,4,6,8 Data M=3,9,8,7,6,5,4,3,2,,2,4,6,8 Data M= Erro zero Overfitting Curva de Overfiting,9,8,7,6,5,4,3,2,,2,4,6,8 Data M= M=3 M= Probabilidade de erro,9,8,7,6,5,4,3,2, A melhor Representa ção de Teste de treino Complexidade da representação do conhecimento

Fases do processo Generalização (Treino) (Validação) Algoritmo Conhecimento O objectivo não é aprender a agir no conjunto de treino mas sim no universo desconhecido! Como preparar para o desconhecido? Manter um conjunto de teste de reserva Classificação (Teste) Interpretador CLASSIFICAÇÃO de treino/validação/teste Dados New, unlabeled Novos data Trabalho útil Training de treino set Treina Classificador Classifier Dados Known, conhecidos labeled data Validation Conj. de Validação set Controla o processo de Conj. Test Teste set Prevê a capacidade de generaliza ção Divisão dos dados de treino Usado para construir o classificador Quanto maior, melhor o classificador obtido de validação Usado para controlar a (opcional) Quanto maior, melhor a estimação do treino óptimo de teste Usado para estimar o desempenho Quanto maior, melhor a estimação do desempenho do classificador Estimativas do erro do classificador Em problemas de classificação Taxa de erro= nº de erros/total (ou missclassification error) Possibilidade de usar o custo do erro Em problemas de regressão Erro quadrático médio, erro médio, etc Estimativas optimistas ou não-enviesadas Erro no conjunto de treino (erro de resubstituição) Optimista Erro no conjunto de validação Ligeiramente optimista Erro no conjunto de teste Não enviesado. A melhor estimativa possível (no entanto se estes dados fossem usados para treino ) Estimativas robustas do erro Validação cruzada Cross-validation, ou leave n out Dividir os mesmos dados em diferentes partições treino/teste Calcular erro médio Nenhum dos classificadores é melhor que os outros!!! 2 3 4 Treino Teste 2 3 4 2 4 3 3 4 2 2 3 4 e 4 e 3 e 2 e Erro=Σe i /4

Outras medidas de erro em classificação Matriz de confusão Separa os diversos tipos de erro Falso Positivo (FP) O classificador diz que é, e não é Falso Negativo (FN) O classificador não detecta que é Permite compreender em que é que o classificador é bom Medidas de erro Taxa de erro = (FP+FN)/n Confiança positiva = TP/(TP+FP) Confiança negativa = TN/(TN+FN) Sensibilidade = TP/(TP+FN) Precisão (acuracy) = (TP+TN)/n Matriz de Confusão Há mais medidas, adaptadas a cada problema em particular! Classificado como SIM Classificado como NÃO Realmente é SIM TP FN Realmente é NÃO FP TN Erro mais tradicional Quão definitivo é um resultado positivo Quão definitivo é um resultado negativo Quão bom é a apanhar os positivos O complementar da taxa de erro Processo de A é um processo de optimização (Minimização do erro) Algoritmo de optimização Método do gradiente Subir a encosta Guloso Algoritmos genéticos Simulated annealing O que é o bias da pesquisa? Formas de adquirir o conhecimento Tarefas do projecto do sistema Iterações sucessivas do sistema de Preparação dos dados. Redução dos dados. Modelação e predição dos dados. Casos e análise das soluções Aproximação exploratória... Preparação dos dados Extracção optimizada das características novos dados Fenómeno Physical phenomena Classificador Classifier Informação útil Medições Experimentais de dados controlados perspectivas Análise exploratória de dados Desenho do classificador Validação Dados Raw em data bruto Características fundamentais Fundamental features Extracção de características (feature extraction) Características Features Selecção de características (feature selection) Data Warehouse Objectivos Transformação dos dados Dependências temporais Forma Standard

Redução dos dados Modelação iterativa e predição Forma standard inicial de treino inicial Métodos de redução Atributos reduzidos Forma standard reduzida de treino de validação de treino Método de predição Solução Mudança de parâmetros Testa o melhor de teste inicial de teste de validação Análise das soluções de treino Selecção de um subconjunto Subconjunto de treino Método de predição de teste Análise da medida de desempenho Solução Os principais paradigmas Redes Neuronais Baseados em instâncias Algoritmos genéticos Indução de regras analítica Alguns pontos para meditar() Que modelos são mais adequados para um caso específico? Que algoritmos de treino são mais adequados para um caso específico? Quantos exemplos são necessários? Qual a confiança que podemos ter na medida de desempenho? Como pode o conhecimento a priori ajudar o processo de indução? Alguns pontos para meditar(2) Qual a melhor estratégia para escolher os exemplos? Em que medida a estratégia altera o processo de? Quais as funções objectivo que se devem escolher para aprender? Poderá esta escolha ser automatizada? Como pode o sistema alterar automaticamente a sua representação para melhorar a capacidade de representar e aprender a função objectivo?

() de problemas Um banco quer estudar as caracter ísticas dos seus clientes. Para isso precisa de encontrar grupos de clientes para os caracterizar. Quais as variáveis do problema? Como descrever os diferentes clientes. Que problema de se está a tratar? Exemplo (2) Uma empresa de ramo automóvel resolveu desenvolver um sistema automático de condução de automóveis. Quais as variáveis do problema? Como descrever os diferentes ambientes. Que problema de se está a tratar? Exemplo (3) Quer estudar-se a relação entre o custo das casas e os bairros de Lisboa. Quais as variáveis do problema? Como descrever os diferentes bairros. É um problema problema de predição, mas será de classificação ou de regressão? Exemplo (4) Uma empresa de seguros do ramo automóvel quer detectar as fraudes das declarações de acidentes. Quais as variáveis do problema? Como descrever os clientes e os acidentes? É um problema problema de predição, mas será de classificação ou de regressão?