SCC0173 Mineração de Dados Biológicos

Documentos relacionados
Mineração de Dados em Biologia Molecular

Minerando regras de associação

CLASSIFICADORES ELEMENTARES -II

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

Árvore de Decisão. Capítulo 18 Russell & Norvig Seções 18.1 a 18.3

Inteligência Artificial

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Introdução a Sistemas Inteligentes

Classificação Bayesiana

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

INF 1771 Inteligência Artificial

Aprendizado de Máquina

Aprendizagem de Máquina

Os Dados. Mineração de Dados 2011

Aula 03: Dados Profa. Ms. Rosângela da Silva Nunes

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de

Reconhecimento de Padrões

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

Avaliando o que foi Aprendido

Tópicos em Mineração de Dados

Seleção de Atributos 1

Mineração de Dados em Biologia Molecular

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

Maldição da dimensionalidade

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Rede RBF (Radial Basis Function)

Aprendizagem de Máquina

Prof. Daniela Barreiro Claro

Aprendizagem de Máquina

Estudo de Caso. Índice. Descrição da Área. Daniel Gomes Dosualdo Solange Oliveira Rezende

ANÁLISE DE AGRUPAMENTOS

3 Técnicas de agrupamento

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Mistura de modelos. Marcelo K. Albertini. 31 de Julho de 2014

Análise de Risco de Crédito Bancário

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

Data Mining: Ferramenta JAVA

Um Wrapper para Seleção de Eletrodos em Interfaces Cérebro Computador Baseadas em Imaginação de Movimento

Um Estudo Sobre a Efetividade do Método de Imputação Baseado no Algoritmo k-vizinhos Mais Próximos

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

AVALIAÇÃO DE UMA ABORDAGEM LAZY DE SELEÇÃO DE ATRIBUTOS BASEADA NA MEDIDA DE CONSISTÊNCIA

serotonina (humor) dopamina (Parkinson) serotonina (humor) dopamina (Parkinson) Prozac inibe a recaptação da serotonina

Aprendizado de Máquina (Machine Learning)

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Aula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga

2 Processo de Agrupamentos

AVALIAÇÃO DE MÉTODOS DE SELEÇÃO DE ATRIBUTOS PARA CLASSIFICAÇÃO DE SOLOS

CLASSIFICADORES BAEYSIANOS

Aprendizado por Árvores de Decisão

INF 1771 Inteligência Artificial

Inteligência vs. Aprendizado

PIP/CA - Programa Interdisciplinar de Pós-Graduação Mestrado em Computação Aplicada da UNISINOS. 2000/2-3o. Trimestre - AULA 06 / FSO

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação

Aprendizado Bayesiano Anteriormente...

Departamento de Engenharia Rural Centro de Ciências Agrárias. Programação I

Análise de Imagens. Aula 20: Sistemas com Múltiplos Classificadores. Prof. Alexandre Xavier Falcão.

Mineração de Dados com Big Data. Prof. Fabrício Olivetti de França Universidade Federal do ABC

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

Uma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law

Ambiente Weka Waikato Environment for Knowledge Analysis

Classificação Linear. André Tavares da Silva.

Inteligência Artificial

Créditos. SCC0173 Mineração de Dados Biológicos. Relembrando Classificação... Aula de Hoje. Classificação II: Algoritmo Probabilístico Naïve Bayes

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Aprendizagem de Máquina

2284-ELE/5, 3316-IE/3. Universidade da Beira Interior, Departamento de Informática

INTELIGÊNCIA ARTIFICIAL

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Sumário Raciocínio Baseado em Casos

Aula 9. Prof. Adilson Gonzaga

Classificação de dados em modelos com resposta binária via algoritmo boosting e regressão logística

Processo de Descoberta de Conhecimento em Base de Dados para Previsão de Ocorrências de Espécimes de Peixe-Boi Marinho

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

Métodos Não Paramétricos

Prof. Júlio Cesar Nievola Data Mining PPGIa - PUCPR

Aprendizado de Máquina

Metahuerísticas: Algoritmos Genéticos. Sistemas de Informação/Ciências da Computação UNISUL Aran Bey Tcholakian Morales, Dr. Eng.

Passos para o Aprendizado de Máquina com Pentaho. Prof. Marcos Vinicius Fidelis UTFPR/UEPG

Clodoaldo A. M. Lima, Sarajane M. Peres. 26 de agosto de 2015

Inteligência Artificial

Aprendizado de Máquina

MAC 0425/ Inteligência Artificial

Máquinas de suporte vetorial e sua aplicação na detecção de spam

Classificação Hierárquica de Documentos Textuais Digitais usando o Algoritmo knn

Estatística Descritiva

Inteligência Artificial

Exemplos de aplicação. Mineração de Dados 2013

Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar

Algoritmos para Classificação

Redes Neuronais e Aprendizagem Automática 1

Classificação de Padrões. Abordagem prática com Redes Neurais Artificiais

Aprendizagem de Máquina

Capítulo 3: Elementos de Estatística e Probabilidades aplicados à Hidrologia

Tópicos Especiais I - Jogos IA para Jogos

Introdução a Padrões, GRASP. Nazareno Andrade (baseado no material de Hyggo Almeida e Jacques Sauvé)

PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados -- Profs. Celso Kaestner e Heitor Lopes Trabalho #2 Regras de Associação

Transcrição:

SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo Prof. Eduardo R. Hruschka de Tan et al., Introduction to Data Mining, Addison- Wesley, 2006 de Witten & Frank, Data Mining: Practical Machine Learning Tools and Techniques, M. Kaufmann, 2005 2 1

Aula de Hoje Introdução Classificação Classificação via Aprendizado de Máquina (AM) Simbólico Algoritmo 1R (One Rule) Classificação via AM Baseado em Instâncias Algoritmo KNN 3 Classificação Técnica classifica novas entradas (instâncias) em uma ou mais dentre diferentes classes discretas Número definido de classes Freqüentemente apenas duas classificação binária Exemplos Diagnóstico, Análise de crédito,... 4 2

10 10 19/08/2010 Exemplo de Classificação Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Dados Treinamento No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Algoritmo Dados Teste Modelo Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 5 Classificação Como classificar? Saudável Doente Exame 1 3

Classificação Problema linear Saudável Doente Exame 1 Classificação Como classificar? Saudável Doente Exame 1 4

Classificação Problema não linear Saudável Doente Exame 1 Classificação Como classificar? Saudável Doente Exame 1 5

Classificação Problema não linear Saudável Doente Exame 1 Exemplo: Problema Weather (Witten & Frank, 2005) Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No Prof. Eduardo R. Hruschka 12 6

Classificação Existem várias técnicas, para diferentes contextos de aplicação Sucesso de cada método depende do domínio de aplicação e do problema particular em mãos Técnicas simples muitas vezes funcionam bem! Análise Exploratória de Dados! 13 Exemplo Árvores de Decisão a OR b a b a v b F F F F T T T F T T T T F F F b a T T T T 14 7

Algoritmo Rudimentar (1 Rule 1R) 1R: Aprende uma árvore de decisão de um nível Todas as regras usam somente um atributo Atributo deve assumir valores categóricos Paradigma simbólico de AM Versão Básica: Um ramo para cada valor possível do atributo Para cada ramo, atribuir a classe mais freqüente Para cada ramo, calcular a taxa de erro de classificação Escolher o atributo com a menor taxa de erro de classificação Prof. Eduardo R. Hruschka 15 Pseudo-Código para o 1R: Para cada atributo: Para cada valor do atributo gerar uma regra como segue: Contar a freqüência de cada classe; Encontrar a classe mais freqüente * ; Formar uma regra que atribui a classe mais freqüente a este atributo-valor; Calcular a taxa de erro de classificação das regras; Escolher as regras com a menor taxa de erro de classificação. * Empates na classe mais freqüente podem ser decididos aleatoriamente. NOTA: Está implementado no software Weka Prof. Eduardo R. Hruschka 16 8

Exemplo: Problema Weather (Witten & Frank, 2005) Outlook Temp Humidity Windy Play Sunny Hot High False No Sunny Hot High True No Overcast Hot High False Yes Rainy Mild High False Yes Rainy Cool Normal False Yes Rainy Cool Normal True No Overcast Cool Normal True Yes Sunny Mild High False No Sunny Cool Normal False Yes Rainy Mild Normal False Yes Sunny Mild Normal True Yes Overcast Mild High True Yes Overcast Hot Normal False Yes Rainy Mild High True No Attribute Rules Errors Total Errors Outlook Sunny No 2/5 4/14 Overcast Yes 0/4 Rainy Yes 2/5 Temp Hot No* 2/4 5/14 Mild Yes 2/6 Cool Yes 1/4 Humidity High No 3/7 4/14 Normal Yes 1/7 Windy False Yes 2/8 5/14 True No* 3/6 1R seria composto ou das 3 regras para Outlook ou das 2 Regras para Humidity: decisão poderia ser feita, por ex., de acordo com o desempenho em um outro conjunto de dados (dados de teste) Prof. Eduardo R. Hruschka Exercício Obter um classificador 1R para os dados: Febre Enjôo Mancha Dor Diagnóstico Sim Sim Não Sim Não Não Sim Não Não Sim Sim Sim Sim Não Sim Sim Não Não Sim Não Sim Não Sim Sim Sim Não Não Sim Sim Não 18 9

K-NN O Algoritmo K-NN (K-Vizinhos-Mais-Próximos ou K-Nearest-Neighbors do inglês) é um dos mais simples e bem difundidos algoritmos do paradigma baseado em instâncias 19 Classificadores Baseados em Instâncias Armazena dados de treinamento Usa os dados de treinamento para predizer os rótulos de classe das instâncias ainda não vistas Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 20 10

K-NN Idéia Básica: Se anda como um pato, quacks como um pato, então provavelmente é um pato Calcula Similaridade objeto ainda não visto Objetos de Treinamento Escolhe K dentre os objetos mais similares Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 21 K-NN Unknown record Requer 3 coisas A base de dados de treinamento Uma medida de (dis)similaridade entre os objetos da base O valor de K: no. de vizinhos mais próximos a recuperar Para classificar um objeto não visto: Calcule a (dis)similaridade para todos os objetos de treinamento Obtenha os K objetos da base mais similares (mais próximos) Classifique o objeto não visto na classe da maioria dos K vizinhos Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 22 11

K-NN X X X (a) 1-nearest neighbor (b) 2-nearest neighbor (c) 3-nearest neighbor K-NN: Visão geométrica para 2 atributos contínuos e dissimilaridade por distância Euclidiana. K = 1, 2 e 3 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 23 K-NN Escolha do Valor de K: Muito pequeno: discriminação entre classes muito flexível porém, sensível a ruído classificação pode ser instável (p. ex. K = 1 abaixo) ruído ruído Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 24 12

K-NN Escolha do Valor de K: Muito grande: mais robusto a ruído porém, menor flexibilidade de discriminação entre classes privilegia classe majoritária... Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 25 K-NN: Configuração Valor Ideal? Depende da aplicação Análise Exploratória de Dados! 26 13

K-NN Como calcular as (dis)similaridades...? Já vimos anteriormente no curso que a medida mais apropriada depende: do(s) tipo(s) do(s) atributos! do domínio de aplicação! Por exemplo: Euclidiana, Casamento Simples (Simple Matching), Jaccard, Cosseno, Pearson,... Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 27 K-NN Além da escolha de uma medida apropriada, é preciso condicionar os dados de forma apropriada Por exemplo, atributos podem precisar ser normalizados para evitar que alguns dominem completamente a medida de (dis)similaridade Exemplo: Altura de uma pessoa adulta normal: 1.4m a 2.2m Peso de uma pessoa adulta sadia: 50Kg a 150Kg Salário de uma pessoa adulta: $400 a $30.000 Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 28 14

Exercício Converta os dados abaixo para valores numéricos em [0, 1] (sem aumentar o no. de atributos) e classifique a última instância com KNN equipado com Distância Euclidiana e K = 1, 3 e 5. Discuta. Febre Enjôo Mancha Diagnóstico baixa sim grande doente média não média saudável alta sim grande doente alta não ausente saudável baixa não enorme doente média não pequena??? 29 K-NN Ponderado Na versão básica do algoritmo, a indicação da classe de cada vizinho possui o mesmo peso para o classificador 1 voto (+1 ou -1) por vizinho mais próximo Isso torna o algoritmo muito sensível à escolha de K Uma forma de reduzir esta sensibilidade é ponderar cada voto em função da distância ao respectivo vizinho Heurística Usual: Peso referente ao voto de um vizinho decai de forma inversamente proporcional à distância entre esse vizinho e o objeto em questão Nota: está implementada no software Weka Tan,Steinbach, Kumar Introduction to Data Mining 4/18/2004 30 15

Exercício Repita o exercício anterior com a ponderação de votos pelo inverso da Distância Euclidiana e discuta o resultado, comparando com o resultado anterior Febre Enjôo Mancha Diagnóstico baixa sim grande doente média não média saudável alta sim grande doente alta não ausente saudável baixa não enorme doente média não pequena??? 31 K-NN: Características K-NN não constrói explicitamente um modelo Isso torna a classificação de novos objetos relativamente custosa computacionalmente É necessário calcular as distâncias de cada um dos objetos a serem classificados a todos os objetos da base de instâncias rotuladas armazenada Problema pode ser amenizado com algoritmos e estruturas de dados apropriados (além do escopo deste curso) 32 16

K-NN: Características Sensíveis ao projeto Escolha de K... Escolha da medida de (dis)similaridade... Podem ter poder de classificação elevado Função de discriminação muito flexível para K pequeno Podem ser sensíveis a ruído Pouco robustos para K pequeno 33 K-NN: Características É sensível a atributos irrelevantes distorcem o cálculo das distâncias maldição da dimensionalidade... demanda seleção de atributos (veremos depois no curso) Por outro lado, permitem atribuir importâncias distintas para diferentes atributos estratégias de ponderação de atributos geralmente levam a classificadores mais precisos além do escopo deste curso 34 17

Perguntas André Ponce de Leon F de Carvalho 35 18