Tutorial básico de classificação em RapidMiner

Documentos relacionados
DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Aprendizagem de Máquina

CLASSIFICADORES ELEMENTARES

Descoberta de Conhecimento em Bancos de Dados - KDD

SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos

Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem

Inteligência nos Negócios (Business Inteligente)

Aprendizado de Máquina

Reconhecimento de Padrões

Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS

Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:

Aprendizado de Máquinas

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína

Mineração de Dados - II

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação

Elaboração de Provas Online usando o Formulário Google Docs

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Aula 8: Árvores. Rafael Izbicki 1 / 33

Modulo 2 Gestão de Base

Aprendizado de Máquina

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO

Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Aprendizado de Máquina (Machine Learning)

1 Criando tabelas de produtos com funções de procura

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Relatório Técnico - SVM na base Breast Cancer Wisconsin

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

Acendendo o Led com Arduino.

Criando a tabela. Crie gráficos com mudança de cor em relação à meta. Este conteúdo faz parte da série: Excel Gráficos Ver 9 posts dessa série

Curso de Data Mining

Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís

Redes Neurais Artificiais. Everton Gago

Nesse tutorial você irá aprender a como calcular volumes entre duas superfícies (MDTs) criadas a partir de dois arquivos de nuvem de pontos.

Solicitação de Serviço

Aprendizado de Máquina (Machine Learning)

Módulo Recursos Humanos. Manual do Usuário

O que é um relatório. Como fazer um relatório no Excel. 1 Relatório de Tabela Dinâmica. Crie relatórios no Excel

Tutorial de postagens de conteúdos no site da FS

Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar

Laboratório Classificação com o WEKA Explorer

Tutorial Tableau: como elaborar gráficos interativos

Exercício 43. Página 51. Conteúdos: Inserção de campos de formulário Inserção de Macros

K-Nearest Neighbours & RSTUDIO

Grafos: componentes fortemente conexos, árvores geradoras mínimas

Exemplo 1 Introdução a esboços

PROPLAN Diretoria de Informações. Tutorial SisRAA PDI/PDU

NIVELAMENTO DE INFORMÁTICA. Professor: Cleber Semensate

Mineração de dados educacionais: avaliação e interpretação de modelos de classificação

Módulo 19 - Análise Discriminante Geração de Tabelas

4 Construção dos Classificadores

Métodos baseados em árvores

Mineração de Dados em Biologia Molecular

Mapeamento do uso do solo para manejo de propriedades rurais

TUTORIAL KANEDA S BIKE Rhinoceros 3D Baseado no longa metragem de animação japonesa AKIRA (1988)

Dentre os vários recursos oferecidos pelo sistema, destacamos nesta apostila um exercício de

Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

LABORATÓRIO: CRIANDO O JOGO MEGAMAN 2D

Sobre as rubricas. Níveis de conquista. Critérios Avaliativos

Transcrição:

Tutorial básico de classificação em RapidMiner Mineração de dados biológicos Ciências físicas e biomoleculares Neste tutorial, aprenderemos a utilizar as funcionalidades básicas para classificação em Rapidminer. Aplicaremos um algoritmo de classificação qualquer em uma base de dados, avaliaremos o modelo gerado através de uma amostragem holdout, Random subsampling, validação cruzada e leave one out. 1. Aplicando um modelo Nesta seção, aplicaremos uma árvore de decisão na base de dados Iris. Poderíamos aplicar qualquer algoritmo de classificação em qualquer base suportada pelo algoritmo. 1.1 Chame a base Iris e aplique o operador Decision Tree sobre ela, como indicado na figura abaixo. Ligando a saída da árvore de decisão na saída do processo, podemos observar o modelo induzido. Pronto! Agora temos um modelo para classificar novas flores iris! Questionamento: Como podemos saber se nosso modelo é capaz de classificar corretamente as flores? Como podemos saber se o viés deste algoritmo de classificação é ideal para nosso conjunto de dados? Como podemos saber se o modelo induzido não sofre overfitting? 2. Holdout No método holdout, dividimos o conjunto de dados em conjunto de treinamento e conjunto de teste. A figura abaixo ilustra este método.

2.1 Chame a base Iris e aplique o operador Split Data sobre ela. 2.2 Nos parâmetros do operador Split Data, clique sobre o botão Edit enumaration. Uma caixa de diálogo abrir-se-á. Insira as entradas indicadas na figura abaixo. Assim, dividiremos nosso conjunto de dados em um conjunto com 80% e outro com 20%. OBS: Você pode deixar os conjuntos estratificados modificando o parâmetro sampling type esta opção é muito importante para dados desbalanceados. 2.3 Utilizaremos o conjunto de 80% para treinarmos nossa árvore de decisão. Se ligarmos a saída da árvore na saída do processo, podemos ver o modelo gerado com o conjunto de treinamento. 2.4 Utilizaremos o conjunto de 20% como conjunto de teste para nosso modelo. Para isso, aplique o modelo sobre o conjunto utilizando o operador Apply Model. Se ligarmos a saída indicado do operador na saída do processo, podemos ver qual a predição dada a cada um dos exemplos no conjunto de teste.

Com esta tabela conseguimos contar quantos exemplos nosso classificador errou. Não parece muito prático, não é? 2.5 Podemos utilizar o operador Performance (Classification) para medir o desempenho de nosso classificador em diferentes medidas, como acurácia, precisão e revocação. Se ligarmos a saída do operador Performance na saída do processo, podemos ver as medidas gerais, medidas por classe e a matriz de confusão. 3. Random Subsampling É possível confiarmos no desempenho obtido através de apenas um conjunto de treinamento e um conjunto de teste? Random subsampling divide o conjunto de dados diversas vezes em treinamento e teste. Equivalente a se fazer holdout várias vezes. 3.1 Vamos aplicar um Random subsampling com 5 partições. Aplique o operador Loop sobre o conjunto Iris. Defina o número de iterações como 5.

3.2 O operador Loop é um subprocesso. Entre no subprocesso do Loop e faça o mesmo holdout da seção 2. 3.3 No processo principal, se ligarmos a saída do operador Loop podemos ver o desempenho dos 5 modelos induzidos. 3.4 Se não estivermos contentes com essa visualização de saída, podemos gerar uma tabela através do operador Log. Dessa forma, teremos uma tabela com 5 linhas (representando cada uma das partições) e cada uma das colunas sendo uma medida de desempenho. Com esta tabela, podemos gerar gráficos e analisar o desempenho deste algoritmo de classificação em diferentes partições.

3.5 Caso desejássemos ter como desempenho apenas a média da medida acurácia, podemos transformar nossa tabela de log em um conjunto de dados e extrair a média da acurácia. Para isso, basta utilizarmos os operadores Log to Data e Extract Performance. 4. Validação Cruzada Um problema do Random Subsampling é que alguns exemplos podem nunca estar no conjunto de teste. A validação cruzada mitiga esse problema. Nela, o conjunto de dados é dividido em K partes, sendo que parte k é utilizada como conjunto de teste(ou validação) enquanto as outras K-1 partes são utilizadas como conjunto de treinamento. Assim, a intersecção de todos os conjuntos de teste é sempre vazia e a união é sempre o conjunto de dados completo. 4.1 Para aplicarmos uma validação cruzada com 10 folds no conjunto Iris, basta aplicar operador Cross Validation sobre o conjunto. 4.2 O operador Cross Validation é um subprocesso. Entrando nele podemos observar que ele é dividido em treinamento e teste. Na parte de treinamento, definimos como vamos gerar nosso

modelo de classificação para cada uma das 10 combinações de conjunto de treinamento. Na parte de teste, definimos como avaliaremos o modelo gerado. 4.3 Vamos gerar uma árvore de decisão para cada partição da validação cruzada. 4.4 Agora vamos definir a avaliação de cada um dos modelos gerados. Faremos isso da mesma forma que fizemos anteriormente. 5. Leave one out Leave one out é uma variação da validação cruzada. Considere um conjunto de dados com N exemplos. No leave one out, os dados são divididos em N partições, sendo que em cada partição apenas um exemplo é utilizado como teste e os outros N-1 são utilizados como treinamento.

5.1 Para aplicar um leave one out, basta alterar um parâmetro no operador Cross Validation. QUESTIONAMENTOS Utilizando apenas as técnicas de amostragem acima, conseguimos realmente estimar o viés adequado para nosso conjunto de dados? O que mais é necessário para isso?