Tutorial básico de classificação em RapidMiner
|
|
|
- Helena Barbosa Ramalho
- 8 Há anos
- Visualizações:
Transcrição
1 Tutorial básico de classificação em RapidMiner Mineração de dados biológicos Ciências físicas e biomoleculares Neste tutorial, aprenderemos a utilizar as funcionalidades básicas para classificação em Rapidminer. Aplicaremos um algoritmo de classificação qualquer em uma base de dados, avaliaremos o modelo gerado através de uma amostragem holdout, Random subsampling, validação cruzada e leave one out. 1. Aplicando um modelo Nesta seção, aplicaremos uma árvore de decisão na base de dados Iris. Poderíamos aplicar qualquer algoritmo de classificação em qualquer base suportada pelo algoritmo. 1.1 Chame a base Iris e aplique o operador Decision Tree sobre ela, como indicado na figura abaixo. Ligando a saída da árvore de decisão na saída do processo, podemos observar o modelo induzido. Pronto! Agora temos um modelo para classificar novas flores iris! Questionamento: Como podemos saber se nosso modelo é capaz de classificar corretamente as flores? Como podemos saber se o viés deste algoritmo de classificação é ideal para nosso conjunto de dados? Como podemos saber se o modelo induzido não sofre overfitting? 2. Holdout No método holdout, dividimos o conjunto de dados em conjunto de treinamento e conjunto de teste. A figura abaixo ilustra este método.
2 2.1 Chame a base Iris e aplique o operador Split Data sobre ela. 2.2 Nos parâmetros do operador Split Data, clique sobre o botão Edit enumaration. Uma caixa de diálogo abrir-se-á. Insira as entradas indicadas na figura abaixo. Assim, dividiremos nosso conjunto de dados em um conjunto com 80% e outro com 20%. OBS: Você pode deixar os conjuntos estratificados modificando o parâmetro sampling type esta opção é muito importante para dados desbalanceados. 2.3 Utilizaremos o conjunto de 80% para treinarmos nossa árvore de decisão. Se ligarmos a saída da árvore na saída do processo, podemos ver o modelo gerado com o conjunto de treinamento. 2.4 Utilizaremos o conjunto de 20% como conjunto de teste para nosso modelo. Para isso, aplique o modelo sobre o conjunto utilizando o operador Apply Model. Se ligarmos a saída indicado do operador na saída do processo, podemos ver qual a predição dada a cada um dos exemplos no conjunto de teste.
3 Com esta tabela conseguimos contar quantos exemplos nosso classificador errou. Não parece muito prático, não é? 2.5 Podemos utilizar o operador Performance (Classification) para medir o desempenho de nosso classificador em diferentes medidas, como acurácia, precisão e revocação. Se ligarmos a saída do operador Performance na saída do processo, podemos ver as medidas gerais, medidas por classe e a matriz de confusão. 3. Random Subsampling É possível confiarmos no desempenho obtido através de apenas um conjunto de treinamento e um conjunto de teste? Random subsampling divide o conjunto de dados diversas vezes em treinamento e teste. Equivalente a se fazer holdout várias vezes. 3.1 Vamos aplicar um Random subsampling com 5 partições. Aplique o operador Loop sobre o conjunto Iris. Defina o número de iterações como 5.
4 3.2 O operador Loop é um subprocesso. Entre no subprocesso do Loop e faça o mesmo holdout da seção No processo principal, se ligarmos a saída do operador Loop podemos ver o desempenho dos 5 modelos induzidos. 3.4 Se não estivermos contentes com essa visualização de saída, podemos gerar uma tabela através do operador Log. Dessa forma, teremos uma tabela com 5 linhas (representando cada uma das partições) e cada uma das colunas sendo uma medida de desempenho. Com esta tabela, podemos gerar gráficos e analisar o desempenho deste algoritmo de classificação em diferentes partições.
5 3.5 Caso desejássemos ter como desempenho apenas a média da medida acurácia, podemos transformar nossa tabela de log em um conjunto de dados e extrair a média da acurácia. Para isso, basta utilizarmos os operadores Log to Data e Extract Performance. 4. Validação Cruzada Um problema do Random Subsampling é que alguns exemplos podem nunca estar no conjunto de teste. A validação cruzada mitiga esse problema. Nela, o conjunto de dados é dividido em K partes, sendo que parte k é utilizada como conjunto de teste(ou validação) enquanto as outras K-1 partes são utilizadas como conjunto de treinamento. Assim, a intersecção de todos os conjuntos de teste é sempre vazia e a união é sempre o conjunto de dados completo. 4.1 Para aplicarmos uma validação cruzada com 10 folds no conjunto Iris, basta aplicar operador Cross Validation sobre o conjunto. 4.2 O operador Cross Validation é um subprocesso. Entrando nele podemos observar que ele é dividido em treinamento e teste. Na parte de treinamento, definimos como vamos gerar nosso
6 modelo de classificação para cada uma das 10 combinações de conjunto de treinamento. Na parte de teste, definimos como avaliaremos o modelo gerado. 4.3 Vamos gerar uma árvore de decisão para cada partição da validação cruzada. 4.4 Agora vamos definir a avaliação de cada um dos modelos gerados. Faremos isso da mesma forma que fizemos anteriormente. 5. Leave one out Leave one out é uma variação da validação cruzada. Considere um conjunto de dados com N exemplos. No leave one out, os dados são divididos em N partições, sendo que em cada partição apenas um exemplo é utilizado como teste e os outros N-1 são utilizados como treinamento.
7 5.1 Para aplicar um leave one out, basta alterar um parâmetro no operador Cross Validation. QUESTIONAMENTOS Utilizando apenas as técnicas de amostragem acima, conseguimos realmente estimar o viés adequado para nosso conjunto de dados? O que mais é necessário para isso?
DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Roteiro. PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores. Estimativa da Acurácia. Introdução. Estimativa da Acurácia
Roteiro PCC142 / BCC444 - Mineração de Dados Avaliação de Classicadores Introdução Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto [email protected]
Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 [email protected] ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
Aprendizagem de Máquina
Aprendizagem de Máquina Avaliação de Paradigmas Alessandro L. Koerich Mestrado/Doutorado em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática Aprendizagem
CLASSIFICADORES ELEMENTARES
CLASSIFICADORES ELEMENTARES Classificação 2 Consiste em tentar discriminar em diferentes classes um conjunto de objetos com características mensuráveis Exemplo: classificação de frutas Forma, cor, sabor,
Descoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
SCC Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos
Métodos de Amostragem e Avaliação de Algoritmos SCC-630 - Capítulo 10 Métodos de Amostragem e Avaliação de Algoritmos João Luís Garcia Rosa 1 1 Departamento de Ciências de Computação Instituto de Ciências
Métodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem
e Avaliação de s José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP AM é uma ferramenta poderosa, mas não existe um único algoritmo que apresente o melhor desempenho para todos os
Inteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões
Aprendizado de Máquina
Aprendizado de Máquina Introdução ao WEKA Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://web.inf.ufpr.br/luizoliveira Luiz S. Oliveira (UFPR) Aprendizado de
Reconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva [email protected] Kuncheva pg. 8 a 25 (seções 1.3 e 1.4) Roteiro da aula Cálculo do erro de um classificador Técnicas de treinamento, avaliação e teste
Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce
Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Aprendizado de Máquinas
Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais
Tutorial: Árvore de Decisão com Weka para a classificação de carne suína
Universidade Estadual de Londrina - UEL 2 CTA 121 - Processamento de Imagens em Alimentos Prática de Aprendizado de Máquina com Weka 28/07/2016 Prof. Dr. Sylvio Barbon Jr Tutorial: Árvore de Decisão com
Mineração de Dados - II
Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior [email protected] 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework
Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC
Regressão Linear Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Overfitting 2. Treino e Validação 3. Baseline dos modelos 1 Overfitting Overfit Em muitos casos, a amostra de dados coletada
Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação
Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais
Elaboração de Provas Online usando o Formulário Google Docs
Elaboração de Provas Online usando o Formulário Google Docs Objetivos Elaboração de provas utilizando o recurso Formulários do Google Docs; Compreender as funcionalidades do Formulário; Gerar planilhas
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências
Aula 8: Árvores. Rafael Izbicki 1 / 33
Mineração de Dados Aula 8: Árvores Rafael Izbicki 1 / 33 Revisão Vimos que a função de risco é dada por R(g) := E[I(Y g(x))] = P (Y g(x)), Nem sempre tal função nos traz toda informação sobre g. É comum
Modulo 2 Gestão de Base
Didáxis - Escola Cooperativa de Vale S. Cosme Modulo 2 Gestão de Base de Dados Aula Nº 55 / 56 09-01-2008 Sumário: Programa de gestão de bases de dados. Introdução ao estudo das tabelas. 2 Gestão de Base
Aprendizado de Máquina
Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução
PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO
PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos Carla Fernandes da SILVA 1 ; Clayton Silva MENDES 2. RESUMO A evasão escolar é um dos principais desafios a ser superado
Avaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos
1 Criando tabelas de produtos com funções de procura
1 Criando tabelas de produtos com funções de procura Em determinado período estipulado por seu departamento, é necessário analisar o relatório de vendas e determinar quais produtos foram um sucesso de
Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
Relatório Técnico - SVM na base Breast Cancer Wisconsin
Relatório Técnico - SVM na base Breast Cancer Wisconsin Matheus Gutoski Universidade Tecnológica Federal do Paraná - CPGEI/PPGCA Mineração de Dados 4 de novembro de 2016 1 Objetivo O objetivo deste trabalho
ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS
ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS Fábio Abrantes Diniz 1, Fabiano Rosemberg de Moura Silva 2, Roberto Douglas da Costa 3, Thiago
Acendendo o Led com Arduino.
Acendendo o Led com Arduino. Nesse tutorial aprenderemos a ligar e desligar um Led com o Arduino. Para isso utilizaremos os seguintes componentes e ferramentas: Arduino Figura 1 Arduino UNO. Placa de prototipação
Criando a tabela. Crie gráficos com mudança de cor em relação à meta. Este conteúdo faz parte da série: Excel Gráficos Ver 9 posts dessa série
Este conteúdo faz parte da série: Excel Gráficos Ver 9 posts dessa série Existem vários recursos avançados no Excel que contribuem para uma melhor visualização dos dados em um gráfico. Neste artigo vamos
Curso de Data Mining
Curso de Data Mining Sandra de Amo Curvas Roc Uma curva ROC (Receiver Operating Characteristic) é um enfoque gráfico que permite visualizar os trade-offs entre as taxas de positivos verdadeiros e positivos
Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís
ICMC-USP Lista de Exercícios - Capítulo 8 [1] SCC-630 - Inteligência Artificial 1o. Semestre de 2011 - Prof. João Luís 1. Seja breve na resposta às seguintes questões: (a) o que você entende por Aprendizado
Redes Neurais Artificiais. Everton Gago
Redes Neurais Artificiais Everton Gago Como vai ser? O que é RNA? Conglomerado de neurônios!?!? Neurônio: Neurônio: Entradas: X0 = 0 X1 = 1 X2 = 1 Neurônio: Entradas: X0 = 0 X1 = 1 X2 = 1 Pesos: W0 = 0.3
Nesse tutorial você irá aprender a como calcular volumes entre duas superfícies (MDTs) criadas a partir de dois arquivos de nuvem de pontos.
Todos os direitos reservados Bentley Systems - 2016 Introdução Nesse tutorial você irá aprender a como calcular volumes entre duas superfícies (MDTs) criadas a partir de dois arquivos de nuvem de pontos.
Solicitação de Serviço
Solicitação de Serviço Agenda Acesso ao módulo Cadastro de solicitação de serviço Tipos de serviços Pesquisa e edição de solicitação Visualização de relatório de solicitação de serviço Acesso ao Módulo
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que
Módulo Recursos Humanos. Manual do Usuário
1 Módulo Recursos Humanos Manual do Usuário Índice 1. Login... 2 1.1. Usuários com senha cadastrada no Portal RH antigo... 2 1.2. Usuário sem senha cadastrada no Portal RH antigo... 3 2. Portal RH... 5
O que é um relatório. Como fazer um relatório no Excel. 1 Relatório de Tabela Dinâmica. Crie relatórios no Excel
O que é um relatório Na minha opinião, uma das melhores definições para relatório é um documento utilizado para mostrar resultados de uma determinada atividade. Ou seja, independentemente do que você faça,
Tutorial de postagens de conteúdos no site da FS
Tutorial de postagens de conteúdos no site da FS Faculdade de Saúde Centeias Centro de Tecnologias Educacionais Interativas em Saúde O novo portal da FS foi criado para facilitar o aceso à informação sobre
Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar
Uma Estratégia de Preparação de Dados para Aumento de Precisão de Modelos de Classificação da Produtividade de Cana-de-açucar Maria das Graças J.M. Tomazela¹, Luiz Antônio Daniel¹ ¹Faculdade de Tecnologia
Laboratório Classificação com o WEKA Explorer
Laboratório Classificação com o WEKA Explorer Para esse laboratório considere os seguintes classificadores: C4.5 (J4.8) KNN Naïve Bayes Considere as bases de treinamento e teste de dígitos manuscrítos
Tutorial Tableau: como elaborar gráficos interativos
Tutorial Tableau: como elaborar gráficos interativos Técnica de Reportagem II (ECO/UFRJ) Paulo César Castro [Criado pela monitora Thamírys Andrade] No presente tutorial, aprenderemos como gerar gráficos
Exercício 43. Página 51. Conteúdos: Inserção de campos de formulário Inserção de Macros
Exercício 43 Conteúdos: Inserção de campos de formulário Inserção de Macros Siga os seguintes passos: 1. Crie um novo livro de nome Formulário 2. Altere o nome da 1ª. folha para Formulário 3. Altere o
K-Nearest Neighbours & RSTUDIO
K-Nearest Neighbours & RSTUDIO Rodrigo Augusto Igawa Universidade Estadual de Londrina [email protected] 17 de novembro de 2015 Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 1 / 16 Sumário
Grafos: componentes fortemente conexos, árvores geradoras mínimas
Grafos: componentes fortemente conexos, árvores geradoras mínimas SCE-183 Algoritmos e Estruturas de Dados 2 Thiago A. S. Pardo Maria Cristina 1 Componentes fortemente conexos Um componente fortemente
Exemplo 1 Introdução a esboços
Exemplo 1 Introdução a esboços Neste exemplo iremos desenhar e criar, da forma mais simples possível, uma peça sólida. Todo sólido sempre irá partir de um esboço, também conhecidos como croqui pelos desenhistas
PROPLAN Diretoria de Informações. Tutorial SisRAA PDI/PDU
PROPLAN Tutorial SisRAA PDI/PDU Ana Carla Macedo da Silva Jaciane do Carmo Ribeiro Diego da Costa Couto Dezembro 2014 SUMÁRIO Menu: PDI/PDU... 3 Opção de menu: Resultados... 3 Opção de menu: Painel de
NIVELAMENTO DE INFORMÁTICA. Professor: Cleber Semensate
NIVELAMENTO DE INFORMÁTICA Professor: Cleber Semensate 1 Cronograma: Revisão da Aula Anterior Configuração de Página Inserção de Tabelas e Colunas Design de Tabelas Ordenação de Tabelas Numeração de Página
Mineração de dados educacionais: avaliação e interpretação de modelos de classificação
Capítulo 12 Mineração de dados educacionais: avaliação e interpretação de modelos de classificação Cristian Cechinel (UFSC), Sandro da Silva Camargo (UNIPAMPA) Objetivo do Capítulo Este capítulo tem como
Módulo 19 - Análise Discriminante Geração de Tabelas
Módulo 19 - Análise Discriminante Geração de Tabelas Situação Problema Um banco deseja classificar seus clientes de acordo com seu perfil de investimento: investidor conservador, investidor moderado ou
4 Construção dos Classificadores
4 Construção dos Classificadores 4.1. Modelagem O aprendizado supervisionado contém a etapa de modelagem, nessa etapa definimos quais serão as características encaminhadas ao classificador para o treinamento.
Métodos baseados em árvores
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Métodos baseados em árvores Eduardo Vargas Ferreira Introdução Árvore de decisão é o conjunto de regras que envolvem a estratificação
Mineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Mapeamento do uso do solo para manejo de propriedades rurais
1/55 Mapeamento do uso do solo para manejo de propriedades rurais Prática Eng. Allan Saddi Arnesen Eng. Frederico Genofre Eng. Marcelo Pedroso Curtarelli 2/55 Conteúdo programático: Capitulo 1: Conceitos
TUTORIAL KANEDA S BIKE Rhinoceros 3D Baseado no longa metragem de animação japonesa AKIRA (1988)
TUTORIAL KANEDA S BIKE Rhinoceros 3D Baseado no longa metragem de animação japonesa AKIRA (1988) UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL DESIGN VISUAL COMPUTAÇÃO GRÁFICA I BRUNO INOKAWA INTRODUÇÃO Antes
Dentre os vários recursos oferecidos pelo sistema, destacamos nesta apostila um exercício de
Mapa-Temático Dentre os vários recursos oferecidos pelo sistema, destacamos nesta apostila um exercício de como gerar Mapas-Temáticos. Como exemplo abaixo, ensinar o usuário a gerar um mapa-temático dos
Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Árvore de Decisão George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Tópicos Introdução Representando Árvores de Decisão O algoritmo ID3 Definições Entropia Ganho de Informação Overfitting Objetivo
LABORATÓRIO: CRIANDO O JOGO MEGAMAN 2D
LABORATÓRIO: CRIANDO O JOGO MEGAMAN 2D Parte-2 1. Agora iremos inserir no jogo os obstáculos que o nosso herói deverá pular para ganhar pontos. O obstáculo será uma bomba e primeiro vamos importar para
Sobre as rubricas. Níveis de conquista. Critérios Avaliativos
RUBRICAS Critérios avaliativos fazem parte do dia a dia de professores e estudantes. Seu estabelecimento é necessário para que o professor consiga aperfeiçoar o processo de ensino e para que os estudantes
