Data Mining Software Weka. Software Weka. Software Weka 30/10/2012



Documentos relacionados
Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

Data Mining: Ferramenta JAVA

Prof. Msc. Paulo Muniz de Ávila

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

Mineração de dados com WEKA, Parte 1: Introdução e regressão

UTILIZANDO O SOFTWARE WEKA

Ambiente Weka Waikato Environment for Knowledge Analysis

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Descoberta de Conhecimento em Bases de Dados. Classificação

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

Descoberta de conhecimento a partir de uma base de indicadores de desenvolvimento social utilizando WEKA

Aula 02: Conceitos Fundamentais

Data Mining: Conceitos e Técnicas

Métodos para Classificação: - Naïve Bayes.

Minerando regras de associação

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

Aprendizagem de Máquina

Classificação. Eduardo Raul Hruschka

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado

SCC0173 Mineração de Dados Biológicos

Mineração de dados: um estudo de caso de concessão de crédito explorando o software Weka

Identificação de Padrões em Registros de Doenças com Técnicas de Mineração de Dados

MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP

Exemplo de Aplicação do DataMinig

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

FundamentosemInformática

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1.

Árvore de Decisão. Capítulo 18 Russell & Norvig Seções 18.1 a 18.3

A Grande Importância da Mineração de Dados nas Organizações

SAD orientado a DADOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Introdução a Datamining (previsão e agrupamento)

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

ADM041 / EPR806 Sistemas de Informação

Organização de Arquivos

Extração de Conhecimento & Mineração de Dados

Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka

Introdução a Datamining (previsão e agrupamento)

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Coleções. Conceitos e Utilização Básica. c Professores de ALPRO I 05/2012. Faculdade de Informática PUCRS

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

Algoritmos Indutores de Árvores de

Mineração de Dados: Introdução e Aplicações

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos. Centro Tecnológico. Universidade Federal do Espírito Santo

Projeto 6.12 Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Mineração de Dados em Biologia Molecular

O Processo de Programação

Utilização de Técnicas de Mineração de Dados como Auxílio na Detecção de Cartéis em Licitações Carlos Vinícius Sarmento Silva Célia Ghedini Ralha

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo

Desenvolvimento do Módulo de Pré-processamento e Geração de Imagens de. Imagens de Teste do Sistema DTCOURO

Data Science e Big Data

Módulo 4: Gerenciamento de Dados

Java. Marcio de Carvalho Victorino

Geração de código intermediário. Novembro 2006

Conteúdo. Disciplina: INF Engenharia de Software. Monalessa Perini Barcellos

Características Carlos Ferraz

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

Banco de Dados Aula 02. Colégio Estadual Padre Carmelo Perrone Profº: Willian

Sistemas para internet e software livre

Descoberta de Conhecimento em Base de Imagens Mamográficas

Data Mining com a Ferramenta Weka

Orientação a Objetos com Java

Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I

Teste de Software. Ricardo Argenton Ramos Engenharia de Software I

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares

Formação em JAVA. Subtítulo

FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS

SISTEMAS OPERACIONAIS

Sistema Tutor Inteligente baseado em Agentes. Pedagógicas da Universidade Aberta do Piauí. Prof. Dr. Vinicius Ponte Machado

Compiladores INTRODUÇÃO.

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

Modelos. Comunicação com clientes

Engenharia de Software

Plataforma Pentaho. Fagner Fernandes

Transcrição:

Data Mining Software Weka Prof. Luiz Antonio do Nascimento Software Weka Ferramenta para mineração de dados. Weka é um Software livre desenvolvido em Java. Weka é um É um pássaro típico da Nova Zelândia. Software Weka O sistema foi desenvolvido por um grupo de pesquisadores da Universidade de Waikato, Nova Zelândia. Pode ser utilizada no modo console ou através da interface gráfica Weka Explorer. 1

Software Weka Universidade de Waikato - Nova Zelândia Waikato Environment for Knowledge Analysis Coleção de algoritmos de aprendizagem de máquina para resolução de problemas de Data Mining implementado em Java open source software http://www.cs.waikato.ac.nz/ml/weka/ Métodos de Aprendizagem Weka utiliza alguns métodos para a mineração de dados: Árvore de decisão Regras de aprendizagem Tabelas de decisão Regressão Regressão logística, etc. Processo de Descoberta do Conhecimento (KDD) O processo de KDD é interativo, iterativo, cognitivo e exploratório. O analista deve seguir os passos: 1. Definição do tipo de conhecimento a descobrir: o que pressupõe uma compreensão do domínio da aplicação bem como do tipo de decisão que tal conhecimento pode contribuir para melhorar. 2. Criação de um conjunto de dados alvo (Selection): selecionar um conjunto de dados onde a descoberta deve ser realizada. 2

70% do Tempo 30/10/2012 Processo de Descoberta do Conhecimento (KDD) 3. Limpeza de dados e pré-processamento (Preprocessing): operações básicas tais como remoção de ruídos quando necessário, escolha de estratégias para manipular campos de dados ausentes e formatação de dados de forma a adequá-los à ferramenta de mineração. 4. Redução de dados e projeção (Transformation): localização de características úteis para representar os dados dependendo do objetivo da tarefa, visando a redução do número de variáveis e/ou instâncias a serem consideradas para o conjunto de dados, bem como o enriquecimento semântico das informações. Processo de Descoberta do Conhecimento (KDD) 5. Mineração de dados (Data Mining): selecionar os métodos utilizados para localizar padrões nos dados, seguida da efetiva busca por padrões de interesse numa forma particular de representação ou conjunto de representações; busca pelo melhor ajuste dos parâmetros do algoritmo para a tarefa em questão. 6. Interpretação dos padrões minerados (Interpretation/Evaluation), com um possível retorno aos passos anteriores para posterior iteração (repetição dos passos). 7. Implantação do conhecimento descoberto (Knowledge): incorporar o conhecimento ao sistema, ou documentá-lo e reportá-lo às partes interessadas. Processo de Descoberta do Conhecimento (KDD) Conhecimento Padrões Dados Dados Transformados Dados Alvo Preprocessados Dados 3

Processo de Descoberta do Conhecimento (KDD) Observação: O processo de descoberta do conhecimento é incremental. Para melhorar os resultados do processo deve haver iteração quando necessário. Preparação dos Dados O weka lê os dados no formato.arff Uma lista de todas as instâncias, onde o valor dos atributos são separados por vírgula mais um cabeçalho Ex(weather.arff): @relation weather %Nome do arquivo @attribute outlook {sunny, overcast, rainy} @attribute temperature real %Atributo e tipo @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,false,no %Início dos dados overcast,83,86,false,yes Árvores de Decisão Dados do tempo Algoritmo weka.classifier.j48.j48 >75 <=75 4

Árvores de Decisão J48 pruned tree ------------------ outlook = sunny humidity <= 75: yes (2.0) humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy windy = TRUE: no (2.0) windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Gerando regras de associação APRIORI Algoritmo para minerar regras de associação. IF umidade = normal AND vento = não THEN jogar = sim IF umidade = normal AND jogar = sim THEN vento = não IF vento = não AND jogar = sim THEN umidade = normal IF umidade = normal THEN vento = não AND jogar = sim IF vento = não THEN umidade = normal AND jogar = sim IF jogar = sim THEN vento = não AND umidade = normal IF? THEN vento = não AND umidade = normal AND jogar = sim Saída do algoritmo Best rules found: 1.temperature=cool humidity=normal windy=false ==> play=yes conf:(1) 2. temperature=cool windy=false play=yes ==> humidity=normal conf:(1) 3. outlook=overcast temperature=hot windy=false ==> play=yes conf:(1) 4. temperature=cool windy=false ==> humidity=normal play=yes conf:(1) 5. outlook=rainy temperature=mild windy=false ==> play=yes conf:(1) 5

Classificação Observe a saida dos diferentes tipos de classificadores. === Classifier model (full training set) === J48 pruned tree ------------------ outlook = sunny humidity = high: no (3.0) humidity = normal: yes (2.0) outlook = overcast: yes (4.0) outlook = rainy windy = TRUE: no (2.0) windy = FALSE: yes (3.0) Number of Leaves 6

Arquivo ARFF O formato ARFF é utilizado como padrão para estruturar as bases de dados do Weka. Arquivo ARFF Arquivo ARFF 7

Arquivo ARFF Arquivo ARFF Exemplo: Classificação 8

Exemplo: BD locadora de veículos Exemplo: BD locadora de veículos 9

10

11

12

13

14

15