Data Mining: Ferramenta JAVA



Documentos relacionados
Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

Mestrado em Análise de Dados e Sistemas de Apoio à Decisão. Faculdade de Economia. Universidade de Porto. Extracção de Conhecimento de Dados I

Mineração de Dados (Regras de associação)

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Prof. Msc. Paulo Muniz de Ávila

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

UTILIZANDO O SOFTWARE WEKA

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Utilização de Ferramentas de KDD para Integração de Aprendizagem e Tecnologia em Busca da Gestão Estratégica do Conhecimento na Empresa

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína

Descoberta de Conhecimento em Base de Imagens Mamográficas

Data Warehouse Mineração de Dados

Ambiente Weka Waikato Environment for Knowledge Analysis

Relatório Técnico - SVM na base Breast Cancer Wisconsin

Minerando regras de associação

Data Mining: Conceitos e Técnicas

A Grande Importância da Mineração de Dados nas Organizações

Capítulo 11. Conceitos de Orientação a Objetos. Rui Rossi dos Santos Programação de Computadores em Java Editora NovaTerra

Weka na Munheca. Um guia para uso do Weka em scripts e integração com aplicações em Java. Rafael Santos ( rafael.

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

Sistema de Informação Gerencial baseado em Data Warehouse aplicado a uma software house

IMPLEMENTAÇÃO DE UM MÓDULO DE MINERAÇÃO DE DADOS EM UM ERP

Histórico da Orientação a Objetos Ciclo de vida de Desenvolvimento de SW

Data Mining II Modelos Preditivos

Data Warehouse Mineração de Dados

Planejamento Estratégico de TI. Prof.: Fernando Ascani

ADM041 / EPR806 Sistemas de Informação

Ferramentas Livres de Armazenamento e Mineração de Dados

Exemplos de aplicação. Mineração de Dados 2013

Data Warehouse Mineração de Dados

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

Curso de Data Mining

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

UTILIZAÇÃO DE TÉCNICAS DE BUSINESS INTELLIGENCE NA BASE DE CON- SULTAS ESPECIALIZADAS DO SISTEMA ÚNICO DE SAÚDE.

Métodos para Classificação: - Naïve Bayes.

SISTEMAS DE APOIO À DECISÃO SAD

3 Metodologia para Segmentação do Mercado Bancário

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Projeto 6.12 Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software

Árvore de Decisão. Capítulo 18 Russell & Norvig Seções 18.1 a 18.3

Aula 02: Conceitos Fundamentais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Web Data Mining com R

servidores Web com RapidMiner

INF 2125 PROJETO DE SISTEMAS DE SOFTWARE Prof. Carlos J. P. de Lucena

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

SCC0173 Mineração de Dados Biológicos

Definition of a Measurement Guide for Data Warehouse Projects

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Plano de Trabalho Docente Ensino Técnico

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

Mineração de Dados: Introdução e Aplicações

Este capítulo é divido em duas seções, a primeira seção descreve a base de

Avaliando o que foi Aprendido

Obtenção de regras de associação sobre compras governamentais: Um estudo de caso 1

Banco de Dados - Senado

Sistemas Operacionais

Universidade de Brasília. Faculdade de Ciência da Informação. Prof a Lillian Alvares

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br. Aula 3. Prof. Rafael Dias Ribeiro.

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Classificação: 1R e Naïve Bayes. Eduardo Raul Hruschka

Lista de verificação (Check list) para planejamento e execução de Projetos

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

BRAlarmExpert. Software para Gerenciamento de Alarmes. BENEFÍCIOS obtidos com a utilização do BRAlarmExpert:

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Nº Competências Nº Habilidades Nº Bases Tecnológicas 1

Descoberta de Conhecimento em Banco de Dados: Fundamentos, Ferramentas e Aplicações

Gerenciamento de configuração. Gerenciamento de Configuração. Gerenciamento de configuração. Gerenciamento de configuração. Famílias de sistemas

Aplica-se obrigatoriamente a todas as áreas que possuem empresas contratadas na Vale Fertilizantes.

ASSUNTO DA APOSTILA: SISTEMAS DE INFORMAÇÃO E AS DECISÕES GERENCIAIS NA ERA DA INTERNET

Data, Text and Web Mining

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE CONFIGURAÇÃO

Plano de Trabalho Docente Ensino Técnico

EXTRAÇÃO DE CONHECIMENTO ATRAVÉS DA MINERAÇÃO DE DADOS KNOWLEDGE EXTRACTION THROUGH OF THE MINING OF DATA

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

Transcrição:

Data Mining: Ferramenta JAVA

JAVA para Data Mining Weka 3: Data Mining Software em Java http://www.cs.waikato.ac.nz/ml/weka/ Coleção de algoritmos para as tarefas de data mining; Free software.

WEKA: JAVA para Data Mining Os algoritmos podem ser aplicados diretamente a um dataset ou chamados de um programa em Java; O Weka contém ferramentas para o préprocessamento de dados, regras de associação, classificação, regressão, agrupamento, e visualização; Pode ainda ser utilizado para desenvolver novos esquemas de aprendizagem de máquina.

WEKA: JAVA para Data Mining Arquivo.jar ; Uso em linha de comando; Uso em ambiente de exploração; Uso em ambiente de experimentação; Entrada de dados: arquivo no formato.arff

WEKA: JAVA para Data Mining Arquivo.arff: Nome do dataset; Descrição dos atributos e de seus domínios; Apresentação das instâncias. Bases de dados clássicas (UCI): http://archive.ics.uci.edu/ml/

WEKA: JAVA para Data Mining @relation paoeleite @attribute leite {yes, no} @attribute cafe {yes, no}... @data no, yes, no, yes, yes, no, no yes, no, yes, yes, yes, no, no no, yes, no, yes, yes, no, no yes, yes, no, yes, yes, no, no no, no, no, no, yes, no, no...

WEKA: JAVA para Data Mining Carga do arquivo; Análise dos atributos e seus valores; Indicação de pré-processamento; Escolha da tarefa de data mining; Escolha do algoritmo a aplicar; Acerto dos parâmetros; Execução; Análise dos resultados de saída.

WEKA: JAVA para Data Mining === Run information === Scheme: weka.associations.apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 Relation: paoeleite Instances: 9 Attributes: 7 leite cafe cerveja pao manteiga arroz feijao === Associator model (full training set) ===

WEKA: JAVA para Data Mining Apriori ======= Minimum support: 0.6 Minimum metric <confidence>: 0.9 Number of cycles performed: 8 Generated sets of large itemsets: Size of set of large itemsets L(1): 7 Size of set of large itemsets L(2): 12 Size of set of large itemsets L(3): 6

WEKA: JAVA para Data Mining Best rules found: 1. leite=no 7 ==> cerveja=no 7 conf:(1) 2. manteiga=yes 5 ==> arroz=no feijao=no 5 conf:(1) 3. manteiga=yes arroz=no 5 ==> feijao=no 5 conf:(1) 4. manteiga=yes feijao=no 5 ==> arroz=no 5 conf:(1) 5. pao=yes 5 ==> arroz=no feijao=no 5 conf:(1) 6. pao=yes arroz=no 5 ==> feijao=no 5 conf:(1) 7. pao=yes feijao=no 5 ==> arroz=no 5 conf:(1) 8. leite=no feijao=no 5 ==> cerveja=no 5 conf:(1) 9. leite=no arroz=no 5 ==> cerveja=no 5 conf:(1) 10. leite=no cafe=no 5 ==> cerveja=no 5 conf:(1)

WEKA: JAVA para Data Mining Exemplo de classificação (arquivo weather): @relation weather @attribute outlook {sunny, overcast, rainy} @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} @data sunny,85,85,false,no sunny,80,90,true,no overcast,83,86,false,yes rainy,70,96,false,yes...

WEKA: JAVA para Data Mining Carga do arquivo; Análise dos atributos e seus valores; Indicação de pré-processamento; Escolha da tarefa de data mining; Escolha do algoritmo a aplicar; Acerto dos parâmetros; Execução; Análise dos resultados de saída.

WEKA: JAVA para Data Mining === Run information === Scheme: weka.classifiers.trees.j48 -C 0.25 -M 2 Relation: weather Instances: 14 Attributes: 5 outlook temperature humidity windy play Test mode: split 66% train, remainder test

WEKA: JAVA para Data Mining === Classifier model (full training set) === J48 pruned tree ------------------ outlook = sunny humidity <= 75: yes (2.0) humidity > 75: no (3.0) outlook = overcast: yes (4.0) outlook = rainy windy = TRUE: no (2.0) windy = FALSE: yes (3.0) Number of Leaves : 5 Size of the tree : 8 Time taken to build model: 0.07 seconds

WEKA: JAVA para Data Mining === Evaluation on test split === === Summary === Correctly Classified Instances 2 40 % Incorrectly Classified Instances 3 60 % Kappa statistic -0.3636 Mean absolute error 0.6 Root mean squared error 0.7746 Relative absolute error 126.9231 % Root relative squared error 157.6801 % Total Number of Instances 5

WEKA: JAVA para Data Mining === Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure Class 0.667 1 0.5 0.667 0.571 yes 0 0.333 0 0 0 no === Confusion Matrix === a b <-- classified as 2 1 a = yes 2 0 b = no

Uma aplicação do WEKA Análise de um procedimento de datamining: 1. Descrição do problema alvo; 2. Objetivos da tarefa, caracterização; 3. Indicativos do pré-processamento; 4. Criação de base de teste; 5. Aplicação do algoritmo selecionado na base; 6. Avaliação dos resultados.

Uso do WEKA Dowloads, tutoriais, documentação, faq s, how to s: A partir de http://www.cs.waikato.ac.nz/ml/weka/ Exemplo: tutorial introdutório de Alex K. Seewald: http://alex.seewald.at/weka/

Uso do WEKA (No tutorial introdutório de Alex K. Seewald) Appendix A: How to call WEKA from Java

Uso do WEKA Ou ainda: Weka API: http://weka.sourceforge.net/doc/

WEKA: conclusão BOM USO

Ferramentas de Data Mining Modelo Comparativo: 1) Características relacionadas ao problema: Acesso a fontes heterogêneas de dados; Integração de conjuntos de dados.

Ferramentas de Data Mining Modelo Comparativo: 2) Características relacionadas aos recursos: Facilidade para inclusão de novas operações; Facilidade para inclusão de novos métodos; Recursos para o planejamento de ações; Processamento paralelo e distribuído; Operações e métodos disponíveis.

Ferramentas de Data Mining Modelo Comparativo: 3) Características relacionadas aos resultados: Estruturas para o armazenamento de modelos de conhecimento; Estruturas para o armazenameno de históricos de ações.

Ferramentas de Data Mining Nome Tarefas de KDD Fabricante SPSS Clementine PolyAnalyst Weka Classificação, regras de associação, sequências, deteção de desvios Classificação, regressão, regras de associação, clusterização, sumarização, deteção de desvios Classificação, regressão, regras de associação, clusterização, www.spss.com www.megaputer.com www.cs.waikato.ac.nz Darwin Classificação en.wikipedia.org/wiki/thin king_machines Intelligent Miner Classificação, regras de associação, sequências, clusterização, sumarização www.ibm.com

Ferramentas de Data Mining Nome Tarefas de KDD Fabricante WizRule Bramining SAS Interprise Miner Oracle Data Miner Sumarização, classificação, deteção de desvios Classificação, regras de associação, regressão, sumarização Classificação, regras de associação, regressão, sumarização Classificação, regressão, associação, clusterização e mineração de textos www.wizsoft.com www.graal-corp.com.br www.sas.com www.oracle.com

Metodologia para Data Mining Visão Geral: 1) O que fazer? Levantamento inicial; Definição dos objetivos. 2) Como fazer? Planejamento de atividades; Execução dos planos de ação; Avaliação dos resultados.

Metodologia para Data Mining Levantamento inicial: Identificação de pessoas e áreas envolvidas; Levantamento de hardware e software; Inventário das bases de dados disponíveis; Verificar a existência de datawarehouses; Analisar significado e relevância de atributos; Esboçar lista de necessidades e expectativas dos usuários; Avaliar a quantidade de dados disponíveis; Identificar e documentar o conhecimento previamente existente e disponível.

Metodologia para Data Mining Definição dos objetivos: Exige forte interação entre o analista de KDD e os especialistas no domínio; Deve-se identificar as expectativas identificadas e validá-las com os especialistas; Em seguida deve-se analisar a tarefa de mineração de dados. Planejamento das Atividades: Identificar os métodos disponíveis; Escolha entre os métodos; Analisar o pré-processamento necessário.

Metodologia para Data Mining Execução dos planos de ação: Execução dos método definido na etapa anterior; Estudos de parâmetros e experimentação; Avaliação dos resultados: Avaliação da correção e demais medidas de performance; Analise dos resultados frente aos objetivos definidos e seu atendimento.

Metodologia para Data Mining Exemplos de aplicação: Telefonia; Franquia de fast-food; Ação social; Educação; Área médica; Área financeira.