Ambiente Weka Waikato Environment for Knowledge Analysis



Documentos relacionados
WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Aprendizado de classificadores das ementas da Jurisprudência do Tribunal Regional do Trabalho da 2ª. Região - SP

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Prof. Heitor Silvério Lopes

UTILIZANDO O SOFTWARE WEKA

Prof. Msc. Paulo Muniz de Ávila

Data, Text and Web Mining

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Aprendizagem de Máquina

Data Mining: Ferramenta JAVA

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1.

Técnicas de Aprendizado de Máquina Aplicadas na Previsão de Evasão Acadêmica

Fabrício J. Barth. Apontador

Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II. Mineração de Dados. Sylvio Barbon Junior 26 de junho de 2015 DC-UEL Sylvio Barbon Jr 1

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

Considerações sobre Conhecimento Incerto e Redes Bayesianas

INTELIGÊNCIA ARTIFICIAL

Proposta de Dissertação de Mestrado

MINERAÇÃO DE DADOS APLICADA PARA LEVANTAMENTO DO PERFIL DOS ALUNOS DOS CURSOS TÉCNICOS OFERECIDOS PELO CAMPUS CAMPOS DO JORDÃO DO IFSP

Mineração de Dados em Biologia Molecular

Protótipo de um Sistema Móvel para a Extração de. Características em Fragmentos de Imagem de Tecido. Cólico

Aprendizado de Máquina

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Data Mining com a Ferramenta Weka

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Paralelização do algoritmo SPRINT usando MyGrid

Web Data Mining com R

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

A Grande Importância da Mineração de Dados nas Organizações

Data Mining II Modelos Preditivos

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Web Data mining com R: aprendizagem de máquina

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

MINERAÇÃO DE DADOS PARALELA E DISTRIBUÍDA BASEADA NO AMBIENTE WEKA

Identificação de Padrões em Registros de Doenças com Técnicas de Mineração de Dados

Disciplina de Text Mining

Estrutura de Dados e Algoritmos

Ferramentas Livres de Armazenamento e Mineração de Dados

Aprenda como instalar o plugin EclipseUML no Eclipse e como utilizá-lo para fazer engenharia reversa de seu código-fonte.

Mineração de Dados: Introdução e Aplicações

Passos para o Aprendizado de Máquina com Pentaho. Prof. Marcos Vinicius Fidelis UTFPR/UEPG

SCC0173 Mineração de Dados Biológicos

Plataforma Pentaho. Fagner Fernandes

ALGORITMOS DE APRENDIZADO DE MÁQUINA APLICADOS À PARÂMETROS MENSURADOS NO RIO ATIBAIA/SP

ANÁLISE ESPACIAL DOS ÍNDICES EDUCACIONAIS DO RIO GRANDE DO NORTE COM O USO DE TÉCNICAS DE MINERAÇÃO DE DADOS

Extração Automática de Palavras-chave de Textos da Língua Portuguesa

Universidade de São Paulo (USP) Universidade Federal de São Carlos (UFSCar) Universidade Metodista de Piracicaba (Unimep)

SIG e Banco de Dados OFICINA BUFFER E OVERLAY. Responsável: MARIA ISABEL C DE FREITAS Colaboração: KATIA CRISTINA BORTOLETTO E BRUNO ZUCHERATO

ANÁLISE DA VARIABILIDADE ESPAÇO-TEMPORAL DA PRECIPITAÇÃO PLUVIOMÉTRICA NO ESTADO DO RIO GRANDE DO SUL

Mineração de Dados Aplicada à Modelagem da Incidência da Anemia Infecciosa Equina (AIE), no Pantanal Sul-matogrossense

Mineração de Dados - II

RBC no Auxílio de Avaliações Imobiliárias

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

PREPARAÇÃO DE DADOS PARA A MODELAGEM DE OCORRÊNCIAS DA FERRUGEM ASIÁTICA DA SOJA

Sistemas Operacionais

SISTEMA GERENCIADOR DE BANCO DE DADOS

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Mineração de Dados Aplicada no Contexto Educacional

A Utilização de Software Livre na Análise de QoS em Redes IP Utilizando Mineração de Dados

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais

Data Mining: Conceitos e Técnicas

Introdução a Java. Hélder Nunes

Manual de Registo de Certificados no. Microsoft Windows

Pontifícia Universidade Católica de São Paulo Departamento de Ciência da Computação

GERAÇÃO DE RELATÓRIOS

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

Extração de Conhecimento & Mineração de Dados

Aplicação do algoritmo SimpleKMeans em experimento de milho verde

Sistema Tutor Inteligente baseado em Agentes. Pedagógicas da Universidade Aberta do Piauí. Prof. Dr. Vinicius Ponte Machado

PENTAHO. História e Apresentação

Em direção à portabilidade entre plataformas de Computação em Nuvem usando MDE. Elias Adriano - UFSCar Daniel Lucrédio - UFSCar

Padronização de Processos: BI e KDD

Explorer Pattern Tools: Uma Ferramenta para Mineração de Dados Utilizando Algoritmos Genéticos

Aspectos de Segurança em Programação com Java

Algoritmo K-Means Paralelo com base no MapReduce para Mineração de dados agrícolas

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Indução de Árvores de Decisão para a Inferência de Redes Gênicas

Mineração de dados em triagem de risco de saúde

Framework.NET, Microsoft Visual C# 2010 Express e Elementos da Linguagem C#

Introdução ao Apache Lucene: inserindo busca eficiente ao seu projeto de software

Aula 02: Conceitos Fundamentais

Transcrição:

Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Ambiente Weka Waikato Environment for Knowledge Analysis Classificação Textual Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri Coorientador: Dr. Thiago Alexandre S. Pardo Área: Banco de Dados

O que é Weka? Coleção de algoritmo de AM para tarefas de MD Implementado em Java Algoritmos de classificação: Naive Bayes, SVM, Árvore de Decisão, Regras de Classificação... 3 modos de execução GUI Linha de Comando Java API 2/19

Arquivo ARFF (Attribute-Relation File Format) @relation <nome-relação> @relation AnemiaFalciforme @attribute <nome-atributo> <tipo-de-dados> Tipo de dados pode ser numeric, nominal, string ou date @attribute termos numeric @attribute class {complication,benefit,other} @data Valores perdidos são representados por? @data 1,0,0,complication 3/19

Formato.ARFF 4/19

Formato.ARFF Atributo Numérico 5/19

Formato.ARFF Atributo Nominal 6/19

Formato.CSV.CSV (Comma-separated values) 7/19

8/19

1ª Fase Pré-Processamento 1. Exclusão das stops words A. import weka.core.stopwords 2. Padronização: Aplicar algoritmo de stemming de Porter (1980) A. import org.tartarus.snowball.* 3. Cálculo da frequência das palavras (1 até 5 gramas) 9/19

4. Criação da Tabela Atributo-Valor A. Frequência das n-gramas B. Bag of words 1ª Fase Pré-Processamento 10/19

4. Criação da Tabela Atributo-Valor 1ª Fase Pré-Processamento Exemplo 11/19

4. Criação da Tabela Atributo-Valor 1ª Fase Pré-Processamento Exemplo: Sentenças e Atributos Complication In six patients parvovirus B19 infection developed during treatment; Benefit Other HU therapy can ameliorate the clinical course of sickle cell anemia in some adults with three or more painful crises per year; Mean daily doses of HU as well as hematologic response to HU were similar to that of the whole cohort. 12/19

5. Criar Arquivo ARFF 1ª Fase Pré-Processamento 13/19

5. Criar Arquivo ARFF 1ª Fase Pré-Processamento 14/19

2ª Fase Seleção de Atributo 1. Seleção de atributo: Ganho de Informação, Qui- Quadrado e Log-likelihood. Atributo Nominal Gerado pelo Mover patients 0.191856037238505 hydroxyurea 0.112716636725634 of 0.0608516308277867 treatment 0.0608516308277866 to 0.0342208387984868 was 0.0342208387984868 in 0.0297091368698651 2 0.0297091368698651 the 0.00819687042760753 a 0.00819687042760753 15/19

2. Criação da Tabela Atributo-Valor A. Ganho de Informação, Qui-Quadrado,... B. Bag of words 2ª Fase Seleção de Atributo Exemplo 16/19

3. Criar Arquivo ARFF 2ª Fase Seleção de Atributo 17/19

1. Classificação: Atributo Nominal 3ª Fase Classificação 18/19

Referências PORTER, M. F. An algorithm for suffix stripping. Program, v. 14, n. 3, p. 130-137, 1980. Disponível em: <http://www.mis.yuntech.edu.tw/~huangcm/research/porter.pdf>. Acesso em: 24 ago. 2009. SANTOS, R. Weka na munheca. 2005. Disponível em: <www.lac.inpe.br/~rafael.santos/docs/cap359/2005/weka.pdf>. Acesso em: 25 ago. 2009. WEKA. Data mining with open source machine learning software in Java. Disponível em: <http://www.cs.waikato.ac.nz/ml/weka/>. Acesso em: 10 fev. 2009. WITTEN, I. H.; FRANK, E. Data mining: practical machine learning tools and techniques with Java implementations. 2nd ed. San Francisco, CA: Morgan Kaufmann, 2005. 525 p. 19/19

Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Ambiente Weka Waikato Environment for Knowledge Analysis Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri Coorientador: Dr. Thiago Alexandre S. Pardo Área: Banco de Dados

Linha de comando Classificação java -cp weka.jar weka.classifiers.trees.j48 -t data/weather.arff Discretizar valores java -cp weka.jar weka.filters.unsupervised.attribute.discretize -R first-last -B 5 -i data/iris.arff -o data/iris-disc.arff -R indica quais os índices dos atributos que devem ser discretizados -B máximo de valores discretos Ajuda java cp weka.jar weka.classifiers.bayes.naivebayes -? 21/19

Linha de comando Running an N-fold cross validation experiment java -cp ~cs4705/bin/weka.jar weka.classifiers.bayes.naivebayes -t trainingdata.arff -x N -i Using a predefined test set java -cp ~cs4705/bin/weka.jar weka.classifiers.bayes.naivebayes -t trainingdata.arff -T testingdata.arff 22/19

Weka Explorer Pré-processamento Atributo Numérico 23/19

1. Classificação: Atributo Numérico 3ª Fase Classificação 24/19

1. Classificação: Atributo Nominal 3ª Fase Classificação 25/19