TÂNIA DOS SANTOS LIMA ESTUDO COMPARATIVO DOS ALGORITMOS DE CLASSIFICAÇÃO DA FERRAMENTA WEKA



Documentos relacionados
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

UTILIZANDO O SOFTWARE WEKA

ROTEIRO PARA TREINAMENTO DO SAGRES DIÁRIO Guia do Docente

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Prof. Msc. Paulo Muniz de Ávila

Manual SAGe Versão 1.2 (a partir da versão )

SISTEMA INTEGRADO DE GESTÃO ACADÊMICA

Manual do Visualizador NF e KEY BEST

ADM041 / EPR806 Sistemas de Informação

Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA QUESTÃO RESPOSTA QUESTÃO RESPOSTA

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MANUAL DO GERENCIADOR ESCOLAR WEB

ArpPrintServer. Sistema de Gerenciamento de Impressão By Netsource Rev: 02

Premiação por Produtividade

DATA WAREHOUSE. Introdução

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

Sumário 1. SOBRE O NFGoiana DESKTOP Apresentação Informações do sistema Acessando o NFGoiana Desktop

SERVICE DESK MANAGER SDM. Manual do Sistema - DPOI

Serviço Público Federal Universidade Federal do Pará - UFPA Centro de Tecnologia da Informação e Comunicação - CTIC S I E

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

PORTAL DE COMPRAS SÃO JOSÉ DO RIO PRETO

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

A Grande Importância da Mineração de Dados nas Organizações

Técnicas de Caixa Preta de Teste de Software

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

Moodle - CEAD Manual do Estudante

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Sistema Banco de Preços Manual do Usuário OBSERVATÓRIO

Ajuda On-line - Sistema de Portaria. Versão 4.8.J

Especificação do 3º Trabalho

Manual Geral do OASIS

CONFIGURAÇÃO Cobian Backup Programa gratuito e de qualidade para realizar seus backups automáticos

Treinamento Auditor Fiscal. Instrutor: Jaime Naves Gestora: Adriana Nunes

Manual da Turma Virtual: MATERIAIS. Para acessar a turma virtual com o perfil Docente, siga o caminho indicado abaixo:

E3Suite. Estudo da Evolução de Eventos Científicos

Aula 02 Excel Operações Básicas

Programa de Capacitação em Gestão do PPA Curso PPA: Elaboração e Gestão Ciclo Básico. Elaboração de Planos Gerenciais dos Programas do PPA

MANUAL DE UTILIZAÇÃO SISTEMA DE CADASTRO INTRANET

Procedimentos para Reinstalação do Sisloc

4 Segmentação Algoritmo proposto

Construção da Consulta. Para a construção da consulta, siga os passos abaixo:

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Microsoft Office PowerPoint 2007

MANUAL DE UTILIZAÇÃO

Manual de Utilização ZENDESK. Instruções Básicas

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Manual de Publicaça o no Blog da Aça o TRIBOS nas Trilhas da Cidadania

Manual Operacional SIGA

Ferramenta: Spider-CL. Manual do Usuário. Versão da Ferramenta:

Instruções de uso do TABNET. Linha, Coluna e Conteúdo

Manual para Envio de Petição Inicial

Dicas para usar melhor o Word 2007

O GEM é um software 100% Web, ou seja, você poderá acessar de qualquer local através da Internet.

Aplicativo da Manifestação do Destinatário. Manual

2. INSTALAÇÃO E CONFIGURAÇÃO

Manual do e-dimed 4.0

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Sistema de Autorização Unimed

4 Implementação e Resultados Experimentais

LMS: Manual do aluno

SUMÁRIO Acesso ao sistema... 2 Atendente... 3

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Manual Portal Ambipar

Manual de Administração

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

CAPTAÇÃO DE PEDIDOS DO REVENDEDOR

Índice. Para encerrar um atendimento (suporte) Conversa Adicionar Pessoa (na mesma conversa)... 20

TOTVS Série 1 Varejo (Simples) - Módulo e-commerce

Cadastramento de Computadores. Manual do Usuário

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

Instalação: permite baixar o pacote de instalação do agente de coleta do sistema.

Portal Sindical. Manual Operacional Empresas/Escritórios

SIPESQ Sistema de Pesquisas da PUCRS

MANUAL DE NAVEGAÇÃO UNICURITIBA VIRTUAL

Está apto a utilizar o sistema, o usuário que tenha conhecimentos básicos de informática e navegação na internet.

Análise de Dados do Financeiro

Aula 01 - Formatações prontas e condicionais. Aula 01 - Formatações prontas e condicionais. Sumário. Formatar como Tabela

Sistema de Gestão de Recursos de Aprendizagem

Manual de Utilização das Funções Básicas do Sistema ClinicWeb

Satélite. Manual de instalação e configuração. CENPECT Informática cenpect@cenpect.com.br

Manual do Módulo SAC

Manual Q-Acadêmico 2.0 Módulo Web - Aluno

Gestão de Ativos. Manual do Usuário. Treinamento Fase 1 (TRN 01)

Backup dos Trabalhos e Configurações

Fox Gerenciador de Sistemas

TOTVS BA Guia de Customização Linha Logix

TUTORIAL DE USO DO BUSINESS INTELLIGENCE (BI) PARA O HÓRUS-ESPECIALIZADO

Manual de digitação de contas Portal AFPERGS

Universidade Federal do Mato Grosso - STI-CAE. Índice

Despachante Express - Software para o despachante documentalista veicular DESPACHANTE EXPRESS MANUAL DO USUÁRIO VERSÃO 1.1

Anexo III Funcionamento detalhado do Sistema Montador de Autoria

Uso do Netkit no Ensino de Roteamento Estático

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

Imóvel Mix SGI. 1. Acesso ao Sistema 2. Aspectos Gerais 3. Configuração da Empresa 4. Cadastro de Usuários

Manual Xerox capture EMBRATEL

SUAP Módulo Protocolo Manual do Usuário DTI DIRETORIA DE TECNOLOGIA DA INFORMAÇÃO SEÇÃO DE PROJETOS, SISTEMAS E PROCESSOS DE NEGÓCIO

DIRETRIZES DE USO DA MATRIZ DE SISTEMATIZAÇÃO DE INFORMAÇÕES

Transcrição:

TÂNIA DOS SANTOS LIMA ESTUDO COMPARATIVO DOS ALGORITMOS DE CLASSIFICAÇÃO DA FERRAMENTA WEKA Palmas - TO 2005

TÂNIA DOS SANTOS LIMA ESTUDO COMPARATIVO DOS ALGORITMOS DE CLASSIFICAÇÃO DA FERRAMENTA WEKA Trabalho de Conclusão de Curso apresentado como requisito parcial de disciplina Estágio Supervisionado em Sistemas de Informação, orientado pela Profª. Thereza Patrícia Pereira Padilha. Palmas - TO 2005

iii TÂNIA DOS SANTOS LIMA ESTUDO COMPARATIVO DOS ALGORITMOS DE CLASSIFICAÇÃO DA FERRAMENTA WEKA Trabalho de Conclusão de Curso apresentado como requisito parcial de disciplina Estágio Supervisionado em Sistemas de Informação, orientado pela Profª. Thereza Patrícia Pereira Padilha. Aprovado em de 2005 BANCA EXAMINADORA Profª. Thereza Patrícia Padilha Pereira Centro Universitário Luterano de Palmas Prof. Fernando Luiz de Oliveira Centro Universitário Luterano de Palmas Profª. Madianita Bogo Centro Universitário Luterano de Palmas Palmas-TO 2005

iv SUMÁRIO 1 INTRODUÇÃO...11 2 REVISÃO DA LITERATURA...13 2.1 APRENDIZADO DE MÁQUINA... 13 2.2 APLICAÇÕES DE APRENDIZADO DE MÁQUINA... 14 2.3 PROCESSO KDD... 14 2.3.1 Fases do Processo KDD... 15 2.4 MINERAÇÃO DE DADOS... 16 2.4.1 Associação... 17 2.4.2 Agrupamento ou clustering... 18 2.4.3 Classificação... 19 2.5 FERRAMENTA WEKA... 19 2.5.1 Ambiente da Ferramenta WEKA... 19 2.6 ALGORITMOS DE CLASSIFICAÇÃO POR REGRAS DA FERRAMENTA WEKA... 28 3 MATERIAL E MÉTODOS...31 3.1 LOCAL E PERÍODO... 31 3.2 MATERIAIS...... 31 3.2.1 Hardware... 31 3.2.2 Software licenciando e gratuito... 31 3.2.3 Fontes bibliográficas... 32 3.2.4 Metodologia... 32 4 RESULTADOS E DISCUSSÃO...33 4.1 CONJUNTOS DE DADOS... 33 4.2 RESULTADOS DOS EXPERIMENTOS REALIZADOS UTILIZANDO OS ALGORITMOS DE CLASSIFICAÇÃO DE REGRAS DE DECISÃO...39 4.2.1 Regras geradas pelos algoritmos... 40 4.2.2 Instâncias classificadas corretamente e incorretamente... 57 4.2.3 Matriz de confusão e tempo de execução... 63 5 CONSIDERAÇÕES FINAIS...69 6 REFERÊNCIAS BIBLIOGRÁFICAS...72

v LISTA DE FIGURAS Figura 1. Etapas do Processo de Descoberta de Conhecimento em Base de Dados. (REZENDE, 2003)...15 Figura 2. Agrupamento hipotético do perfil das mulheres...18 Figura 3. Tela inicial da ferramenta WEKA...20 Figura 4. Execução do Simple CLI em linha de comando...20 Figura 5. Arquivo sem formatação do ARFF....23 Figura 6. Arquivo com formatação ARFF...23 Figura 7. Tela do Explorer WEKA....21 Figura 8. Tela principal do Classify....24 Figura 9. Opção para escolha do algoritmo classificador...25 Figura 10. Opções de saída dos dados processados...27 Figura 11. Resultado do classificador....27 Figura 12. Árvore de Decisão do Conjunto de Dados iris...43 Figura 13. Regras geradas a partir do algoritmo OneR....53

vi LISTA DE GRÁFICOS Gráfico 1. Conjunto de íris (treinamento)...34 Gráfico 2. Conjunto de íris (teste)...35 Gráfico 3. Conjunto de titanic (treinamento)...36 Gráfico 4. Conjunto de titanic (teste)...36 Gráfico 5. Conjunto de bandeiras (treinamento)....39 Gráfico 6. Conjunto de bandeiras (teste)...39 Gráfico 7. Comparação dos conjuntos de dados utilizando o algoritmo j48.part....59 Gráfico 8. Comparação dos conjuntos de dados utilizando o algoritmo OneR, MBS igual a 6....60 Gráfico 9. Comparação dos conjuntos de dados utilizando o algoritmo OneR, MBS igual a 22....61

vii LISTA DE TABELAS Tabela 1: Algoritmo de classificação por técnica...25 Tabela 2: Forma genérica de uma tabela de decisão (BORGES, 2005)....30 Tabela 3: Atributos, tipo e valores do conjunto de dados iris...34 Tabela 4: Atributos, tipos e valores dos conjuntos de dados titanic....35 Tabela 5: Atributos, tipos e valores do conjunto de dados bandeira....38 Tabela 6: Experimentos utilizando o algoritmo j48.part....42 Tabela 7: Regras de Decisão - Conjunto de Dados Iris....43 Tabela 8: Comparação das instâncias que geraram as regras....45 Tabela 9: Regras de decisão - Conjunto de dados Titanic...45 Tabela 10: Experimentos utilizando o algoritmo OneR....52 Tabela 11: Experimentos utilizando o algoritmo DecisionTable....55 Tabela 12: Classificação das instâncias a partir do algoritmo j48.part...58 Tabela 13: Classificação das instâncias a partir do algoritmo OneR, MBS igual a 6...59 Tabela 14: Classificação das instâncias a partir do algoritmo Oner, MBS igual a 22....60 Tabela 15: Classificação das instâncias a partir dos algoritmos DecisionTable, CV igual a 1....61 Tabela 16: Classificação das instâncias a partir dos algoritmos DecisionTable, CV igual a 8....62 Tabela 17: Matriz de confusão do j48.part utilizando os conjuntos de dados íris, titanic e bandeiras....63 Tabela 18: Tempo de execução do algoritmo j48.part....64 Tabela 19: Matriz de confusão do OneR utilizando os conjuntos de dados íris, titanic e bandeiras, MBS igual a 6....65 Tabela 20: Matriz de confusão do OneR utilizando os conjuntos de dados íris, titanic e bandeiras, MBS igual a 22....66 Tabela 21: Matriz de confusão do DecisionTable utilizando os conjuntos de dados íris, titanic e bandeiras, CV igual a 1....66 Tabela 22: Matriz de confusão do DecisionTable utilizando os conjuntos de dados íris, titanic e bandeiras, CV igual a 8....67

viii LISTA DE ABREVIATURAS BS CV IA ICC ICI KDD MBS MD WEKA binarysplits crossval Inteligência Artificial Instâncias classificadas corretamente Instâncias classificadas incorretamente Knowledge discovery in database minbucketsize Mineração de Dados Waikato Environment for Knowledge Analysis

ix RESUMO A área de descoberta de conhecimento a partir dos dados tem sido bastante explorada em empresas devido aos vários benefícios que são obtidos, tais como a identificação de perfil de consumidores. Para isso, é necessária a aplicação de um ou mais algoritmos de mineração de dados. A ferramenta WEKA contém um conjunto de algoritmos de mineração que possibilita a descoberta do conhecimento de forma automática. Este trabalho visa apresentar o estudo sobre três algoritmos de mineração, sob o paradigma de regras de produção, e investigar o seu comportamento usando três conjuntos de dados disponíveis na web. Palavras-chave: Processo de descoberta de conhecimento, ferramenta WEKA, algoritmos de mineração.

x ABSTRACT The area of discovery of knowledge from the data has been sufficiently explored in companies due to the some benefits that are gotten, such as the identification of profile of consumers. For this, the application of one or more algorithms of mining of data is necessary. Tool WEKA contains a set of mining algorithms that make possible the discovery of the knowledge of automatic form. This work aims at to present the study on three algorithms of mining, under the paradigm of production rules, and to investigate its behavior using three available data sets in web. Keywords: Knowledge discovery in database, Machine Learning, Data mining.

11 1 INTRODUÇÃO Num processo de tomada de decisão, a informação tem um papel significante para o processo de descoberta de conhecimento a partir de banco de dados. A descoberta de conhecimento em banco de dados (Knowledge Discovery in Database - KDD) é uma área da Inteligência Artificial (IA) que visa analisar informações de forma automática e extrair delas conhecimentos (padrões). Uma informação pode ser vista como um dado tratado e útil por auxiliar no processo de tomada de decisões nas empresas, por exemplo. O KDD é uma tecnologia computacional com finalidade de descoberta de padrões, ou seja, obtenção do conhecimento a partir de um conjunto de dados transformados (FAYYAD et all., 1996) (LIEBSTEIN, 2005) (COELHO, 2005). Essa técnica é composta por quatro etapas para extração das informações, tais como: pré-processamento, transformação, mineração de dados e pós-processamento. Na etapa de pré-processamento, os dados são selecionados e analisados para serem transformados. A transformação é o tratamento dos dados oriundo de bases de dados, pois, estes podem ter valores inconsistentes. Após a transformação, passam pelo processo de mineração no qual é obtido o conhecimento. MD é um passo do processo KDD que explora as informações de uma base com finalidade de obter o conhecimento através de seus algoritmos ou sistemas de aprendizagem de máquina (DIAS, 2002). Os sistemas de aprendizagem de máquina têm como propósito fazer descobrimento de novos conhecimentos automaticamente (PILA, 2001). A ferramenta WEKA (Waikato Environment for Knowledge Analysis), por exemplo, é uma ferramenta que, no seu ambiente, incorpora um conjunto de algoritmos de aprendizado de máquina na qual possibilita a extração do conhecimento (WEKA, 2005). Esta ferramenta tem obtido bastante sucesso na comunidade dos pesquisadores de IA por disponibilizar um conjunto de recursos para a execução do processo KDD. Sendo assim, é possível observar, notoriamente através de artigos científicos, dissertações e teses, que existe um grande interesse, pela comunidade, na investigação dos algoritmos de aprendizagem de máquina disponibilizadas na ferramenta WEKA. O pós-processamento é um processo que avalia os dados explorados, o conhecimento, através dos algoritmos de MD. A avaliação é para descobrir se os conhecimentos obtidos são relevantes na tomada de decisões. Este trabalho tem como objetivo estudar os recursos disponíveis e o funcionamento de três algoritmos de classificação da ferramenta WEKA, que são One-R, J48.PART e

12 DecisionTable, para identificar seus desempenhos utilizando conjuntos de dados hipotéticos. Para isso, serão realizados diversos experimentos com os algoritmos citados, alterando inclusive os valores dos parâmetros disponíveis em cada algoritmo. O presente trabalho encontra-se estruturado da seguinte forma: o capítulo 2 abordará as definições fundamentais da aprendizagem de máquina e as suas aplicações, do processo de descoberta de conhecimento em banco de dados, mineração de dados e sobre a ferramenta WEKA. São descritos um histórico da ferramenta WEKA, o ambiente, seus algoritmos de classificação e o tipo de entrada para a execução dos algoritmos. No capítulo 3 abordam-se as metodologias usadas para o desenvolvimento do trabalho, bem como o local, o período e os materiais. O capítulo 4 apresenta os resultados e discussões sobre o estudo comparativo dos algoritmos de classificação definidos utilizando três conjuntos de dados. No capítulo 5 serão apresentadas as conclusões sobre o trabalho realizado através do estudo dos algoritmos de classificação do WEKA. Por fim, o capítulo 6 expõe as referências bibliográficas.

13 2 REVISÃO DA LITERATURA Neste capítulo são descritos na seção 2.1 os conceitos de sistemas de aprendizagem de máquina; na seção 2.2 são descritas as aplicações dos sistemas de aprendizado de máquina; na seção 2.3 são apresentadas algumas definições do processo de descoberta de conhecimento em base de dados, e na subseção 2.3.1 as fases do processo KDD. A seção 2.4 apresenta os conceitos da Mineração de Dados (Data Mining-DM) e, em seguida, as suas principais tarefas; na seção 2.5 a descrição geral da ferramenta WEKA com enfoque na tarefa de classificação e o tipo do arquivo suportado, o formato ARFF na subseção 2.5.1.1; na seção 2.6 são descritos sobre os algoritmos de classificação da ferramenta WEKA. 2.1 Aprendizado de Máquina O aprendizado de máquina é uma forma implementada capaz de extrair novos conhecimentos de maneira automática. Normalmente são regras que ajudam no processo de tomada de decisão. Para Rezende (2003), AM é visto como um sistema que, a partir de um conjunto de dados, é possível obter conhecimentos e analisá-los. Para implementar um sistema de aprendizado de máquina devem ser considerados os requisitos da aprendizagem como, por exemplo, a aprendizagem dedutiva e indutiva. Neste trabalho será focada a aprendizagem indutiva, pois os algoritmos de regras de decisão, na classificação de dados hipotéticos da ferramenta WEKA, são indutivos (HONORATO, 2005) (WEKA, 2005). A aprendizagem indutiva, segundo Colman et. all. (2002), permite a obtenção do conhecimento a partir de uma base de dados composta por fatos. Os fatos são as hipóteses na qual se pretende chegar a uma conclusão. Nos sistemas baseados em aprendizagem de máquina indutivos, Batista (2003) o descreve como um sistema que se fundamenta nas práticas realizadas anteriormente para encontrar o conhecimento ou padrões, o qual toma decisões com base nestas práticas. Com a necessidade, não só de organizar os dados em registros computacionais e realizar as operações básicas de consultas e inserção a fim de manter um controle dentro da organização, as técnicas de mineração de dados, fases do processo KDD dentro da área de aprendizagem de máquina, possibilita por meio das informações ou dos dados processados, a obtenção de conhecimentos que equivalem a valores que auxiliam na tomada de decisões.

14 2.2 Aplicações de Aprendizado de Máquina A aprendizagem de máquina pode ser utilizada em algumas áreas em que se pretende encontrar padrões, tais como ciências médicas, biológicas, determinação de tendências de marketing, entre outras. Segundo Sousa (2004), o uso de algoritmos de aprendizagem de máquina na área de descoberta de farmácos ajuda na redução de tempo ao realizar as pesquisas sobre as moléculas que são adequadas de uma determinada proteína, de maneira automática. As moléculas mutantes de hemoglobina são investigadas para simular as mutações. Esses sistemas de aprendizagem de máquina podem ser utilizados também na área da geografia, os quais permitem encontrar ocorrências de desmoronamento devido às chuvas intensas. Para Souza (2004), o armazenamento dos dados sobre as chuvas intensas na cidade do Rio de Janeiro possibilita encontrar e visualizar a análise sobre o escoamento para prevenir as pessoas que moram nas encostas dos morros. Outro exemplo de utilização seria o Sistema de Avaliação de Ensino Institucional, que tem como propósito avaliar o curso através das opiniões obtidas de professores e alunos a respeito do desempenho das aulas ministradas, do comportamento dos professores e com relação à estrutura dos cursos oferecidos pela universidade. Com estas informações adquiridas a partir das opiniões dos alunos e professores, foi possível encontrar novos conhecimentos, os quais podem ser visualizados em forma de relatório (LACERDA et. all., 2004). Esses novos conhecimentos equivalem a informações que podem auxiliar a direção de uma universidade, por exemplo, na sua forma de aplicação da educação, estrutura física, corpo docente, entre outros aspectos. 2.3 Processo KDD Anterior ao surgimento das ferramentas analíticas como a OLAP (on-line analytical processing), por exemplo, que realizam o processamento analítico dos dados, segundo Silva (2002a), os bancos de dados convencionais permitiam que fossem feitas apenas as operações tradicionais como consulta, inserção, atualização e exclusão dos dados na base, os quais tinham como saídas às informações que não poderiam ajudar um gerente a tomar uma decisão estratégica através das mesmas.

15 Com o passar do tempo, crescia a necessidade de usar uma ferramenta para analisar uma base de dados e apresentar informações que pudessem ajudar na tomada de decisão. Para realizar um processo de análise é preciso percorrer algumas fases, pois os dados não tratados podem acarretar informações incorretas. As informações obtidas por meio de análises são denominadas de conhecimento. Para atingir o objetivo do KDD, foi criado e formalizado um conjunto de fases que devem ser executadas, sendo denominado de processo descoberta de conhecimento em base de dados. O processo de descoberta de conhecimento em base de dados (KDD) é uma técnica criada para extrair conhecimento de dados processados (LIEBSTEIN, 2005) (GOMES, 2002). O KDD é um processo complexo que encontra e apresenta informações relevantes para a tomada de decisão e determina como é adquirido um novo conhecimento. 2.3.1 Fases do Processo KDD Segundo Fayyad et all. (1996), o processo KDD consiste em várias fases: seleção, préprocessamento, transformação, mineração de dados (data mining) e interpretação/ análise dos dados processados. Neste trabalho será dado um maior enfoque na fase de mineração de dados, pois serão estudados e utilizados algoritmos de MD da ferramenta WEKA. Figura 1. Etapas do Processo de Descoberta de Conhecimento em Base de Dados. (REZENDE, 2003)

16 A figura 1 demonstra as fases do processo de descoberta de conhecimento, que inicia com o conhecimento do domínio, em que são identificadas as bases de dados que servirão como subsídios na obtenção do conhecimento. A seleção dos dados é a primeira etapa do processo KDD que tem como propósito buscar nas diversas fontes os dados que possuem relevâncias para exploração, os quais podem estar em vários formatos, uma vez que as organizações podem possuir bancos de dados com tecnologias diferentes. Um outro fator importante na seleção é escolher os dados para satisfazer o que deve ser atingido como, por exemplo, na área do marketing, que são selecionados os dados que possam ajudar a obter uma possível estratégia, a fim de conhecer o perfil dos clientes. Na área médica, por sua vez, pode-se tentar descobrir as possíveis doenças que os pacientes têm. Uma escolha errada dos dados pode levar as informações errôneas, o que prejudica a tomada de decisão (BATISTA, 2003). No pré-processamento é feita integração dos dados, eliminação de dados redundantes ou faltantes e a transformação para que os dados processados assumam um único formato. Após o processamento dos dados, são realizadas minerações de dados, para a extração de padrões e posteriores análises com a finalidade de se tomar decisões com o conhecimento obtido (REZENDE, 2003). Essa fase busca melhorar os dados selecionados, pois os mesmos podem ter informações que não poderão ajudar na descoberta de conhecimento. Para Berson (1997), os dados devem passar pelos processos de limpeza, integração para que posteriormente sejam transformados. A transformação dos dados é a fase após o pré-processamento que consiste em converter os dados, que possuem formatos diferentes, em formatos que possam ser entendidos pelo algoritmo de mineração de dados como, por exemplo, o ARFF (formato da ferramenta WEKA). Os dados são padronizados em um único formato para que algoritmo os entenda (SILVA, 2000). A mineração de dados é uma fase que reúne um conjunto de técnicas capazes de retirar dos dados tratados novos conhecimentos (REZENDE, 2003). A etapa de mineração de dados será descrita com mais detalhadamente na seção 2.4. A interpretação/análise é feita após a mineração dos dados, buscando estimar os resultados encontrados pelo algoritmo minerador a partir de conjunto de dados. 2.4 Mineração de Dados

17 Mineração de dados é um método que possibilita aos usuários obterem os conhecimentos de grandes bancos de dados (FAYYAD et. all., 1996). Para analisar as informações é necessário usar alguns procedimentos técnicos da mineração dos dados que podem determinar algumas características, tais como perfil, tendências, marketing, etc. A obtenção do conhecimento das informações que estão armazenadas nas bases é feita com a extração dos dados, na qual são usados os algoritmos de mineração. Ramos (1999), Fayyad et. all. (1996) e Gurovitz (1996) descrevem duas funcionalidades relevantes da mineração de dados, a descoberta do conhecimento e a previsão. A descoberta do conhecimento é a busca pelas informações importantes para a tomada de decisão, que não provêm de bases de dados operacionais, as quais podem ser realizadas apenas as operações tais como, inserção, alteração, atualização e exclusão de valores para os atributos e não podem suportar esse tipo de análise. Para o caso proposto, serão utilizados conjuntos de dados que passaram pelas fases de processamento e transformação por estarem aptos para este tipo de análise, ou seja, mineração de dados. A previsão contribui para o conhecimento das informações, auxiliando o gerente a definir as possibilidades de ocorrência de ações capazes de determinar comportamentos e perfis de clientes. As análises e previsões minimizam esforços como o tempo que seria gasto para determinar esses comportamentos ou erros que são prejudiciais ao tomar decisões. Existem várias ferramentas que consiste em um conjunto de algoritmos que realizam a tarefa da fase de mineração de dados, tais como MLC++ e WEKA. O MLC++ é uma ferramenta de mineração de dados, baseada em aprendizagem de máquina, que foi desenvolvida na linguagem C++, para extração de novos conhecimentos, e fornece como resultados para análise taxas de precisão, de aprendizado e a matriz de confusão (REZENDE, 2003). O WEKA será abordado na subseção 2.5 com maior ênfase por ser a ferramenta usada na mineração de dados deste trabalho. Segundo Berson (1997) e Ramos (1999), a mineração de dados pode ser realizada de acordo com algumas tarefas de mineração, tais como: associação, agrupamento e classificação. A seguir será apresentada uma breve descrição de cada uma dessas tarefas. 2.4.1 Associação Segundo Brusso (2000), as regras de associação são derivadas dos relacionamentos entre os dados processados, associações de condição e resultados. Na associação busca-se

18 encontrar a relação que existe entre os valores do conjunto de dados analisado. As relações encontradas ajudarão no processo de tomada de decisão. Um exemplo de regra de associação, para estimar a porcentagem e saber se houve um aumento nas vendas, são feitas associações do cliente do sexo masculino e do produto que comprado, que são fraldas, pode se inferir que a pessoa do sexo masculino também compra cervejas. Segundo Brusso (2000), é feito um cálculo da porcentagem da associação para encontrar a freqüência da compra de fraldas pelo do cliente do sexo masculino que também compra cervejas, então com isso realizar promoções e colocar os produtos um próximo ao outro para aumentar as vendas. 2.4.2 Agrupamento ou clustering No agrupamento criam-se conjuntos que possuem características semelhantes, com o intuito de agrupar os atributos dos dados processados. Esse conjunto ou classe pode determinar comportamentos de usuários. As similaridades do conjunto de dados é que determina um novo conjunto ou classe (RAMOS, 1999). A Figura 2 demonstra um tipo de agrupamento hipotético do perfil das mulheres, determinado através das coordenadas, quantidade de filhos e escolaridade. Figura 2. Agrupamento hipotético do perfil das mulheres. Como pode ser verificado na figura 2, as mulheres que têm apenas o ginásio ou ensino médio possuem em média de 3 a 5 filhos. O agrupamento é do perfil das mulheres que possuem essa escolaridade e a respectiva quantidade de filhos.

19 2.4.3 Classificação A classificação é uma tarefa da mineração de dados que consiste em avaliar os dados processados, classificando-os de acordo com as suas características. Para classificar, criam-se classes caracterizadas, e os dados processados são relacionados a essa classe por meio das peculiaridades (SILVA, 2000). Ao utilizar os algoritmos de classificação, podem-se definir os relacionamentos contidos entre os atributos dos dados processados, os quais poderão determinar uma previsão. Existem diferenças entre a associação e a classificação. Na associação é feita uma relação entre as hipóteses e a sua ocorrência para encontrar um conhecimento. Na classificação cria-se uma classe a partir das características das hipóteses (BRUSSO, 2000). Por exemplo, se os alunos acessam o sistema e têm senha de administrador de pelo menos uma máquina, então estão cursando o sétimo período. Pode-se prever e definir que é um aluno estagiário pela relação dos atributos. Com essas hipóteses é possível criar uma classe de perfil dos usuários. 2.5 Ferramenta WEKA A ferramenta WEKA foi desenvolvida pelos pesquisadores da universidade de Waikato na Nova Zelândia no ano de 1999. É uma ferramenta de mineração de dados implementada em Java que oferece suporte para vários sistemas operacionais (Windows e Linux). WEKA é um software livre por ser uma ferramenta que possui o código aberto e tem fins acadêmicos, estando disponível na pagina do próprio WEKA para ser utilizado por qualquer usuário (KIRKBY, 2004). 2.5.1 Ambiente da Ferramenta WEKA A tela principal da ferramenta é o WEKA GUI Chooser e dispõe dos botões, Simple CLI, Explorer e Experimenter, conforme pode ser vista na Figura 3. O ambiente para

20 realização de análises é o Explorer. O Simple CLI serve apenas para mostrar como são executados os algoritmos do WEKA por linha de comando. A figura 4 mostra como ocorre a execução por linha de comando (KIRKBY, 2004) (WEKA, 2005). Figura 3. Tela inicial da ferramenta WEKA. Figura 4. Execução do Simple CLI em linha de comando. Para ser usado o ambiente gráfico WEKA Knowledge Explorer da ferramenta precisase clicar no botão Explorer localizado na tela inicial. Esse é constituído pelas abas de Preprocess, Classify, Cluster, Associate, Selected attributes e Visualize. A aba do Classify terá maior ênfase de explanação deste trabalho, porque este é destinado a fazer o comparativo dos algoritmos de classificação. Cada uma dessas abas do Explorer tem as suas funcionalidades e ficam ativas após a seleção de um conjunto de dados na aba do préprocessamento (KIRKBY, 2004) (WEKA, 2005). No pré-processamento (Preprocess), pode ser aberto um arquivo que tem o formato ARFF, suportado pela ferramenta WEKA. O arquivo com a extensão ARFF será comentado na

21 subseção 2.5.1.1. A partir dos dados carregados no Preprocess é possível realizar a tarefa de mineração, com os algoritmos da aba do Classify, para encontrar o conhecimento, o que terá mais enfoque de explicação (KIRKBY, 2004) (WEKA, 2005). A mineração só poderá ser feita se os dados estiverem pré-processados e transformados, conforme citado na subseção 2.3.1. A subseção 2.5.1.1 expõe os passos para a transformação de um conjunto de dados préprocessado. Agrupamento (Cluster) utiliza os algoritmos para encontrarem dados que tenham semelhança, formando grupos ou perfis (WEKA, 2005). A associação (Associate) serve para agregar as regras encontradas, descobrimento das regras de associação, a partir da utilização de algoritmos é feita à associação dos valores dos atributos. Para selecionar e definir a relevância dos atributos utiliza-se a Seleção de Atributos (Select Attributes). Por fim, a visualização do conhecimento, com a definição de instâncias do arquivo ARFF que representam as coordenadas x e y, dá-se através do visualizador (Visualize) (WEKA, 2005). A Fig. 7 mostra a tela do Explorer WEKA, com a aba do Preprocess selecionada. Figura 7. Tela do Explorer WEKA. 2.5.1.1 Arquivo ARFF

22 Para analisar os dados processados por meio da ferramenta WEKA é necessário transformar os dados do banco de dados em um arquivo que esteja com a extensão *.arff (Attribute Relation File Format). Primeiro é preciso exportar os dados da base para o formato com delimitações, separados por vírgulas (o próprio sistema de gerenciamento de banco de dados possibilita essa exportação) e ser salvo com a extensão CSV. Após ter sido exportado e salvo como CSV, o arquivo é aberto como texto simples e novamente salvo com a extensão ARFF. Para transformar no formato ARFF é necessário seguir os seguintes passos: 1. Abrir o arquivo com as delimitações em um editor de textos; 2. Adicionar um nome para o conjunto de dados após @relation. Forma genérica: @relation <nome_do_conjunto>. Por exemplo, @relation DiabeteMellitus. 3. Em uma nova linha inserir os nomes dos atributos do conjunto de dados depois de @attribute. Exemplo da forma genérica: @attribute <nome_do_atributo> o próximo atributo deve estar em outra linha. O atributo tem o seu tipo numéricos representados por numeric ou real, ou nominais. Se possuir valores nominais como sim, não, F ou M devem ser apresentados dentro de chaves como: @attribute sexo {F,M} os valores dentro das chaves, automaticamente vão ser reconhecidos como os valores de cada atributo. Caso exista atributo que não possua valor, este deve ser substituído por? interrogação; 4. Acrescentar o @data para que o algoritmo minerador entenda que vem logo após são os dados processados para a predição. 5. É opcional usar comentários dentro do arquivo, mas se necessário deve estar entre os símbolos % porcentagem. Exemplo: %<comentário> %; 6. Salvar o arquivo: escolher a opção Salvar como..., selecionar em Salvar como tipo: Texto sem formatação. Por fim, inserir um nome para o arquivo como: <nome_do_arquivo>.arff e o arquivo já estará pronto para ser analisado. Conforme mostra a figura 5, o arquivo não está formatação que a ferramenta precisa, pois foram apenas exportados de uma base de dados. Este arquivo está aberto como texto simples. Na figura 6 é apresentado o conjunto que foi formatado seguindo os passos de formatação.

23 Figura 5. Arquivo sem formatação do ARFF. Figura 6. Arquivo com formatação ARFF. 2.5.1.2 Classificação (Classify) A Figura 8 (1) mostra a tela principal do Classify a qual permite que o usuário possa classificar os dados processados na predição (WEKA, 2005). Esta aba contém o campo classificador (Classifier), indicado pelo número 2, onde pode ser definido o algoritmo de classificação que será utilizado. O Test Options (3) apresenta as opções que definem como será feito o teste e tipo de saída após a mineração de dados (4). A Figura 8 (5) mostra o local onde pode ser selecionado o atributo da predição. O botão Start (6) inicia a execução da tarefa de mineração. Caso a tarefa de mineração esteja sendo executada, poderá ser parada no botão, Stop (7). O Result list

24 (8) mostra a lista com os tipos dos algoritmos usados na tarefa de mineração, que podem ser selecionados posteriormente para visualizar o resultado no Classifier output (12). Cada vez que é utilizado um algoritmo na tarefa de mineração também é mostrado um texto de Log (9) e o Status (10). 1 2 3 11 4 5 6 7 8 9 10 Figura 8. Tela principal do Classify. O Classifier, do classificador Classify da ferramenta WEKA é a parte que dispõe os vários tipos de algoritmos de classificação. Os algoritmos de classificação implementados na ferramenta WEKA utilizam as técnicas de aprendizagem de máquina tais como regras, árvore de decisão, bayesianos, redes neurais, aprendizado lazy (preguiçoso) e aprendizado meta. Para a mineração pode ser escolhido apenas um algoritmo por vez (WEKA, 2005). A lista dos algoritmos de classificação pode ser vista ao clicar na opção GenericObjectEditions (1), conforme figura 9.

25 1 Figura 9. Opção para escolha do algoritmo classificador. A tabela 1 apresenta as técnicas de classificação utilizada na ferramenta WEKA, com os respectivos algoritmos. Técnica de classificação Algoritmo(s) Bayes (probabilístico) NaiveBayes, NaiveBayesSimple Function (Técnica de regressão linear e logística) LinearRegression, Logistic, SMO, VotedPerceptron Lazy (Técnica baseada em instâncias) IB1, IBk, KStar Meta (Regressão por discretização) AdaBoostM1, AdditiveRegression, AttributeSelectedClassifier, Bagging, ClassificationViaRegression, CostSenitiveClassifier, CVParameterSelection, FilteredClassifier, MetaCost, MultiClassClassifier, MultiScheme, RegressionByDiscretization, Stacking, ThresholdSelector Misc (Técnica de discretização) Hiperpipes, VFI Rules (Regras de decisão) j48.part, DecisionTable, OneR Trees (Árvores de decisão) ADTree, DecisionStump, Id3, j48.j4 Tabela 1: Algoritmo de classificação por técnica. Na seção 2.6 serão explicados, com destaque, os algoritmos de classificação por regras, pois serão utilizados na predição do conjunto de dados. Os algoritmos usados são, j48.part, DecisionTable e OneR. Estes algoritmos foram escolhidos para realizar a tarefa de mineração de dados por fornecer clareza nos resultados, facilitando compreensão, pois a maneira de interpretação do conhecimento gerado é simples. As regras geradas possuem simplicidade por serem apresentadas em forma de condições (REZENDE, 2003). Por exemplo, se o paciente se sente bem é igual a sim então este paciente está classificado na classe saudável (REZENDE, 2003). A funcionalidade de testes do classificador do WEKA está no Test Options, do item 3 na figura 8, com as alternativas Use training set, Supplied test set, Cross-validation,

26 Percentage split, que podem ser definida a partir da seleção de apenas uma alternativa (KIRKBY, 2004). O User training set é uma opção que usa, para realização de teste, o mesmo conjunto de treinamento utilizado para predição, que provem da seleção feita na aba anterior do Preprocess (KIRKBY, 2004). O teste pode ser feito também com um outro conjunto de dados como, o conjunto de teste, o qual poderá ser selecionado em Supplied test set através do botão Set, permitindo escolher, também, um outro arquivo para o teste. Então, se faz os testes com o conjunto clicando-se no botão Start (KIRKBY, 2004). Existe outra opção para fazer o teste, o Cross-validation, em que o conjunto de dados pode se dividido em partes, uma para o teste e a quantidade restante para o treinamento. O conjunto de treinamentos pode ser definido na caixa de texto folds (KIRKBY, 2004). A última opção de testes é o Percentage split, nela pode-se definir a porcentagem que será usada para o treinamento e o restante para o teste (KIRKBY, 2004). O botão More Options é a opção de configuração para a saída dos dados processados que foram minerados (1). Para a saída existem as seguintes opções, Output model, Output perclass stats, Output entropy evaluation measures, Output confusion matrix e o Store predictions for visualization, no item 2 da figura 8. No Output model é mostrado todo o conjunto de dados que foi classificado. Output per-class stats exibe a estatística da precisão, a medida e classe. Output entropy evaluation measures mostra a avaliação das medidas de entropia. Output confusion matrix mostra como saída a matriz de confusão contendo nela a quantificação das instâncias. No Store predictions for visualization apresenta a predição de classificador a partir do Result list. O Cost-sensitive evaluation permite que seja definido um custo para a predição, deve ser informado o valor ao clicar no botão Set para que seja mostrada a análise dos erros, por fim fazer a executar da mineração clicando no botão Start (KIRKBY, 2004) (WEKA, 2005). Fig. 10 apresenta a tela com as opções para saída dos dados processados.

27 1 2 Figura 10. Opções de saída dos dados processados. O resultado da classificação pode ser visualizado no Classifier output, conforme mostra no item 1 da Fig. 11. 1 Figura 11. Resultado do classificador.