Sistema de mineração de dados para descobertas de regras e padrões em dados médicos



Documentos relacionados
Identificação de Padrões em Registros de Doenças com Técnicas de Mineração de Dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

IDENTIFICATION OF DISEASE PATTERNS IN DATA MINING TECHNIQUES

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Microsoft Innovation Center

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Prof. Msc. Paulo Muniz de Ávila

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS:

DATA WAREHOUSE. Introdução

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Ambiente Weka Waikato Environment for Knowledge Analysis

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

Aplicativo de Mineração de Dados Aplicado em Bases de Dados Acadêmicas

Sistema de Controle de Solicitação de Desenvolvimento

GESTÃO DAS INFORMAÇÕES DAS ORGANIZAÇÕES MÓDULO 11

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado

Trabalho Final. Data da Submissão: das 8h do dia 16/06 às 24h do dia 17/06. Data da Entrega do Relatório: das 15h às 18h no dia 18/06.

IMPLEMENTAÇÃO DE UM ALGORITMO DE PADRÕES DE SEQUÊNCIA PARA DESCOBERTA DE ASSOCIAÇÕES ENTRE PRODUTOS DE UMA BASE DE DADOS REAL

KDD UMA VISAL GERAL DO PROCESSO

UNIVERSIDADE, EAD E SOFTWARE LIVRE

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR. Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 *

ADM041 / EPR806 Sistemas de Informação

A Grande Importância da Mineração de Dados nas Organizações

WEKA: The bird. Ferramenta Weka Waikato Environment for Knowledge Analysis. Ambiente WEKA. Explorer. Explorer. Explorer

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Padronização de Processos: BI e KDD

15 Computador, projeto e manufatura

SISTEMA COMPUTACIONAL PARA ANÁLISES DE DADOS EM AGRICULTURA DE PRECISÃO

Linguagens Formais e Autômatos

Módulo 4: Gerenciamento de Dados

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Manual de Utilização do Aplicativo Validador. Documento 3040

Aplicação dos princípios de Administração da Produção em uma indústria química

APLICAÇÃO DE DATA MINING NA IDENTIFICAÇÃO DE PADRÕES EM CRIANÇAS RESPIRADORAS BUCAIS E NASAIS 1.

Exemplo de Aplicação do DataMinig

INF 2125 PROJETO DE SISTEMAS DE SOFTWARE Prof. Carlos J. P. de Lucena

Determinação dos Fatores Críticos na Análise de Desempenho de Alunos de Pósgraduação Utilizando Metodologia de Mineração de Dados

Mineração de Dados: Introdução e Aplicações

Planejamento Estratégico de TI. Prof.: Fernando Ascani

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

IBM WebSphere DataStage

Software de segurança em redes para monitoração de pacotes em uma conexão TCP/IP

Engenharia de Software e Sistemas Distribuídos. Enunciado Geral do Projecto

INTRODUÇÃO A MINERAÇÃO DE DADOS UTILIZANDO O WEKA

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

UNIVERSIDADE FEDERAL DE SERGIPE CAMPUS PROF. ALBERTO CARVALHO DEPARTAMENTO DE SISTEMAS DE INFORMAÇÃO ENGENHARIA DE SOFTWARE I

SISTEMAS DE INFORMAÇÃO GERENCIAIS

Aprendizagem de Máquina

Tecnologia da Informação

IIH Introdução à Informática e Hardware

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Software automatizado para controle de consultas da clínica de fisioterapia

INTEGRAÇÃO DE APLICAÇÕES UTILIZANDO WEB SERVICE 1. Kellen Kristine Perazzoli 2 ; Manassés Ribeiro 3

Prof. JUBRAN. Aula 1 - Conceitos Básicos de Sistemas de Informação

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará


Gestão da Qualidade por Processos

Introdução ao GED Simone de Abreu

E3Suite. Estudo da Evolução de Eventos Científicos

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

1. Introdução e Objetivos 2. Fundamentação teórica 3. Desenvolvimento e Especificações do sistema

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Gerenciamento de Níveis de Serviço

Especial Online RESUMO DOS TRABALHOS DE CONCLUSÃO DE CURSO. Sistemas de Informação ISSN

INTRODUÇÃO E CONFIGURAÇÃO DO PRIMEFACES MOBILE EM APLICAÇÕES JSF

Instalação: permite baixar o pacote de instalação do agente de coleta do sistema.

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Planejamento Estratégico de TI. Prof.: Fernando Ascani

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Professor: Disciplina:

Orientação a Objetos

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

Análise e projeto de sistemas PROF. REGILAN SILVA

INTRODUÇÃO. Enfoque abstrato. Enfoque Intermediário

Gerenciador de Log Documento Visão. Versão 2.0

Institucional. CS Treina

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

21/03/2012. WorkFlow. Gestão Eletrônica de Documentos. Workflow HISTÓRICO

Dadas a base e a altura de um triangulo, determinar sua área.

COMPARAÇÃO DOS MÉTODOS DE SEGMENTAÇÃO DE IMAGENS OTSU, KMEANS E CRESCIMENTO DE REGIÕES NA SEGMENTAÇÃO DE PLACAS AUTOMOTIVAS

Desafio Profissional PÓS-GRADUAÇÃO Gestão de Projetos - Módulo C Prof. Me. Valter Castelhano de Oliveira

GUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas

Desenvolvimento do Módulo de Pré-processamento e Geração de Imagens de. Imagens de Teste do Sistema DTCOURO

EMENTAS DAS DISCIPLINAS

EDITAL ITA DE EMPREENDEDORISMO. São José dos Campos

Sistema. Atividades. Sistema de informações. Tipos de sistemas de informação. Everson Santos Araujo

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

pacotes de software na forma em que são É importante salientar que não é objetivo do software, suas atividades e produtos

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Engenharia de Software

Transcrição:

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos Pollyanna Carolina BARBOSA¹; Thiago MAGELA² 1Aluna do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas do IFMG-Campus Bambuí. 2Professor Ms. do Curso Superior Tecnólogo em Análise e Desenvolvimento de Sistemas do IFMG-Campus RESUMO Bambuí Nas últimas décadas vêm mostrando a necessidade de um processo automatizado para a descoberta de informações interessantes, envolvendo grandes volumes de dados. Este trabalho tem como evidência aplicar as técnicas de data mining para descobrir em bases de dados da área da saúde características de pacientes que apresentam a doença de chagas. Para atingir tal objetivo, será utilizado o software livre WEKA (Waikato Environment for Knowledge Analysis) para facilitar no processo de mineração de dados, juntamente com o algoritmo Predictive Apriori. Para se obter o resultado esperado, no decorrer do trabalho será utilizada uma metodologia de processo de KDD, assim serão realizadas todas as fases até chegar ao final com um resultado satisfatório. Palavras-chave: data mining, WEKA, doença de chagas. INTRODUÇÃO As áreas governamentais, corporativas e científicas têm promovido um crescimento explosivo em seus bancos de dados, superando em muito a usual capacidade de interpretar e examinar estes dados, gerando a necessidade de novas ferramentas e técnicas para análise automática e inteligente de bancos de dados (FAYYAD et al., 1996). Atualmente, existe grande interesse em desenvolver ferramentas que auxiliem a recuperação de informações eficientes. Diversos esforços de pesquisas têm sido feitos para remediar esse problema. Segundo Han & Kamber (2001), esta ampla disponibilidade de imensas bases de dados, aliada à eminente necessidade de transformar tais dados em informação e conhecimento úteis para o suporte à decisão, têm demandado investimentos consideráveis da comunidade científica e da indústria de software. A informação e o conhecimento obtidos podem ser utilizados para diversas aplicações, que vão do gerenciamento de

negócios, controle de produção e análise de mercado ao projeto de engenharia e exploração científica. Motivados por este desafio de transformar informação em conhecimento, logo se deparam com uma aplicação da mineração de dados, também conhecida como Knowledge Discovery in Databases (KDD). A mineração de dados ou data mining surgiu em 1989 e consiste de técnicas e algoritmos baseados na análise de padrões para a extração de informação em banco de dados. Sua implementação é divida em uma sequência de fases, dentre as quais tem-se: a seleção, o pré-processamento, a transformação, a interpretação e avaliação e a mineração propriamente dita (FAYYAD, 1996; PRASS, 2004). Várias áreas podem ser beneficiadas com a aplicação da técnica data mining. Como por exemplo, a descoberta de fraudes por cartões de créditos, a identificação de consumidores nos processos de vendas, as ferramentas de busca na internet, o apoio nas tomadas de decisões gerencias, o auxílio de diagnóstico médico em diferentes doenças, entre outros. Nota-se que tal técnica pode ser aplicada em diferentes áreas e problemas. Uma vez que há a necessidade da análise de dados referentes à medicina, a proposta deste trabalho baseia-se na utilização das regras de data mining para descobrir em bases de dados da área da saúde características de pacientes que apresentam a doença de chagas; transmitida por um inseto, causada por um protozoário Trypanosoma Cruzi, no Brasil conhecido como barbeiro. Com o objetivo de classificar as principais características destes indivíduos. Visto que, para atingir aos objetivos propostos será necessária a aplicação de técnicas de mineração de dados, juntamente com a ferramenta WEKA, isto é, uma ferramenta de KDD que contempla uma série de algoritmos de preparação de dados, de mineração de dados e de validação de resultados (SILVA, 2007). MATERIAL E MÉTODOS O processo de KDD descrito anteriormente contém uma série de fases ou subprocessos definidos como sendo, a seleção, o pré-processamento e limpeza, transformação, mineração de dados e a interpretação e avaliação. Essa sequência compreende o ciclo que o dado percorre até se transformar em conhecimento útil conforme a Figura 1.

FIGURA 1-O ciclo do processo de KDD. Fonte: FAYYAD, 1996, p. 41. Após vários estudos, o primeiro passo a ser realizado é a coleta dos dados com seus respectivos registros a serem minerados em uma planilha do Excel para gerar regras de associação, como mostra a Tabela 1. Nº Caso Mês Ano Sexo Idade Cor Endereço 9314 Set 2009 M 32 Branca Bambui 9312 Ago 2009 M 70 Branca Bambui 9311 Set 2009 M 32 Parda Bambui 9310 Mai 2007 F 71 Parda Bambui 9307 Abr 2007 F 57 Branca Bambui 9306 Mar 2007 F 47 Branca Bambui 9305 Abr 2005 M 69 Branca Bambui TABELA 1-Arquivo com os dados em uma planilha. Em seguida é realizada a preparação destes dados coletados para processamento em busca de regras e padrões de interesse. Sendo salvos como tipo CSV (separado por vírgulas), com o intuito de convertê-los para o formato ARFF. O arquivo ARFF é um formato utilizado pelos componentes do WEKA de forma que vem a facilitar o processamento de seus algoritmos. A Figura 2 ressalta o conteúdo do arquivo ARFF, este formado por três partes: @relation, @attribute e @data e também com suas devidas explicações.

@relation chagas %Nome do arquivo @attribute codigo real %Atributo e tipo @attribute mes string %Atributo e tipo @attribute ano real %Atributo e tipo @attribute sexo {F, M} %Atributo e tipo @attribute idade real %Atributo e tipo @attribute cor {Branca, Parda, Preta} %Atributo e tipo @attribute cidade {Araxa, Bambui, BomDespacho, CamposAltos, CorregoDanta, Divinopolis, DoresDoIndaia,Doresopolis, Formiga, Ibia, Iguatama, LagoaDaPrata, Luz, Medeiros, Piui, SantaRosa, Tapirai} %Atributo e tipo @data %Início dos registros 9314,Set,2009,M,32,Branca,Bambui 9312,Ago,2009,M,70,Branca,Bambui 9311,Set,2009,M,32,Parda,Bambui 9310,Mai,2007,F,71,Parda,Bambui 9307,Abr,2007,F,57,Branca,Bambui 9306,Mar,2007,F,47,Branca,Bambui 9305,Abr,2005,M,69,Branca,Bambui FIGURA 2-Conteúdo no formato ARFF. Agora pode realizar a analise dos dados usando o algoritmo Predictive Apriori, sendo este um algoritmo de regras de associação. RESULTADOS E DISCUSSÕES Para facilitar a mineração de dados foi utilizado o software livre WEKA, juntamente com um dos algoritmos do pacote, o Predictive Apriori, sendo este responsável em gerar regras de associação e vários gráficos. A Figura 3 mostra uma relação entre o sexo dos pacientes que apresentam a doença de chagas com as suas devidas cidades. FIGURA 3-Utilizando o algoritmo Precictive Apriori.

Nota-se que momento esta sendo desenvolvido um sistema computacional por meio da linguagem Java para auxiliar no processo de mineração de dados. CONCLUSÃO Mineração de dados, e consequentemente KDD, possuem uma vasta aplicação nos mais diferentes segmentos, tanto acadêmicos como corporativos, além de uma série de desafios relevantes que podem motivar excelentes trabalhos científicos. Um dos objetivos deste trabalho foi aplicar as técnicas de data mining a fim de descobrir características de pacientes que apresentam a doença de chagas. Logo para atingir tal objetivo, foi utilizado o software WEKA para facilitar no processo de mineração de dados, juntamente com o algoritmo Predictive Apriori. AGRADECIMENTO Meus agradecimentos à administração do Instituto Oswaldo Cruz no município de Bambuí Minas Gerais que permitiu que eu utilizasse suas bases de dados para tal objetivo. REFERÊNCIAS FAYYAD, Usama; SHAPIRO, Gregory Piatetsky; SMYTH, Padhraic; UTHURUSAMY, Ramasamy. Advances in Knowledge discovery and data mining. MenloPark:Mit Press, 1996.560P. HAN, J.; KAMBER, M. Data Mining: Concepts and Techniques. San Francisco: Morgan Kaufmann Publishers, 2001. PRASS, Fernando Sarturi. KKD: Processo de descoberta de conhecimento em bancos de dados. 2004. Grupo de Interesse Em Engenharia de Software, Florianópolis, v. 1, p. 10-14, 2004. SILVA, Marcelino Pereira dos Santos. Mineração de Dados - Conceitos, Aplicações e Experimentos com Weka. 2007. Disponível em:<http://www.sbc.org.br/bibliotecadigital/ download.php?paper=35>. Acesso em: 20 agosto 2009, 17:22:10.