Extração de Conhecimento para Suporte ao Diagnóstico de Doenças Raras. Knowledge Extraction to Support the Diagnostic of Rare Diseases

Documentos relacionados
RBC no Auxílio de Avaliações Imobiliárias

ANÁLISE DA CONSERVAÇÃO PÓS-COLHEITA DA ALFACE (Lactuca Sativa, L) UTILIZANDO O SISTEMA DE APOIO À TOMADA DE DECISÃO BKD

Transformação de um Modelo de Empresa em Requisitos de Software

Desenvolvendo uma Arquitetura de Componentes Orientada a Serviço SCA

Conhecimento em Tecnologia da Informação. CobiT 5. Apresentação do novo framework da ISACA Bridge Consulting All rights reserved

PALAVRAS-CHAVE: Massas Nodulares, Classificação de Padrões, Redes Multi- Layer Perceptron.

Desenvolvimento de uma Rede de Distribuição de Arquivos. Development of a File Distribution Network

Disciplina: Unidade III: Prof.: Período:

Sistemas Tutores Inteligentes

AVALIAÇÃO DE INTERFACES UTILIZANDO O MÉTODO DE AVALIAÇÃO HEURÍSTICA E SUA IMPORTÂNCIA PARA AUDITORIA DE SISTEMAS DE INFORMAÇÕES

Sistema Banco de Preços Manual do Usuário OBSERVATÓRIO

A EXPERIÊNCIA PIONEIRA DO LABORATÓRIO/NÚCLEO DE ARTE ELETRÔNICA

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

A PRÁTICA DA INTERDICIPLINARIEDADE NO ENSINO DE PROJETOS DE MOLDES E MATRIZES NO CURSO DE TECNOLOGIA EM MECÂNICA DO IST

PROFESSOR: CRISTIANO MARIOTTI

Feature-Driven Development

Usando o Arena em Simulação

Nathalie Portugal Vargas

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Grupo Seres Adota CA Nimsoft Service Desk para Automatizar e Gerenciar Chamados de Service Desk

Semântica para Sharepoint. Busca semântica utilizando ontologias

Ajuda ao SciEn-Produção O Artigo Científico da Pesquisa Experimental

Uma Abordagem de Engenharia de Requisitos Para Linhas de Produtos de Software

2 Diagrama de Caso de Uso

ESTUDO DE CASO: LeCS: Ensino a Distância

Introdução ao Aplicativo de Programação LEGO MINDSTORMS Education EV3

Atividade: COBIT : Entendendo seus principais fundamentos

Sistema Educacional e Médico On-line (SEMedicOn): uma ferramenta híbrida para auxiliar pacientes, médicos e estudantes da saúde

Modelo Cascata ou Clássico

(P AA) 2 PACOTE DE APOIO A APRENDIZAGEM DE PROJETO E ANÁLISE DE ALGORITMOS: IMPLEMENTAÇÃO EM JAVA

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

REFORÇO DE PROGRAMAÇÃO ESTRUTURADA EM LINGUAGEM C PARA GRADUAÇÃO EM ENGENHARIA ELÉTRICA

INTRODUÇÃO AO MICROSOFT DYNAMICS AX 4.0 FINANCEIRO I

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

ARQUITETURA DE UM SISTEMA SPATIO-TEXTUAL. PALAVRAS-CHAVE: banco de dados espaciais, busca spatio-textual. aplicativo.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Framework de comunicação para Webservices 2P2

UNIVERSIDADE FEDERAL DE SANTA CATARINA

Orientação a Objetos

Tecnologia para Sistemas Inteligentes Apontamentos para as aulas sobre. Introdução à Representação e Processamento de Ontologias: Framework O3f

UML - Unified Modeling Language

Gerenciamento de Serviços de TI. ITIL (IT Infraestructure Library) Conceitos Básicos Aula 1

NOKIA. Em destaque LEE FEINBERG

APLICACAÇÃO DE METRICAS E INDICADORES NO MODELO DE REFERENCIA CMMI-Dev NIVEL 2

Psicoterapia e Internet: Terapia à Distância

Entendendo como funciona o NAT

4 Arquitetura básica de um analisador de elementos de redes

Guia para usar o Toolkit

REQUISITOS PARA A CRIAÇÃO DE CURSOS NOVOS MESTRADO PROFISSIONAL

Instituto de Computação, Universidade Federal do Amazonas (UFAM) Manaus-AM, Brasil

Análise dos Sistemas de Medição do Consumo de Energia Elétrica em Plantas Industriais

05/05/2015. Recuperação de Informação

Guia passo a passo. Como se tornar um pequeno produtor certificado FSC

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

PROJETO LÓGICO DE COMPUTADORES Prof. Ricardo Rodrigues Barcelar

O dilema no uso da internet rica

7.Conclusão e Trabalhos Futuros

TOTVS BA Guia de Customização Linha Logix

PERCEPÇÃO DO CONHECIMENTO DE PROFISSIONAIS DA ATENÇÃO BÁSICA E ACOMPANHAMENTO DE ATIVIDADES VOLTADAS À SAÚDE DO COLETIVO

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

GUIA DE LABORATÓRIO DE SISTEMAS DIGITAIS PARA O CURSO DE ENGENHARIA DE CONTROLE E AUTOMAÇÃO

Software automatizado para controle de consultas da clínica de fisioterapia

Estratégia de TI. Posicionamento Estratégico da TI: como atingir o alinhamento com o negócio. Conhecimento em Tecnologia da Informação

A Grande Importância da Mineração de Dados nas Organizações

Desenvolvimento híbrido versus desenvolvimento nativo de aplicativos móveis

A apresentação através de fluxos lógicos consegue mostrar mal entendidos e pontos que são controversos.

A Semi-Automatic Strategy to Identify Crosscutting Concerns in PL-AOVgraph Requirement Models

Perfil de Produção Bibliográfica dos Programas Brasileiros de Pós-Graduação em Ciência da Computação

Batalha Naval Algoritmos de Busca. Correlações curriculares Matemática: Números: maior que, menor que, iguais a.

GUIA DE CURSO. Tecnologia em Sistemas de Informação. Tecnologia em Desenvolvimento Web. Tecnologia em Análise e Desenvolvimento de Sistemas

UMA ANÁLISE DA MATRIZ CURRICULAR DO CURSO DE LICENCIATURA EM MATEMÁTICA DA UFPB

Organização e Arquitetura de Computadores I. de Computadores

INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE GOIÁS LICENCIATURA PLENA EM QUÍMICA. Nome do(s) autor(es)

O modelo do computador

Inteligência Computacional Aplicada a Engenharia de Software

Guião de entrevista a crianças do Jardim de Infância - 2ª Fase

Proposta de Trabalho para a Disciplina de Introdução à Engenharia de Computação PESQUISADOR DE ENERGIA

Arquitetura de Rede de Computadores

gerenciando o desempenho de serviços em uma empresa conectada na nuvem CA Business Service Insight Julho de 2011

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

ATENAS: Um Sistema Gerenciador de Regras de Negócio

Conjunto de conceitos que podem ser usados para descrever a estrutura de um banco de dados

Curso: Ciência da Computação Disciplina: Construção de Compiladores Período: Prof. Dr. Raimundo Moura

Dadas a base e a altura de um triangulo, determinar sua área.

Avaliação de Interfaces

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

PESQUISA EM INFORMÁTICA -ESTILOS DE PESQUISA EM COMPUTAÇÃO. Prof. Angelo Augusto Frozza, M.Sc.

RELATÓRIO DE ATIVIDADES DESENVOLVIDAS NO ARQUIVO GERAL DA UNIVERSIDADE FEDERAL DE GOIÁS

A EXPERIÊNCIA PIONEIRA DO LABORATÓRIO/NÚCLEO DE ARTE ELETRÔNICA: 20 ANOS DE CURIOSIDADE E INOVAÇÃO EM DESIGN DE MIDIA DIGITAL

Fundamentos de Física e Matemática para Biologia-FFCLRP-USP Primeiro Semestre de 2007 Professor: Antônio C. Roque (DFM-FFCLRP-USP)

Manual do Usuário WEB Versão 1.0

Análise e Projeto de Software

Um método para identicação de um conjunto representativo de citações bibliográcas para remoção de ambiguidade de nomes de autores de artigos cientícos

Roteiro para preparação de proposta de Trabalhos Técnico-Científicos

UNIVERSIDADE FEDERAL DE PERNAMBUCO

USO DOS CONCEITOS DE INTERAÇÃO HUMANO-COMPUTADOR NO DESENVOLVIMENTO WEB PARA EDUCAÇÃO A DISTÂNCIA

Data, Text and Web Mining

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Transcrição:

Extração de Conhecimento para Suporte ao Diagnóstico de Doenças Raras Knowledge Extraction to Support the Diagnostic of Rare Diseases Renata Medeiros Saraiva Master Candidate Student, Informatics Center, Federal University of Paraiba (UFPB) Joao Pessoa PB Brazil renatams@di.ufpb.br Clauirton de Albuquerque Siebra Associate Professor, Informatics Center, Federal University of Paraiba (UFPB) Joao Pessoa PB Brazil clauirton@di.ufpb.br Natasha Correia Queiroz Lino Associate Professor, Informatics Center, Federal University of Paraiba (UFPB) Joao Pessoa PB Brazil natasha@di.ufpb.br Resumo Este trabalho tem o objetivo de definir uma abordagem para a extração e consolidação de conhecimento sobre doenças raras para criação de um banco de conhecimentos o qual suporte a aplicação da técnica de Raciocínio Baseado em Casos (RBC) no suporte ao diagnóstico médico. Para isso, foi desenvolvida uma série de agentes tradutores que atuam em banco de informações dispersos na Internet, extraindo conhecimento e criando casos uniformes que representem as principais doenças raras. Testes foram realizados com um agente que atua sobre o banco de dados do Madisons Foundation, a qual possui 526 doenças raras cadastradas. Tais doenças foram tranformadas em casos e métodos RBC foram utilizados para identificar casos raros descritos na literatura. Foi concluído que RBC é um método fortemente dependente da qualidade da sua base de conhecimentos. Com esta abordagem, é possível construir tal base, codificando a experiência contida em diversas fontes existentes na Internet. Abstract This work has the aim of defining an approach to extract and consolidate the knowledge about rare diseases to create a knowledge base, which supports the application of Case-Based Reasoning (CBR) techniques to support the medical diagnostic. The research method was based on the development of a set of translation agents that act on information bases, dispersed on Internet, extracting knowledge and creating uniform cases that represent the main rare diseases. Tests were carried out, using an agent that acts on the Madison Foundation Database, which has 526 rare diseases registered. Part of such diseases was mapped to cases and RBC methods were used to identify rare diseases described in the literature. From this experiment, we could conclude that the RBC technique is very dependent of its knowledge base quality. Using our approach, we can build such base, codifying the experience contained in diverse Internet sources. Descritores: Ciência da Informação, Metodologias da Computação, Inteligência Artificial, Sistemas Especialistas; Ciência da Informação, Metodologias da Computação, Inteligência Artificial, Bases de Conhecimento. Descriptors: Information Science, Computing Methodologies, Artificial Intelligence, Expert Systems; Information Science, Computing Methodologies, Artificial Intelligence, Knowledge Bases. 1

1. Introdução Raciocínio Baseado em Casos (RBC) é uma técnica onde o especialista utiliza a analogia com casos semelhantes ocorridos no passado e usa soluções semelhantes às utilizadas naquela ocasião para tentar solucionar o problema atual 1. Esta técnica se diferencia de sistemas tradicionais baseados em regras 2 porque o conhecimento não está representado por uma estrutura formal, como regras, mas por descrições de experiências passadas (casos). Deste modo, esta abordagem provê uma forma mais natural de se representar tanto o conhecimento como o raciocínio humano. RBCs não requerem nenhum modelo específico de domínio, de modo que a resolução de problemas torna-se uma questão de acúmulo de casos de sucesso em torno de um determinado assunto. Deste modo, o uso de RBC é particularmente indicado quando se dispõe de uma grande e bem documentada base de casos resolvidos. Em outras palavras, RBCs tornam-se robustos na solução de problemas se possuírem uma boa coleção de exemplos para comparação de casos semelhantes. Nos últimos anos, foram desenvolvidos vários trabalhos que utilizam RBC voltados ao diagnóstico médico. Exemplos são os trabalhos de suporte ao diagnóstico do câncer da tireoide 3 e exames histopatológicos 4. Todos eles trazem bons resultados no processo de apoio à decisão médica, em um determinado domínio específico, principalmente porque tais domínios apresentam uma considerável fonte de informação para a criação de uma base de dados de casos resolvidos, ou seja, diagnosticados. Considere agora o domínio das doenças raras. Tais doenças se caracterizam por apresentar uma prevalência particularmente baixa. Deste modo, centros médicos podem se deparar com uma difícil tarefa caso um paciente portador de uma doença rara se apresente para ser diagnosticado. Isto se deve à escassez de conhecimento e especialização relevantes, o que pode fatalmente acarretar em um diagnóstico errôneo por parte dos médicos envolvidos. Com o objetivo de enfrentar esta limitação, diversas instituições estão fornecendo informações sobre as doenças raras, de modo que tais informações possam ser consultadas na Internet. Exemplos são os banco de dados do NORD (National Organization for Rare Disorders), ORDR (Office of Rare Diseases Research) and Madisons Foundation. Infelizmente estes bancos não seguem um formato padrão e 2

o modo de busca é útil apenas para usuários que já sabem o nome da doença e querem saber mais informaçoes sobre a mesma. A proposta deste trabalho é extrair informação útil de diversas fontes sobre doenças raras e consolidar toda essa informação na forma de casos. Para isso utilizaremos um agente especializado para cada fonte de informação, o qual entenda a sintaxe de tal fonte e separe a informação necessária para a construção do caso. Então, utilizando o processo de recuperação da abordagem RBC, é possível encontrar o diagnóstico e o tratamento relacionado a um novo caso que esteja na fase de diagnóstico. O restante do trabalho está estruturado da seguinte forma. A seção 2 apresenta a arquitetura de rede da abordagem, detalhando a especificação dos agentes extratores de informação. A seção 3 apresenta os experimentos atuais, os quais foram direcionados a base de informações da Madisons Foundation. Finalmente, a seção 4 apresenta as conclusões e direções de pesquisa. 2. Método A arquitetura geral desta proposta pode ser visualizada na Figura 1. Nesta figura podemos ver os seus diversos componentes, como as fontes de informação (Sites) sobre doenças raras, os agentes extratores, o banco de casos e o componente RBC. As próximas seções detalham o funcionamento de cada um destes componentes. Figure 1 Visão geral do processo de suporte ao diagnóstico médico de doenças raras. 2.1 As Fontes de Informação sobre Doenças Raras Neste trabalho é considerado, como fontes de informação, as páginas na Internet que possuem informações estruturadas sobre doenças raras. Apesar de não 3

possuírem uma estrutura comum, a maioria desses sites funciona como um engenho de busca simples, onde o nome da doença é fornecido como parâmetro de entrada e uma série de informações sobre tal doença é retornada como resulado. A Figura 2 mostra uma simplificação do resultado de uma busca para a Síndrome de Kartargener, realizada na página inicial do engenho de buscas do Madisons Foundation. Descrição do problema Identificação do problema e descrição da solução Conclusão Figure 2 Exemplo simplificado de uma busca para a doença Sindrome de Kartagener. 2.2 Agentes Extratores Cada página possui o seu formato próprio de modo que é necessário o desenvolvimento de agentes especializados que entendam a estrutura de cada um deles. Para isso, cada agente possui uma gramática de extração que ajuda no processamento das informações do site. A existência de uma Full disease list by letter permite que o agente percorra todas as doenças e crie um caso para cada uma delas. Este recurso, o qual também pode ser encontrado em outros sites, é essencial porque não se sabe quais doenças estão representadas em cada um deles. Quando cada doença é acessada, a seguinte gramática (modelo simplificado) atua na extração das informações para compor o caso (esta gramática é específica para o Madisons Foundation site): CASE -> ELEMENTO_1 ELEMENTO_2 ELEMENTO_3 ELEMENTO_4 ELEMENTO_5 ELEMENTO_1 ::= <div class="contentheading"> NOME_DA_DOENÇA </div> ELEMENTO_2 ::= <div class='contentpaneopen'> <h4>signs and Symptoms</h4> SINTOMAS </div> ELEMENTO_3 ::= <div class='contentpaneopen'> <h4>diagnosis</h4> DIAGNOSTICO </div> ELEMENTO_4 ::= <div class='contentpaneopen'> <h4>treatment</h4> TRATAMENTO </div> ELEMENTO_5 ::= <div class='contentpaneopen'> <h4>prognosis</h4> CONCLUSAO </div> 4

De forma semelhante a um compilador de linguagem de programação, o agente primeiramente realiza uma análise léxica da página fonte do site, onde os tokens de importância para a extração são separados. Depois é feito a análise sintática, utilizando a versão estendida da gramática acima, de modo a identificar os elementos que compõem os casos. Todo caso é escrito em uma linguagem XML, obedecendo à sintaxe da representação de conhecimentos da ferramenta Jcolibri 6. 2.3 Representação do Caso Um caso é um pedaço contextualizado de conhecimento representando uma experiência real 5. Para isso, um caso possui três componentes, os quais são descritos abaixo e exemplificados dentro do domínio tratado: A descrição do problema que foi resolvido: no domínio das doenças raras, esta descrição é representada pelos sinais e sintomas de um paciente; A descrição da solução: possui duas partes. Primeiro a identificação do diagnóstico do paciente. Segundo, o tratamento recomendado; Conclusão: geralmente descreve a avaliação da solução utilizada para determinado problema. Neste trabalho ela é representado pelo prognóstico. 2.4 O Método de Raciocínio Baseado em Casos Quando um novo caso NC é recebido para diagnóstico, o sistema deve encontrar os casos que mais se assemelham a este novo caso. Deste modo, o sistema irá comparar os sintomas do NC com os sintomas de cada caso da base, retornando uma lista em ordem decrescente de similaridade. Então o médico pode tomar uma decisão final sobre a compatibilidade dos casos retornados, aplicando ou não o tratamento descrito em tais casos. 3 Resultados e Discussão Depois da criação de uma base de conhecimento usando apenas as informações do Madisons Foundation, foram utilizados três casos clínicos raros descritos na Revista Pediatria do Departamento de Pediatria da Faculdade de Medicina da Universidade de São Paulo, de modo a verificar se o sistema seria capaz de identificar tais casos. Os dois primeiros casos, referentes às doenças raras conhecidas como Síndrome de Opsoclonus-mioclonus-ataxia e Teratoma Benigno 5

de Tireoide, não foram identificados pelo sistema RBC. Diferentemente, o terceiro caso relacionado à Síndrome de Kartagener 7 foi corretamente identificado. 4. Conclusões e Trabalhos futuros O relatório sobre doenças raras da Orphanet 8 tem catalogado em torno de 2000 tipos de doenças raras. Porém, outros trabalhos citam números entre 5000 e 10000. Deste modo, os 500 casos do Mardisons Foundation cobrem, no melhor dos casos, menos de 25% das doenças raras conhecidas. Isso explica porque só encontramos um dos três casos utilizados como teste. Além disso, para que um sistema RBC funcione de forma completa e eficiente, é necessário que tenhamos uma maior variedade de casos representando a mesma doença. Em algumas situações isso será muito difícil, uma vez que algumas doenças, como a Anendocrinose Entérica apresentam apenas três casos registrados no mundo 8. Como trabalhos futuros, pretende-se implementar agentes que atuem sobre outros sites de informação, aumentando assim a precisão da base. Referências [1] Barreto J. Inteligência Artificial no Limiar do Século XXI - Abordagem Híbrida Simbólica Conexionista e Evolutiva, 2a Edição, Florianópolis, Brasil, 2001. [2] Hayes-Roth F. Rule-based systems, Communications of the ACM Magazine, 28(9):921-932, 1985, New York, NY, USA. [3] Salem A. El Bagoury B. A Case-Based Adaptation Model for Thyroid Cancer Diagnosis Using Neural Networks, FLAIRS Conference, pp. 155-160, 2003. [4] Katedee S. Sanrach C. Thesawadwong T. Case-Based Reasoning System for Histopathology Diagnosis, International Conference on Educational and Information Technology, 2010. [5] Watson I. Applying Case-Based Reasoning: Techniques for Enterprise Systems, San Francisco, CA: Morgan Kaufmann, 1997. [6] Diaz-Agudo B. Leake D. A Framework for Rapid and Modular Case-Based Reasoning System Development, Technical Report, TR 617, Computer Science Department, Indiana University, Bloomington, IN, 2005. [7] Rodrigues, J. et al. Caso Clínico: síndrome Kartagener, Pediatria, 30(1):66-70, 2008. [8] Orphanet, Diseases listed by decreasing prevalence or number of published cases, Orphanet Report Series, Rare Diseases Collection, November 2011 - n 2. 6