Extração de Conhecimento para Suporte ao Diagnóstico de Doenças Raras. Knowledge Extraction to Support the Diagnostic of Rare Diseases

Extração de Conhecimento para Suporte ao Diagnóstico de Doenças Raras Knowledge Extraction to Support the Diagnostic of Rare Diseases Renata Medeiros Saraiva Master Candidate Student, Informatics Center, Federal University of Paraiba (UFPB) Joao Pessoa PB Brazil renatams@di.ufpb.br Clauirton de Albuquerque Siebra Associate Professor, Informatics Center, Federal University of Paraiba (UFPB) Joao Pessoa PB Brazil clauirton@di.ufpb.br Natasha Correia Queiroz Lino Associate Professor, Informatics Center, Federal University of Paraiba (UFPB) Joao Pessoa PB Brazil natasha@di.ufpb.br Resumo Este trabalho tem o objetivo de definir uma abordagem para a extração e consolidação de conhecimento sobre doenças raras para criação de um banco de conhecimentos o qual suporte a aplicação da técnica de Raciocínio Baseado em Casos (RBC) no suporte ao diagnóstico médico. Para isso, foi desenvolvida uma série de agentes tradutores que atuam em banco de informações dispersos na Internet, extraindo conhecimento e criando casos uniformes que representem as principais doenças raras. Testes foram realizados com um agente que atua sobre o banco de dados do Madisons Foundation, a qual possui 526 doenças raras cadastradas. Tais doenças foram tranformadas em casos e métodos RBC foram utilizados para identificar casos raros descritos na literatura. Foi concluído que RBC é um método fortemente dependente da qualidade da sua base de conhecimentos. Com esta abordagem, é possível construir tal base, codificando a experiência contida em diversas fontes existentes na Internet. Abstract This work has the aim of defining an approach to extract and consolidate the knowledge about rare diseases to create a knowledge base, which supports the application of Case-Based Reasoning (CBR) techniques to support the medical diagnostic. The research method was based on the development of a set of translation agents that act on information bases, dispersed on Internet, extracting knowledge and creating uniform cases that represent the main rare diseases. Tests were carried out, using an agent that acts on the Madison Foundation Database, which has 526 rare diseases registered. Part of such diseases was mapped to cases and RBC methods were used to identify rare diseases described in the literature. From this experiment, we could conclude that the RBC technique is very dependent of its knowledge base quality. Using our approach, we can build such base, codifying the experience contained in diverse Internet sources. Descritores: Ciência da Informação, Metodologias da Computação, Inteligência Artificial, Sistemas Especialistas; Ciência da Informação, Metodologias da Computação, Inteligência Artificial, Bases de Conhecimento. Descriptors: Information Science, Computing Methodologies, Artificial Intelligence, Expert Systems; Information Science, Computing Methodologies, Artificial Intelligence, Knowledge Bases. 1

1. Introdução Raciocínio Baseado em Casos (RBC) é uma técnica onde o especialista utiliza a analogia com casos semelhantes ocorridos no passado e usa soluções semelhantes às utilizadas naquela ocasião para tentar solucionar o problema atual 1. Esta técnica se diferencia de sistemas tradicionais baseados em regras 2 porque o conhecimento não está representado por uma estrutura formal, como regras, mas por descrições de experiências passadas (casos). Deste modo, esta abordagem provê uma forma mais natural de se representar tanto o conhecimento como o raciocínio humano. RBCs não requerem nenhum modelo específico de domínio, de modo que a resolução de problemas torna-se uma questão de acúmulo de casos de sucesso em torno de um determinado assunto. Deste modo, o uso de RBC é particularmente indicado quando se dispõe de uma grande e bem documentada base de casos resolvidos. Em outras palavras, RBCs tornam-se robustos na solução de problemas se possuírem uma boa coleção de exemplos para comparação de casos semelhantes. Nos últimos anos, foram desenvolvidos vários trabalhos que utilizam RBC voltados ao diagnóstico médico. Exemplos são os trabalhos de suporte ao diagnóstico do câncer da tireoide 3 e exames histopatológicos 4. Todos eles trazem bons resultados no processo de apoio à decisão médica, em um determinado domínio específico, principalmente porque tais domínios apresentam uma considerável fonte de informação para a criação de uma base de dados de casos resolvidos, ou seja, diagnosticados. Considere agora o domínio das doenças raras. Tais doenças se caracterizam por apresentar uma prevalência particularmente baixa. Deste modo, centros médicos podem se deparar com uma difícil tarefa caso um paciente portador de uma doença rara se apresente para ser diagnosticado. Isto se deve à escassez de conhecimento e especialização relevantes, o que pode fatalmente acarretar em um diagnóstico errôneo por parte dos médicos envolvidos. Com o objetivo de enfrentar esta limitação, diversas instituições estão fornecendo informações sobre as doenças raras, de modo que tais informações possam ser consultadas na Internet. Exemplos são os banco de dados do NORD (National Organization for Rare Disorders), ORDR (Office of Rare Diseases Research) and Madisons Foundation. Infelizmente estes bancos não seguem um formato padrão e 2

o modo de busca é útil apenas para usuários que já sabem o nome da doença e querem saber mais informaçoes sobre a mesma. A proposta deste trabalho é extrair informação útil de diversas fontes sobre doenças raras e consolidar toda essa informação na forma de casos. Para isso utilizaremos um agente especializado para cada fonte de informação, o qual entenda a sintaxe de tal fonte e separe a informação necessária para a construção do caso. Então, utilizando o processo de recuperação da abordagem RBC, é possível encontrar o diagnóstico e o tratamento relacionado a um novo caso que esteja na fase de diagnóstico. O restante do trabalho está estruturado da seguinte forma. A seção 2 apresenta a arquitetura de rede da abordagem, detalhando a especificação dos agentes extratores de informação. A seção 3 apresenta os experimentos atuais, os quais foram direcionados a base de informações da Madisons Foundation. Finalmente, a seção 4 apresenta as conclusões e direções de pesquisa. 2. Método A arquitetura geral desta proposta pode ser visualizada na Figura 1. Nesta figura podemos ver os seus diversos componentes, como as fontes de informação (Sites) sobre doenças raras, os agentes extratores, o banco de casos e o componente RBC. As próximas seções detalham o funcionamento de cada um destes componentes. Figure 1 Visão geral do processo de suporte ao diagnóstico médico de doenças raras. 2.1 As Fontes de Informação sobre Doenças Raras Neste trabalho é considerado, como fontes de informação, as páginas na Internet que possuem informações estruturadas sobre doenças raras. Apesar de não 3

possuírem uma estrutura comum, a maioria desses sites funciona como um engenho de busca simples, onde o nome da doença é fornecido como parâmetro de entrada e uma série de informações sobre tal doença é retornada como resulado. A Figura 2 mostra uma simplificação do resultado de uma busca para a Síndrome de Kartargener, realizada na página inicial do engenho de buscas do Madisons Foundation. Descrição do problema Identificação do problema e descrição da solução Conclusão Figure 2 Exemplo simplificado de uma busca para a doença Sindrome de Kartagener. 2.2 Agentes Extratores Cada página possui o seu formato próprio de modo que é necessário o desenvolvimento de agentes especializados que entendam a estrutura de cada um deles. Para isso, cada agente possui uma gramática de extração que ajuda no processamento das informações do site. A existência de uma Full disease list by letter permite que o agente percorra todas as doenças e crie um caso para cada uma delas. Este recurso, o qual também pode ser encontrado em outros sites, é essencial porque não se sabe quais doenças estão representadas em cada um deles. Quando cada doença é acessada, a seguinte gramática (modelo simplificado) atua na extração das informações para compor o caso (esta gramática é específica para o Madisons Foundation site): CASE -> ELEMENTO_1 ELEMENTO_2 ELEMENTO_3 ELEMENTO_4 ELEMENTO_5 ELEMENTO_1 ::= <div class="contentheading"> NOME_DA_DOENÇA </div> ELEMENTO_2 ::= <div class='contentpaneopen'> <h4>signs and Symptoms</h4> SINTOMAS </div> ELEMENTO_3 ::= <div class='contentpaneopen'> <h4>diagnosis</h4> DIAGNOSTICO </div> ELEMENTO_4 ::= <div class='contentpaneopen'> <h4>treatment</h4> TRATAMENTO </div> ELEMENTO_5 ::= <div class='contentpaneopen'> <h4>prognosis</h4> CONCLUSAO </div> 4

De forma semelhante a um compilador de linguagem de programação, o agente primeiramente realiza uma análise léxica da página fonte do site, onde os tokens de importância para a extração são separados. Depois é feito a análise sintática, utilizando a versão estendida da gramática acima, de modo a identificar os elementos que compõem os casos. Todo caso é escrito em uma linguagem XML, obedecendo à sintaxe da representação de conhecimentos da ferramenta Jcolibri 6. 2.3 Representação do Caso Um caso é um pedaço contextualizado de conhecimento representando uma experiência real 5. Para isso, um caso possui três componentes, os quais são descritos abaixo e exemplificados dentro do domínio tratado: A descrição do problema que foi resolvido: no domínio das doenças raras, esta descrição é representada pelos sinais e sintomas de um paciente; A descrição da solução: possui duas partes. Primeiro a identificação do diagnóstico do paciente. Segundo, o tratamento recomendado; Conclusão: geralmente descreve a avaliação da solução utilizada para determinado problema. Neste trabalho ela é representado pelo prognóstico. 2.4 O Método de Raciocínio Baseado em Casos Quando um novo caso NC é recebido para diagnóstico, o sistema deve encontrar os casos que mais se assemelham a este novo caso. Deste modo, o sistema irá comparar os sintomas do NC com os sintomas de cada caso da base, retornando uma lista em ordem decrescente de similaridade. Então o médico pode tomar uma decisão final sobre a compatibilidade dos casos retornados, aplicando ou não o tratamento descrito em tais casos. 3 Resultados e Discussão Depois da criação de uma base de conhecimento usando apenas as informações do Madisons Foundation, foram utilizados três casos clínicos raros descritos na Revista Pediatria do Departamento de Pediatria da Faculdade de Medicina da Universidade de São Paulo, de modo a verificar se o sistema seria capaz de identificar tais casos. Os dois primeiros casos, referentes às doenças raras conhecidas como Síndrome de Opsoclonus-mioclonus-ataxia e Teratoma Benigno 5

de Tireoide, não foram identificados pelo sistema RBC. Diferentemente, o terceiro caso relacionado à Síndrome de Kartagener 7 foi corretamente identificado. 4. Conclusões e Trabalhos futuros O relatório sobre doenças raras da Orphanet 8 tem catalogado em torno de 2000 tipos de doenças raras. Porém, outros trabalhos citam números entre 5000 e 10000. Deste modo, os 500 casos do Mardisons Foundation cobrem, no melhor dos casos, menos de 25% das doenças raras conhecidas. Isso explica porque só encontramos um dos três casos utilizados como teste. Além disso, para que um sistema RBC funcione de forma completa e eficiente, é necessário que tenhamos uma maior variedade de casos representando a mesma doença. Em algumas situações isso será muito difícil, uma vez que algumas doenças, como a Anendocrinose Entérica apresentam apenas três casos registrados no mundo 8. Como trabalhos futuros, pretende-se implementar agentes que atuem sobre outros sites de informação, aumentando assim a precisão da base. Referências [1] Barreto J. Inteligência Artificial no Limiar do Século XXI - Abordagem Híbrida Simbólica Conexionista e Evolutiva, 2a Edição, Florianópolis, Brasil, 2001. [2] Hayes-Roth F. Rule-based systems, Communications of the ACM Magazine, 28(9):921-932, 1985, New York, NY, USA. [3] Salem A. El Bagoury B. A Case-Based Adaptation Model for Thyroid Cancer Diagnosis Using Neural Networks, FLAIRS Conference, pp. 155-160, 2003. [4] Katedee S. Sanrach C. Thesawadwong T. Case-Based Reasoning System for Histopathology Diagnosis, International Conference on Educational and Information Technology, 2010. [5] Watson I. Applying Case-Based Reasoning: Techniques for Enterprise Systems, San Francisco, CA: Morgan Kaufmann, 1997. [6] Diaz-Agudo B. Leake D. A Framework for Rapid and Modular Case-Based Reasoning System Development, Technical Report, TR 617, Computer Science Department, Indiana University, Bloomington, IN, 2005. [7] Rodrigues, J. et al. Caso Clínico: síndrome Kartagener, Pediatria, 30(1):66-70, 2008. [8] Orphanet, Diseases listed by decreasing prevalence or number of published cases, Orphanet Report Series, Rare Diseases Collection, November 2011 - n 2. 6