UNIVERSIDADE FEDERAL DE SÃO CARLOS

Transcrição

1 UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO INSTANCIAÇÃO, VALIDAÇÃO E EXTENSÃO DE UMA METODOLOGIA DE EXTRAÇÃO DE INFORMAÇÃO PARA OS ASSUNTOS EFEITOS E TRATAMENTOS NA DOENÇA ANEMIA FALCIFORME JULIANA LILIAN DUQUE ORIENTADOR: PROF. DR. RICARDO RODRIGUES CIFERRI CO-ORIENTADOR: PROF. DR. THIAGO ALEXANDRE SALGUEIRO PARDO São Carlos - SP Maio/2010

2 RESUMO O objetivo deste trabalho de pesquisa, em nível de mestrado, é investigar a extração de informação em artigos científicos no formato PDF sobre a doença Anemia Falciforme. A extração de informação enfocará especificamente os assuntos efeitos negativos da doença (complicações), efeitos negativos do tratamento (efeitos colaterais), efeitos positivos do tratamento (benefícios) e tratamentos (drogas e terapias usadas para tratar a doença). A extração de informação de efeitos está sendo investigada no trabalho de mestrado de Pablo Matos, o qual propôs uma metodologia de extração de informação baseada no uso de aprendizado de máquina para classificar sentenças e no uso de dicionários e de regras para extrair a informação de interesse das frases selecionadas (MATOS et al., 2010). Porém, há casos para os quais a extração de informação de efeitos não é realizada com sucesso, havendo perda de informação, além de que em alguns casos a extração gera falsos positivos (resultado incorreto). Portanto, pretende-se investigar neste trabalho novas abordagens que permitam superar as limitações na extração de informação de efeitos visando melhorar a qualidade do processo de extração. Esta pesquisa também visa em uma segunda etapa investigar a aplicabilidade da metodologia de extração de informação proposta no trabalho de mestrado de Pablo Matos para extrair especificamente informações sobre os tratamentos usados para a doença Anemia Falciforme. A referida metodologia não atacou o assunto tratamentos e, portanto ajustes serão necessários, tais como (i) a extração de informação em outras seções do artigo, além da extração já efetuada nas seções de resumo, resultado e discussão; (ii) a proposta de novas classes para a separação das frases de interesse no processo de classificação; e (iii) o uso de um dicionário e de regras adaptados ao contexto do assunto tratamentos. Portanto, este trabalho de pesquisa visa instanciar, validar e estender a metodologia de extração de informação proposta em (MATOS et al., 2010) com o uso de três abordagens para extração de informação sobre tratamentos : aprendizado de máquina, abordagem baseada em dicionário e abordagem baseada em regras. A validação da extração de informação tanto de efeitos quanto de tratamentos será realizada com a ajuda de especialistas médicos sobre a doença Anemia Falciforme, comparando-se a extração realizada pelos especialistas com a extração realizada de forma semi-automática por um programa de computador. Palavras-chave: Extração de Informação. Mineração de Textos. Pré-Processamento. Domínio Biomédico. Doença Anemia Falciforme.

3 ABSTRACT The objective of this research work is to investigate extracting information from scientific articles in PDF format on the Sickle Cell Disease. The focus on information extraction specifically the subjects' negative effects of disease (complications), negative effects of the treatment (side effects), effects positive treatment (benefits) and treatments (drugs and therapies used to treat disease.) The information extraction effect is being investigated in the work of master Pablo Matos, who proposed a method for extraction of information based on the use of learning machine to classify sentences and the use of dictionaries and rules to extract information of interest to selected sentences (MATOS et al., 2010). However, there are cases for which the information extraction effect is not successful, with a loss of information and in some cases the extraction of false positives (incorrect result). Therefore, we intend to investigate in this paper new approaches to overcome the limitations in extracting information purposes to improve the quality of the extraction process. This research also aims at a second stage to investigate the applicability of the method for extraction of information proposed in the work of master Pablo Matos to extract specific information about the treatments used for Sickle Cell Disease. This methodology did not attack the subject of treatment and therefore adjustments are needed, such as (i) the extraction of information in other sections of the article, besides the extraction already carried out in sections summary, results and discussion, (ii) proposed new classes for the separation of sentences of interest in the classification process, and (iii) the use of a dictionary and rules adapted to the context of the subject treatments. Therefore, this research aims to instantiate, validate and extend the methodology of extracting information proposed in (MATOS et al., 2010) using three approaches for extracting information on treatments : machine learning, dictionary-based approach and rules-based approach. The validation of the extraction of information regarding both the effects of treatments will be conducted with the help of medical experts on the Sickle Cell Disease, comparing the extraction performed by specialists with the extraction performed semi-automatically by a computer program. Keywords: Information Extraction. Text Mining. Preprocessing. Biomedical Domain. Sickle Cell Anemia

4 LISTA DE FIGURAS Figura Processo de Extração de Informação no ambiente da doença Anemia Falciforme para tratamento Figura Passos para identificação de termo no texto Figura Processo de mineração de texto em quatro etapas Figura Etapas do processo de mineração de dados Figura Tarefas de mineração de textos Figura Categorização de documentos Figura Hierarquia do aprendizado Figura Exemplo de um documento XML com etiquetas de quatro seções Figura Processo de extração de padrão e data warehouse Figura Processo para recuperar e extrair informação do Pharmspresso Figura Passos do sistema BioPPIExtractor Figura Arquitetura do BioPPISVMExtractor Figura Módulo de extração de informação Figura Elementos do sangue Figura Hemácia no formato de foice (meia lua) Figura Hemácias normais (a) e Falciformes (b) Figura Probabilidade de nascer com Anemia Falciforme Figura Arquitetura do SCAtRanslator Figura Exemplo de documento XML gerado pela ferramenta SCAtRanslator.. 70 Figura Processo de classificação de sentença Figura Esquema Conceitual Simplificado do BD Anemia Falciforme Figura Detalhamento dos tipos-entidade TREATMENT e COMPLICATION e seus relacionamentos com tipo-entidade PAPER Figura 4.11 Tipo-entidade PAPER e seus atributos Figura 4.12 Tipo-entidade RISK FACTOR e seu relacionamento com tipo-entidade RISK FACTOR VARIATION Figura 4.13 Tipo-entidade NEGATIVE QUANTIFIER e tipo-entidade POSITIVE QUANTIFIER VARIATION

5 Figura Detalhamento dos tipos-entidade BENEFIT e SIDE EFFECT e seus relacionamentos com tipo-entidade PAPER Figura Relacionamento PT-PE com os tipos-entidade BENEFIT, PAPER e TREATMENT Figura Relacionamento PT-SE com os tipos-entidade SIDE EFFECT, PAPER e TREATMENT

6 LISTA DE TABELAS Tabela Cinco tarefas de extração de informação Tabela Exemplo de sentença com termos sobre tratamento (em negrito) da Anemia Falciforme Tabela Exemplo de uma tabela atributo-valor definida por duas classes Tabela Exemplos de Lematização, Stemming e Part-of-Speech Tabela Matriz de confusão de duas classes (Tratamento/Não Tratamento) Tabela Exemplo de anotação de dez sentenças Tabela Matriz de confusão genérica Tabela Escala de seis níveis de concordância Tabela Trabalhos correlatos que extraem informação de artigos Tabela Avaliação BioPPExtrator Tabela Avaliação BioPPISVMExtractor Tabela Cronograma de atividades

7 LISTA DE ABREVIATURAS E SIGLAS AF - Anemia Falciforme AM - Aprendizado de Máquina BD - Banco de Dados EI - Extração de Informação HMM - Hidden Markov Model HU Hidroxiureia IA - Inteligência Artificial IDC - International Data Corporation IM - Informação Mútua KDD - Knowledge Discovery in Database MD - Mineração de Dados MT - Mineração de Textos MUC - Message Understanding Conference NB - Naïve Bayes PDF - Portable Document Format PLN - Processamento de Língua Natural POS - Part-of-Speech RAT - Reconhecimento Automático de Termo REN - Reconhecimento de Entidade Nomeada RI - Recuperação de Informação SCA - Sickle Cell Anemia SCD - Sickle Cell Disease SVM - Support Vector Machines

8 SUMÁRIO CAPÍTULO 1 - INTRODUÇÃO Contexto e Motivação Justificativa e Objetivos Organização do Trabalho CAPÍTULO 2 - FUNDAMENTAÇÃO TEÓRICA Extração de Informação Abordagens para extração de informação Abordagem Baseada em Dicionário Abordagem Baseada em Regras Abordagem Baseada em Aprendizado de Máquina Tarefas da Extração de Informação Reconhecimento Automático de Termo Mineração de Textos Tarefas de Mineração de Textos Categorização Processamento de Língua Natural Aprendizado de Máquina Métodos de Particionamento Extração de Características Métricas de Avaliação de Desempenho Outras Medidas de Desempenho Métricas de Avaliação de Concordância Considerações Finais CAPÍTULO 3 - TRABALHOS CORRELATOS ABGene BioRAT Bremer et al. (2004) Continuação do Trabalho de Bremer et al. (2004) Pharmspresso... 55

9 3.6 BioPPIExtractor BioPPISVMExtractor CAPÍTULO 4 - PROPOSTA DE DISSERTAÇÃO Detalhamento do Trabalho de Pesquisa Anemia Falciforme Análise dos Dados Arquitetura da Proposta SCAtRanslator Módulo de Classificação de Sentença Módulo de Extração de Informação Banco de Dados do Projeto Anemia Falciforme Análise e Avaliação dos Resultados Cronograma de Atividades REFERÊNCIAS... 85

10 Capítulo 1 INTRODUÇÃO CAPÍTULO 1 - Este capítulo apresenta o contexto envolvido, a motivação e os desafios que deram origem ao desenvolvimento desse projeto de pesquisa em nível de mestrado. Os principais objetivos são discutidos e algumas das contribuições almejadas são apresentadas, finalizando com a descrição da organização da monografia. 1.1 Contexto e Motivação O contexto deste trabalho de pesquisa, em nível de mestrado, é a extração de informação em artigos científicos no formato PDF escrito no idioma inglês sobre a doença Anemia Falciforme, doença genética e hereditária considerada como um problema de saúde pública no Brasil (SILVA; RAMALHO; CASSORLA, 1993). A extração de informação enfocará especificamente os assuntos efeitos negativos da doença (complicações), efeitos negativos do tratamento (efeitos colaterais), efeitos positivos do tratamento (benefícios) e tratamentos (drogas e terapias usadas para tratar a doença). A extração de informação de efeitos está sendo investigada no trabalho de mestrado de Pablo Matos, o qual propôs uma metodologia de extração de informação baseada no uso de dicionários e de regras (MATOS et al., 2010). Atualmente uma grande quantidade de informações para as diversas áreas, especialmente medicina, têm armazenando seus documentos em formato texto, trabalhando com um enorme volume de documentos textuais (STAVRIANOU; ANDRITSOS; NICOLOYANNIS, 2007), (LUO, 2008). O volume de dados

11 Capítulo 1 - Introdução 15 armazenados ultrapassa em muito as habilidades de interpretá-los individualmente, exigindo técnicas para automatizar e analisar os documentos de forma ágil. A informação, que é indiretamente medida em termos do número de artigos e revistas que são publicados, está aumentando a uma taxa considerável, de modo que não é mais possível analisar toda a literatura relevante manualmente, mesmo em temas especializados (JENSEN; SARIC; BORK, 2006). O surgimento da Mineração de Textos foi motivado pela necessidade de se descobrir de forma semiautomática informações e conhecimento em textos. A utilização das ferramentas de Mineração de Textos torna-se indispensáveis neste cenário, possibilitando o processamento de uma grande quantidade de textos, permitindo recuperar informações relevantes, possibilitando a extração de informações automaticamente e o reconhecimento de padrões (MHAMDI; ELLOUMI, 2008), (EBECKEN; LOPES; COSTA, 2003), (GUPTA; LEHAL, 2009). A partir do crescimento do armazenamento de dados não estruturados no âmbito biomédico favoreceu o desenvolvimento das técnicas de mineração de textos, devido ao fato da maioria dos dados estar disponível em formato textual, especificamente em artigos científicos completos da doença Anemia Falciforme no formato PDF. Este trabalho está sendo desenvolvido em conjunto com a Universidade de São Paulo e a Universidade Metodista de Piracicaba, em que se encontra um projeto de pesquisa intitulado An Environment for Analyzing Data of Sickle Cell Disease, o qual tem o intuito de instituir um ambiente para a análise de dados da doença Anemia Falciforme. Este ambiente é constituído por dois sistemas principais: DORS- SCA (Data Organizing and Recovering System for Sickle Cell Anemia) e DSS-SCA (Decision Support System for Sickle Cell Anemia). O primeiro tem como objetivo extrair informações de artigos científicos originalmente no idioma inglês sobre a doença Anemia Falciforme e armazená-las em um banco de dados. O segundo objetiva identificar padrões ou permitir a predição de fatos futuros por meio da aplicação de técnicas de data warehouse e mineração de dados.

12 Capítulo 1 - Introdução Justificativa e Objetivos Este trabalho tem como desafio extrair informações em artigos científicos sobre a doença Anemia Falciforme. Segundo o nosso conhecimento, com exceção da metodologia proposta por Pablo Matos (MATOS et al., 2010), não há nenhum outro trabalho na literatura que investigue especificamente este problema. Há trabalhos correlatos, mas para contextos e objetivos diferentes, os quais são resumidos e discutidos na Seção 3. Este trabalho objetiva proporcionar aos pesquisadores da área de saúde (médicos e biólogos) a terem acesso prático e rápido a pesquisas em artigos científicos sobre a doença Anemia Falciforme (detalhada na Seção 4.2). O foco principal será a extração de informação de assuntos referentes a tratamentos da doença e, ainda melhorar a extração de informação da metodologia proposta em (MATOS et al., 2010) com ênfase na extração dos seguintes efeitos: efeitos positivos do tratamento (benefícios), efeitos negativos do tratamento (efeito colaterais) e efeitos negativos da doença (complicações). Será investigada a extração de informação em artigos completos, especialmente para tratamentos, uma vez que uma análise preliminar dos artigos científicos mostrou que ocorre a descrição de tratamentos em várias seções do artigo e não somente em seções específicas como tratadas na metodologia proposta em (MATOS et al., 2010). Ademais, para a extração de tratamentos, um mesmo artigo pode mencionar vários tratamentos, sendo necessário separar as partes do artigo referentes a cada tratamento. Para isto, a aplicação de TextTiling para segmentação topical, ou seja, dividir o texto em blocos do mesmo assunto é uma perspectiva para resolver tal problema. Além disso, um tratamento pode ter várias durações (de tempo), informação esta que é de extrema importância para o especialista e considerado como um grande desafio, pois separar e especificar quais durações e períodos estão relacionados a cada tratamento é uma informação essencial para os especialistas médicos. Propõe-se usar uma combinação de técnicas para atacar este problema de extração de informação, a seguir listadas, com o intuito de identificar os tratamentos em um artigo científico no formato PDF, a saber: aprendizado de máquina, dicionários e regras.

13 Capítulo 1 - Introdução 17 Algumas limitações foram identificadas na metodologia proposta em (MATOS et al., 2010), na extração de informação sobre efeitos que ocasionou imprecisões ao extrair algumas sentenças em nível sintático utilizando dicionário conjuntamente com aplicação de regras, tais como: sentenças que não são representativas para a geração de regras e sentenças sem qualquer tipo de padrão. Para aperfeiçoar a referida metodologia, com relação à extração de efeitos, a utilização de análise sintática (frase com identificação de sujeito, predicado, etc.), classe gramatical (aplicação do part-of-speech para dividir a frase em verbo, substantivo, adjetivo, etc.), análise de contexto (parsed tree), dentre outras técnicas de mais alto nível que podem melhorar a precisão da extração destas sentenças e consequentemente a qualidade da extração. Portanto, conforme anteriormente descrito, para atender as particularidades da extração de informação sobre tratamentos e tratar das limitações e imperfeições da metodologia proposta por Pablo Matos (MATOS et al., 2010) para a extração de informação sobre efeitos, existe a necessidade de instanciar, validar e estender a referida metodologia adaptando-a a novas técnicas. Será designada a participação de médicos especialistas do domínio (equipe do Hemocentro de Ribeirão Preto) para validação da metodologia de extração em questão. 1.3 Organização do Trabalho O conteúdo desta proposta de dissertação está organizado em quatro capítulos: Capítulo 1 - Introdução: descreve o contexto onde este trabalho se encontra, a motivação para a definição do tema, a justificativa da pesquisa, objetivos e organização do trabalho; Capítulo 2 - Fundamentação Teórica: descreve os conceitos que serão usados como base para o desenvolvimento desse trabalho; Capítulo 3 - Trabalhos Correlatos: descreve e compara os trabalhos correlatos que extraem informações de textos não estruturados com ênfase no domínio biomédico;

14 Capítulo 1 - Introdução 18 Capítulo 4 - Detalhamento do Projeto: especifica o trabalho desta pesquisa em nível de mestrado, apresentando a arquitetura da proposta e por fim, o cronograma de atividades.

15 Capítulo 2 FUNDAMENTAÇÃO TEÓRICA CAPÍTULO 2 - Este capítulo apresenta os conceitos e as características básicas necessárias para compreender este projeto de pesquisa em nível de mestrado. Isto compreende os conceitos de extração de informação, abordagens e tarefas de extração. Compreende também conceitos sobre mineração de textos, e ainda, definições das áreas de conhecimento em mineração de textos, tais como processamento de língua natural e aprendizado de máquina Extração de Informação Extração de Informação (EI) é uma subárea do Processamento de Língua Natural (PLN) que se concentra em reconhecer e extrair trechos relevantes em documentos não estruturados ou semi-estruturados, para posteriormente serem armazenados em um formato estruturado, tipicamente em um banco de dados. Cada documento é processado para extrair as entidades e os relacionamentos relevantes (i.e., fatos ou eventos que envolvem certas entidades) (FELDMAN; SANGER, 2007). Após o armazenamento dos dados extraídos, estes dados são submetidos a algoritmos de mineração de dados, integrados em bases de conhecimentos para permitir o raciocínio ou apenas apresentados diretamente para os usuários (ANANIADOU; MCNAUGHT, 2006), (CUNNINGHAM, 2006), (ANANIADOU; KELL; TSUJII, 2006), (MOONEY; BUNESCU, 2005), (FELDMAN; SANGER, 2007), (JACKSON; MOULINIER, 2002); (GUPTA; LEHAL, 2009). No contexto desta dissertação de mestrado, EI é caracterizada como um instrumento essencial inserido em um ambiente de análise dos dados da doença

16 Capítulo 2 - Fundamentação Teórica 20 Anemia Falciforme. Este ambiente visa extrair informações médicas de forma semiautomática de um conjunto de artigos científicos sobre a doença escritos no idioma inglês e armazenados no formato PDF (Portable Document Format). Mais especificamente, esta pesquisa enfocará o assunto tratamento, como um dos objetivos da extração de informação. A Figura 2.1 exemplifica o propósito deste ambiente, no qual é demonstrado o processo de extração de informação sobre o tratamento da doença Anemia Falciforme. Como observado na figura, dado um fragmento, a extração consiste em identificar a frase que contém a informação de interesse e adiante obter somente as partes que indicam o tratamento, estruturando-as até o seu armazenamento final no banco de dados. Figura Processo de Extração de Informação no ambiente da doença Anemia Falciforme para tratamento. Existem três abordagens principais aplicadas na EI: baseada em dicionários (KRAUTHAMMER; NENADIC, 2004), regras (ANANIADOU; MCNAUGHT, 2006) e aprendizado de máquina (KOU; COHEN; MURPHY, 2005), (COHEN; HUNTER, 2008). Estas abordagens são detalhadas a seguir na seção 2.2. Por fim, o desenvolvimento da tecnologia EI esteve por muito tempo ligado à conferência MUC (Message Understanding Conference), que ocorreu de 1987 até 1998 ( O objetivo das conferências MUC foi avaliar sistemas de EI desenvolvidos por diferentes grupos de pesquisa para extrair informações de domínio (TURMO et al., 2006). No total, foram sete eventos que ocorreram ao longo deste período. Maiores detalhes podem ser encontrados em (HIRSCHMAN; MORGAN; YEH, 2002).

17 Capítulo 2 - Fundamentação Teórica Abordagens para extração de informação Kou, Cohen e Murphy (2005) e Cohen e Hunter (2008) descrevem duas abordagens para a extração de informação: abordagem baseada em regras, utilizada para identificar padrões de extração com o uso de expressões regulares; e abordagem baseada em aprendizado de máquina, que utiliza classificadores para separar ou identificar sentenças de interesse. Além dessas, Krauthammer e Nenadic (2004) apresentam uma terceira abordagem para o reconhecimento automático de termos: abordagem baseada em dicionário, a qual utiliza informações de um dicionário para auxiliar na identificação dos termos ou das entidades no texto. Essas abordagens são as três predominantes na literatura e essenciais para a extração de conhecimento no domínio biomédico, sendo detalhadas nas próximas seções Abordagem Baseada em Dicionário A abordagem baseada em dicionário dispõe de uma lista de termos para localizar as ocorrências no texto. Cada sequência de palavras no texto que corresponde a uma entrada em um recurso terminológico é considerada como um termo ocorrência; apenas strings são tratados como tais termos (ANANIADOU; MCNAUGHT, 2006). Neste contexto, as informações armazenadas são pertinentes ao domínio biomédico, e estas informações promovem o reconhecimento de termos tais como genes, proteínas e doenças, e ainda, a combinação entre eles. O casamento de padrão geralmente é utilizado entre as entradas contidas no dicionário e as palavras encontradas nas sentenças (MATOS, 2009). Uma desvantagem desta abordagem é a restrição de nomes que estão presentes no dicionário, sendo assim indispensável o armazenamento de palavras com variações, tais como plural, gênero, etc. Por exemplo, variações de nomes da proteína NF-kappa B podem ser encontradas na literatura: NF kappa B, NFkappa-B, NF-Kappa B, NF-Kappa-B, etc. (TSURUOKA; TSUJII, 2004). Tsuruoka e Tsujii (2004) também alertam sobre o uso desta abordagem, apresentando dois problemas fundamentais: falso reconhecimento causado principalmente por nomes curtos e baixa revocação em sistemas de extração de informação devido a variações de ortografia. O esquema do banco de dados do Projeto da Anemia Falciforme no

18 Capítulo 2 - Fundamentação Teórica 22 qual essa dissertação está inserida utiliza uma tabela adicional nomeada como variation, para armazenar as variações e os sinônimos, de forma a reduzir os problemas citados. Segundo Kou, Cohen e Murphy (2005), extratores baseado em dicionário, ao extrair nomes de proteína, geralmente têm uma baixa revocação, exceto se lidar com as variações de nome. Uma alternativa de trabalhar com essas variações é utilizar técnicas como aproximação de string (distância de edição) (LEVENSHTEIN, 1966), (TSURUOKA; TSUJII, 2004). Esta técnica substitui, apaga e insere caracteres e dígitos que podem ser usados para implementar strings mais flexíveis combinando contra um dicionário de termos de proteínas (ANANIADOU; MCNAUGHT, 2006). Por exemplo, a distância de edição entre as palavras kitten e sitting é 3, pois com apenas 3 edições é capaz de converter uma palavra na outra: kitten 1) sitten (substituição de k por s ); 2) sittin (substituição de e por i ) e 3) sitting (inserção de g no final). Neste trabalho, termo refere-se a uma palavra. Um atributo composto por um único termo é conhecido como unigrama, e um atributo composto por n termos é chamado de n-grama (ARANHA, 2007). Uma n-grama de letras é uma sequência de n letras da uma dada palavra, por exemplo: neste contexto considera a combinação da palavra sickle cell, na qual representa 2-gramas Abordagem Baseada em Regras A abordagem baseada em regras utiliza termos padrão de formação. Esta abordagem consiste no desenvolvimento e na aplicação de regras que descrevem estruturas de nomes comuns para certas classes de termos, usando ortografia léxica descrita por expressão regular, ou recursos morfossintáticos mais complexos (ANANIADOU; MCNAUGHT, 2006). Um exemplo de padrões extraídos a partir de regras é ilustrado abaixo, o qual permite encontrar o relacionamento entre hydroxyurea (droga) e um tratamento: <hydroxyurea> desempenha um papel no <tratamento> <tratamento> está associado com <hydroxyurea>

19 Capítulo 2 - Fundamentação Teórica 23 Para identificação desses relacionamentos, pode-se utilizar (SILVA et al., 2007): Análise linguística (ou análise sentencial): a estrutura de um texto é formada de sentença a sentença, sendo assim a primeira e a menor unidade do processamento. Uma sentença pode ser definida como uma unidade de comunicação, uma vez que se apresenta como uma declaração dotada de expressão completa de sentido, por exemplo, sentenças constituídas de uma palavra Atenção! ou Perigo! ; Análise Semântica: extrair um significado completo da sentença a partir dos significados das palavras ou grupos de palavras, e das relações entre elas, e neste caso, é necessário o conhecimento particular do domínio, por exemplo, para distinguir a interpretação correta do termo banco (se é uma instituição financeira ou um assento em uma cadeira). No trabalho do Pablo Matos (MATOS et al., 2010), foi utilizado a análise sentencial para implementação das regras e uma das dificuldades foi encontrar sentenças que não são representativas e sentenças sem qualquer tipo de padrão. Segundo Ananiadou e McNaught (2006), esta abordagem é normalmente difícil de se ajustar a diferentes domínios ou classes, uma vez que as regras são específicas do domínio. Outra desvantagem dessa abordagem é o tempo significativo para a definição e para a validação das regras (COHEN; HUNTER, 2008) Abordagem Baseada em Aprendizado de Máquina Técnicas de aprendizado de máquina são utilizadas em Reconhecimento Automático de Termo (RAT), que são projetadas para atender a uma classe específica de entidades, e usam dados de treinamento para aprender as características que são úteis e relevantes para o reconhecimento e a classificação de termos (KRAUTHAMMER; NENADIC, 2004), (ANANIADOU; MCNAUGHT, 2006). O objetivo dessa dissertação de mestrado visa extrair informações de artigos científicos relacionados à doença Anemia Falciforme, especificamente a extração de dados sobre tratamentos e efeitos. Portanto, esta abordagem será utilizada nesta dissertação para classificar as sentenças nas classes tratamento e outros. Já

20 Capítulo 2 - Fundamentação Teórica 24 para efeitos, manteremos a proposta de Pablo (MATOS et al., 2010) que separa as classes em efeito positivo, efeito negativo e outros. Várias técnicas de aprendizado de máquina têm sido utilizadas para identificação e classificação de termos, incluindo Hidden Markov Model (HMM), Naïve Bayes, Support Vector Machines (SVM) e árvores de decisão (EBECKEN; LOPES; COSTA, 2003). Na dissertação de Mestrado do Pablo (MATOS et al., 2010), foram utilizadas seis algoritmos de aprendizado de máquina, que são: aprendizado estatístico: Support Vector Machine (SVM) e Naïve Bayes (NB); aprendizado simbólico: ID3 e J48 (ambos de árvore de decisão), e algoritmos de regras para representação simbólica (Prism e OneR). Dentre os algoritmos utilizados, a avaliação dos resultados comprovou que a melhor técnica foi a SVM, que aplicado juntamente com os filtros: Remove Misclassification (para eliminação de ruído) e Resample (para equilíbrio dos exemplos), resultou em uma melhor acurácia de 95,90%. Esta avaliação foi utilizada para a classificação de efeitos, e nesta extensão do projeto serão investigados os mesmos algoritmos aplicados à classificação de tratamentos. 2.3 Tarefas da Extração de Informação Ananiadou e McNaught (2006) caracterizam extração de informação como uma representação de cada fato como um template cujos slots são preenchidos com base no que foi localizado no texto. A extração de informação está subdividida em cinco tarefas, conforme mostrados na Tabela 2.1, exemplificado por Cunningham (2006): Tarefa Entidade Nomeada Correferência Tabela Cinco tarefas de extração de informação. Descrição Refere-se a uma entidade que possui um nome próprio. Extrai nome, pessoa, organização, localização, etc. (ex.: Isabelle e Dominique como pessoas). Identifica relações entre entidades. As correferências são utilizadas quando a definição de um objeto tem uma relação de dependência conceitual com um objeto já instanciado (ex: Comprei uma casa. Esta casa será sempre minha).

21 Capítulo 2 - Fundamentação Teórica 25 Template Element Template Relation Scenario Template Uma lista de entidades com seus atributos associados, tais como formas alternativas de um nome (ex.: o sistema acrescenta um alias alternativo quando nota que a administração do Lula-PT também se refere oficial do governo ). Identificação das propriedades dos Template Elements ou relações entre eles (ex.: relação entre o funcionário-presidente e a organização-governo). Extrai eventos. Um ou mais slots são preenchidos com template element ou template relation para cada tipo de evento extraído (ex.: template element pode ter identificado Isabelle e Dominique como pessoas, entidades presentes na edição das cartas de amor de Napoleão). O Reconhecimento de Entidade Nomeada (REN) envolve identificar referências para tipos de objetos particulares, tais como nomes de pessoas, empresas e localizações (MOONEY; BUNESCU, 2005). Esta tarefa tem sido utilizada em diversos domínios, inclusive para extrair informação de dados biológicos e de documentos médicos (LEE; WU; YANG, 2007), (KRAUS; BLAKE; WEST, 2007). Entidade mencionada entende-se uma entidade referenciada em um determinado contexto, podendo assim assumir papéis semânticos diferentes em função desse mesmo contexto (ARANHA, 2007). Na área biomédica as entidades são tipicamente genes, proteínas e doenças. Nesta área, é possível identificar uma proteína que interage com outra proteína, ou que uma proteína está localizada em uma parte específica da célula (MOONEY; BUNESCU, 2005). No contexto da anemia falciforme, exemplos de entidades são: complicações da doença (dor, tosse, febre, dispnéia), tratamentos (hidroxiureia, acido fólico, antibióticos, transfusão de sangue), benefício do tratamento (redução do número de internação, remissão da doença, cura), efeitos colaterais do tratamento (fraqueza, depressão). Já o Reconhecimento Automático de Termo (RAT) refere-se ao processo de extrair sistematicamente termos técnicos pertinentes e suas variantes de uma coleção de documentos. Seu principal objetivo é distinguir os termos de um campo de assunto a partir de não termos, associando os termos extraídos com um conceito em um framework semântico bem definido (ANANIADOU; MCNAUGHT, 2006). Na área biomédica, são envolvidos os dois domínios de pesquisa REN (MOONEY; BUNESCU, 2005) e RAT (ANANIADOU; MCNAUGHT, 2006), pois há uma relação entre a pesquisa de terminologia e a entidade nomeada. Por exemplo,

22 Capítulo 2 - Fundamentação Teórica 26 uma entidade nomeada é qualquer nome próprio, e alguns desses nomes podem ser termos técnicos (e.g., Penicilina), que neste caso, são reconhecidos via RAT, enquanto outros não (e.g., Hidroxiureia). Da mesma forma, pode haver termos técnicos que não são nomes próprios, por exemplo, a palavra doença é um termo técnico da medicina, mas não é um nome próprio. Tanto REN, quanto RAT utilizam das mesmas abordagens (baseada em regras, dicionário e aprendizado de máquina) para extração de informação (ANANIADOU; MCNAUGHT, 2006) Reconhecimento Automático de Termo Reconhecimento automático de termo é uma classificação geral binária que organiza unidades lexicais do texto em dois grupos: termos e não termos. Denota um conjunto de procedimentos que são utilizados sistematicamente para reconhecer os termos pertinentes na literatura, ou seja, destacar unidades lexicais que são relacionados com conceitos relevantes do domínio (KRAUTHAMMER; NENADIC, 2004). Os termos encontrados na literatura biomédica (tais como, genes, proteínas, organismos, drogas, produtos químicos, etc.) constituem conhecimento de domínio utilizado pela comunidade científica e seria impossível compreender ou extrair informações de um artigo sem o reconhecimento e a associação correta desses termos (KRAUTHAMMER; NENADIC, 2004). Neste contexto, na Tabela 2.2 é apresentado um exemplo de termos sobre tratamento (em negrito) relacionado à doença Anemia Falciforme (ex.: termo encontrado: HU = hidroxiureia (Droga)). Tabela Exemplo de sentença com termos sobre tratamento (em negrito) da Anemia Falciforme. One large randomized trial tested the efficacy of HU in adults with SCD and found that after 2 years of treatment, Hb F% increased by 3.2 percent and hemoglobin increased by 0.6 g/dl. Fonte: Segal et al. (2008). Reconhecimento Automático de Termo consiste de três tarefas (ANANIADOU; MCNAUGHT, 2006). O primeiro passo é o reconhecimento de termo que diferencia os termos dos não termos (KRAUTHAMMER; NENADIC, 2004); na segunda etapa, os termos reconhecidos são classificados nas classes mais amplas do domínio, tais como genes, proteínas ou tecidos; e a tarefa final, que é o mapeamento de termos,

23 Capítulo 2 - Fundamentação Teórica 27 que associa automaticamente termos com novos conceitos representados por uma ontologia. Figura Passos para identificação de termo no texto. Fonte: Adaptado de Krauthammer e Nenadic (2004). Segundo Ananiadou e McNaught (2006), a maioria das abordagens no âmbito biomédico integra o reconhecimento de termo e a classificação de termo em uma única etapa, por exemplo, para identificar os termos e associá-los a classes prédefinidas do domínio biomédico, como genes, proteínas ou doenças. Esta dissertação objetiva aplicar RAT para reconhecer e classificar os termos, integrando as três abordagens utilizadas para extração de informação. 2.4 Mineração de Textos A Mineração de Textos (MT), também conhecida como Mineração de Dados Textual ou Descoberta de Conhecimento Textual, refere-se ao processo de obter conhecimento relevante, útil e interessante de bases textuais, ou seja, de dados não estruturados. Apoia-se em alguns conceitos de Mineração de Dados (MD) (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996) que pretende extrair regularidades, padrões ou tendências de grandes volumes de textos em língua natural para um domínio específico (MHAMDI; ELLOUMI, 2008), (EBECKEN; LOPES; COSTA, 2003), (GUPTA; LEHAL, 2009). Mineração de textos é uma área multidisciplinar que utiliza técnicas das áreas de Extração de Informação, Processamento de Língua Natural, Recuperação de Informação, juntamente com algoritmos e métodos de KDD (Knowledge Discovery in Database), Aprendizado de Máquina e Estatística (HOTHO; NÜRNBERGER; PAASS, 2005); (GUPTA; LEHAL, 2009). Atualmente, diversas áreas têm armazenado um grande volume de documentos em formato textual. A informação, que é indiretamente medida em

24 Capítulo 2 - Fundamentação Teórica 28 termos do número de artigos e revistas que são publicados, está aumentando a uma taxa considerável, de modo que não é mais possível analisar toda a literatura relevante manualmente, mesmo em temas especializados (JENSEN; SARIC; BORK, 2006). A quantidade de informação on-line atualizada em 2009 pela pesquisa do IDC (International Data Corporation) avaliou que foram produzidos 800 exabytes de dados. Devido a esta taxa de crescimento de documentos textuais, ferramentas de mineração tornam-se essenciais neste contexto, a qual possibilita extrair as informações semi-automaticamente e promover o reconhecimento de padrões. Ademais, para que toda essa informação não estruturada seja processada, é necessário utilizar métodos e algoritmos de pré-processamento para extrair padrões úteis. Existem na literatura algumas variações do processo de mineração de textos. Originalmente foi proposta uma divisão do processo em nove etapas em (FAYYAD; PIATETSKY-SHAPIRO; SMYTH, 1996). No geral, o processo contém quatro etapas principais (FELDMAN; SANGER, 2007), (MHAMDI; ELLOUMI, 2008), (EBECKEN; LOPES; COSTA, 2003): coleta de documentos, pré-processamento, extração de padrões e análise e avaliação dos resultados, conforme ilustrado na Figura 2.3: Figura Processo de mineração de texto em quatro etapas. A fase inicial tem por objetivo a coleta das informações que vão constituir a base textual, ou seja, determinar e selecionar o domínio de abrangência das técnicas de mineração de texto. A segunda etapa, denominada de préprocessamento, é responsável por obter uma representação estruturada dos documentos (FELDMAN; SANGER, 2007). Após os documentos serem representados em um formato adequado, é possível aplicar técnicas de extração de conhecimento utilizando técnicas de forma semelhante ao processo tradicional de

25 Capítulo 2 - Fundamentação Teórica 29 mineração de dados (MHAMDI; ELLOUMI, 2008). Finalmente, na última etapa, deseja-se avaliar o resultado gerado a partir dos passos anteriores. Rezende et al.(2003) apresentam uma abordagem que divide o processo em um ciclo que pode ser repetido várias vezes. Esta abordagem é dividida em cinco grandes etapas, como pode ser observado na Figura 2.4: (i) identificação do problema (fase anterior ao processo de MD), etapa no qual o especialista do domínio identifica e define o problema, determina os requisitos, objetivos e metas a serem atingidas; (ii) pré-processamento, etapa de extração e integração, transformação, limpeza, seleção e redução dos dados; (iii) extração de padrões, entende-se como a aplicação de algoritmos para extração de conhecimento; (iv) etapas de pósprocessamento e utilização do conhecimento (fase posterior ao processo de MD), consistem das fases de validação e visualização dos resultados. Figura Etapas do processo de mineração de dados. Fonte: Rezende et al.(2003). O foco desta pesquisa de dissertação de mestrado é a fase de préprocessamento, segunda etapa do processo de MT, para a qual uma metodologia de extração de informação será instanciada e estendida para tratar o assunto tratamento relacionado à doença Anemia Falciforme e uma adaptação na metodologia proposta por Pablo Matos (MATOS et al., 2010) será proposta para melhorar a qualidade no processo de extração de informação do assunto efeitos. A fase de pré-processamento consiste em um conjunto de transformações a serem

26 Capítulo 2 - Fundamentação Teórica 30 executadas em dados crus não estruturados, com o objetivo de preparar, organizar e transformar estes dados para um formato adequado para a operação de mineração (ARANHA, 2007), (FELDMAN; SANGER, 2007). O formato escolhido geralmente é representado em uma tabela atributo-valor, esta que constitui os documentos e tem como característica valores dispersos dos dados e uma alta dimensionalidade (ARANHA, 2007). A tabela atributo-valor é representada em um modelo espaço vetorial, no qual cada documento é representado por um vetor (d i ) e cada posição desse vetor equivale a um atributo (dimensão) do documento (t i ). A classe dos documentos (c i ) é ilustrada na última coluna da matriz, caso estes documentos forem rotulados. Caso contrário, essa coluna é eliminada da matriz atributo-valor (EBECKEN; LOPES; COSTA, 2003). O modelo bag-of-words (saco de palavras) é um dos formatos de representação de documentos que utiliza a definição do modelo espaço vetorial. A abordagem bag-of-words ignora a ordem das palavras assim como qualquer informação de pontuação ou estrutural, mas retém o número de vezes que uma palavra aparece (EBECKEN; LOPES; COSTA, 2003); (ANTHONY; LASHKIA, 2003). Na Tabela 2.3 é apresentado um exemplo do preenchimento de uma tabela atributo-valor, com a aplicação sendo binária e os atributos relacionados ao domínio da Anemia Falciforme. As sentenças e atributos (Hydroxyurea, HU, therapy,...) são pertinentes às sentenças a seguir: 1. Treatment: Hydroxyurea (HU) is considered to be the most successful drug therapy for severe sickle cell disease (SCD). 2. Other: As a whole, 34 patients were considered at risk of primary stroke on the basis of abnormal TCD, and 7 of the 21 explored by MRI/MRA had moderate/severe arterial stenosis.

27 Sentenças Capítulo 2 - Fundamentação Teórica 31 Tabela Exemplo de uma tabela atributo-valor definida por duas classes. Atributos hydroxyurea HU therapy Classe Sentença Treatment Sentença Other Legenda: 1 = contém; 0 = não contém As transformações a serem aplicadas aos dados constituem de identificar, ajustar e tratar os dados corrompidos, atributos irrelevantes e valores desconhecidos. Mais especificamente, pré-processamento significa aplicar técnicas de lematização (processo que substitui a palavra flexionada pela forma básica sem número e gênero), técnicas para dividir o texto em palavras (tokenização), técnicas de stemming (processo que reduz a palavra ao seu radical), remoção das stopwords (que são palavras consideradas não relevantes na análise de textos e que podem ser descartadas, tais como preposições, pronomes e artigos) e Part-of-Speech (POS) (classificação das palavras segundo a classe gramatical) (FELDMAN; SANGER, 2007), (KOU; COHEN; MURPHY, 2005), (ARANHA, 2007), (SPASIC et al., 2005), (EBECKEN; LOPES; COSTA, 2003). Cada técnica de pré-processamento inicia com um documento parcialmente estruturado até enriquecer a estrutura, refinando as particularidades presentes e adicionando novas características (FELDMAN; SANGER, 2007). As técnicas stemming e remoção de stopwords não são aplicadas no contexto da doença Anemia Falciforme porque geram perda de informação, mas o uso de stopwords de domínio (palavras consideradas irrelevantes somente em um contexto específico), como por exemplo a palavra Introdução - quando o domínio a ser analisado consiste de artigos científicos - é interessante para ajudar no processo de extração. Depois da aplicação das técnicas de pré-processamento são aplicadas as tarefas de mineração de texto, tais como agrupamento e regras de associação, que torna explícito o relacionamento entre os documentos; categorização que identifica os tópicos de um documento e ainda sumarização que objetiva produzir automaticamente resumos, sem perder as características-chave (EBECKEN; LOPES; COSTA, 2003).

28 Capítulo 2 - Fundamentação Teórica 32 A etapa de análise e validação dos resultados obtidos é realizada na etapa final. A qualidade e desempenho dos resultados podem ser avaliados utilizando medidas padrão da Recuperação de Informação, tais como Precisão (medida de fidelidade), Revocação (medida de completude), e ainda medida-f (média harmônica ponderada entre a Precisão e a Revocação) (EBECKEN; LOPES; COSTA, 2003). 2.5 Tarefas de Mineração de Textos Cada tipo de tarefa extrai um tipo diferente de informação dos textos e a preferência pela tarefa é feita de acordo com o objetivo final do processo de extração de conhecimento. As tarefas de mineração de textos mais frequentes podem ser divididas, como observado na Figura 2.5 em tarefas preditivas e descritivas (REZENDE et al., 2003): Figura Tarefas de mineração de textos. Fonte: REZENDE et al. (2003). Tarefas preditivas consistem na generalização de exemplos ou experiências passadas com respostas conhecidas em uma linguagem capaz de identificar a classe de um novo exemplo. Os tipos de tarefas para predição são: classificação, que é baseado na predição de um valor categórico; e regressão, no qual o atributo a ser predito é baseado em um valor contínuo. Essas tarefas preditivas utilizam os modelos de aprendizado de máquina supervisionado uma vez que as categorias são sempre pré-conhecidas e disponíveis junto aos dados, denominados exemplos rotulados (MONARD; BARANAUSKAS, 2003).

29 Capítulo 2 - Fundamentação Teórica 33 As tarefas descritivas utilizam modelos de aprendizado de máquina não supervisionado e consistem na identificação de comportamentos particulares da coleção de dados, nos quais esses dados são exemplos não rotulados ou tratados como não rotulados (REZENDE et al., 2003). Os tipos de tarefas para descrição são: agrupamento, que visa agrupar dados de acordo com alguma semelhança entre eles; regras de associação, que são relações lógicas inferidas entre dados correlacionados analisados conjuntamente (AGRAWAL; SRIKANT, 1994); e sumarização, que visa obter a produção de resumos (EBECKEN; LOPES; COSTA, 2003) Categorização Categorização, também conhecida como classificação é uma tarefa de aprendizado supervisionado, que possui a função de classificar um documento em categorias predefinidas (IKONOMAKIS; KOTSIANTIS; TAMPAKAS, 2005), (SEBASTIANI, 2002), (DÖRRE; GERSTL; SEIFFERT, 1999), (YANG; PEDERSEN, 1997). Dado um conjunto pré-definido de categorias (ou classes), o objetivo da categorização é criar um classificador que possa predizer se um novo ou desconhecido documento pertence ou não a uma categoria (YANG; PEDERSEN, 1997). Na comunidade científica a abordagem predominante para categorização é baseada em técnicas de aprendizado de máquina (SEBASTIANI, 2002). A Figura 2.6 apresenta o processo de classificação. Um conjunto de documentos pré-classificados em categorias é considerado para treinamento (a). Este é analisado com o objetivo de prover um esquema de classificação (b). Assim, o esquema de classificação pode ser utilizado para a classificação de outros documentos (c), classificando o documento (d) nas categorias definidas anteriormente (a) (DÖRRE; GERSTL; SEIFFERT, 1999).

30 Capítulo 2 - Fundamentação Teórica 34 Figura Categorização de documentos. Fonte: Adaptado de Dörre, Gerstl e Seiffert (1999). No âmbito deste projeto, esta tarefa será de extrema utilidade para classificar as sentenças em classes pré-definidas, tais como tratamento e outros. Esta etapa ocorrerá antes da etapa de extração de informação, a qual usará das técnicas de dicionário e regras para localizar e extrair partes relevantes das frases préclassificadas em tratamento. 2.6 Processamento de Língua Natural O termo Processamento de Língua Natural (PLN) ou Linguística Computacional é usado para descrever a função de software ou hardware de um sistema de computador que analisa e sintetiza a língua falada ou escrita (JACKSON; MOULINIER, 2002), (ARANHA, 2007), (PARDO, 2002). Segundo Aranha e Passos (2006), PLN é uma técnica chave para a mineração de textos, no qual utiliza conhecimentos da área da linguística e permite aproveitar ao máximo o conteúdo do texto, extraindo entidades, seus relacionamentos, detectando sinônimos, corrigindo palavras escritas de forma errada, e ainda, desambiguizando-as.

31 Capítulo 2 - Fundamentação Teórica 35 A análise de documentos em linguagem natural é realizada em algumas etapas, conforme divisão das camadas de processamento (JURAFSKY; MARTIN, 2000): fonético-fonológico: estudo dos sons linguísticos; morfológico: estudo dos componentes significativas de palavras; sintático: estudo das relações estruturais entre as palavras; semântico: estudo do significado; pragmático: estudo de como a linguagem é usada para realizar objetivos; e discursivo: estudo das unidades linguísticas maiores do que um discurso único. Algumas das principais tarefas de PLN são: reconhecimento de contexto, analise sintática, semântica, léxica e morfológica, sumarização e tradução de textos (MANNING; SCHÜTZE, 1999). Em mineração de textos, os métodos para analisar textos de PLN escritos são usados na etapa de pré-processamento de forma a melhor representar o texto e aproveitar mais o conteúdo (ARANHA, 2007). Estes métodos combinam análise sintaxe e semântica (JENSEN; SARIC; BORK, 2006). O principal objetivo do PLN para essa etapa consiste em reconhecer e classificar as entidades mencionadas (ARANHA, 2007). Simplificação das palavras dos documentos é o processo no quais palavras que tenham o mesmo significado (mas que são diferentes pelos tempos verbais, gêneros, etc.) equivalem a um único termo no documento, como exemplo, palavras como easy, easily correspondam a um único termo, no caso, o eas. Segundo Spasic et al. (2005), o passo inicial para o processamento de texto automático é aplicação da tokenização, que identifica as unidades básicas do texto conhecidas como tokens, utilizando demarcadores explícitos, tais como espaço em branco ou pontuação. Após a tokenização, pode ser realizado o processamento léxico ou sintático, descritos a seguir: Léxico: inclui lematização, stemming e etiquetador morfológico gramatical POS) respectivamente tratados na seção 2.4 (FELDMAN; SANGER, 2007). Ademais, o POS fornece informações sobre o conteúdo morfológico de uma palavra (i.e., artigo, substantivo, verbo, adjetivo, preposição, número e nome próprio) ou morfossintático (identifica as funções sintáticas como sujeito, predicado, aposto);

32 Capítulo 2 - Fundamentação Teórica 36 Tabela Exemplos de Lematização, Stemming e Part-of-Speech Lematização Stemming Part-of-Speech Cantaremos-> Cantar Cantaremos -> Cant <Prop>Mr. Eskew</Prop> <Verb>was</Verb> <Prop>VicePresident</Prop> <Prep>of</Prep>... Sintático: envolve a análise da estrutura sintática de uma sentença, inclui: shallow parser (em vez de fornecer uma análise completa de uma sentença, shallow parser produzir apenas partes que são fáceis e sem ambiguidades) (FELDMAN; SANGER, 2007) e deep parser (gera a representação completa da estrutura sintática de uma sentença) (FELDMAN; SANGER, 2007). 2.7 Aprendizado de Máquina Aprendizado de Máquina (AM) é uma área da Inteligência Artificial (IA) cujo objetivo é o desenvolvimento de técnicas computacionais sobre o aprendizado, bem como a construção de sistemas capazes de adquirir novos conhecimentos, aperfeiçoando-se automaticamente com a sua experiência, produzindo hipóteses úteis (MITCHELL, 1997), (MONARD; BARANAUSKAS, 2003). AM é utilizada no suporte à tarefa de classificação, porém não se restringe à construção de classificadores de texto, mas também pode ser aplicado a uma ampla gama de tarefas de PLN para aplicações online, por exemplo, abordagens em que são necessárias aplicações de corretores ortográficos, part-of-speech ou parsing (JACKSON; MOULINIER, 2002). Abordagens de aprendizado de máquina têm demonstrado ser muito úteis para a extração de informação, incluindo abordagens que aprendem a extrair diversas categorias de entidades de textos estruturados e não estruturados (ZELENKO et al., 2003; CARLSON et al., 2010). No contexto desta dissertação de mestrado, o aprendizado de máquina será utilizado para classificar as sentenças dos artigos científicos (ou seja, na tarefa de categorização), e neste referente projeto, não será explorado e considerado que o

33 Capítulo 2 - Fundamentação Teórica 37 aprendizado também pode ser dedutivo, portanto, o mesmo utilizará a procedência da indução. O aprendizado utiliza do princípio da indução, que é sua forma de inferência lógica, com o propósito de obter conclusões genéricas a partir de um conjunto de exemplos. Um conceito é aprendido executando a inferência indutiva sobre os exemplos demonstrados. Para a indução originar conhecimento novo representativo, os exemplos das classes devem estar bem definidos e ter uma quantidade satisfatória de exemplos, adquirindo assim hipóteses convenientes para um determinado tipo de problema (MONARD; BARANAUSKAS, 2003). O objetivo do algoritmo (ou indutor) é construir um classificador que possa definir adequadamente a classe de novos dados ainda não rotulados. O aprendizado indutivo pode ser dividido em supervisionado e não supervisionado, ilustrados na Figura 2.7. No aprendizado supervisionado é fornecido um algoritmo de aprendizado e um conjunto de exemplos de treinamento para os quais o rótulo da classe associada é conhecido. No aprendizado não supervisionado o indutor analisa os exemplos e tenta determinar se alguns deles podem ser agrupados de alguma maneira formando agrupamentos. Figura Hierarquia do aprendizado Fonte: Adaptado de Monard e Baranauskas (2003). Monard e Baranauskas (2003) classificam AM em alguns paradigmas, que compreendem: Simbólico, buscam aprender construindo representações simbólicas de um conceito através da análise de exemplos e contraexemplos

34 Capítulo 2 - Fundamentação Teórica 38 como expressão lógica, árvore de decisão, regras ou rede semântica. Exemplo: Algoritmos de árvore de decisão como ID3, C4.5; Estatístico, consiste em utilizar modelos estatísticos para encontrar uma boa aproximação do conceito induzido. Exemplo: Support Vector Machines (SVM) e aprendizado Bayesiano; Baseado em Exemplos, classifica um novo exemplo com base em uma classificação similar conhecida. Exemplo: Raciocínio baseado em caso e método do K-vizinhos mais próximos (K-Nearest Neighbor, KNN); Conexionista, são construções matemáticas simplificadas inspiradas no modelo biológico do sistema nervoso. Exemplo: Redes Neurais; Evolutivo, modelo biológico de aprendizado. Exemplo: Analogia com a teoria de Darwin. Detalhes sobre AM podem ser encontrados em (MATOS et al., 2009a) Métodos de Particionamento Vários métodos são utilizados conjuntamente com uma medida de desempenho, geralmente a precisão ou o erro, para fazer a avaliação dos algoritmos de aprendizado de máquina supervisionados. Alguns destes métodos de particionamento de amostragem randômico são: Holdout, Amostra Aleatória, Cross- Validation e Bootstrap (KOHAVI, 1995), (MANNING; SCHÜTZE, 1999), (CHEN et al., 2005). Holdout: o estimador holdout divide os exemplos em uma porcentagem fixa de exemplos p de treinamento e 1 p para teste, considerando normalmente p > 1 2. Valores típicos são p = 2/3 e 1 p = 1/3 (MONARD; BARANAUSKAS, 2003). Amostra Aleatória: consiste na múltipla aplicação do método holdout. Em cada iteração, os exemplos são particionados em conjuntos de treinamento e teste. Após o treinamento é obtida a taxa de erro do conjunto de teste (BATISTA; MONARD, 1998). Amostra aleatória pode produzir melhores estimativas de erro que o estimador holdout (MONARD; BARANAUSKAS, 2003).

35 Capítulo 2 - Fundamentação Teórica 39 Cross-Validation (Validação Cruzada): uso dos mesmos dados, repetidas vezes, divididos diferentemente. Em k-fold cross-validation o conjunto de dados (os exemplos) é aleatoriamente dividido em k partições reciprocamente exclusivas (folds). De tamanho aproximadamente igual a n k exemplos. As k 1 folds são usadas para treinamento e o fold restante para teste. Este processo é repetido k vezes, cada vez considerando um fold diferente para teste. O erro é a média dos erros calculados em cada um dos k folds (MONARD; BARANAUSKAS, 2003). Stratified Cross-Validation: o estimador stratified cross-validation é similar à cross-validation, mas ao gerar os folds mutualmente exclusivos, a distribuição de classes é considerada em cada amostragem (MONARD; BARANAUSKAS, 2003). Leave-One-Out: é um caso especial de cross-validation quando k for igual a quantidade de amostras. Considerando 150 exemplos, a quantidade de folds seria então 150. Para treinamento são os mesmos k 1 exemplos e um fold para teste. Bootstrap: consiste em reproduzir o processo de classificação várias vezes. Os exemplos de treinamento são separados do conjunto de exemplo, mas os elementos selecionados mantêm no conjunto de exemplos, na qual um mesmo elemento possa ser escolhido diversas vezes aleatoriamente (MONARD; BARANAUSKAS, 2003). Detalhes peculiares sobre métodos de particionamento pode ser obtidos em (MATOS et al., 2009b) Extração de Características Extração de características (ou seleção de atributos) é o processo de selecionar um subconjunto de termos do conjunto de treinamento e usá-lo na classificação de texto (MANNING; RAGHAVAN; SCHÜTZE, 2008). O objetivo dos métodos de extração é reduzir a dimensionalidade do conjunto de dados, removendo as características que são consideradas irrelevantes para a classificação (IKONOMAKIS; KOTSIANTIS; TAMPAKAS, 2005). Métodos de extração de características são divididos em dois passos distintos (EBECKEN; LOPES; COSTA, 2003): a extração de termos pode ocorrer com base em informação linguística estruturada; e a seleção dos termos ocorrer com base em alguma métrica estatística como a frequência ou informação mútua. No primeiro

36 Capítulo 2 - Fundamentação Teórica 40 passo, algoritmos de extração de características podem utilizar dicionários para identificar alguns termos e padrões linguísticos para detectar outros termos. No segundo passo, são aplicados métodos para redução de características, que são: frequência de documento, ganho de informação, informação mútua e estatística X 2 (qui-quadrado). Frequência de Documento (DF): técnica mais simples de redução de termos, a frequência de documentos é o número de documentos no qual um termo ocorre. A suposição é que termos raros não são importantes para a predição da categoria e não afeta o desempenho global. Não selecionando estes termos raros, reduz-se a dimensionalidade do espaço de característica (SEBASTIANI, 2002), (EBECKEN; LOPES; COSTA, 2003). A Equação (2.1) apresenta o número de documentos da classe c que contém o termo t. FD t, c = P t c (2.1) Na metodologia aplicada no trabalho do Pablo (MATOS et al., 2010) foi utilizada a técnica de frequência de documento, conjuntamente com sequência de ngramas (1, 2 e 3). Ganho de Informação (GI): frequentemente aplicado como critério de importância do termo no campo do aprendizado de máquina (MITCHELL, 1997), ganho de informação mede o número de bits de informação obtido por uma predição de categoria conhecendo a presença ou ausência do termo em um documento (EBECKEN; LOPES; COSTA, 2003). Dado um conjunto de documentos, o ganho de informação é calculado para cada termo, e os termos cujos ganhos de informação foram menores que um determinado limite são removidos do espaço das características. A complexidade do tempo é O N e a complexidade do espaço é O VN, onde N é o número de documento de treinamento e V é o tamanho do vocabulário. A computação da entropia tem um tempo de complexidade de O Vm. O ganho de informação do termo t com a classe c i variando de 1 i m é determinada pela Equação ((2.2):

37 Capítulo 2 - Fundamentação Teórica 41 m GI t = P c i log P c i i=1 m +P t P c i t log P c i t +P t i=1 m i=1 P c i t log P c i t P t é a probabilidade que o termo t ocorre e t é a probabilidade que o termo t não ocorre. P c i t é a probabilidade condicional da ocorrência de um termo na classe c i e P c i t é a probabilidade condicional de não ocorrer o termo na classe c i. (2.2) Informação Mútua (IM): é um critério comumente usado em modelagem estatística de associação de palavras (EBECKEN; LOPES; COSTA, 2003). Considera o termo t e a categoria c, sendo que A é o número de vezes que t e c coocorrem, B é o número de vezes que t ocorre sem c, C é o número de vezes que c ocorre sem t e N é o número total de documentos (EBECKEN; LOPES; COSTA, 2003). A hipótese do termo t e categoria c é apresentada na Equação (2.3). O tempo de complexidade é O Vm, similar ao ganho de informação. É uma medida da quantidade de informação que uma variável contém sobre outra. A informação mútua é maior quando todas as ocorrências de dois termos são adjacentes umas às outras, deteriorando-se em baixa frequência. IM t, c log A N A + C A + B (2.3) Estatística (X 2 ): Mede a falta de independência do termo t e da categoria c. A medida X 2 tem valor zero se t e c são independentes (EBECKEN; LOPES; COSTA, 2003). A computação tem complexidade quadrática, similar a informação mútua e ao ganho de informação. Considera o significado de A, B e C explicado na medida anterior. D é o número de vezes que não ocorrem nem c e t. A medida é definida pela Equação (2.4). X 2 t, c = N AD CB 2 A + C B + D A + B C + D (2.4)

38 Capítulo 2 - Fundamentação Teórica Métricas de Avaliação de Desempenho As medidas de precisão e revocação são as medidas de avaliação de desempenho padrão adotadas da área da Recuperação de Informação (RI) (CLEVERDON; MILLS; KEEN, 1966), (EBECKEN; LOPES; COSTA, 2003). Estas medidas são as principais métricas utilizadas na avaliação da eficiência de sistemas tanto para busca quanto para aprendizado, e aplicadas igualmente para analisar os resultados gerados a partir da Mineração de Textos. Precisão (Equação (2.5)) é uma medida de fidelidade, no qual avalia o quanto o modelo acerta; revocação (Equação (2.6)) (também conhecida como cobertura ou sensibilidade) é uma medida de completude, no qual avalia o quanto o modelo contabiliza (EBECKEN; LOPES; COSTA, 2003). Precisão = Número de elementos relevantes recuperados Número total de elementos recuperados (2.5) Revocação = Número de elementos relevantes recuperados Número total de elementos relevantes (2.6) Muitas vezes existe uma relação inversa entre precisão e revocação, onde é possível aumentar a qualidade de uma medida ao custo de reduzir a qualidade de outra medida (ex.: um sistema de RI pode aumentar a revocação recuperando mais elementos, ao custo de um número crescente de elementos irrelevantes recuperados e, portanto diminuindo a precisão). Na Tabela 2.5 é demonstrada a matriz de confusão para duas classes (Tratamento/Não Tratamento) da Anemia Falciforme, em que P constitui o valor positivo (compreende que a palavra-chave extraída é tratamento); N constitui o valor negativo (compreende que não é tratamento); p (Extração de Tratamento) representa valor positivo da extração e n (Extração de Não Tratamento) representa valor negativo da extração. Verdadeiro Positivo (VP) define que uma quantidade X de tratamentos pertinentes à Anemia Falciforme extraídas do documento é 100% tratamento e foi extraída adequadamente. Logo, Verdadeiro Negativo (VN) é o inverso, 100% não é

39 Capítulo 2 - Fundamentação Teórica 43 tratamento e não foi extraída. Falso Positivo (FP) não é tratamento, mas foi erroneamente extraída do documento e Falso Negativo (FN) é tratamento, mas não foi corretamente extraída. Tabela Matriz de confusão de duas classes (Tratamento/Não Tratamento). Condição Atual (Avaliação Especialista) Resultado da Extração Automática Extração de Tratamento (p) Extração de não Tratamento (n) Tratamento (P) VP (Verdadeiro Positivo) FN (tratamento, mas não é extraída) Não Tratamento (N) FP (não tratamento, mas é extraída) VN (Verdadeiro Negativo) A Equação (2.7) representa o cálculo da porcentagem de acerto a partir dos tratamentos e não tratamentos que foram extraídas; e a Equação (2.8) representa o cálculo da percentagem dos tratamentos que foram extraídos em relação ao total dos tratamentos. Precisão = VP VP + FP (2.7) Revocação = VP VP + FN (2.8) Precisão e revocação são medidas utilizadas no projeto da Anemia Falciforme para avaliar a classificação e a extração. Maiores detalhes podem ser encontrados em (MATOS et al., 2009b) Outras Medidas de Desempenho Medida-F (F-Measure): consiste da média harmônica ponderada entre a Precisão e a Revocação (Equação (2.9)). F β mede a eficácia da recuperação em relação ao valor atribuído a Beta (β). Pesos frequentemente utilizados para β são: F 2 (revocação, que é o dobro da precisão) e F 0,5 (precisão, que é o dobro de revocação). A precisão tem peso maior para valores β < 1, enquanto que β > 1

40 Capítulo 2 - Fundamentação Teórica 44 favorece a revocação. Nas Equações (2.9) e (2.10) a seguir considera-se P = Precisão e R = Revocação. Medida F β = 1 + β (P R), onde β = 1 α (β P + R) α (2.9) A relação entre a Medida-F β e a medida de eficiência é: F β = 1 E. Quando a precisão e revocação têm o mesmo peso (β = 1) a medida é Medida-F 1, também conhecida como Medida-F tradicional ou F-Score balanceada, Equação (2.10). Medida F = 2 P R P + R (2.10) Será aplicada a Medida-F para medir o desempenho global no âmbito deste projeto para avaliar a classificação e a extração. Maiores detalhes sobre a Medida-F e outras medidas pode ser encontradas em (MATOS et al., 2009b). 2.9 Métricas de Avaliação de Concordância A medida de concordância Kappa foi estabelecida por Jacob Cohen (1960) sendo voltada para tarefas de classificação para avaliar a concordância entre observadores (anotadores/juízes) em uma mesma amostra (COHEN, 1960). Os anotadores têm o papel de definir a que classe os exemplos pertencem. Os anotadores podem ser humanos ou não (algoritmos de classificação) (FIOL; HAUG, 2009). No projeto da Anemia Falciforme, a concordância Kappa é aplicada para comparar a classificação realizada automaticamente com a classificação feita pelos anotadores humanos. A Equação (2.11) apresenta a medida Kappa (k), onde P(A) é a proporção de vezes que os anotadores concordam (Equação (2.12)), e P(E) é a proporção de vezes que é esperado dos anotadores concordarem ao acaso ou aleatoriamente. k = P A P E 1 P E (2.11)

41 Anotador 2 Capítulo 2 - Fundamentação Teórica 45 P A = número de vezes que os anotadores concordaram número de itens anotados (2.12) Considere que dois anotadores são delegados de classificar 10 sentenças nas classes tratamento e outros. O resultado desta classificação é apresentado na Tabela 2.6. Tabela Exemplo de anotação de dez sentenças Sentença Anotador 1 Anotador 2 T O T T T O O T O T T O T T O O T T O T Legenda: T = Tratamento, O = Outros Para mais de duas classes, determine a matriz de confusão genérica na Tabela 2.7, na qual a matriz de confusão perfeita é quando apenas a diagonal principal for completada e os outros elementos tiverem valor zero, ou seja, não obteve nenhuma classificação equivocada. Tabela Matriz de confusão genérica. Anotador c Total U x 11 1 x 12 x 1c x 1+ D x 21 2 x 22 x 2c x 2+ T c x c1 x c2 x cc x c+ T x +1 x +2 x +c n Total Particularidades sobre o cálculo da matriz de confusão e o cálculo da conformidade entre os anotadores podem ser obtidos em (MATOS et al., 2009b).

42 Capítulo 2 - Fundamentação Teórica 46 Assaf et al. (2006) determinam uma escala de seis níveis de concordância, conforme observado na Tabela 2.8. Tabela Escala de seis níveis de concordância. Concordância Escala Ruim Abaixo de 0 Leve 0,00 a 0,20 Sofrível 0,21 a 0,40 Moderada 0,41 a 0,60 Boa 0,61 a 0,80 Quase perfeita Acima de 0,81 Esta escala de níveis de concordância é utilizada para indicar se é possível classificar as sentenças através de um programa de computador, pois isto somente é possível caso os valores sejam acima do nível moderado. A análise já foi realizada para efeitos em Pablo Matos (MATOS et al., 2010) e a próxima atividade desta pesquisa será analisar o nível de concordância para o assunto tratamento, que em conversas com especialistas do domínio da Anemia Falciforme, verificou-se que há menor dificuldade na identificação e desambiguação deste assunto. Maiores detalhes para compreensão dos valores de Kappa, podem ser consultados em (MATOS et al., 2009b) Considerações Finais Neste capítulo foram apresentados os conceitos sobre Extração de Informação (EI) para obter informações relevantes em dados não estruturados. Conhecimento este que será aplicado para extrair informações de artigos científicos. Para a extração e a identificação de termos são utilizadas três abordagens: abordagem baseada em dicionário (KRAUTHAMMER; NENADIC, 2004), que utiliza informações de um dicionário para auxiliar na identificação dos termos ou das entidades no texto; abordagem baseada em regras (KOU; COHEN; MURPHY, 2005), (COHEN; HUNTER, 2008) que é utilizada para identificar padrões de extração com expressões regulares; e abordagem baseada em aprendizado de

43 Capítulo 2 - Fundamentação Teórica 47 máquina, que utiliza classificadores para separar ou identificar sentenças de interesse. Foram discutidos ainda, fundamentos de Mineração de Textos (MT) divididos em quatro etapas principais: (FELDMAN; SANGER, 2007), (MHAMDI; ELLOUMI, 2008), (EBECKEN; LOPES; COSTA, 2003) coleta de documentos, que vão constituir a base textual, ou seja, determinar e selecionar o domínio de abrangência das técnicas de MT; pré-processamento, etapa responsável por obter uma representação estruturada dos documentos; extração de padrões, fase em que é possível aplicar técnicas de extração de conhecimento utilizando técnicas de forma semelhante ao processo tradicional de mineração de dados (MHAMDI; ELLOUMI, 2008); e análise e avaliação dos resultados, etapa de avaliação do resultado gerado a partir dos passos anteriores. Ainda se tratando de MT, foram evidenciadas algumas tarefas de mineração de textos, tais como, sumarização (RADEV; HOVY; MCKEOWN, 2002), que identifica as informações importantes de um texto e apresentada de forma sucinta e coerente; categorização (YANG; PEDERSEN, 1997), que classifica um documento em categorias predefinidas; agrupamento (DÖRRE; GERSTL; SEIFFERT, 1999), agrupa documentos em grupos que são definidos a partir da análise dos dados. Por conseguinte foram apresentadas técnicas de Processamento de Língua Natural (PLN) que são extremamente úteis para aplicação em processamento de textos, e ainda conhecimentos sobre Aprendizado de Máquina, em que foi enfocado o aprendizado indutivo, mais especificamente em aprendizado supervisionado, que classifica novos exemplos a partir do treinamento de expressivos exemplos. AM será utilizado para classificar as sentenças dos artigos científicos (tarefa de categorização). Para finalizar foram demonstradas as principais métricas de avaliação para analisar os resultados gerados a partir da Mineração de Textos e outras medidas de avaliação e desempenho. Na próxima seção serão apresentados os trabalhos correlatos que envolvem o conceito de extração de informação em artigos científicos do domínio biomédico.

44 Capítulo 3 TRABALHOS CORRELATOS CAPÍTULO 3 - Neste capítulo são descritos os trabalhos científicos envolvendo o conceito de extração de informação em artigos científicos do domínio biomédico. Os principais trabalhos correlatos a este projeto de mestrado serão detalhados e comparados. Na Tabela 3.1 são sumariados os trabalhos identificados como correlatos ao enfoque deste trabalho de pesquisa em nível de mestrado. São trabalhos encontrados na literatura que extraem informação no domínio biomédico de artigos completos, que são detalhados nas seções consecutivas. Nota-se que a maioria dos trabalhos utiliza as abordagens baseadas em dicionário e regras, são baseados em entidades de genes e proteínas e usam precisão e revocação como medidas de avaliação. Porém, nenhum destes trabalhos trata da extração de termos relacionados a efeitos e tratamentos no domínio da doença Anemia Falciforme ou qualquer outra doença. Para entendimento da tabela, foi utilizada a seguinte terminologia: D significa Dicionário; R significa Regras; AM significa Aprendizado de Máquina; e POS significa etiquetador Part-of-Speech. Tabela Trabalhos correlatos que extraem informação de artigos. Autor Abordagem Informação D R AM Domínio Sistema Objetivo POS Avaliação² Tanabe e x x x Gene e ABGene Extrair Sim Resumos Wilbur Proteína informação Prec. 85,7% (2002a, b) Rev. 66,7% Artigos Prec. 72,5%

45 Capítulo 3 - Trabalhos Correlatos 49 Rev. 50,7% Corney et x x Gene e BioRAT Povoar um Sim Resumos al. (2004) Proteína banco de Prec. 55,1% dados Rev. 20,3% Bremer et x x Gene e Povoar um al. (2004) Proteína banco de dados Garten e Altman (2009) Yang (2009) Yang (2009) MATOS, et al. (2010) Nossa (2010) x¹ x¹ Genes (G), Drogas (D) e Polimorfismos (P) Pharmspresso Destacar as sentenças de acordo com a consulta do usuário x 3 Proteína BioPPIExtractor Extrair informação x 3 Proteína BioPPISVMExtractor Extrair informação x x x Complicação e SCAeXtractor Povoar um Benefício da banco de Anemia dados Falciforme x x x Tratamentos da Anemia Falciforme SCAeXtractor Instanciar, estender a metodologia do MATOS, et al.(2010) ¹ Ontologia e expressões regulares, respectivamente, do sistema Textpresso. ² Prec. significa Precisão e Rev. significa Revocação. 3 Método baseado em Conditional Random Fields (CRF). Artigos Prec. 51,2% Rev. 43,6% Não Prec. 63,5% Rev. 37,3% Não Revocação 78,1% (G) 74,4% (D) 60,8% (P) 50,3% (G e D) Sim Resumos Prec. 55,4% Rev. 41,6% Sim Resumos Prec. 49,2% Rev. 71,8% Sim Artigos Acurácia 95,9% Sim ABGene O ABGene é um sistema treinado em resumos de artigos do banco de dados do MEDLINE e testado em uma coleção de artigos completos do domínio biomédico

46 Capítulo 3 - Trabalhos Correlatos 50 selecionados aleatoriamente para reconhecer nomes de gene e proteína. É utilizado um etiquetador POS baseado em transformação que treina sentenças de resumos com ocorrência de gene marcada manualmente para induzir regras. Após isso, regras e dicionário são aplicados como pós-processamento. O ABGene recebeu duas adequações para extrair informações de artigos completos (TANABE; WILBUR, 2002b). Inicialmente aplicou-se um classificador para operar na classificação em nível de sentença em artigos. Posteriormente realizou-se um pós-processamento com o intuito de extrair supostos grupos de nomes de gene e proteína. O treinamento foi realizado com um conjunto de artigos selecionados aleatoriamente do PubMed Central, totalizando sentenças que foram selecionadas manualmente nos artigos. O experimento foi realizado com um conjunto de sentenças, a fim de estimar como a conformidade de artigos completos afeta o desempenho do ABGene. A média da precisão e revocação obtidas foram, respectivamente, 72,5% e 50,7%. Alguns problemas na extração em artigos completos foram mencionados, tais como: falsos positivos como nomes de reagentes químicos são mais limitados em resumos, e vários falsos negativos que são observados em figuras e tabelas (TANABE; WILBUR, 2002a). Para resolver este problema e filtrar os falsos positivos e falsos negativos, são utilizadas algumas técnicas: Falsos positivos: dicionário (contendo termos biológicos e termos não biológicos) e regras são utilizados para eliminar os falsos positivos. Expressões regulares foram produzidas para remover drogas com sufixos comuns; Falsos negativos: dicionário (nomes simples e compostos) é construído a partir do banco de dados LocusLink e do Gene Ontology, aprendizado de máquina (nomes com baixa frequência de trigramas são selecionados; palavra de contexto é gerada automaticamente por um algoritmo de probabilidade, que indica a probabilidade de nomes de genes adjacentes aparecerem no texto), e regras (expressões regulares adicionais são criadas para permitir casamento de padrões) são utilizados para recuperar os falsos negativos. Também se utiliza o aprendizado Bayesiano para encontrar a probabilidade de um documento conter nome de gene e proteína, podendo assim não extrair informação de documentos que não contêm nomes relacionados. Para isso, documentos que contêm nomes de gene e proteína são treinados. Na classificação

47 Capítulo 3 - Trabalhos Correlatos 51 de novos documentos, documentos com valores de similaridade abaixo de um limiar são eliminados. A avaliação da extração de informação em resumos alcançou uma precisão de 85,7% e revocação de 66,7% usando a combinação da estratégia baseada em conhecimento (dicionário, regra e PLN) e estatística (aprendizado de máquina). 3.2 BioRAT BioRAT (Biological Research Assistant for Text mining, é uma ferramenta para extração de informação que recupera e analisa informação de resumos e artigos completos na área biomédica (CORNEY et al., 2004). A pesquisa por resumos e artigos completos é realizada a partir de uma consulta determinada pelo usuário no banco de dados da PubMed, e após recuperar os documentos relevantes, o sistema extrai ocorrências interessantes, que possam a ser posteriormente armazenados automaticamente em um banco de dados. A extração de informação do BioRAT é baseada na coleção de ferramentas nomeada como GATE (General Architecture for Text Engineering), desenvolvida pela Universidade de Sheffield. O GATE é utilizado para etiquetar as palavras (POS) para posteriormente serem aplicados filtros para excluir verbos que não são proteínas. Dois componentes do GATE são utilizados: gazetteers (permite identificar palavras ou frases relacionadas a genes e proteínas) e templates (permite extrair informação automaticamente a partir de padrões textuais). No experimento realizado, BioRAT foi comparado com o sistema de extração de informação SUISEKI (BLASCHKE; VALENCIA, 2002). O sistema SUISEKI utiliza conhecimento estatístico como a frequência de palavras que ocorrem em uma frase. Os frames de SUISEKI, comparáveis aos templates do BioRAT, contêm padrões relacionados a substantivos e verbos, porém não reconhecem conjunção, adjetivos ou outra classe de palavra. Para avaliar o BioRAT foi utilizado o DIP (Database of Interacting Proteins) (XENARIOS, 2000) com 389 registros que contém 229 resumos do PubMed. O DIP

48 Capítulo 3 - Trabalhos Correlatos 52 é um banco de dados que contém interações entre proteínas, as quais serviram como benchmark para comparar os resultados obtidos do SUISEKI com o BioRAT. O sistema BioRAT utilizou um total de 19 templates derivados dos frames de SUISEKI e 127 gazetteers derivados do MeSH e outras fontes. A revocação alcançada por ambos os sistemas em resumos é aproximadamente a mesma (BioRAT = 20,31% e SUISEKI = 22,33%). A taxa de revocação do BioRAT em artigo completo foi de 43,6%, sendo 25,6% do corpo do artigo e 18% do resumo. O sistema BioRAT obteve maior precisão (55,07%) nos resumos e obteve 51,25% em artigos completos. Este fato ocorreu devido as deficiências no conjunto de templates usado pelo BioRAT (CORNEY et al., 2004). 3.3 Bremer et al. (2004) Bremer et al. (2004) desenvolveram um sistema integrado que combina dicionários (sinônimos, gene e proteína) com regras para extrair e organizar as relações genéticas de artigos completos. As relações extraídas são armazenadas em um banco de dados que inclui o código único do artigo (PubMed ID) e de quatros seções (resumo, introdução, materiais e métodos, resultados e discussão) para identificar o artigo selecionado e a seção de onde as informações foram extraídos. Dois dicionários foram criados com informação de nomes de gene e proteína ( ), e sinônimos ( sinônimos e 124 verbos de relação) para identificar sentenças que contém nomes de gene e proteína. O dicionário de gene e proteína foi construído a partir de vários bancos de dados existentes como o LocusLink, o SWISS-PROT, dentre outros. O dicionário de sinônimos contém variações de sinônimos (e.g., inhibit inhibits, inhibition, inhibited), informações contextuais como prefixos e sufixos (e.g., kinase, phosphate, receptor) e verbos de interação que foram desenvolvidos a partir da análise de artigos por um processo semiautomático. Os nomes armazenados no dicionário ajudaram a identificar sentenças que contêm um ou mais nomes de gene e proteína. A partir das sentenças reconhecidas, um conjunto de regras padrão foi construído para extrair genes. As regras foram baseadas na combinação de nomes de gene e proteína, preposições e palavras-

49 Capítulo 3 - Trabalhos Correlatos 53 chave que indicam o tipo de relação entre genes. Foram desenvolvidos também padrões usando substantivos e verbos na forma passiva e ativa. A extração de informação dividiu-se em quatro passos: (i) toquenizar o texto em sentenças; (ii) analisar sentenças para identificar frases com substantivo e verbo; (iii) selecionar sentenças que contêm genes usando dicionários de nome de gene e proteína, e sinônimos; (iv) extrair genes utilizando regras de casamento de padrão. A ferramenta de processamento textual LexiQuestMine da empresa SPSS ( foi utilizada para construir os dicionários de nomes de gene e proteína, sinônimos e padrões associados com genes. O software GetItRight comercial (disponível em foi utilizado para auxiliar no desenvolvimento de scripts para conectar e baixar artigos completos automaticamente no formato HTML. Realizou-se um pré-processamento para converter o arquivo HTML para o formato XML, e no XML (Figura 3.1) foram incluídas etiquetas para cada seção, além de informações sobre o título e código do artigo. As figuras do artigo não foram incluídas no banco de dados, a fim de economizar espaço de armazenamento. Figura Exemplo de um documento XML com etiquetas de quatro seções. Fonte: Bremer et al. (2004). Foram selecionados artigos no domínio da biologia molecular e da biomedicina, mais particularmente sobre tumores celebrais, de 20 revistas entre 1999 e Para avaliar o sistema, selecionou-se aleatoriamente 100 artigos, sendo cinco de cada revista e um de cada ano. Dez neurobiólogos analisaram

50 Capítulo 3 - Trabalhos Correlatos 54 manualmente esses 100 artigos e identificaram 141 nomes de gene. A precisão e revocação obtidas foram, respectivamente, 63,5% e 37,3%. A baixa precisão foi devido aos erros de padrão na identificação de nomes de gene e proteína em algumas sentenças e na falta de padrões com palavras compostas para identificar sentenças complexas. A baixa revocação foi devido à variedade de 20 artigos diferentes. 3.4 Continuação do Trabalho de Bremer et al. (2004) Natarajan et al. (2006) implementaram um processo de mineração de textos, a partir da extração de informação de artigos científicos desenvolvida por Bremer et al. (2004). Conforme pode ser observado na Figura 3.2, os artigos são descarregados no formato HTML sem imagem e convertidos para o formato XML, utilizando a ferramenta para download GetItFull (NATARAJAN et al., 2006); termos são extraídos do LexiQuestMine utilizando padrões; posteriormente, no módulo Curador, os termos são normalizados utilizando um dicionário de sinônimos para serem adiante armazenados em um data warehouse. Os dados armazenados são utilizados em uma rede de interação para visualizar as interações de gene e proteína. Natarajan et al. (2006) concluíram que a extração automática de informações a partir de literatura biológica assegura desempenhar um papel cada vez mais importante na descoberta de conhecimento biológico.

51 Capítulo 3 - Trabalhos Correlatos 55 Figura Processo de extração de padrão e data warehouse. Fonte: Adaptado de Natarajan et al. (2006). 3.5 Pharmspresso O sistema Pharmspresso ( extrai informação sobre genes, drogas e polimorfismos de artigos completos da literatura referente à área da farmacogenômica. É um sistema de recuperação de informação que utiliza da extração de informação para recuperar as informações de acordo com a consulta determinada pelo usuário. Os principais pontos fortes do Pharmspresso são a sua capacidade de processar artigos em texto completo em formato PDF utilizando expressões regulares, e o índice de seu conteúdo é baseado em uma ontologia de conceitos-chave. Fornece um motor de busca entidades importantes e relações semânticas entre eles. O Pharmspresso é baseado no sistema Textpresso ( pacote de código aberto desenvolvido por Müller, Kenny e Sternberg (2004) (GARTEN; ALTMAN, 2009). Textpresso (MULLER HM, 2004) é um sistema de pesquisa baseado em um conjunto de expressões regulares para encontrar informação a partir da consulta do usuário em artigos fornecidos no formato PDF; a ontologia foi construída com ajuda de especialista e contém categorias de frases e palavras de interesse biológico.

52 Capítulo 3 - Trabalhos Correlatos 56 Na Figura 3.3 é mostrado o processo de recuperação e extração de informação realizada pelo sistema. Primeiramente os artigos PDF são baixados, depois convertidos em formato textual e toquenizado em palavras e sentenças individuais. Após, o texto é analisado para identificar palavras ou frases que são membros de categorias específicas de uma ontologia. Estas são marcadas e indexadas para serem utilizadas em pesquisas futuras realizadas por palavras-chave definidas pelo usuário. Figura Processo para recuperar e extrair informação do Pharmspresso. Fonte: Adaptado de Garten e Altman (2009). O pacote de software livre xpdf ( foi utilizado para converter arquivos PDF para texto. Scripts em Perl foram adaptados do sistema Textpresso para toquenizar as sentenças e palavras. A linguagem de programação Perl também foi utilizada para colocar as etiquetas no formato XML. A avaliação do sistema foi realizada por 11 avaliadores da literatura farmacogenética e observou a capacidade de extrair informações sobre genes, drogas e polimorfismos de 45 artigos. Nestes artigos, constavam 178 genes, 191 drogas e 204 polimorfismos, e o Pharmspresso encontrou respectivamente, 78,1% (139), 74,4% (142) e 60,8% (124). Caso a consulta seja encontrar a relação de gene e droga, a percentagem de acerto é de somente 50,3% dessas associações. Problemas com variações de nomes de gene foram encontrados, causando falsos positivos. Uma de suas limitações é que o Pharmspresso só funciona em um corpus de artigos relevantes pré-definido, e não em toda a literatura existente. Em um trabalho futuro, o autor comenta que o Pharmspresso poderá incluir um corpus maior e o resumo poderá ser utilizado quando o texto completo não estiver disponível. Ademais, permitir que o sistema recupere automaticamente a literatura referente, usando a ontologia proposta, extraindo os fatos de interesse, e usá-las para preencher um banco de dados de interações.

53 Capítulo 3 - Trabalhos Correlatos BioPPIExtractor BioPPIExtractor é um sistema de extração de interação proteína-proteína para literatura biomédica desenvolvido por (YANG; LIN; WU, 2009). Este aplica o modelo Conditional Random Fields (CRF) para marcar os nomes de proteínas no texto biomédico, em seguida, usa um link grammar parsing para identificar as funções sintáticas em sentenças, e em seguida extrai interações destas funções sintáticas. O sistema consiste de seis passos principais para extrair informações de interação das sentenças de entrada: pronoun resolution, protein name recognition, interaction word recognition, link grammar parsing, complex sentence processing, e interaction extraction, conforme demonstrado na Figura 3.4. Figura Passos do sistema BioPPIExtractor. Fonte: Adaptado de Yang et al. (2009). Pronoun Resolution : substantivo e frase nominal no texto são identificados usando GENIA Tagger (TSURUOKA; TSUJII, 2004), que é ajustado especificamente para textos biomédicos, tais como resumos da MEDLINE; Protein name recognition : é utilizado um método baseado em Conditional Random Fields (CRF) sendo um tipo de modelo probabilístico discriminativo mais frequentemente utilizado para a etiquetagem ou de análise de dados sequenciais, tais como texto em linguagem natural ou sequências biológicas. Estes têm sido recentemente aplicados à tarefa de descoberta de genes e proteínas. Maiores detalhes sobre CRF pode ser encontrados em (LAFFERTY; MCCALLUM; PEREIRA, 2001). No modelo baseado em CRF são utilizados alguns recursos, tais como: todas as palavras são escritas em minúscula para que a dimensão dos recursos possa ser diminuída e a perda de informação pode ser compensada através de sua

54 Capítulo 3 - Trabalhos Correlatos 58 combinação com outras funções; Part-of-speech features, (aqui GENIA Tagger é aplicado novamente); dentre outros. Interaction word recognition : no sistema BioPPIExtractor, uma sentença é considerada como incluir uma protein protein interaction (PPI) somente se a frase têm pelo menos dois nomes de proteínas e uma palavra de interação (por exemplo, bind, down-regulate, interact e assim por diante). O dicionário para reconhecimento de palavras de interação contém um total de aproximadamente 150 entradas, incluindo verbos e suas variantes de interação (por exemplo, o verbo interação bind tem variações como binding e bound ). Em BioPPIExtractor é utilizado um link grammar parser, e no módulo de extração de interação, este extrai interações de sentenças simples produzido pelo módulo complex sentence processing. Interaction extraction : o link grammar identifica interações entre proteínas, e sua abordagem baseia-se em links e caminhos entres várias entidades nomeadas como genes e nomes de proteínas (DING et al., 2003). Link grammar considera um caso de profunda análise baseada do conteúdo das diversas funções sintáticas das frases como seus sujeito (S), verbos (V), objetos (O) e modificando frases (M), bem como suas combinações linguísticas significativas, como a S-V-O, S-V-M, para encontrar e extrair interações proteína-proteína. Apenas no caso de uma função sintática (ou combinação significativa) ter pelo menos dois nomes de proteína e uma palavra interação é possível uma interação proteína-proteína ser extraída. Contudo, BioPPIExtractor não considera extrair a interação a partir de combinações de S-O e S-M desde que o autor descobriu que iria introduzir muitos erros de extração. O sistema BioPPIExtractor foi testado apenas em resumos de artigos do MEDLINE e sua avaliação experimental foi comparada com outros sistemas do estado arte: BioRAT (CORNEY et al., 2004) e IntEx (AHMED et al., 2005). Esta indica que sistema BioPPIExtractor alcança melhor desempenho melhor. A Tabela 3.2 demonstra a avaliação de interação de 229 resumos do MEDLINE, e compara o BioPPIExtractor com o sistemas BioRAT e IntEx:

55 Capítulo 3 - Trabalhos Correlatos 59 Tabela Avaliação BioPPExtrator. Sistemas Revocação Precisão BioPPIExtractor 41.62% 55,41% BioRAT 20.31% 55.07% IntEx 26.94% 65.66% 3.7 BioPPISVMExtractor Sistema que também extrai interação proteína-proteína para literatura biomédica, desenvolvido por (ZHIHAO YANG; HONGFEI LIN; LI, 2009) o mesmo autor do BioPPIExtractor. Este é baseado em Suport Vector Machines (SVM) e utiliza alguns recursos ricos como palavras chaves, características chaves, característica de distância em nome de proteínas e um caminho para a classificação SVM. Além disso, utiliza o link grammar para identificar interações entre proteínas. Neste sistema, o corpus IEPA (J. DING, 2002) é utilizado como o conjunto de treinamento para o classificador SVM e o corpus DIP é utilizado como conjunto de teste. O classificador SVM treinado é utilizado para identificar pares de proteínas em uma sentença que tem biologicamente relação relevante entre eles. A Figura 3.5 ilustra a arquitetura do BioPPISVMExtractor. Figura Arquitetura do BioPPISVMExtractor. Fonte: Adaptada de Yang, et al.(2009).

56 Capítulo 3 - Trabalhos Correlatos 60 Pronoun Resolution : substantivo e frase nominal no texto são identificados usando GENIA Tagger ( que é ajustado especificamente para textos biomédicos, tais como resumos da MEDLINE; Protein name recognition : é aplicado o método baseado em Conditional Random Fields (CRF), e suas características são comumente utilizadas no sistema do mesmo autor, o BioPPIExtractor; Modelo SVM: um classificador SVM é treinado para reconhecer interações proteína-proteína em textos biomédicos. O SVM é um classificador binário desenvolvido por (VAPNIK, 1995). Neste experimento foi utilizado o pacote SVM-Light (JOACHIMS, 1999). A penalidade do parâmetro C na definição do SVM é um parâmetro muito importante, uma vez que controla a troca entre o erro e a margem de treinamento. Este parâmetro foi configurado como valor padrão. O pacote SVM-Ligth contribuiu significativamente na criação do valor padrão para este parâmetro. Feature selection : as seguintes características são exploradas para o classificador SVM: o Palavras: palavras de dois nomes de proteínas, palavras entre dois nomes de proteínas, palavras envolvendo dois nomes de proteínas; o Distância do nome da proteína: quanto menor a distância (número de palavras) entre dois nomes de proteína, é o mais provável que as duas proteínas têm relação de interação. Portanto, a distância entre dois nomes de proteína é escolhida como um recurso. o Palavra-chave: para identificar as palavras-chave em textos, foi construído manualmente um dicionário para reconhecimento de palavras de interação com cerca de 500 entradas, que incluem os verbos interação e suas variantes (por exemplo, o verbo interação bind tem variantes como binding e bound ). o Link path : a idéia básica do Link path é conectar pares de palavras em uma sentença com vários links. Existem vários tipos de conectores, e conectores podem apontar para a direita ou para a esquerda. A sentença válida é aquela em que todas as palavras estão ligadas de alguma forma. Se existe um caminho de ligação entre as dois nomes de proteínas, o valor da característica do caminho das duas proteínas é

57 Capítulo 3 - Trabalhos Correlatos 61 definido como Link_YES, caso contrário, Link_NO. O Link Grammar parser usada em BioPPISVMExtractor foi desenvolvido por (GRINBERG; LAFFERTY; SLEATOR, 1995). O experimento do BioPPISVMExtractor foi comparado com os sistemas BioRAT (CORNEY et al., 2004), IntEx (AHMED et al., 2005) e BioPPIExtractor (YANG; LIN; WU, 2009). Na avaliação de interação foram utilizados 229 resumos do MEDLINE. A Tabela 3.3 demonstra o resultado: Tabela Avaliação BioPPISVMExtractor. Sistemas Revocação Precisão Medida-F BioPPISVMExtractor 71.83% 49.28% 58.46% BioPPIExtractor 41.62% 55.41% 47.53% BioRAT 20.31% 55.07% 29.68% IntEx 26.94% 65.66% 38.20% O autor comenta que, como pode haver muitos falsos positivos introduzidos pelo método baseado em SVM, o resultado do BioPPISVMExtractor de 49,28% é uma precisão bem aceitável.

58 Capítulo 4 - Proposta de Dissertação 62 Capítulo 4 PROPOSTA DE DISSERTAÇÃO CAPÍTULO 4 - Neste Capítulo serão abordados detalhes sobre a metodologia deste trabalho de pesquisa em nível de mestrado, assim como serão apresentados a proposta desta pesquisa, os resultados esperados e o cronograma de execução da pesquisa até o término da dissertação de mestrado. 4.1 Detalhamento do Trabalho de Pesquisa O objetivo deste trabalho de pesquisa, em nível de mestrado é atuar na segunda fase do processo de mineração de textos, fase esta denominada de préprocessamento. O primeiro objetivo é instanciar, validar e estender a metodologia de extração de informação proposta por Pablo Matos (MATOS et al., 2010) para tratar dos assuntos tratamentos referentes à doença Anemia Falciforme, a partir de textos não estruturados, escritos no idioma inglês e originalmente no formato PDF. A metodologia a ser instanciada e estendida possui a combinação de três abordagens para extração de informação: aprendizado de máquina, regras e dicionário, conforme pode ser observada na Figura 4.1.

59 Capítulo 4 - Proposta de Dissertação 63 Figura Módulo de extração de informação. Fonte: MATOS et al. (2010). Cada fase do módulo de extração de informação será explicada detalhadamente nas seções 4.4.1, e O objetivo da metodologia proposta por Pablo permitiu extrair informações de artigos científicos sobre a doença Anemia Falciforme, doença genética e hereditária considerada como problema de saúde pública no Brasil (SILVA; RAMALHO; CASSORLA, 1993), e armazenar informações referente à: efeitos positivos do tratamento (benefícios), efeitos negativos do tratamento (efeito colaterais) efeitos negativos (tanto do tratamento quanto da doença) em um Banco de Dados (BD) relacional. Contudo, a metodologia proposta não atende às características de extração de tratamentos, visto que esta metodologia inicial analisa apenas algumas seções específicas do artigo, sendo elas: resumo, resultado e discussão. Frases sobre tratamentos podem estar localizadas em seções diferentes do artigo de onde se encontrem os efeitos, em que consequentemente evidencia a possibilidade de extração em todo artigo, e ainda, um mesmo artigo pode mencionar vários tratamentos, sendo necessário separar as partes do artigo referentes a cada tratamento. Para isto, a aplicação de TextTiling para segmentação topical, ou seja, dividir o texto em blocos do mesmo assunto é uma perspectiva para resolver tal problema. Adiante, um tratamento pode ter várias durações (de tempo), informação esta que é de extrema importância para o especialista e considerado como um grande desafio, pois separar e especificar quais durações e períodos de tempo estão relacionados à quais tratamentos é uma tarefa importante, porém não trivial.

60 Capítulo 4 - Proposta de Dissertação 64 O segundo objetivo desta proposta refere-se ao melhoramento da qualidade da extração de efeitos em artigos sobre a doença Anemia Falciforme. Algumas dificuldades foram levantadas na metodologia proposta por Pablo (MATOS et al., 2010) que ocasionou imperfeições ao extrair algumas sentenças em nível sintático utilizando dicionário conjuntamente com aplicação de regras, tais como: sentenças que não são representativas para geração de regras (ex.: One patient died of a fatal episode of splenic sequestration before completing 2 years of treatment ) e sentenças sem qualquer tipo de padrão (ex.: This population also showed a concentration of erythrocytes expressing CD71, CD36 and CD49d and of reticulocytes (data not shown) ). Para aperfeiçoar a metodologia, propõe-se a utilização de análise sintática (frase em sujeito, predicado, etc.), classe gramatical (aplicação do part-of-speech para dividir a frase em verbo, substantivo, adjetivo, etc.), análise de contexto (parsed tree), dentre outras técnicas de mais alto nível para melhorar a precisão da extração destas sentenças. Ademais, verifica-se que no trabalho de (MATOS et al., 2010) os efeitos negativos não são diferenciados entre efeitos do tratamento e efeitos da doença, sendo necessário a atuação do especialista para distinguir entre ambos. Pretende-se automatizar esta classificação. Portanto, como se pode observar, para atender as particularidades da extração sobre o assunto tratamentos e para tratar as limitações e imperfeições da metodologia inicial na extração de efeitos, existe a necessidade de instanciar, validar e estender a metodologia proposta por Pablo Matos (MATOS et al., 2010), adaptando-a ao uso de novas técnicas e a definição de novos padrões. 4.2 Anemia Falciforme A Anemia Falciforme (AF), ou Sickle Cell Anemia (SCA), é uma doença hematológica (i.e., do sangue) e hereditária (i.e., genética) que causa destruição crônica das células vermelhas do sangue, episódios de intensa dor, susceptibilidade às infecções e em alguns casos, à morte precoce, afetando originalmente principalmente a população negra (CONSELHO MUNICIPAL DE DEFESA DOS DIREITOS DO NEGRO, 2008). Os genes são herdados dos pais, portanto não é contagiosa. Diferentemente da anemia comum que tem cura, seja com alimentação

61 Capítulo 4 - Proposta de Dissertação 65 que contenha ferro, vitamina B12 ou vitamina C, a AF não tem cura e tampouco pode ser amenizada com alimentação. Todavia, é uma doença tratável, sendo possível o paciente participar do mercado de trabalho, desde que esteja recebendo tratamento médico adequado e exerça funções compatíveis com as suas limitações e potencialidades (SILVA; RAMALHO; CASSORLA, 1993). A AF surgiu nos países do centro-oeste africano, Índia e leste da Ásia, há cerca de 50 a 100 mil anos, entre os períodos paleolítico e mesolítico (GALIZA NETO; PITOMBEIRA, 2003). Paradoxalmente, surgiu como autodefesa do organismo humano para se proteger da malária que é comum nas regiões de clima quente. Decorrente dos processos migratórios, da colonização e principalmente da miscigenação racial, a doença, que é passada de pai para filho, espalhou-se pelo mundo. É mais comum entre pessoas cujos antepassados são provenientes da África, países do Mediterrâneo (como Grécia, Turquia e Itália), Península Arábica, Índia e regiões de língua espanhola na América do Sul, América Central e partes do Caribe (GENETICS HOME REFERENCE, 2007). No Brasil, a AF foi introduzida através do tráfico de escravos iniciado em 1550 para trabalho na indústria da cana-de-açúcar no Nordeste e, posteriormente, para a lavra do ouro e extração de metais preciosos em Minas Gerais (RUIZ, 2007). Não por acaso, a Bahia é o estado que concentra a maior incidência da doença hoje no Brasil. O sangue é composto pelo plasma e por três tipos de células: plaquetas (ajuda na coagulação do sangue), glóbulos brancos (células de defesa) e hemácias (glóbulos vermelhos ou eritrócitos) (Figura 4.2). Esta última tem no seu interior a proteína hemoglobina, rica em ferro, responsável pela cor vermelha do sangue e em transportar oxigênio para todo o corpo, fazendo com que as funções vitais do organismo funcionem perfeitamente. Figura Elementos do sangue. Fonte: Adaptado de Medical Encyclopedia (2008).

62 Capítulo 4 - Proposta de Dissertação 66 O que diferencia a AF da anemia comum é que na primeira a hemoglobina A (comum) é substituída pela hemoglobina S (formato de foice, daí o nome falciforme, Figura 4.3). Na segunda ocorre somente a diminuição da hemoglobina no sangue. Estima-se que 90% dos casos de anemia é devido à falta de ferro, conhecida como Anemia Ferropriva (MINISTÉRIO DA SAÚDE, 2004). Figura Hemácia no formato de foice (meia lua). Fonte: Rodrigues (2008). Por causa do formato em foice, as hemácias têm dificuldade em passar pelas veias, ocasionando crises intensas de dor que ocorrem frequentemente no abdômen, nos pulmões, ossos e juntas. Rígidas e pegajosas tendem a formar saliências e ficar presas nos vasos sanguíneos. Veja na Figura 4.4 o fluxo de uma hemácia normal (a) e o problema que uma hemácia falciforme causa na circulação sanguínea (b). Figura Hemácias normais (a) e Falciformes (b). Fonte: Adaptado de National Institute of Health (2008). As hemácias são produzidas na medula esponjosa presente em ossos grandes do corpo. Duram em média 120 dias na corrente sanguínea e depois morrem. Na AF o número baixo das hemácias ocorre porque as células falciformes não duram muito tempo (em média de 10 a 20 dias) (NATIONAL INSTITUTE OF HEALTH, 2008). A medula óssea é responsável por estar sempre produzindo novas hemácias para substituir as antigas, entretanto a mesma não é capaz de produzir rapidamente novas hemácias para substituir as que estão morrendo devido à AF. Uma pessoa normal (sem o gene da doença) herda do pai e da mãe a hemoglobina A (homozigoto AA). Para uma pessoa nascer com o gene da AF é

63 Capítulo 4 - Proposta de Dissertação 67 necessário herdar a hemoglobina S tanto do pai quanto da mãe (homozigoto SS). Quem herda de um dos pais a hemoglobina A e do outro a hemoglobina S nasce com o traço da doença (heterozigoto AS), ou seja, não é doente tampouco possui sintomas (assintomático), porém pode vir a ter filhos que tenham AF. Veja na Figura 4.5 a probabilidade de um casal com traço falciforme ter filho com AF (25%, genes SS), a mesma probabilidade de ter filho normal (25%, genes AA) e 50% de ter filho com o traço (genes AS). Figura Probabilidade de nascer com Anemia Falciforme. Fonte: Adaptado de Hemorio (2005). O indivíduo com AF tem o gene SS característico da doença. Porém, existe um conjunto de variedades denominado Doença Falciforme ou Sickle Cell Disease (anomalidades hereditárias das hemoglobinas), por exemplo, indivíduo S com outro tipo de hemoglobina anormal (e.g., C, D, Talassemia), originando hemoglobinopatias SC, SD, S-Talassemia. Mais informações sobre AF pode ser encontrados em (PINTO et al., 2009). 4.3 Análise dos Dados Esta seção visa apresentar o estudo e a análise em um primeiro contato com os dados do projeto Anemia Falciforme que serão utilizados nesta dissertação de mestrado. Foram realizadas dois experimentos iniciais com o objetivo de classificar as sentenças referentes à doença Anemia Falciforme. Foi selecionada uma primeira amostra com várias sentenças, onde foram divididas em duas classes: Tratamentos e Outros. Os experimentos são organizados da seguinte forma: foi construída a matriz atributo-valor utilizando a frequência mínima de dois como requisito para a seleção do atributo, f min a i = 2, onde i > 0 e a 1 é o atributo um. O atributo é composto de

64 Capítulo 4 - Proposta de Dissertação gramas e não foram aplicados stopwords e stemmer, pelo fato de que remover as stopwords (palavras comuns no texto como preposições, pronomes e artigos) e reduzir a palavra ao seu radical (processo de stemming) conduz a perda de informações relevantes, atrapalhando a classificação, e ainda, não foram removidos vírgulas, parênteses e colchetes das sentenças. Os experimentos foram realizados no classificador próprio desenvolvido na linguagem de programação Java para o Projeto Anemia Falciforme, em que foi utilizado API's do ambiente Weka (WITTEN; FRANK, 2005). O primeiro experimento foi realizado da seguinte forma: Foram utilizados os algoritmos de aprendizado de máquina Support Vector Machine (SVM) e Naïve Bayes (NB); Não foi aplicado nenhum tipo de filtro; Para particionar os exemplos foi utilizado o método 10-fold cross-validation, onde os exemplos são treinados em 9 folds e testados com a fold remanescente. Os resultados apresentados foram: 92,12% de sentenças classificadas corretamente e valor Kappa de 83,83% na utilização do algoritmo SVM. Na aplicação do algoritmo NB, 87,88% de sentenças classificadas corretamente e valor Kappa de 74,87%. O valor Kappa significa que os anotadores não concordam na classificação das sentenças. Para o segundo experimento, apenas foi adicionado o filtro de préprocessamento Resample (RS), que é um método de amostragem utilizado para balancear os exemplos, comumente utilizados no Weka (WITTEN; FRANK, 2005). O resultado deste experimento na utilização do algoritmo SVM foi de 95,76% e valor Kappa de 91,52%, e na aplicação do algoritmo NB foi de 94,55% e valor Kappa de 89,08%. Comparando o primeiro experimento com o segundo, pode-se observar que houve um crescimento na qualidade pelo fato de ter adicionado na classificação o filtro do balanceamento dos exemplos. Vários outros algoritmos e filtros podem ser adicionados para tais experimentos, mas esta análise trata-se de um contato inicial direta com os dados, e, portanto, outros testes serão realizados ao decorrer do projeto.

65 Capítulo 4 - Proposta de Dissertação Arquitetura da Proposta Esta proposta de dissertação de mestrado está inserida no sistema DORS- SCA, onde são exibidas na seção e duas ferramentas: SCAtRanslator e SCAeXtractor, respectivamente. Na seção é apresentado o módulo de classificação de sentença, e ainda, na seção 4.5 o banco de dados do projeto Anemia Falciforme SCAtRanslator O SCAtRanslator (Sickle Cell Anemia translator) é uma ferramenta de conversão de artigos da área médica sobre a doença Anemia Falciforme do formato PDF para o formato XML. Tem como entrada artigos científicos no formato PDF (não estruturado) e o objetivo é converter esses arquivos PDF em documentos XML para que possam ser utilizados pela ferramenta de extração de informação (SCAeXtractor). A Figura 4.6 ilustra a arquitetura do SCAtRanslator. Figura Arquitetura do SCAtRanslator. Na etapa 1, é utilizada uma API do Gmail, ferramenta de desenvolvida pela Google, para converter do formato PDF para o formato HTML. O motivo de utilizar esta API é que foi a melhor encontrada para efetuar tal tarefa. O arquivo convertido possui informações textuais com etiquetas HTML. Na etapa 2, é utilizado do arquivo intermediário TXT para fornecer o texto sem etiquetas HTML, simplificando assim a leitura do processamento textual. Este arquivo, portanto é utilizado para substituir as etiquetas HTML por XML. Por último, na etapa 3, no arquivo TXT consta os

66 Capítulo 4 - Proposta de Dissertação 70 dados fornecidos pelo documento HTML (etapa 1). Com composição de heurísticas simplificadas é gerado um documento XML com as seguintes etiquetas: nome da revista, título, subtítulos, autores do artigo, parágrafos e sentenças de uma determinada página. Alguns exemplos de heurísticas desenvolvidas são: A maior fonte do texto identifica o título do artigo; Palavras em negrito ou totalmente em letras maiúsculas sem ponto final e que ocupam apenas uma linha são identificadas como subtítulo; Para identificar parágrafo são analisadas três linhas do documento HTML: a linha atual i, linha anterior i 1 e próxima linha i + 1. Caso o atributo left da linha i seja maior que o atributo left das linhas i 1 e i + 1, então a linha i inicia um parágrafo; Palavra terminada com letra minúscula e seguida de ponto (.) é identificada como sentença. Para geração de scripts, foi utilizada a linguagem de programação Perl. Cada documento XML gerado pela ferramenta deve manter o mesmo conteúdo textual do documento PDF original, admitindo inclusive a identificação de uma sentença de um parágrafo de uma página. Um documento XML fornecido pela ferramenta SCAtRanslator é mostrado como exemplo na Figura 4.7: Figura Exemplo de documento XML gerado pela ferramenta SCAtRanslator.

67 Capítulo 4 - Proposta de Dissertação Módulo de Classificação de Sentença A partir dos documentos (artigos) sugeridos pelos especialistas é construído o modelo de classificação. O módulo de Classificação de Sentença é composto de três etapas, como ilustrado na Figura 4.8. Figura Processo de classificação de sentença. A etapa de Carregamento dos Dados (1) consiste em selecionar manualmente sentenças de artigos científicos sobre as classes de interesse relacionadas ao domínio biomédico. Nesta etapa foram realizados alguns procedimentos em cada sentença, como: todos os caracteres das sentenças foram colocados em letras minúsculas; vírgulas, parênteses, colchetes, apóstrofos, etc. foram excluídos. As sentenças selecionadas pertencem a seções específicas do artigo (resumo, resultado e discussão). A próxima etapa da classificação de sentença é o Pré-processamento (2) na qual as sentenças foram estruturadas utilizando o modelo bag-of-words. Isto é necessário para que as mesmas possam ser manipuladas por algoritmos de aprendizagem. Neste modelo as sentenças são organizadas em uma matriz de atributo-valor. Cada linha i representa uma sentença s i. Cada coluna l representa os termos ou uma sequência de termos (n-gram) t 1, t 2,, t M presentes nas sentenças obtidas a partir da etapa (1). Cada sentença s i está associada a uma classe-c i. Cada célula da matriz representa uma medida que relaciona a sentença e o termo. A medida binária é utilizada com o intuito de representar a presença ou a ausência do atributo na sentença. Nesta etapa pode-se aplicar algumas técnicas para a redução dos termos comuns e irrelevantes como a utilização de stopwords ou para o ranqueamento dos termos mais importantes segundo algum critério como a utilização de seleção de

Exibir mais