Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico Pablo Freire Matos Ricardo Rodrigues Ciferri Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo Coorientador (ICMC/USP)
Roteiro Introdução Revisão Literária Metodologia Proposta e Instanciação Estudos de Caso Conclusão 2/52
Contexto e Motivação Quantidade imensa de Informação disponível Gantz et al. (2007) Humanos não são capazes de assimilar todo esse conteúdo Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto Tan (1999) e Chen (2001) 3/52
Contexto e Motivação PubMed + de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina) Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia 16.654 registros do PubMed (citações e resumos) 4.765 do PubMed Central (artigos completos) 4/52
Contexto e Motivação Infinidade de meios de publicação American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine Leva tempo para ler e identificar as principais informações do artigo Inviável analisar toda a literatura relevante manualmente 5/52
Contexto e Motivação Esses documentos estão em formato não estruturado Há a necessidade de transformar esses dados de formato não estruturado para estruturado Objetivo: processo de descoberta de conhecimento automático 6/52
Objetivo Propor uma metodologia de préprocessamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1) Classificação de Sentenças (Etapa 2) Identificação de Termos Relevantes (Etapa 3) Gerenciamento de Termos (Etapa 4) 7/52
Hipóteses Hipótese 1: É possível usar abordagens de extração de informação para identificar automaticamente termos relevantes do domínio biomédico com alta precisão e revocação Todas as seções = +falsos positivos Hipótese 2: Extrair termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do seu resumo, permite obter uma maior quantidade de informação relevante Todas as sentenças = +falsos positivos Hipótese 3: Uso de duas etapas separadas e consecutivas: Etapa 1: classificar as sentenças em classes de interesse. Etapa 2: identificar e extrair termos apenas nas sentenças classificadas nestas classes de interesse possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 8/52
Mineração de Textos Extrair informações úteis em documentos no formato textual não-estruturado através da identificação de conhecimento e exploração de padrões Hearst (1999) Imamura (2001) Martins (2003) Feldman e Sanger (2007) 9/52
Abordagens para Extração de Informação Abordagem Vantagem Desvantagem Dicionário Regras Aprendizado de Máquina Casamento de padrão com informações armazenadas no dicionário Melhor precisão Independência de domínio Alto desempenho para predição Limitação de nomes Variações de nome (baixa revocação) Nomes curtos causam falsos positivos (diminui a precisão) Requer tempo Restrito a um domínio Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação) Grande quantidade de dados de treinamento Retreinamento após o advento de novos dados Classificação é prejudicada com uma classe minoritária 10/52
Trabalhos Correlatos Resumos 11/52
Trabalhos Correlatos Artigos Completos 1) Abordagem de AM: Classificação de Sentenças 2) Artigos: Algumas Seções 12/52
Metodologia Proposta para Extração de Informação no Domínio Biomédico 13/52
Etapa 1: Entrada de Dados 14/52
Etapa 1: Entrada de Dados (1/2) Formato XML Formato TXT Carosia e Ciferri (2010) 15/52
Etapa 1: Entrada de Dados (2/2) Exemplo Formato XML Exemplo Formato TXT 16/52
Etapa 2: Classificação de Sentenças Seções processadas: Abstract, Results e Discussion 17/52
Classes Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão Etapa 2: Classificação de Sentenças (1/2) Treinamento Efeito Negativo Diversos arquivos com sentenças de efeito negativo Modelo Bag-of-words Medida binária Atributos: 1 a 3 gramas Frequência mínima: 2 Teste Novo texto TXT Efeito Positivo Diversos arquivos com sentenças de efeito positivo Outros Diversos arquivos com sentenças de outros Saída Conjunto de sentenças classificadas em classes 18/52
Etapa 2: Classificação de Sentenças (2/2) Efeito Negativo Efeito Positivo Outros 19/52
Ferramenta SCA-Classifier API Weka 20/52
Etapa 3: Identificação de Termos Relevantes 21/52
Dicionário Banco de Dados Biomédico Exemplo de Sentenças Termo hemorrhage pain Variação central nervous system hemorrhage intracranial hemorrhage painful episode pain crises pain crisis Informação Relevante 22/52
Dicionário Remover Falso Positivo Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a algum termo. LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. 23/52
Regras Part-Of-Speech (POS) Exemplo de Sentença Exemplo de Sentença Etiquetada padrão JJ_NN Etiquetador POS da Stanford: 96,86% - treinamento 86,91% - palavras novas Padrão Tag: Penn Treebank 24/52
1 2 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão Regras Palavra Etiquetada: III - irrelevante RRR - relevante Estratégia 1: Verbo e Expressão com POS 3 4 Verbo Expressão Composta Exemplo (JJ)?_NN_(of_IN) Termos Relevantes Extraídos: acute chest syndromes cerebrovascular events osteonecrosis mycoplasma viral pneumonia pavovirus 25/52
Regras Estratégia 2: POS Como identificar termos nas sentenças que não contêm verbo e expressão composta representativos? Palavra Etiquetada: III - irrelevante RRR - relevante 26/52
Regras Estratégia 2: POS Termo na cor turquesa não selecionado pela Estratégia 1 27/52
Ferramenta SCA-Extractor 28/52
Etapa 4: Gerenciamento de Termos 29/52
Etapa 4: Gerenciamento de Termos Quatro operações: Inserir novos termos Validar termos extraídos Mover termos extraídos Hierarquizar termos 30/52
Estudos de Caso: Etapa 2 e Etapa 3 6 Algoritmos de AM SVM e NB (Estatístico) ID3 e J48 (Árvore de Decisão) Prism e OneR (Regra) 3 Configurações para construir a MAV Sem Filtro Balanceamento Remoção de Ruído Classificação 10-Fold Cross-Validation Classificação e Extração Holdout (p = 2/3) Classificação: Efeito Negativo, Efeito Positivo e Outros Extração: Efeito Negativo Sentenças Aleatórias 31/52
Estudo de Caso (1): Classificação de Sentenças (Etapa 2) 32/52
Estudo de Caso (1): Classificação de Sentenças (Etapa 2) Medida com 10-Fold Cross-Validation Amostra601 Melhor Índice Acurácia SVM com Balanceamento 87,19% Medida-F da classe Efeito Negativo SVM com Balanceamento 83,16% Medida com Holdout Amostra300 Melhor Índice Acurácia SVM com Balan. ou Rem. 62,33% Medida-F da classe Efeito Negativo SVM com Remoção de Ruído 71,81% 33/52
Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) Matriz de Confusão: Holdout Amostra300 Prec Rev Med-F 73% 71% 71,81% Classificação Automática Extração Real Classificação Manual Extração Fictícia 34/52
Nomenclatura dos Termos Extraídos Verdadeiro Positivo Termo Real Termo Extraído Termo Completo respiratory failure respiratory failure Termo Parcial acute hepatic sequestration hepatic sequestration Termo Adicional chronic lung disease resultant chronic lung disease Falso Positivo Termo que foi extraído, mas que não deveria ser extraído Falso Negativo Termo que deveria ser extraído, mas que não foi extraído Exemplo hydroxyurea therapy Exemplo thrombocytopenia 35/52
Classificação Manual e Extração Fictícia Extração Fictícia 36/52
Classificação Automática e Extração Real Extração Real 37/52
Extração Fictícia versus Extração Real Regra e Dicionário 38/52
Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) Matriz de Confusão: Holdout Amostra300 Prec Rev Med-F 73% 71% 71,81% Classificação Automática Extração Real Classificação Manual Extração Fictícia 39/52
Conclusão Hipótese 1 Abordagens de extração de informação auxiliam na identificação automaticamente de termos relevantes do domínio biomédico com alta precisão e revocação Hipótese 2 Algumas seções = -falsos positivos Extração de termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do resumo, permite obter uma maior quantidade de informação relevante Hipótese 3 Algumas sentenças = -falsos positivos Uso de duas etapas separadas e consecutivas possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 40/52
Contribuições Contribuição teórica Metodologia de extração de informação Amostra300: Extração de Informação Real: Medida-F de 80,43% Classificação Automática: Medida-F de 71,81% Contribuições práticas Criação e disponibilização de recursos: coleção de documentos, dicionário e base de regras Criação e disponibilização de ferramentas: Classificador de Sentenças (SCA-Classifier) Extrator de Informação (SCA-Extractor) Gerenciador de Termos (SCA-TermManager) 41/52
Trabalhos Futuros (1/2) Criação de uma coleção de documentos anotada 42/52
Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação de outros termos: tratamento e fator de risco Instanciação da metodologia para identificar efeitos de outras doenças: câncer, mal de Alzheimer, mal de Parkinson e glaucoma Investigação da aplicação da metodologia em outros domínios além do domínio biomédico: erupção de vulcão e poluição ambiental Utilizar análise semântica para identificar termos que estão implícitos nas sentenças: Sentença com termo implícito: The recent availability of an oral iron chelator may render prolonged transfusion more acceptable. 43/52
Produção Científica (1/2) MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de préprocessamento textual para extração de informação em artigos científicos do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio Brasileiro de Banco de Dados, 2009. p. 7-12. Evento Nacional Qualis B3 44/52
Produção Científica (2/2) MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ; VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in biomedical domain: information extraction for decision support systems. In: GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA-AIE). 23th. Heidelberg: Springer, 2010. p. 306-316. (Lecture Notes in Computer Science; v. 6096). Evento Internacional Qualis B3 45/52
Produção Técnica (1/2) Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual preprocessing for information extraction in scientific papers of the biomedical domain. In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010, São Carlos. Anais... UFSCar, 2010. Pôster. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de Máquina". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 23. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 15. PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E. O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of Computer Science, Federal University of São Carlos, 2009. p. 16. 46/52
Produção Técnica (2/2) Softwares MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a tool from the biomedical domain to assist the expert in term management. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/sca-termmanager.rar>. Acesso em: 30 ago. 2010. MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for information extraction in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/sca- Extractor.rar>. Acesso em: 30 ago. 2010. MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for sentence classification in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/sca- Classifier.rar>. Acesso em: 30 ago. 2010. 47/52
Agradecimentos Idealizador do projeto Anemia Falciforme Médico Dr. Marco Antonio Zago Especialista do Domínio Médica Drª. Ana Cristina Silva Pinto 48/52
Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: LÓPEZ, J. A.; BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life Science Informatics (KELSI). Heidelberg: Springer, 2004. p. 84-95. (Lecture Notes in Computer Science; v. 3303). CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 2010. p. 40. CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. 50 p. CORNEY, D. P. A. et al. BioRAT: extracting biological information from fulllength papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004. FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p. 49/52
Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007. HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10. GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2. IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001. MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. 50/52
Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007. TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76. TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13. 51/52
Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico Pablo Freire Matos Ricardo Rodrigues Ciferri Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo Coorientador (ICMC/USP)
Padrão POS: Estratégia 1 Número Padrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 1.3 (~JJ)_(JJ_NN)_(~NN) 1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ)) 1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) ¹ Padrão também utilizado na Estratégia 2. 53/52
Padrão POS: Estratégia 2 Número Padrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN) 2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN) 3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) 3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN) 3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN) ¹ Padrão também utilizado na Estratégia 1. 54/52
Baseline nas 131 Sentenças Verdadeiros Positivos Falsos Positivos 55/52
Baseline nas 128 Sentenças Verdadeiros Positivos Falsos Positivos 56/52
Regra e Dicionários nas 131 Sentenças Verdadeiros Positivos Falsos Positivos 57/52
Regra e Dicionários nas 128 Sentenças Verdadeiros Positivos Falsos Positivos 58/52
Trabalhos Futuros (3/3) Distinção dos termos extraídos Hierarquização dos termos extraídos: parvovirus infection e infection Banco de Dados Biomédico 59/52
Estudos de Caso - Considerações Erro do etiquetador 1. Splenomegaly classificado como advérbio 2. Parvovirus classificado como verbo 60/52
Estudo de Caso (1): Classificação de Sentenças Método de Particionamento: 10-Fold Cross-Validation 61/52
Experimento 1: Fases de Treinamento e de Teste 62/52
Experimento 1: Fases de Treinamento e de Teste 63/52
Experimento 2: Fase de Uso do Modelo de Classificação Método de Particionamento: Holdout (p = 2/3) 64/52
Experimento 2: Fase de Uso do Modelo de Classificação 65/52
Experimento 2: Fase de Uso do Modelo de Classificação 66/52
LET¹ marrow e treatment não são LET: marrow depression treatment failure Sigla hb scd tcd sickle cell disease sickle cell anemia Doença Tratamento bronchoscopy hydroxyurea transfusion transplantation Outros blood case cohort criteria doppler dose period study transcranial velocities velocity ¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. 67/52
Eliminar Termo com LET LET Exemplos de Sentenças que utilizam da LET 68/52
LEP¹ treatment está sendo uma LEP: year of treatment (VN) chooosing treatment (FP) LEP complication different episode history multiple ongoing other patient patient-year previous primary recurrence recurrent repeated risk secondary treatment underlying LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html ¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other, different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary stroke, multiple vaso-occlusive). 69/52
LEP: Padrão (JJ)?_NN_(of_IN) NN_(of_IN) analysis of chance of episode of finding of frequency of history of rate of years of patient-years of JJ_NN_(of_IN) fatal episode of first occurrence of high risk of previous history of past history of Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode, finding, frequency, history, rate, years, patient-years, occurrence, risk, history) 70/52
LEP LEP Identificar Falso Positivo Remover Falso Positivo presente na LEP 71/52
Nº de registros encontrados Motivação Por que extrair informação de artigos completos? Gene e Proteína Benefícios + da metade da informação encontra-se no corpo do artigo + seção + informação a ser extraída Localização no documento (%) Corney et al. (2004) Problemas Conversão formato + tempo de processamento copyright Schuemie et al. (2004) 72/52
Etapa 2: Classificação de Sentenças (3/3) Processo de Classificação de Sentenças Supervisionado 73/52
Classificação Manual e Extração Fictícia Extração Fictícia 74/52
Classificação Automática e Extração Real Extração Real 75/52
Extração Fictícia versus Extração Real Dicionário 76/52