Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Documentos relacionados
Extração de Informação Téc1 (Verbo e POS) e Téc2 (POS)

Classificação de Sentença

Um Processo Baseado em Parágrafos para a Extração de Tratamentos em Artigos Científicos do Domínio Biomédico

UNIVERSIDADE FEDERAL DE SÃO CARLOS

UNIVERSIDADE FEDERAL DE SÃO CARLOS

Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico

EndNote X2 ( ) Organizador de Referências

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Ambiente Weka Waikato Environment for Knowledge Analysis

Descoberta de conhecimento em redes sociais e bases de dados públicas

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

UNIVERSIDADE FEDERAL DE SÃO CARLOS. Um Processo Baseado em Parágrafos para a Extração de Tratamentos de Artigos Científicos do Domínio Biomédico

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

Proposta de Dissertação de Mestrado

Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Universidade de São Paulo (USP) Universidade Federal de São Carlos (UFSCar) Universidade Metodista de Piracicaba (Unimep)

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Uma ferramenta para expansão do vocabulário com base em coocorrência

Mineração de Textos na Web

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

UNIVERSIDADE FEDERAL DE SÃO CARLOS

Boas Maneiras em Aprendizado de Máquinas

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Mineração de Opinião Aplicada ao Cenário Político

"Análise de Extratores de Característica para Reconhecimento de Face"

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

Descoberta de Conhecimento em Bancos de Dados - KDD

AUTOMATED ASSESSMENT OF BREAST TISSUE DENSITY IN DIGITAL MAMMOGRAMS

Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Extração de informação como base para descoberta de conhecimento em dados não estruturados

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

Um Método para Melhoria de Dados Estruturados de Imóveis

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

APRENDIZAGEM DE MÁQUINA

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Classificação de Padrões Radiológicos por Blocos em Imagens Não Segmentadas de Tomografia Computadorizada

Identificação de alertas de segurança virtual veiculados no Twitter

Seleção de Atributos 1

Aprendizado de Máquina para o Problema de Sentiment Classification

Análise de sentimentos para português brasileiro usando redes neurais recursivas

Classificação Automática de Gêneros Musicais

5º Congresso de Pós-Graduação

Métodos Quantitativos e Qualitativos na Engenharia (M2QE) Quantitative and Qualitative Methods in Engineering (QQME)

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

Mineração de Dados - II

Mineração de Dados Educacionais nos Resultados do ENEM de 2015

Avaliação de um método de mapeamento de laudos médicos para uma representação estruturada: estudo de caso com laudos de endoscopia digestiva alta

OntoLP: Engenharia de Ontologias em Língua Portuguesa

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) 2016/ PPGCA PPGCA/UTFPR -- CAIA003

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Algoritmo CLIQUE (Clustering In QUEst)

Biomedical Text Mining J O S É F E R N A N D E S R U I S I L V A

Mineração de Textos. Mineração de Textos

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Estudo Comparativo de Estratégias de Classificação de Páginas Web

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Metodologias para a Seleção de Atributos Relevantes

Aprendizado de Máquina

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

Desenvolvimento de Ferramentas no igeom: Utilizando a Geometria Dinâmica no Ensino

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português

5º Congresso de Pós-Graduação

INF 1771 Inteligência Artificial

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY

Perspectivas para Busca Semântica para Comunicação Alternativa: o caso SCALA. João Carlos Gluz Universidade do Vale do Rio dos Sinos (UNISINOS)

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos

Tópicos Especiais em Reconhecimento de Padrões [2COP329] Mestrado em Ciência da. Sylvio Barbon Jr

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas

6 Atributos. A dívida da empresa subiu.

Descoberta de Conhecimento em Prontuários Eletrônicos

USANDO XML PARA CARGA AUTOMÁTICA DE DADOS EM BANCOS DE DADOS DE PROJETO INDUSTRIAL DE MAQUETE ELETRÔNICA PROPOSTA DE TRABALHO DE GRADUAÇÃO

Um Estudo sobre Métodos de Classificação Multirrótulo

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

2 Sentiment Analysis 2.1

Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI

A contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína

Tipos para uma Linguagem de Transformação

Prof. Heitor Silvério Lopes

TEMPLATE PARA TCC IFFAR - SVS

Transcrição:

Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico Pablo Freire Matos Ricardo Rodrigues Ciferri Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo Coorientador (ICMC/USP)

Roteiro Introdução Revisão Literária Metodologia Proposta e Instanciação Estudos de Caso Conclusão 2/52

Contexto e Motivação Quantidade imensa de Informação disponível Gantz et al. (2007) Humanos não são capazes de assimilar todo esse conteúdo Informação via e-mail, blogs, wikis, artigos... + de 80% das informações estão em formato de texto Tan (1999) e Chen (2001) 3/52

Contexto e Motivação PubMed + de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina) Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia 16.654 registros do PubMed (citações e resumos) 4.765 do PubMed Central (artigos completos) 4/52

Contexto e Motivação Infinidade de meios de publicação American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine Leva tempo para ler e identificar as principais informações do artigo Inviável analisar toda a literatura relevante manualmente 5/52

Contexto e Motivação Esses documentos estão em formato não estruturado Há a necessidade de transformar esses dados de formato não estruturado para estruturado Objetivo: processo de descoberta de conhecimento automático 6/52

Objetivo Propor uma metodologia de préprocessamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1) Classificação de Sentenças (Etapa 2) Identificação de Termos Relevantes (Etapa 3) Gerenciamento de Termos (Etapa 4) 7/52

Hipóteses Hipótese 1: É possível usar abordagens de extração de informação para identificar automaticamente termos relevantes do domínio biomédico com alta precisão e revocação Todas as seções = +falsos positivos Hipótese 2: Extrair termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do seu resumo, permite obter uma maior quantidade de informação relevante Todas as sentenças = +falsos positivos Hipótese 3: Uso de duas etapas separadas e consecutivas: Etapa 1: classificar as sentenças em classes de interesse. Etapa 2: identificar e extrair termos apenas nas sentenças classificadas nestas classes de interesse possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 8/52

Mineração de Textos Extrair informações úteis em documentos no formato textual não-estruturado através da identificação de conhecimento e exploração de padrões Hearst (1999) Imamura (2001) Martins (2003) Feldman e Sanger (2007) 9/52

Abordagens para Extração de Informação Abordagem Vantagem Desvantagem Dicionário Regras Aprendizado de Máquina Casamento de padrão com informações armazenadas no dicionário Melhor precisão Independência de domínio Alto desempenho para predição Limitação de nomes Variações de nome (baixa revocação) Nomes curtos causam falsos positivos (diminui a precisão) Requer tempo Restrito a um domínio Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação) Grande quantidade de dados de treinamento Retreinamento após o advento de novos dados Classificação é prejudicada com uma classe minoritária 10/52

Trabalhos Correlatos Resumos 11/52

Trabalhos Correlatos Artigos Completos 1) Abordagem de AM: Classificação de Sentenças 2) Artigos: Algumas Seções 12/52

Metodologia Proposta para Extração de Informação no Domínio Biomédico 13/52

Etapa 1: Entrada de Dados 14/52

Etapa 1: Entrada de Dados (1/2) Formato XML Formato TXT Carosia e Ciferri (2010) 15/52

Etapa 1: Entrada de Dados (2/2) Exemplo Formato XML Exemplo Formato TXT 16/52

Etapa 2: Classificação de Sentenças Seções processadas: Abstract, Results e Discussion 17/52

Classes Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão Etapa 2: Classificação de Sentenças (1/2) Treinamento Efeito Negativo Diversos arquivos com sentenças de efeito negativo Modelo Bag-of-words Medida binária Atributos: 1 a 3 gramas Frequência mínima: 2 Teste Novo texto TXT Efeito Positivo Diversos arquivos com sentenças de efeito positivo Outros Diversos arquivos com sentenças de outros Saída Conjunto de sentenças classificadas em classes 18/52

Etapa 2: Classificação de Sentenças (2/2) Efeito Negativo Efeito Positivo Outros 19/52

Ferramenta SCA-Classifier API Weka 20/52

Etapa 3: Identificação de Termos Relevantes 21/52

Dicionário Banco de Dados Biomédico Exemplo de Sentenças Termo hemorrhage pain Variação central nervous system hemorrhage intracranial hemorrhage painful episode pain crises pain crisis Informação Relevante 22/52

Dicionário Remover Falso Positivo Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a algum termo. LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. 23/52

Regras Part-Of-Speech (POS) Exemplo de Sentença Exemplo de Sentença Etiquetada padrão JJ_NN Etiquetador POS da Stanford: 96,86% - treinamento 86,91% - palavras novas Padrão Tag: Penn Treebank 24/52

1 2 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão Regras Palavra Etiquetada: III - irrelevante RRR - relevante Estratégia 1: Verbo e Expressão com POS 3 4 Verbo Expressão Composta Exemplo (JJ)?_NN_(of_IN) Termos Relevantes Extraídos: acute chest syndromes cerebrovascular events osteonecrosis mycoplasma viral pneumonia pavovirus 25/52

Regras Estratégia 2: POS Como identificar termos nas sentenças que não contêm verbo e expressão composta representativos? Palavra Etiquetada: III - irrelevante RRR - relevante 26/52

Regras Estratégia 2: POS Termo na cor turquesa não selecionado pela Estratégia 1 27/52

Ferramenta SCA-Extractor 28/52

Etapa 4: Gerenciamento de Termos 29/52

Etapa 4: Gerenciamento de Termos Quatro operações: Inserir novos termos Validar termos extraídos Mover termos extraídos Hierarquizar termos 30/52

Estudos de Caso: Etapa 2 e Etapa 3 6 Algoritmos de AM SVM e NB (Estatístico) ID3 e J48 (Árvore de Decisão) Prism e OneR (Regra) 3 Configurações para construir a MAV Sem Filtro Balanceamento Remoção de Ruído Classificação 10-Fold Cross-Validation Classificação e Extração Holdout (p = 2/3) Classificação: Efeito Negativo, Efeito Positivo e Outros Extração: Efeito Negativo Sentenças Aleatórias 31/52

Estudo de Caso (1): Classificação de Sentenças (Etapa 2) 32/52

Estudo de Caso (1): Classificação de Sentenças (Etapa 2) Medida com 10-Fold Cross-Validation Amostra601 Melhor Índice Acurácia SVM com Balanceamento 87,19% Medida-F da classe Efeito Negativo SVM com Balanceamento 83,16% Medida com Holdout Amostra300 Melhor Índice Acurácia SVM com Balan. ou Rem. 62,33% Medida-F da classe Efeito Negativo SVM com Remoção de Ruído 71,81% 33/52

Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) Matriz de Confusão: Holdout Amostra300 Prec Rev Med-F 73% 71% 71,81% Classificação Automática Extração Real Classificação Manual Extração Fictícia 34/52

Nomenclatura dos Termos Extraídos Verdadeiro Positivo Termo Real Termo Extraído Termo Completo respiratory failure respiratory failure Termo Parcial acute hepatic sequestration hepatic sequestration Termo Adicional chronic lung disease resultant chronic lung disease Falso Positivo Termo que foi extraído, mas que não deveria ser extraído Falso Negativo Termo que deveria ser extraído, mas que não foi extraído Exemplo hydroxyurea therapy Exemplo thrombocytopenia 35/52

Classificação Manual e Extração Fictícia Extração Fictícia 36/52

Classificação Automática e Extração Real Extração Real 37/52

Extração Fictícia versus Extração Real Regra e Dicionário 38/52

Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) Matriz de Confusão: Holdout Amostra300 Prec Rev Med-F 73% 71% 71,81% Classificação Automática Extração Real Classificação Manual Extração Fictícia 39/52

Conclusão Hipótese 1 Abordagens de extração de informação auxiliam na identificação automaticamente de termos relevantes do domínio biomédico com alta precisão e revocação Hipótese 2 Algumas seções = -falsos positivos Extração de termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do resumo, permite obter uma maior quantidade de informação relevante Hipótese 3 Algumas sentenças = -falsos positivos Uso de duas etapas separadas e consecutivas possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 40/52

Contribuições Contribuição teórica Metodologia de extração de informação Amostra300: Extração de Informação Real: Medida-F de 80,43% Classificação Automática: Medida-F de 71,81% Contribuições práticas Criação e disponibilização de recursos: coleção de documentos, dicionário e base de regras Criação e disponibilização de ferramentas: Classificador de Sentenças (SCA-Classifier) Extrator de Informação (SCA-Extractor) Gerenciador de Termos (SCA-TermManager) 41/52

Trabalhos Futuros (1/2) Criação de uma coleção de documentos anotada 42/52

Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação de outros termos: tratamento e fator de risco Instanciação da metodologia para identificar efeitos de outras doenças: câncer, mal de Alzheimer, mal de Parkinson e glaucoma Investigação da aplicação da metodologia em outros domínios além do domínio biomédico: erupção de vulcão e poluição ambiental Utilizar análise semântica para identificar termos que estão implícitos nas sentenças: Sentença com termo implícito: The recent availability of an oral iron chelator may render prolonged transfusion more acceptable. 43/52

Produção Científica (1/2) MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de préprocessamento textual para extração de informação em artigos científicos do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio Brasileiro de Banco de Dados, 2009. p. 7-12. Evento Nacional Qualis B3 44/52

Produção Científica (2/2) MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ; VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in biomedical domain: information extraction for decision support systems. In: GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA-AIE). 23th. Heidelberg: Springer, 2010. p. 306-316. (Lecture Notes in Computer Science; v. 6096). Evento Internacional Qualis B3 45/52

Produção Técnica (1/2) Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual preprocessing for information extraction in scientific papers of the biomedical domain. In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010, São Carlos. Anais... UFSCar, 2010. Pôster. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de Máquina". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 23. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, 2009. p. 15. PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E. O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of Computer Science, Federal University of São Carlos, 2009. p. 16. 46/52

Produção Técnica (2/2) Softwares MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a tool from the biomedical domain to assist the expert in term management. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/sca-termmanager.rar>. Acesso em: 30 ago. 2010. MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for information extraction in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/sca- Extractor.rar>. Acesso em: 30 ago. 2010. MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for sentence classification in scientific papers of the biomedical domain. 2010. Software. Disponível em: <http://gbd.dc.ufscar.br/~pablofmatos/files/sca- Classifier.rar>. Acesso em: 30 ago. 2010. 47/52

Agradecimentos Idealizador do projeto Anemia Falciforme Médico Dr. Marco Antonio Zago Especialista do Domínio Médica Drª. Ana Cristina Silva Pinto 48/52

Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: LÓPEZ, J. A.; BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life Science Informatics (KELSI). Heidelberg: Springer, 2004. p. 84-95. (Lecture Notes in Computer Science; v. 3303). CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, 2010. p. 40. CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, 2001. 50 p. CORNEY, D. P. A. et al. BioRAT: extracting biological information from fulllength papers. Bioinformatics, v. 20, n. 17, p. 3206-3213, 2004. FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, 2007. 391 p. 49/52

Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through 2010. IDC Whitepaper, 2007. HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, 1999. p. 3-10. GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, 2009. Suppl. 2. IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2001. MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, 2003. 50/52

Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p. 2597-2604, 2004.. Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p. 316-324, 2007. TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, 1999. p. 71-76. TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p. 1124-1132, 2002a.. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p. 9-13. 51/52

Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico Pablo Freire Matos Ricardo Rodrigues Ciferri Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo Coorientador (ICMC/USP)

Padrão POS: Estratégia 1 Número Padrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 1.3 (~JJ)_(JJ_NN)_(~NN) 1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ)) 1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) ¹ Padrão também utilizado na Estratégia 2. 53/52

Padrão POS: Estratégia 2 Número Padrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN) 2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN) 3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) 3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN) 3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN) ¹ Padrão também utilizado na Estratégia 1. 54/52

Baseline nas 131 Sentenças Verdadeiros Positivos Falsos Positivos 55/52

Baseline nas 128 Sentenças Verdadeiros Positivos Falsos Positivos 56/52

Regra e Dicionários nas 131 Sentenças Verdadeiros Positivos Falsos Positivos 57/52

Regra e Dicionários nas 128 Sentenças Verdadeiros Positivos Falsos Positivos 58/52

Trabalhos Futuros (3/3) Distinção dos termos extraídos Hierarquização dos termos extraídos: parvovirus infection e infection Banco de Dados Biomédico 59/52

Estudos de Caso - Considerações Erro do etiquetador 1. Splenomegaly classificado como advérbio 2. Parvovirus classificado como verbo 60/52

Estudo de Caso (1): Classificação de Sentenças Método de Particionamento: 10-Fold Cross-Validation 61/52

Experimento 1: Fases de Treinamento e de Teste 62/52

Experimento 1: Fases de Treinamento e de Teste 63/52

Experimento 2: Fase de Uso do Modelo de Classificação Método de Particionamento: Holdout (p = 2/3) 64/52

Experimento 2: Fase de Uso do Modelo de Classificação 65/52

Experimento 2: Fase de Uso do Modelo de Classificação 66/52

LET¹ marrow e treatment não são LET: marrow depression treatment failure Sigla hb scd tcd sickle cell disease sickle cell anemia Doença Tratamento bronchoscopy hydroxyurea transfusion transplantation Outros blood case cohort criteria doppler dose period study transcranial velocities velocity ¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. 67/52

Eliminar Termo com LET LET Exemplos de Sentenças que utilizam da LET 68/52

LEP¹ treatment está sendo uma LEP: year of treatment (VN) chooosing treatment (FP) LEP complication different episode history multiple ongoing other patient patient-year previous primary recurrence recurrent repeated risk secondary treatment underlying LEP com 1000 palavras: http://www.bckelk.ukfsn.org/words/uk1000.html ¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other, different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary stroke, multiple vaso-occlusive). 69/52

LEP: Padrão (JJ)?_NN_(of_IN) NN_(of_IN) analysis of chance of episode of finding of frequency of history of rate of years of patient-years of JJ_NN_(of_IN) fatal episode of first occurrence of high risk of previous history of past history of Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode, finding, frequency, history, rate, years, patient-years, occurrence, risk, history) 70/52

LEP LEP Identificar Falso Positivo Remover Falso Positivo presente na LEP 71/52

Nº de registros encontrados Motivação Por que extrair informação de artigos completos? Gene e Proteína Benefícios + da metade da informação encontra-se no corpo do artigo + seção + informação a ser extraída Localização no documento (%) Corney et al. (2004) Problemas Conversão formato + tempo de processamento copyright Schuemie et al. (2004) 72/52

Etapa 2: Classificação de Sentenças (3/3) Processo de Classificação de Sentenças Supervisionado 73/52

Classificação Manual e Extração Fictícia Extração Fictícia 74/52

Classificação Automática e Extração Real Extração Real 75/52

Extração Fictícia versus Extração Real Dicionário 76/52