Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico

Tamanho: px
Começar a partir da página:

Download "Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico"

Transcrição

1 Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico Pablo Freire Matos Ricardo Rodrigues Ciferri Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo Coorientador (ICMC/USP)

2 Roteiro Introdução Revisão Literária Metodologia Proposta e Instanciação Estudos de Caso Conclusão 2/52

3 Contexto e Motivação Quantidade imensa de Informação disponível Gantz et al. (2007) Humanos não são capazes de assimilar todo esse conteúdo Informação via , blogs, wikis, artigos... + de 80% das informações estão em formato de texto Tan (1999) e Chen (2001) 3/52

4 Contexto e Motivação PubMed + de 18 milhões de artigos (desde 1966) MEDLINE (área de ciências + biomedicina) Entrez - Sistema integrado do NCBI 35 bases com 350 milhões de registros Sickle Cell Anemia registros do PubMed (citações e resumos) do PubMed Central (artigos completos) 4/52

5 Contexto e Motivação Infinidade de meios de publicação American Journal of Hematology, Blood, British Journal of Haematology, Haematologica, The New England Journal of Medicine Leva tempo para ler e identificar as principais informações do artigo Inviável analisar toda a literatura relevante manualmente 5/52

6 Contexto e Motivação Esses documentos estão em formato não estruturado Há a necessidade de transformar esses dados de formato não estruturado para estruturado Objetivo: processo de descoberta de conhecimento automático 6/52

7 Objetivo Propor uma metodologia de préprocessamento textual para extração de informação sobre efeitos de doenças em artigos científicos do domínio biomédico A metodologia é composta por quatro etapas: Entrada de Dados (Etapa 1) Classificação de Sentenças (Etapa 2) Identificação de Termos Relevantes (Etapa 3) Gerenciamento de Termos (Etapa 4) 7/52

8 Hipóteses Hipótese 1: É possível usar abordagens de extração de informação para identificar automaticamente termos relevantes do domínio biomédico com alta precisão e revocação Todas as seções = +falsos positivos Hipótese 2: Extrair termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do seu resumo, permite obter uma maior quantidade de informação relevante Todas as sentenças = +falsos positivos Hipótese 3: Uso de duas etapas separadas e consecutivas: Etapa 1: classificar as sentenças em classes de interesse. Etapa 2: identificar e extrair termos apenas nas sentenças classificadas nestas classes de interesse possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 8/52

9 Mineração de Textos Extrair informações úteis em documentos no formato textual não-estruturado através da identificação de conhecimento e exploração de padrões Hearst (1999) Imamura (2001) Martins (2003) Feldman e Sanger (2007) 9/52

10 Abordagens para Extração de Informação Abordagem Vantagem Desvantagem Dicionário Regras Aprendizado de Máquina Casamento de padrão com informações armazenadas no dicionário Melhor precisão Independência de domínio Alto desempenho para predição Limitação de nomes Variações de nome (baixa revocação) Nomes curtos causam falsos positivos (diminui a precisão) Requer tempo Restrito a um domínio Exclui termos que não correspondem aos padrões predefinidos (diminui a revocação) Grande quantidade de dados de treinamento Retreinamento após o advento de novos dados Classificação é prejudicada com uma classe minoritária 10/52

11 Trabalhos Correlatos Resumos 11/52

12 Trabalhos Correlatos Artigos Completos 1) Abordagem de AM: Classificação de Sentenças 2) Artigos: Algumas Seções 12/52

13 Metodologia Proposta para Extração de Informação no Domínio Biomédico 13/52

14 Etapa 1: Entrada de Dados 14/52

15 Etapa 1: Entrada de Dados (1/2) Formato XML Formato TXT Carosia e Ciferri (2010) 15/52

16 Etapa 1: Entrada de Dados (2/2) Exemplo Formato XML Exemplo Formato TXT 16/52

17 Etapa 2: Classificação de Sentenças Seções processadas: Abstract, Results e Discussion 17/52

18 Classes Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão Etapa 2: Classificação de Sentenças (1/2) Treinamento Efeito Negativo Diversos arquivos com sentenças de efeito negativo Modelo Bag-of-words Medida binária Atributos: 1 a 3 gramas Frequência mínima: 2 Teste Novo texto TXT Efeito Positivo Diversos arquivos com sentenças de efeito positivo Outros Diversos arquivos com sentenças de outros Saída Conjunto de sentenças classificadas em classes 18/52

19 Etapa 2: Classificação de Sentenças (2/2) Efeito Negativo Efeito Positivo Outros 19/52

20 Ferramenta SCA-Classifier API Weka 20/52

21 Etapa 3: Identificação de Termos Relevantes 21/52

22 Dicionário Banco de Dados Biomédico Exemplo de Sentenças Termo hemorrhage pain Variação central nervous system hemorrhage intracranial hemorrhage painful episode pain crises pain crisis Informação Relevante 22/52

23 Dicionário Remover Falso Positivo Lista de Exclusão de Palavra (LEP): Palavras comuns e gerais irrelevantes que não são do domínio biomédico e palavras irrelevantes do domínio biomédico que estão associadas a algum termo. LEP com 1000 palavras: Lista de Exclusão de Termo (LET): Termos substantivos, compostos e siglas do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. 23/52

24 Regras Part-Of-Speech (POS) Exemplo de Sentença Exemplo de Sentença Etiquetada padrão JJ_NN Etiquetador POS da Stanford: 96,86% - treinamento 86,91% - palavras novas Padrão Tag: Penn Treebank 24/52

25 1 2 Introdução Revisão Literária Metodologia e Instanciação Estudos de Caso Conclusão Regras Palavra Etiquetada: III - irrelevante RRR - relevante Estratégia 1: Verbo e Expressão com POS 3 4 Verbo Expressão Composta Exemplo (JJ)?_NN_(of_IN) Termos Relevantes Extraídos: acute chest syndromes cerebrovascular events osteonecrosis mycoplasma viral pneumonia pavovirus 25/52

26 Regras Estratégia 2: POS Como identificar termos nas sentenças que não contêm verbo e expressão composta representativos? Palavra Etiquetada: III - irrelevante RRR - relevante 26/52

27 Regras Estratégia 2: POS Termo na cor turquesa não selecionado pela Estratégia 1 27/52

28 Ferramenta SCA-Extractor 28/52

29 Etapa 4: Gerenciamento de Termos 29/52

30 Etapa 4: Gerenciamento de Termos Quatro operações: Inserir novos termos Validar termos extraídos Mover termos extraídos Hierarquizar termos 30/52

31 Estudos de Caso: Etapa 2 e Etapa 3 6 Algoritmos de AM SVM e NB (Estatístico) ID3 e J48 (Árvore de Decisão) Prism e OneR (Regra) 3 Configurações para construir a MAV Sem Filtro Balanceamento Remoção de Ruído Classificação 10-Fold Cross-Validation Classificação e Extração Holdout (p = 2/3) Classificação: Efeito Negativo, Efeito Positivo e Outros Extração: Efeito Negativo Sentenças Aleatórias 31/52

32 Estudo de Caso (1): Classificação de Sentenças (Etapa 2) 32/52

33 Estudo de Caso (1): Classificação de Sentenças (Etapa 2) Medida com 10-Fold Cross-Validation Amostra601 Melhor Índice Acurácia SVM com Balanceamento 87,19% Medida-F da classe Efeito Negativo SVM com Balanceamento 83,16% Medida com Holdout Amostra300 Melhor Índice Acurácia SVM com Balan. ou Rem. 62,33% Medida-F da classe Efeito Negativo SVM com Remoção de Ruído 71,81% 33/52

34 Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) Matriz de Confusão: Holdout Amostra300 Prec Rev Med-F 73% 71% 71,81% Classificação Automática Extração Real Classificação Manual Extração Fictícia 34/52

35 Nomenclatura dos Termos Extraídos Verdadeiro Positivo Termo Real Termo Extraído Termo Completo respiratory failure respiratory failure Termo Parcial acute hepatic sequestration hepatic sequestration Termo Adicional chronic lung disease resultant chronic lung disease Falso Positivo Termo que foi extraído, mas que não deveria ser extraído Falso Negativo Termo que deveria ser extraído, mas que não foi extraído Exemplo hydroxyurea therapy Exemplo thrombocytopenia 35/52

36 Classificação Manual e Extração Fictícia Extração Fictícia 36/52

37 Classificação Automática e Extração Real Extração Real 37/52

38 Extração Fictícia versus Extração Real Regra e Dicionário 38/52

39 Estudo de Caso (2): Identificação de Termos Relevantes (Etapa 3) Matriz de Confusão: Holdout Amostra300 Prec Rev Med-F 73% 71% 71,81% Classificação Automática Extração Real Classificação Manual Extração Fictícia 39/52

40 Conclusão Hipótese 1 Abordagens de extração de informação auxiliam na identificação automaticamente de termos relevantes do domínio biomédico com alta precisão e revocação Hipótese 2 Algumas seções = -falsos positivos Extração de termos relacionados a efeitos de doenças no domínio biomédico de outras seções do artigo, além do resumo, permite obter uma maior quantidade de informação relevante Hipótese 3 Algumas sentenças = -falsos positivos Uso de duas etapas separadas e consecutivas possibilita um bom resultado no processo de extração de informação de termos relacionados a efeitos de doenças no domínio biomédico 40/52

41 Contribuições Contribuição teórica Metodologia de extração de informação Amostra300: Extração de Informação Real: Medida-F de 80,43% Classificação Automática: Medida-F de 71,81% Contribuições práticas Criação e disponibilização de recursos: coleção de documentos, dicionário e base de regras Criação e disponibilização de ferramentas: Classificador de Sentenças (SCA-Classifier) Extrator de Informação (SCA-Extractor) Gerenciador de Termos (SCA-TermManager) 41/52

42 Trabalhos Futuros (1/2) Criação de uma coleção de documentos anotada 42/52

43 Trabalhos Futuros (2/2) Investigação do uso da metodologia na identificação de outros termos: tratamento e fator de risco Instanciação da metodologia para identificar efeitos de outras doenças: câncer, mal de Alzheimer, mal de Parkinson e glaucoma Investigação da aplicação da metodologia em outros domínios além do domínio biomédico: erupção de vulcão e poluição ambiental Utilizar análise semântica para identificar termos que estão implícitos nas sentenças: Sentença com termo implícito: The recent availability of an oral iron chelator may render prolonged transfusion more acceptable. 43/52

44 Produção Científica (1/2) MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Metodologia de préprocessamento textual para extração de informação em artigos científicos do domínio biomédico. In: WORKSHOP DE TESES E DISSERTAÇÕES EM BANCOS DE DADOS, VIII, 2009, Fortaleza, Ceará. Anais... Simpósio Brasileiro de Banco de Dados, p Evento Nacional Qualis B3 44/52

45 Produção Científica (2/2) MATOS, P. F.; LOMBARDI, L. O.; PARDO, T. A. S; CIFERRI, C. D. A. ; VIEIRA, M. T. P.; CIFERRI, R. R. An environment for data analysis in biomedical domain: information extraction for decision support systems. In: GARCÍA-PEDRAJAS, N. et al. (Ed.). International Conference on Industrial, Engineering & Other Applications of Applied Intelligent Systems (IEA-AIE). 23th. Heidelberg: Springer, p (Lecture Notes in Computer Science; v. 6096). Evento Internacional Qualis B3 45/52

46 Produção Técnica (1/2) Pôster e Relatório Técnico MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. Methodology of textual preprocessing for information extraction in scientific papers of the biomedical domain. In: WORKSHOP DE PÓS-GRADUAÇÃO SEMANA DE COMPUTAÇÃO, 3º, 2010, São Carlos. Anais... UFSCar, Pôster. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Conceitos sobre Aprendizado de Máquina". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, p. 23. MATOS, P. F.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Relatório Técnico "Métricas de Avaliação". São Carlos: Departamento de Computação, Universidade Federal de São Carlos, p. 15. PINTO, A. C. S.; MATOS, P. F.; PERLIN, C. B.; ANDRADE, C. G.; CAROSIA, A. E. O.; LOMBARDI, L. O.; CIFERRI, R. R.; PARDO, T. A. S.; CIFERRI, C. D. A.; VIEIRA, M. T. P. Technical Report "Sickle Cell Anemia". São Carlos: Department of Computer Science, Federal University of São Carlos, p /52

47 Produção Técnica (2/2) Softwares MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-TermManager: a tool from the biomedical domain to assist the expert in term management Software. Disponível em: < Acesso em: 30 ago MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Extractor: a tool for information extraction in scientific papers of the biomedical domain Software. Disponível em: < Extractor.rar>. Acesso em: 30 ago MATOS, P. F.; CIFERRI, R. R.; PARDO, T. A. S. SCA-Classifier: a tool for sentence classification in scientific papers of the biomedical domain Software. Disponível em: < Classifier.rar>. Acesso em: 30 ago /52

48 Agradecimentos Idealizador do projeto Anemia Falciforme Médico Dr. Marco Antonio Zago Especialista do Domínio Médica Drª. Ana Cristina Silva Pinto 48/52

49 Referências Citadas na Apresentação (1/3) BREMER, E. G. et al. Text mining of full text articles and creation of a knowledge base for analysis of microarray data. In: LÓPEZ, J. A.; BENFENATI, E.; DUBITZKY, W. (Ed.). Knowledge Exploration in Life Science Informatics (KELSI). Heidelberg: Springer, p (Lecture Notes in Computer Science; v. 3303). CAROSIA, A. E. O.; CIFERRI, C. D. A. Ferramenta SCDtRanslator: conversão do formato PDF para o formato XML aplicada ao domínio de artigos médicos sobre a Doença Anemia Falciforme. São Carlos: Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, p. 40. CHEN, H. Knowledge management systems: a text mining perspective. Tucson, AZ: University of Arizona, p. CORNEY, D. P. A. et al. BioRAT: extracting biological information from fulllength papers. Bioinformatics, v. 20, n. 17, p , FELDMAN, R.; SANGER, J. The text mining handbook: advanced approaches in analyzing unstructured data. New York: Cambridge University Press, p. 49/52

50 Referências Citadas na Apresentação (2/3) GANTZ, J. F. et al. The expanding digital universe: a forecast of worldwide information growth through IDC Whitepaper, HEARST, M. A. Untangling text data mining. In: ANNUAL MEETING OF THE ASSOCIATION OF COMPUTATIONAL LINGUISTICS, 37th, 1999, College Park, Maryland. Proceedings... Morristown, NJ: Association for Computational Linguistics, p GARTEN, Y.; ALTMAN, R. Pharmspresso: a text mining tool for extraction of pharmacogenomic concepts and relationships from full text. BMC Bioinformatics, v. 10, p. S6, Suppl. 2. IMAMURA, C. Y.-M. Pré-processamento para extração de conhecimento de bases textuais. 103 f. Dissertação (Mestrado em Ciência de Computação e Matemática Computacional) Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, MARTINS, C. A. Uma abordagem para pré-processamento de dados textuais em algoritmos de aprendizado. 174 f. Tese (Doutorado em Ciência de Computação e Matemática Computacional) Instituto de Ciências Matemáticas e de Computação, Universidade de São Paulo, São Carlos, /52

51 Referências Citadas na Apresentação (3/3) SCHUEMIE, M. J. et al. Distribution of information in biomedical abstracts and full-text publications. Bioinformatics, v. 20, n. 16, p , Evaluation of techniques for increasing recall in a dictionary approach to gene and protein name identification. Journal of Biomedical Informatics, v. 40, n. 3, p , TAN, A.-H. Text mining: the state of the art and the challenges. In: KNOWLEDGE DISCOVERY FROM ADVANCED DATABASES (KDAD), 1999, Beijing, China. Proceedings... PAKDD, p TANABE, L.; WILBUR, W. J. Tagging gene and protein names in biomedical text. Bioinformatics, v. 18, n. 8, p , 2002a.. Tagging gene and protein names in full text articles. In: WORKSHOP ON NATURAL LANGUAGE PROCESSING IN THE BIOMEDICAL DOMAIN, 2002, Phildadelphia, Pennsylvania. Proceedings... Morristown, NJ: Association for Computational Linguistics, 2002b. p /52

52 Metodologia de Pré-processamento Textual para Extração de Informação sobre Efeitos de Doenças em Artigos Científicos do Domínio Biomédico Pablo Freire Matos Ricardo Rodrigues Ciferri Orientador (DC/UFSCar) Thiago Alexandre Salgueiro Pardo Coorientador (ICMC/USP)

53 Padrão POS: Estratégia 1 Número Padrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 1.3 (~JJ)_(JJ_NN)_(~NN) 1.4 ((~NN)&(~JJ))_(NN_NN)_( (~NN)&(~JJ)) 1.5 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) ¹ Padrão também utilizado na Estratégia 2. 53/52

54 Padrão POS: Estratégia 2 Número Padrão 1.0¹ (JJ_JJ_NN_NN_(NN)?) 1.1¹ (~JJ)_(JJ_NN_NN_(NN)?) 1.2¹ (JJ_JJ_NN)_(~NN) 2.0 (~JJ)_(JJ_NN_IN_JJ_NN)_(~NN) 2.1 ((~JJ)_NN_IN)_(JJ_NN)_(~NN) 3.0 (~JJ)_(JJ_NN)_(IN_NN_NN_NN) 3.1 (~JJ)_(JJ_NN_IN_NN_NN)_(~NN) 3.2 ((~JJ)_JJ_NN_IN)_(NN)_(~NN) ¹ Padrão também utilizado na Estratégia 1. 54/52

55 Baseline nas 131 Sentenças Verdadeiros Positivos Falsos Positivos 55/52

56 Baseline nas 128 Sentenças Verdadeiros Positivos Falsos Positivos 56/52

57 Regra e Dicionários nas 131 Sentenças Verdadeiros Positivos Falsos Positivos 57/52

58 Regra e Dicionários nas 128 Sentenças Verdadeiros Positivos Falsos Positivos 58/52

59 Trabalhos Futuros (3/3) Distinção dos termos extraídos Hierarquização dos termos extraídos: parvovirus infection e infection Banco de Dados Biomédico 59/52

60 Estudos de Caso - Considerações Erro do etiquetador 1. Splenomegaly classificado como advérbio 2. Parvovirus classificado como verbo 60/52

61 Estudo de Caso (1): Classificação de Sentenças Método de Particionamento: 10-Fold Cross-Validation 61/52

62 Experimento 1: Fases de Treinamento e de Teste 62/52

63 Experimento 1: Fases de Treinamento e de Teste 63/52

64 Experimento 2: Fase de Uso do Modelo de Classificação Método de Particionamento: Holdout (p = 2/3) 64/52

65 Experimento 2: Fase de Uso do Modelo de Classificação 65/52

66 Experimento 2: Fase de Uso do Modelo de Classificação 66/52

67 LET¹ marrow e treatment não são LET: marrow depression treatment failure Sigla hb scd tcd sickle cell disease sickle cell anemia Doença Tratamento bronchoscopy hydroxyurea transfusion transplantation Outros blood case cohort criteria doppler dose period study transcranial velocities velocity ¹ Termos substantivos (e.g., dose, period, cohort, criteria), compostos (e.g., sickle cell disease, sickle cell anemia) e siglas (e.g., hb, scd, tcd) do domínio biomédico que são irrelevantes e que sinalizam segmentos textuais que podem ser desconsiderados no processamento. 67/52

68 Eliminar Termo com LET LET Exemplos de Sentenças que utilizam da LET 68/52

69 LEP¹ treatment está sendo uma LEP: year of treatment (VN) chooosing treatment (FP) LEP complication different episode history multiple ongoing other patient patient-year previous primary recurrence recurrent repeated risk secondary treatment underlying LEP com 1000 palavras: ¹ Palavras comuns e gerais irrelevantes que não são do domínio biomédico (e.g, other, different, underlying) e palavras irrelevantes do domínio biomédico que estão associadas a algum termo (e.g., painful episodes, recurrent splenic sequestration, stroke risk, primary stroke, multiple vaso-occlusive). 69/52

70 LEP: Padrão (JJ)?_NN_(of_IN) NN_(of_IN) analysis of chance of episode of finding of frequency of history of rate of years of patient-years of JJ_NN_(of_IN) fatal episode of first occurrence of high risk of previous history of past history of Objetivo: Aumentar a lista LEP com os substantivos (e.g., analysis, chance, episode, finding, frequency, history, rate, years, patient-years, occurrence, risk, history) 70/52

71 LEP LEP Identificar Falso Positivo Remover Falso Positivo presente na LEP 71/52

72 Nº de registros encontrados Motivação Por que extrair informação de artigos completos? Gene e Proteína Benefícios + da metade da informação encontra-se no corpo do artigo + seção + informação a ser extraída Localização no documento (%) Corney et al. (2004) Problemas Conversão formato + tempo de processamento copyright Schuemie et al. (2004) 72/52

73 Etapa 2: Classificação de Sentenças (3/3) Processo de Classificação de Sentenças Supervisionado 73/52

74 Classificação Manual e Extração Fictícia Extração Fictícia 74/52

75 Classificação Automática e Extração Real Extração Real 75/52

76 Extração Fictícia versus Extração Real Dicionário 76/52

Extração de Informação Téc1 (Verbo e POS) e Téc2 (POS)

Extração de Informação Téc1 (Verbo e POS) e Téc2 (POS) Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Téc1 (Verbo e POS) e Téc2 (POS) Aluno: Pablo Freire Matos Orientador:

Leia mais

Classificação de Sentença

Classificação de Sentença Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Aluno: Pablo Freire Matos Orientador: Dr. Ricardo Rodrigues Ciferri

Leia mais

Um Processo Baseado em Parágrafos para a Extração de Tratamentos em Artigos Científicos do Domínio Biomédico

Um Processo Baseado em Parágrafos para a Extração de Tratamentos em Artigos Científicos do Domínio Biomédico Um Processo Baseado em Parágrafos para a Extração de Tratamentos em Artigos Científicos do Domínio Biomédico Juliana Lilian Duque 1, Pablo Freire Matos 1, Cristina Dutra de Aguiar Ciferri 2, Thiago Alexandre

Leia mais

UNIVERSIDADE FEDERAL DE SÃO CARLOS

UNIVERSIDADE FEDERAL DE SÃO CARLOS UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO Metodologia de Pré-processamento Textual para Extração de Informação sobre

Leia mais

UNIVERSIDADE FEDERAL DE SÃO CARLOS

UNIVERSIDADE FEDERAL DE SÃO CARLOS UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO Metodologia de Pré-processamento Textual para Extração de Informação sobre

Leia mais

Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico

Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Metodologia de Pré-processamento Textual para Extração de Informação em Artigos Científicos do Domínio Biomédico Pablo Freire Matos 12 Orientador: Ricardo Rodrigues Ciferri 2 Coorientador: Thiago Alexandre

Leia mais

EndNote X2 ( ) Organizador de Referências

EndNote X2 ( ) Organizador de Referências Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC X2 (1988-2008) Organizador de Referências Aluno: Pablo Freire Matos

Leia mais

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados

Leia mais

Ambiente Weka Waikato Environment for Knowledge Analysis

Ambiente Weka Waikato Environment for Knowledge Analysis Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Ambiente Weka Waikato Environment for Knowledge Analysis Classificação

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA 18º Congresso de Iniciação Científica INCORPORAÇÃO DA TAREFA DE CLASSIFICAÇÃO NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio

Leia mais

UNIVERSIDADE FEDERAL DE SÃO CARLOS. Um Processo Baseado em Parágrafos para a Extração de Tratamentos de Artigos Científicos do Domínio Biomédico

UNIVERSIDADE FEDERAL DE SÃO CARLOS. Um Processo Baseado em Parágrafos para a Extração de Tratamentos de Artigos Científicos do Domínio Biomédico UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO Um Processo Baseado em Parágrafos para a Extração de Tratamentos de Artigos

Leia mais

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA 19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA Autor(es) MIRELA TEIXEIRA CAZZOLATO Orientador(es) MARINA TERESA PIRES VIEIRA Apoio Financeiro PIBIC/CNPQ

Leia mais

Proposta de Dissertação de Mestrado

Proposta de Dissertação de Mestrado Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC Proposta de Dissertação de Mestrado Aluna: Juliana Lilian Duque Orientador:

Leia mais

Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados

Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Estudo e Avaliação da Seleção de Atributos para Pré-processamento no Processo de Mineração de Dados Silvani Weber da Silva Borges 1 (PIBIC/CNPq/Unioeste), Renato B. Machado (Orientador), Newton Spolaôr

Leia mais

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS 6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Leia mais

Universidade de São Paulo (USP) Universidade Federal de São Carlos (UFSCar) Universidade Metodista de Piracicaba (Unimep)

Universidade de São Paulo (USP) Universidade Federal de São Carlos (UFSCar) Universidade Metodista de Piracicaba (Unimep) Universidade de São Paulo (USP) Universidade Federal de São Carlos (UFSCar) Universidade Metodista de Piracicaba (Unimep) Relatório Técnico Métricas de Avaliação http://gbd.dc.ufscar.br Projeto Um Ambiente

Leia mais

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados

Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados Uma Abordagem de Extração de Terminologia Para a Construção de uma Representação Atributo-valor a Partir de Documentos Não Estruturados Daniel de Faveri Honorato 1, Maria Carolina Monard 1, and Huei Diana

Leia mais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais

Identificação de Pontos Perceptualmente Importantes (PIP) em séries temporais de tópicos extraídos de dados textuais Universidade de São Paulo Biblioteca Digital da Produção Intelectual - BDPI Departamento de Ciências de Computação - ICMC/SCC Comunicações em Eventos - ICMC/SCC 2015 Identificação de Pontos Perceptualmente

Leia mais

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial MINERAÇÃO DE DADOS E TEXTOS SCC-230 Inteligência Artificial Solange Oliveira Rezende Bruno Magalhães Nogueira Thiago A. S. Pardo MOTIVAÇÃO Observe a imagem... Identifique um número! 2 1 MOTIVAÇÃO 3 MOTIVAÇÃO

Leia mais

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores

Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Desempenho de Classificação. Classificação IV: Avaliação de Classificadores SCC0173 Mineração de Dados Biológicos Classificação IV: Avaliação de Classificadores Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo rof. André C..

Leia mais

Uma ferramenta para expansão do vocabulário com base em coocorrência

Uma ferramenta para expansão do vocabulário com base em coocorrência Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira

Leia mais

Mineração de Textos na Web

Mineração de Textos na Web Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na

Leia mais

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed

Índice. Classificação de textos para o ensino de português como segunda língua. Índice. technology from seed Classificação de textos para o ensino de português como segunda língua Pedro Santos Curto Conclusões, Contribuições e Trabalho futuro 1 2 Motivação Aplicações e escala da classificação de textos Motivação

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

UNIVERSIDADE FEDERAL DE SÃO CARLOS

UNIVERSIDADE FEDERAL DE SÃO CARLOS UNIVERSIDADE FEDERAL DE SÃO CARLOS CENTRO DE CIÊNCIAS EXATAS E DE TECNOLOGIA PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO INSTANCIAÇÃO, VALIDAÇÃO E EXTENSÃO DE UMA METODOLOGIA DE EXTRAÇÃO DE INFORMAÇÃO

Leia mais

Boas Maneiras em Aprendizado de Máquinas

Boas Maneiras em Aprendizado de Máquinas Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Boas Maneiras em Aprendizado de Máquinas David Menotti www.inf.ufpr.br/menotti/ci171-182 Boas Maneiras Agenda Introdução Métricas

Leia mais

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;

Leia mais

Mineração de Opinião Aplicada ao Cenário Político

Mineração de Opinião Aplicada ao Cenário Político Mineração de Opinião Aplicada ao Cenário Político Leandro Massetti Ribeiro Oliveira 1, Vandecia Rejane Monteiro Fernandes 1 1 Engenharia da Computação - Universidade Federal do Maranhão (UFMA) São Luis

Leia mais

"Análise de Extratores de Característica para Reconhecimento de Face"

Análise de Extratores de Característica para Reconhecimento de Face Universidade Federal de Pernambuco Centro de Informática Graduação em Engenharia de Computação Proposta de Trabalho de Graduação "Análise de Extratores de Característica para Reconhecimento de Face" Orientador:

Leia mais

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta

Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Uma abordagem de classificação automática para Tipo de Pergunta e Tipo de Resposta Patricia Nunes Gonçalves 1, António Horta Branco 1 1 Faculdade de Ciências da Universidade de Lisboa Lisboa - Portugal

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

AUTOMATED ASSESSMENT OF BREAST TISSUE DENSITY IN DIGITAL MAMMOGRAMS

AUTOMATED ASSESSMENT OF BREAST TISSUE DENSITY IN DIGITAL MAMMOGRAMS AUTOMATED ASSESSMENT OF BREAST TISSUE DENSITY IN DIGITAL MAMMOGRAMS Introdução Câncer de mama É uma das neoplasias mais comuns que afligem as mulheres Globalmente, a cada 3 min uma mulher é diagnosticada

Leia mais

Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining

Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining Computação Evolucionária Aplicada ao Problema de Seleção de Características em Text Mining João R. Carrilho Jr., Marco Aurélio C. Pacheco ICA: Applied Computational Intelligence Laboratory Department of

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

Extração de informação como base para descoberta de conhecimento em dados não estruturados

Extração de informação como base para descoberta de conhecimento em dados não estruturados Extração de informação como base para descoberta de conhecimento em dados não Rui Gureghian Scarinci* José Palazzo Moreira de Oliveira** Resumo Métodos de Descoberta de Conhecimento em Texto ou Knowledge

Leia mais

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro www.acasadoconcurseiro.com.br Informática PRÉ-PROCESSAMENTO DE DADOS EM DATA MINING Técnicas de pré-processamento e transformação de dados

Leia mais

Um Método para Melhoria de Dados Estruturados de Imóveis

Um Método para Melhoria de Dados Estruturados de Imóveis Universidade Federal de Pernambuco Centro de Informática Graduação em Ciência da Computação Um Método para Melhoria de Dados Estruturados de Imóveis Lucas Nunes de Souza Proposta de Trabalho de Graduação

Leia mais

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting

Leia mais

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo

Diego Martin Mancini Orientador: Prof. Paulo A. V. de Miranda Instituto de Matemática e Estatística Universidade de São Paulo Estudo de comparação do descritor de imagens coloridas BIC empregando diferentes abordagens de classificação de detecção de bordas: Canny e Operador Laplaciano Diego Martin Mancini Orientador: Prof. Paulo

Leia mais

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos

Leia mais

APRENDIZAGEM DE MÁQUINA

APRENDIZAGEM DE MÁQUINA APRENDIZAGEM DE MÁQUINA (usando Python) Thiago Marzagão ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão APRENDIZAGEM DE MÁQUINA 1 / 20 árvore de decisão Aulas passadas: queríamos prever variáveis quantitativas.

Leia mais

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO

PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos RESUMO PREDIÇÃO À EVASÃO ESCOLAR: Estudo de caso aplicado no IFSULDEMINAS Campus Passos Carla Fernandes da SILVA 1 ; Clayton Silva MENDES 2. RESUMO A evasão escolar é um dos principais desafios a ser superado

Leia mais

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

Classificação de Padrões Radiológicos por Blocos em Imagens Não Segmentadas de Tomografia Computadorizada

Classificação de Padrões Radiológicos por Blocos em Imagens Não Segmentadas de Tomografia Computadorizada Visão Robótica Imagem Classificação de Padrões Radiológicos por Blocos em Imagens Não Segmentadas de Tomografia Computadorizada Aluna: Luiza Dri Bagesteiro Orientador: Prof. Dr. Daniel Weingaertner Co-orientador:

Leia mais

Identificação de alertas de segurança virtual veiculados no Twitter

Identificação de alertas de segurança virtual veiculados no Twitter Identificação de alertas de segurança virtual veiculados no Twitter Orientador: Daniel M. Batista Coorientadora: Elisabeti Kira Instituto de Matemática e Estatística IME-USP 27 de Janeiro de 2015 Introdução

Leia mais

Seleção de Atributos 1

Seleção de Atributos 1 Seleção de Atributos 1 Tópicos Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Seleção de atributos antes do aprendizado Benefícios Abordagens automáticas

Leia mais

Aprendizado de Máquina para o Problema de Sentiment Classification

Aprendizado de Máquina para o Problema de Sentiment Classification Pedro Oguri Aprendizado de Máquina para o Problema de Sentiment Classification Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa de Pós

Leia mais

Análise de sentimentos para português brasileiro usando redes neurais recursivas

Análise de sentimentos para português brasileiro usando redes neurais recursivas Análise de sentimentos para português brasileiro usando redes neurais recursivas Henrico Bertini Brum 1, Fábio Natanel Kepler 1 1 Ciência da Computação Universidade Federal do Pampa (UNIPAMPA) Caixa Postal

Leia mais

Classificação Automática de Gêneros Musicais

Classificação Automática de Gêneros Musicais Introdução Método Experimentos Conclusões Utilizando Métodos de Bagging e Boosting Carlos N. Silla Jr. Celso Kaestner Alessandro Koerich Pontifícia Universidade Católica do Paraná Programa de Pós-Graduação

Leia mais

5º Congresso de Pós-Graduação

5º Congresso de Pós-Graduação 5º Congresso de Pós-Graduação UMA FERRAMENTA PARA GERAÇÃO AUTOMÁTICA DE DIAGRAMA DE CLASSES A PARTIR DA ESPECIFICAÇÃO DE REQUISITOS EM LINGUAGEM NATURAL Autor(es) Orientador(es) LUIZ EDUARDO GALVÃO MARTINS

Leia mais

Métodos Quantitativos e Qualitativos na Engenharia (M2QE) Quantitative and Qualitative Methods in Engineering (QQME)

Métodos Quantitativos e Qualitativos na Engenharia (M2QE) Quantitative and Qualitative Methods in Engineering (QQME) Métodos Quantitativos e Qualitativos na Engenharia (M2QE) ------- Quantitative and Qualitative Methods in Engineering (QQME) Guimarães, 3 de outubro de 2013 Escola de Engenharia, Campus de Azurém Some

Leia mais

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina

SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Susana Rosich Soares Velloso SQLLOMining: Obtenção de Objetos de Aprendizagem utilizando técnicas de Aprendizado de Máquina Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção

Leia mais

Mineração de Dados - II

Mineração de Dados - II Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior barbon@uel.br 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework

Leia mais

Mineração de Dados Educacionais nos Resultados do ENEM de 2015

Mineração de Dados Educacionais nos Resultados do ENEM de 2015 Mineração de Dados Educacionais nos Resultados do ENEM de 2015 Augusto Simon 1, Sílvio César Cazella 2,3 1 Programa de Pós-Graduação em Educação (PPGEDU) Universidade Federal do Rio Grande do Sul (UFRGS)

Leia mais

Avaliação de um método de mapeamento de laudos médicos para uma representação estruturada: estudo de caso com laudos de endoscopia digestiva alta

Avaliação de um método de mapeamento de laudos médicos para uma representação estruturada: estudo de caso com laudos de endoscopia digestiva alta Avaliação de um método de mapeamento de laudos médicos para uma representação estruturada: estudo de caso com laudos de endoscopia digestiva alta Daniel de Faveri Honorato 1, Maria Carolina Monard 2, Huei

Leia mais

OntoLP: Engenharia de Ontologias em Língua Portuguesa

OntoLP: Engenharia de Ontologias em Língua Portuguesa OntoLP: Engenharia de Ontologias em Língua Portuguesa Luiz Carlos Ribeiro Jr. (PUCRS, lucarijr@gmail.com) Renata Vieira (PUCRS, renata.vieira@gmail.com) Patrícia Nunes Gonçalves (PUCRS, patt.nunes@gmail.com)

Leia mais

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) 2016/ PPGCA PPGCA/UTFPR -- CAIA003

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) 2016/ PPGCA PPGCA/UTFPR -- CAIA003 UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ (UTFPR) Mineração de Dados 2016/3 Professores Celso e Heitor Jean Avila Rangel 1801317 - PPGCA PPGCA/UTFPR câmpus Curitiba -- CAIA003 - Mineração de Dados --

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas

Leia mais

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação

Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Universidade Federal do Rio Grande do Sul Instituto de Informática Programa de Pós-Graduação em Computação Identificação e Tratamento de Expressões Multipalavras aplicado à Recuperação de Informação Otávio

Leia mais

Algoritmo CLIQUE (Clustering In QUEst)

Algoritmo CLIQUE (Clustering In QUEst) Algoritmo CLIQUE (Clustering In QUEst) Marcelo Camacho de Souza Nº USP: 3199616 Roteiro Algoritmo CLIQUE Exemplo Prático Complexidade Computacional Vantagens e Desvantagens Autores (IBM Almaden Research

Leia mais

Biomedical Text Mining J O S É F E R N A N D E S R U I S I L V A

Biomedical Text Mining J O S É F E R N A N D E S R U I S I L V A Biomedical Text Mining J O S É F E R N A N D E S R U I S I L V A Objectivos e Desafios Extracção de informação útil a partir de fontes de dados documentos de texto - identificando e explorando padrões

Leia mais

Mineração de Textos. Mineração de Textos

Mineração de Textos. Mineração de Textos Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados

Leia mais

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho... DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar

Leia mais

Estudo Comparativo de Estratégias de Classificação de Páginas Web

Estudo Comparativo de Estratégias de Classificação de Páginas Web Thoran Araguez Rodrigues Estudo Comparativo de Estratégias de Classificação de Páginas Web Dissertação de Mestrado Dissertação apresentada ao Programa de Pós-Graduação em Informática da Pontifícia Universidade

Leia mais

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio Mineração de Dados Eduardo Raul Hruschka Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio http://www.kdnuggets.com Visão Geral: Introdução: motivação, aplicações, conceitos básicos. Agrupamento

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Metodologias para a Seleção de Atributos Relevantes

Metodologias para a Seleção de Atributos Relevantes Metodologias para a Seleção de Atributos Relevantes José Augusto Baranauskas e Maria Carolina Monard Departamento de Computação e Estatística Instituto de Ciências Matemáticas e de Computação - Universidade

Leia mais

Aprendizado de Máquina

Aprendizado de Máquina Aprendizado de Máquina Introdução ao WEKA Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://web.inf.ufpr.br/luizoliveira Luiz S. Oliveira (UFPR) Aprendizado de

Leia mais

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre

Leia mais

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO

UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO UNIVERSIDADE FEDERAL DE PERNAMBUCO CENTRO DE INFORMÁTICA GRADUAÇÃO EM ENGENHARIA DA COMPUTAÇÃO Sistema de Sumarização Automática de Textos Baseado em Classes de Documentos PROPOSTA DE TRABALHO DE GRADUAÇÃO

Leia mais

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva Visão computacional Juliana Patrícia Detroz Orientador: André Tavares Silva Visão computacional Tentativa de replicar a habilidade humana da visão através da percepção e entendimento de uma imagem; Fazer

Leia mais

Desenvolvimento de Ferramentas no igeom: Utilizando a Geometria Dinâmica no Ensino

Desenvolvimento de Ferramentas no igeom: Utilizando a Geometria Dinâmica no Ensino Desenvolvimento de Ferramentas no igeom: Utilizando a Geometria Dinâmica no Ensino Presencial e à Distância Seiji Isotani Orientador: Leônidas de Oliveira Brandão Defesa de Mestrado Departamento de Ciência

Leia mais

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo

Introdução ao Processamento de Línguas Naturais. SCC5908 Introdução ao Processamento de Língua Natural. Thiago A. S. Pardo /0/0 Introdução ao Processamento de Línguas Naturais SCC5908 Introdução ao Processamento de Língua Natural Thiago A. S. Pardo Dilemas no Brasil Como lidar com a interdisciplinaridade Linda no papel, complicada

Leia mais

Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português

Utilizando Features Linguísticas Genéricas para Classificação de Triplas Relacionais em Português Proceedings of Symposium in Information and Human Language Technology. Uberlândia, MG, Brazil, October 2 5, 2017. c 2017 Sociedade Brasileira de Computação. Utilizando Features Linguísticas Genéricas para

Leia mais

5º Congresso de Pós-Graduação

5º Congresso de Pós-Graduação 5º Congresso de Pós-Graduação UMA FERRAMENTA PARA GERAÇÃO AUTOMÁTICA DE DIAGRAMA DE CLASSES A PARTIR DA ESPECIFICAÇÃO DE REQUISITOS EM LINGUAGEM NATURAL Autor(es) WILSON CARLOS DA SILVA Orientador(es)

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest

Leia mais

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY

DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY DEFINING METRIC THRESHOLDS FOR SOFTWARE PRODUCT LINES: A COMPARATIVE STUDY APRESENTADO POR: BRUNO LUAN DE SOUSA QUA L I DA DE E MEDIÇÃO DE SOFTWA R E U N I V E R S I DA D E F E D E R A L D E MINAS G E

Leia mais

Perspectivas para Busca Semântica para Comunicação Alternativa: o caso SCALA. João Carlos Gluz Universidade do Vale do Rio dos Sinos (UNISINOS)

Perspectivas para Busca Semântica para Comunicação Alternativa: o caso SCALA. João Carlos Gluz Universidade do Vale do Rio dos Sinos (UNISINOS) Eixo 3:. Research and Development to inform the field of AAC. Área C : AAC action research Área D: Development in AAC Perspectivas para Busca Semântica para Comunicação Alternativa: o caso SCALA João Carlos

Leia mais

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA 18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) JONAS RAFAEL ONOFRE Orientador(es) MARINA TERESA PIRES VIEIRA

Leia mais

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos

CRI Minas Indústria 4.0. Case Vallourec: Golden Batch na produção de tubos CRI Minas Indústria 4.0 Case Vallourec: Golden Batch na produção de tubos 02 05 2018 G o l d e n B a t c h A n a l y s i s Case Vallourec Líder mundial em soluções tubulares premium, a Vallourec assegura

Leia mais

Tópicos Especiais em Reconhecimento de Padrões [2COP329] Mestrado em Ciência da. Sylvio Barbon Jr

Tópicos Especiais em Reconhecimento de Padrões [2COP329] Mestrado em Ciência da. Sylvio Barbon Jr Tópicos Especiais em Reconhecimento de Padrões [2COP329] Mestrado em Ciência da Computação Sylvio Barbon Jr barbon@uel.br (2/20) Tema Aula 1 Introdução ao Reconhecimento de Padrões 1 Introdução 2 Referências

Leia mais

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio

Leia mais

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os

Leia mais

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Luiz Henrique Dutra da Costa (PIBIC/Unioeste), Carlos Andres Ferrero, Cláudio Saddy Rodrigues

Leia mais

6 Atributos. A dívida da empresa subiu.

6 Atributos. A dívida da empresa subiu. 6 Atributos Para buscar o sentimento de um texto automaticamente precisamos encontrar boas pistas ao longo do discurso. Uma grande variedade de palavras e expressões possui conotação positiva ou negativa,

Leia mais

Descoberta de Conhecimento em Prontuários Eletrônicos

Descoberta de Conhecimento em Prontuários Eletrônicos Descoberta de Conhecimento em Prontuários Eletrônicos Stanley Loh 1,2, Maurício Almeida Gameiro 4,6, Fábio Leite Gastal 4,5, José Palazzo M. de Oliveira 3 1 Universidade Católica de Pelotas (UCPEL) Escola

Leia mais

USANDO XML PARA CARGA AUTOMÁTICA DE DADOS EM BANCOS DE DADOS DE PROJETO INDUSTRIAL DE MAQUETE ELETRÔNICA PROPOSTA DE TRABALHO DE GRADUAÇÃO

USANDO XML PARA CARGA AUTOMÁTICA DE DADOS EM BANCOS DE DADOS DE PROJETO INDUSTRIAL DE MAQUETE ELETRÔNICA PROPOSTA DE TRABALHO DE GRADUAÇÃO UNIVERSIDADE FEDERAL DE PERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA USANDO XML PARA CARGA AUTOMÁTICA DE DADOS EM BANCOS DE DADOS DE PROJETO INDUSTRIAL DE MAQUETE ELETRÔNICA PROPOSTA

Leia mais

Um Estudo sobre Métodos de Classificação Multirrótulo

Um Estudo sobre Métodos de Classificação Multirrótulo Um Estudo sobre Métodos de Classificação Multirrótulo Everton Alvares Cherman 1, Maria Carolina Monard 1 1 Instituto de Ciências Matemáticas e de Computação Universidade de São Paulo Laboratório de Inteligência

Leia mais

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Mineração de Dados Espaciais B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Roteiro 2 Introdução Mineração de Dados Estado da Arte Artigo apresentado Conclusão

Leia mais

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos

Verificação automática de substantivos compostos através de reconhecimento de padrões sintáticos Universidade Federal do Rio Grande do Sul Grupo de Processamento de Linguagens Naturais Projeto Expressões Multipalavras Verificação automática de substantivos compostos através de reconhecimento de padrões

Leia mais

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web

Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Desenvolvimento de Sistemas de Extração de Informações para Ambientes Colaborativos na Web Douglas Nogueira 1, Vladia Pinheiro 2, Vasco Furtado 1, Tarcisio Pequeno 1 1 Mestrado em Informática Aplicada

Leia mais

2 Sentiment Analysis 2.1

2 Sentiment Analysis 2.1 2 Sentiment Analysis 2.1 Definição do Problema Sentiment Analysis é um problema de categorização de texto no qual deseja-se detectar opiniões favoráveis e desfavoráveis com relação a um determinado tópico

Leia mais

Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI

Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI Processo de Descoberta de Conhecimento aplicado ao SIGAA UFPI Francisco N. C. de Araújo 1, Vinicius P. Machado 1 1 Departamento de Ciência da Computação Universidade Federal do Piauí (UFPI) Teresina, PI

Leia mais

A contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe

A contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe A contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe Leopoldo Ramos de Oliveira 1, Fausto Bernard Melo Soares 2, José Acácio de Jesus

Leia mais

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína Universidade Estadual de Londrina - UEL 2 CTA 121 - Processamento de Imagens em Alimentos Prática de Aprendizado de Máquina com Weka 28/07/2016 Prof. Dr. Sylvio Barbon Jr Tutorial: Árvore de Decisão com

Leia mais

Tipos para uma Linguagem de Transformação

Tipos para uma Linguagem de Transformação Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática Proposta de Trabalho de Graduação Tipos para uma Linguagem de Transformação Aluno: Orientador: Alexandra Barreto

Leia mais

Prof. Heitor Silvério Lopes

Prof. Heitor Silvério Lopes Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto

Leia mais

TEMPLATE PARA TCC IFFAR - SVS

TEMPLATE PARA TCC IFFAR - SVS MINISTÉRIO DA EDUCAÇÃO SECRETARIA DE EDUCAÇÃO PROFISSIONAL E TECNOLÓGICA INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA FARROUPILHA - CAMPUS SÃO VICENTE DO SUL TEMPLATE PARA TCC IFFAR - SVS TRABALHO

Leia mais