Pré-processamento textual para a extração de informação em bases de patentes

Documentos relacionados
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

SBC - Sistemas Baseados em Conhecimento

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Utilização da Indexação Automática para Auxílio à Construção de uma Base de Dados para a Extração de Conhecimento aplicada à Doenças Pépticas

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

1 Introdução Motivação

APLICAÇÃO DA TÉCNICA TEXT MINING PARA AUXÍLIO NA CLASSIFICAÇÃO DE INCIDENTES DE SERVICE DESK

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas

TCE Informática Dados Estruturados e Não-Estruturados Prof. Marcelo Ribeiro

Uma ferramenta para expansão do vocabulário com base em coocorrência

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

M V C, J S O N E X M L P R O F. M E. H É L I O E S P E R I D I Ã O

DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

Sistema Gestor de Bancos de Dados (SGBD)

Ferramentas para Recuperação e Mineração de Informações

Identificação em Documentos

Tutorial sobre o MineraFórum

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Aprendizagem de algoritmos Numéricos na Web usando PHP

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

KDD, Mineração de Dados e Algoritmo Apriori

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

GERENCIAMENTO DE DADOS Exercícios

6 Metodologia Proposta

João Ribeiro Carrilho Junior. Desenvolvimento de uma Metodologia para Mineração de Textos. Dissertação de Mestrado

Extração de informação como base para descoberta de conhecimento em dados não estruturados

XML. Prof. Júlio Machado

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

IMAGE MINING: CONCEITOS E TÉCNICAS

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

BCC390 - Monografia I

Desenvolvimento Web. Introdução Geral. Prof. Vicente Paulo de Camargo

Abrindo os dado públicos da Universidade Federal do Maranhão Um breve estudo

Modelo para a representação de informações, utilizado por aplicações Web que trabalham com a tecnologia AJAX.

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

U NIVERSIDADE F EDERAL DE P ERNAMBUCO

Sistemas da Informação. Banco de Dados I. Edson Thizon

Descoberta de Conhecimento em Bancos de Dados - KDD

Text Mining realiza várias funções de busca, análise lingüística e categorização. Mecanismos de busca se restringem à Internet. (Chen, H.

Recursos de Dados. Prof. Paulo Cesar F. de Oliveira, BSc, PhD. 06/05/14 P C F de Oliveira

Ryan Mitchell. Novatec

Geração Automática de Metadados

Web mining. Universidade Federal de Mato Grosso do Sul (UFMS) Campo Grande, MS Brasil

CP Compiladores I Prof. Msc.. Carlos de Salles

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

Extração de Conhecimento & Mineração de Dados

Um esquema de nomes para localização de fontes de informação na Web, esse esquema chama-se URI.

Gosta de acompanhar os rumos das linguagens de programação? Então não fique de fora dessa! Descubra o que é o HTML 5!

Arquitetura de um Ambiente de Data Warehousing

VISUALIZAÇÃO DE DADOS MÉDICOS

Palavras-chaves: Mineração de Texto, Indexação Semiautomática, Ciência da Informação, Recuperação da Informação, Gestão da Tecnologia da Informação.

Informática Parte 23 Prof. Márcio Hunecke

RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados

Aplicação de Mineração de Textos na Indicação de Palavras-chave em Artigos Científicos

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

Prof. Heitor Silvério Lopes

TÍTULO: DESENVOLVIMENTO DE UM SISTEMA DE PERGUNTA E RESPOSTA BASEADO EM CORPUS

4 Coleta de Informações, Extração de Atributos e Métodos de Classificação

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

2COP355 INTELIGÊNCIA COMPETITIVA. Introdução. Sylvio Barbon Junior 14 de novembro de 2015 DC-UEL Sylvio Barbon Jr 1

Banco de Dados Data Mining Data Warehouse Big Data

Banco de Dados. Banco de Dados

Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB

ORGANIZANDO DADOS E INFORMAÇÕES: Bancos de Dados

RetiraAcentuação e PostCounter: Ferramentas de otimização e preparação de arquivos

Avaliação de Monografias - MAC0499

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado

5 Conclusão e trabalhos futuros

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

1 Introdução Motivação

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

Uma Metodologia para Auxiliar no Processo de Construção de Bases de Dados Estruturadas a partir de Laudos Médicos

Arquitetura de um Ambiente de Data Warehousing

Leitura de Documentos. Priscila Engiel

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Web I F R N I N S T I T U TO F E D E R A L D E E D U C A Ç Ã O, C I Ê N C I A E T E C N O LO G I A D O R I O G R A N D E D O N R T E.

as fases contemplam todas as etapas do ciclo de desenvolvimento (requisitos, análise, projeto, implementação, teste e validação);

Desenvolvimento de Aplicações Distribuídas

Aprendizado de Máquina (Machine Learning)

Desenvolvimento de um Web Crawler para indexação de documentos científicos

Conceitos Básicos Sistemas de banco de dados; Sistemas de gerência de banco de dados.

Uso da Internet. Disciplina: Gestão da Tecnologia de Sistemas. Professor: Thiago Silva Prates

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Consultas por Similaridade em Domínios de Dados Complexos

Modelagem de Curvas B-Spline na Metodologia de Extração de Rodovias em Imagens Digitais

Transcrição:

Pré-processamento textual para a extração de informação em bases de patentes Bruno Silva Sette, Claudia Aparecida Martins Instituto de Computação Universidade Federal de Mato Grosso (UFMT) Av. Fernando Corrêa da Costa, nº 2367 Bairro Boa Esperança Cuiabá MT Brasil brunosilvasette@gmail.com, claudia@ic.ufmt.br Abstract. Patents are records of technological innovations stored in datasets. It is necessary an efficient method to search and analyze the information presents in the patents. This article describes a methodology that propose to collect, preprocess, extract and analyze of textual data relating to patents, from Periscope system. Several patents are recovered using a specific algorithms from patents site. In this work is showed the collection and preprocessing of patents. A preprocessing is realized for patterning of terms and reducing the number of characters. The results of preprocessing based on ten patents showed that the number of characters was reduced drastically. Resumo. s são registros de inovações tecnológicas armazenadas em banco de dados. É necessário um método eficaz para a busca tanto de informações, visando o processo de depósito de novas patentes, quanto para análise de conhecimento relevante de padrões, pois, apesar das patentes estarem disponíveis livremente na web, nem sempre o conhecimento intrínseco presente é aproveitado. Este artigo descreve uma metodologia proposta para a coleta, pré-processamento, extração de padrões e análise de dados textuais referente a documentos de patentes, relacionadas ao projeto Periscope. Várias patentes são recuperadas usando algoritmos específicos em um site de patentes. Um pré-processamento é realizado para padronização dos termos e redução do número de caracteres. O resultado do pré-processamento de dez patentes mostram que o número de caracteres são reduzidos drasticamente. 1. Introdução Descoberta de conhecimento em base de dados (Knowledge Discovery in Datasets - KDD) é um processo para obtenção de informações relevantes e úteis na tomada de decisões. No cenário atual, com a globalização da Internet e o acesso à informação, o conhecimento torna-se um fator de vantagem competitiva e, portanto, uma moeda valiosa a ser adquirida na área de gestão estratégica de uma empresa [Ferreira et al. 29]. Considerando o campo de inovações tecnológicas, no qual as patentes são registradas em banco de dados, é necessário um método eficaz para a busca tanto de informações, visando o processo de depósito de novas patentes, quanto para análise de conhecimento relevante de padrões, pois, apesar das patentes estarem disponíveis livremente na web, nem sempre o conhecimento intrínseco presente é aproveitado [Porter 1985]. No entanto, as patentes são armazenadas em formato textual e analisar dados não estruturados, como textos, é uma tarefa complexa que exige uma metodologia adequada, principalmente relacionada com o pré-processamento, comparada a dados estruturados. E como cerca de 8% de informações contidas nas organizações estão contidas em documentos textuais, métodos como o de Mineração de Textos (Text Mining) são aplicados em diversos contextos e finalidades [Mitchel 215].

Mineração de Textos é considerada, por muitos autores, como uma etapa do processo de Descoberta de Conhecimento em Textos (Knowledge Discovery from Text KDT) e utiliza técnicas de análise e extração de padrões a partir de textos e frases [Passos 26]. Consiste na aplicação de algoritmos computacionais a fim de buscar informações implícitas nos respectivos dados (textos) que, normalmente, não poderiam ser obtidas de forma tradicional [Morais 27; Wives 1999]. As principais contribuições nesse processo estão relacionadas à busca de informações específicas em documentos, a análise qualitativa e quantitativa de grandes volumes de textos, e a melhor compreensão do conteúdo disponível em documentos textuais [Passos, 26]. Considerando esse contexto, este trabalho apresenta uma metodologia computacional para ser aplicada nas etapas iniciais de busca e obtenção de informações e conhecimento em bases de patentes, metodologia essa baseada nos métodos de Mineração de Textos. É descrito sua etapa inicial, com a coleta de dados, até a etapa de tratamento e pré-processamento dos dados. É um trabalho em desenvolvimento que faz parte de um projeto maior desenvolvido num sistema multiplataforma, denominado Periscope. Neste sistema, os dados contidos nas patentes podem ser tratados pelo usuário para corrigir nomes de depositantes e inventores que, por vezes, são indexados de diferentes formas ou até mesmo com erros de grafia, nas bases de patente. Também é possível incluir informações não disponíveis nas bases nas quais os documentos foram extraídos, como por exemplo, a natureza jurídica dos depositantes. Nesse trabalho, são apresentados as duas primeiras etapas do projeto e seus resultados, ou seja, como foi realizada a coleta de dados e o pré-processamento das patentes recuperadas. O trabalho está organizado em seções. Na Seção 2 é apresentada a metodologia utilizada nas etapas um e dois do projeto maior. Na Seção 3 é descrita, também, cada etapa da metodologia e os resultados obtidos com o pré-processamento. Na Seção 4 são apresentadas as conclusões. 2. Metodologia aplicada em patentes O processo de Mineração de Textos consiste de várias etapas e envolve desde a coleta dos dados textuais, pré-processamento, indexação, mineração até a análise dos resultados, como mostrado na Figura 1 [Morais 27]. A Coleta é a etapa que responsável pela busca de dados, ou seja, os dados de interesse a serem recuperados. O Pré-processamento é a etapa de tratamento e limpeza dos dados coletados na etapa anterior. A etapa de Indexação consiste na aplicação de algoritmos para recuperar, em textos, documentos relevantes a uma query, sem precisar examinar o documento inteiro. A etapa de Mineração consiste na aplicação de algoritmos computacionais para extrair informações e padrões, a fim de obter conhecimentos implícitos nos dados recuperados. Por fim, a Análise, ou pósprocessamento, é a etapa que visa identificar e validar a veracidade nas informações recuperadas pelo sistema [Mitchel 215; Passos 26]. Devido ao escopo amplo do projeto e por ter iniciado recentemente, para este trabalho, foram realizadas as duas primeiras etapas do processo de mineração de textos, da seguinte forma:

Figura 1. Etapas de um processo de Mineração de Textos [Morais 27] 1. Coleta: os dados utilizados são textos de patentes coletados entre o mês de março e julho de 216, que estão disponíveis na página web United States Patent and Trademark Office 1 - USPTO. Para a obtenção destes dados, e o armazenamento dos mesmos, foi necessário a utilização de um mecanismo de busca e recuperação de dados em ambientes web, como um crawler. Crawler é um programa de computador desenvolvido para navegar pela Internet buscando informações e/ou coletando dados. Na teoria, é o procedimento de coletar dados por meio de qualquer meio que não seja um programa interagindo com uma API (Application programming interface). Normalmente, isso é feito implementando um programa que consulte um servidor web automaticamente, solicitando dados na forma de HTML (HyperText Markup Language, que significa Linguagem de Marcação de Hipertexto) ou outros arquivos. Diversas linguagens possuem bibliotecas prontas para o desenvolvimento de crawlers. Aqui, foi utilizada a biblioteca Beautfulsoup, pela facilidade da implementação e as funções desenvolvidas especialmente para as técnicas de coleta de dados, disponível na linguagem Python [Mitchel 215]. 2. Pré-processamento: o objetivo desta etapa é a eliminação de dados irrelevantes e a padronização de termos utilizando algoritmos específicos, de modo que, a etapa de recuperação de informação tenha uma melhor performance. Palavras (strings) como preposições, artigos, tags do HTML, entre outras, são pouco relevantes para o contexto do domínio de recuperação da informação visto que, geralmente, têm pouco significado na análise semântica dos textos, por serem comuns em todos os textos de uma mesma língua. Textos obtidos na web usando o s crawlers são carregados desses termos (palavras) irrelevantes considerando que são intrínsecas à qualquer texto e, portanto, não discriminam o domínio. É importante que essas palavras sejam eliminadas para não sobrecarregarem o processo e/ou para não interferirem na análise das informações. Diversas linguagens dão suporte para essa etapa de pré-processamento em dados textuais. Neste trabalho foi escolhida a biblioteca Natural Language Toolkit - NLTK, da linguagem Python, por possuir ferramentas adequadas para esta etapa do processo [Bird and Klein and Loper 21]. O pré-processamento foi dividido em quatro (sub)etapas: Case Folding, Remoção de tags HTML, Tokenização e Remoção de Stopwords, especificadas na Sessão 3. A seguir, são apresentados resultados preliminares das primeiras etapas, com 1 http://www.uspto.gov

ilustração de dez documentos. 3. Resultado do Pré-processamento O mecanismo de pesquisa padrão do site USPTO é o Quick Search (pesquisa rápida). O usuário pode selecionar alguns termos básicos para a busca e, em seguida, obter os resultados relevantes, de acordo com os algoritmos utilizados pelo sistema de busca. O crawler utiliza os mesmos algoritmos de busca presentes no site para obter e gerar o resultado preliminar de patentes. Até o momento, já foram recuperadas e preprocessadas 577.411 patentes do site USPTO, depositadas entre o mês de março e julho de 216. Para ilustrar os resultados do pré-processamento, considere dez patentes (textos) recuperados da USPTO. Os textos, ou patentes, obtidos são armazenados em arquivos, do tipo JSON (JavaScript Object Notation), que é um formato leve de arquivo para intercâmbio de dados computacionais, contendo a descrição geral da patente e o código da mesma, além da página contendo o corpo da patente. Como mencionado, os textos recuperados possuem características que não discriminam o domínio, tais como: caracteres irrelevantes para as análises e recuperação de informações, com tags HTML e uma quantidade significativamente grande de caracteres ou termos (Figura 2). 5 4 P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 2: de caracteres por patente Considerando essas dez patentes, que variam de 5K a 45K 2 caracteres, o préprocessamento consiste em padronizar termos, remover palavras irrelevantes, tags e caracteres especiais. A seguir são apresentadas as quatro etapas no pré-processamento dos textos. 3.1. Case Folding É o processo de converter todos os caracteres de um documento para o mesmo padrão, como letras em caixa alta para baixa, maiúsculas para minúsculas, etc. Nesta etapa não houve alterações na quantidade de caracteres. 3.2. Remoção de tags HTML O crawler retorna documento em formato HTML carregado de tags e outros símbolos que são parte da estrutura desse tipo de arquivo. Portanto, é necessário a remoção desses ruídos. Na Figura 3 é mostrada a quantidade de caracteres de cada patente após a remoção de tags. 2 Variação média em quantidade de caracteres de cada documento.

45 4 35 25 15 5 P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 3: de caracteres por patente sem as tags É interessante observar que a patente P3 reduziu em mais de 5K caracteres (45. para menos de 4.). 3.3. Tokenização Essa etapa consiste em transformar o texto em apenas um conjunto de palavras (tokens) de forma limpa, eliminando caracteres inválidos e espaços eventualmente presentes no texto. Geralmente, os textos são carregados de caracteres especiais, como: ~,!, @, etc. Além disso, a simples eliminação dos espaços diminui consideravelmente a quantidade de caracteres presentes na patente. O texto passa a ser tratado como uma lista, o que gera um ganho significativo no processamento desses dados e será útil para gerar uma tabela de valores, para as etapas posteriores. Na Figura 4 é mostrada a quantidade de caracteres de cada patente após a tokenização. 35 25 15 5 P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 4: de caracteres por patente após tokenização É interessante observar que a patente P3 reduziu drasticamente o número de caracteres, para menos de 35K, como mostrado na Figura 4. 3.4. Remoção de Stopwords Palavras irrelevantes em um processo de recuperação de informação devem ser eliminadas. Nesta etapa, uma lista contendo palavras a serem descartadas é utilizada - Stoplist. São palavras que não possuem conteúdo semântico significativo para o contexto em que elas existes, e portanto, irrelevantes para a análise discriminante de textos. Palavras tais como: (em inglês) i, me, my, myself, we, our, não

fornecem nenhuma informação discriminativa na expressão do conteúdo dos textos [Saton and Mcgill 1983]. Aqui, a remoção das stopwords foi realizada utilizando a biblioteca NLTK (Natural Language Toolkit) disponível na linguagem Python. Essa biblioteca já possui diversas stoplists em diversos idiomas. Novamente, a patente P3 reduziu o número de caracteres de aproximadamente 35K para pouco mais de 25K, como mostrado na Figura 5. 25 15 5 P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 5: de caracteres por patente sem stopwords 3.5. Análise comparativa do pré-processamento das patentes Após todas as etapas, é possível analisar comparativamente os resultados obtidos na redução de caracteres em cada etapa realizada, como mostrados na Tabela 1 e na Figura 6, no qual Redução (%) é a porcentagem de caracteres excluídos em todo o processo.é interessante observar que o documento que teve o menor número de caracteres reduzidos foi a P1 e o maior número foi a patente P1. Está sendo analisada essa relação entre o número inicial de caracteres e o número final, após a redução. Tabela 1. Resumo dos caracteres das patentes

Inicial Sem HTML Tokens Stopwords Redução (%) P1 31244 288784 244784 195675 37,29% P2 57272 4724 3432 17593 69,28% P3 46216 385622 32763 25378 45,1% P4 1713 85629 7243 53658 46,72% P5 121146 95964 8249 5542 54,57% P6 96285 8592 67946 49535 48,55% P7 7398 5944 5373 34179 53,75% P8 1194 96243 81577 54195 54,46% P9 133557 11889 99954 69312 48,1% P1 114852 67521 5681 33159 71,13% 5 45 4 35 25 15 5 P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Inicial Sem HTML Tokenizado Stopwords Figura 6: Comparação da quantidade de caracteres das patentes É possível verificar na Tabela 1, com o exemplo da P5 que teve uma redução ao final do processamento de 54,57% de caracteres, como mostrado também na Figura 6. É interessante observar na Figura 6 que a curva que representa o comportamento na redução de caracteres em todas as patentes foram similares. Observa-se que, o número de caracteres é reduzido drasticamente após o préprocessamento. Mesmo após essa redução de caracteres, a dimensionalidade ainda é significativa, o que pode garantir a integridades dos dados por um lado, mas ainda é um problema na geração de uma tabela, para processamento na etapa de mineração. Assim, técnicas de redução de dimensionalidade estão sendo selecionadas para aplicação nos dados para, posteriormente, gerar um conjunto de palavras relevantes a serem submetidos às próximas etapas. 4. Conclusões A busca de informações em patentes é uma importante tarefa para o depósito de novas patentes no banco e para a busca de padrões nesses dados. A aplicação de algoritmos de mineração de dados a textos é complexa devido a natureza não estruturada (textual) dos dados. Além disso, essa tarefa não é trivial devido ao grande volume de patentes e as diversas formas de dizer a mesma coisa com palavras semelhantes. Assim, é importante e necessário mecanismos automáticos para auxiliar na recuperação de informação nesses dados de patentes. Neste trabalho é proposta uma metodologia baseada nas etapas de um processo de KDT. Inicialmente, são apresentadas as etapas para coletar e realizar o préprocessamento de patentes relacionados ao sistema Periscope. Já foram coletadas e

processadas mais de quinhentas mil patentes do site USPTO. Para ilustrar as etapas desenvolvidas, são apresentadas o pré-processamento de dez documentos de patentes, no qual é possível verificar uma drástica redução no número de caracteres. Após essas etapas concluídas, o ganho referente a quantidade de caracteres desconsiderados no corpo das patentes pode ser considerada alta. As principais dificuldades encontradas no processo surgem da própria natureza dos dados analisados, como sua dimensionalidade, e na coleta dos mesmos, sendo necessário o desenvolvimento de métodos específicos para a coleta de formatos específicos. Os dados estão sendo processados para que possam ser reduzidos ainda mais a dimensionalidade das palavras, pela busca de palavras mais relevantes para o contexto e, também, serem transformados em uma tabela com os atributos (palavras) e respectivos valores, utilizando várias medidas e informações relacionadas ao contexto, para serem submetidos às etapas posteriores, como indexação, mineração, análise e integração ao Periscope. Referências Bird, Seven and Klein, Ewan and Loper Edward. (21), Natural Language Processing with Python, 1 th edition, O'Reilly. Ferreira, A., A., and Guimarães, E., R., and Contador, J., C., (29) como instrumento competitivo e como fonte de informação tecnológica in Gest. Prod., São Carlos, v. 16, n. 2, p. 29-221. Mitchel, Ryan. (215), Web Scraping with Python - Collecting Data from the Modern Web, 1 th edition, O'Reilly. Morais, Edison A., M. (27), Contextualização de Documentos em Domínios Representados por Ontologias Utilizando Mineração de Textos, Dissertação de Mestrado UFG. Passos, E. and Aranha, C. (26), A Tecnologia de Mineração de Textos - RESI- Revista Elerônica de Sistemas de Informação, Nº2. Porter, M. E. (1985) Vantagem competitiva: criando e sustentando um desempenho superior. 7 ed. Rio de Janeiro: Campus. Saton, G. and Mcgill, M. J. (1983), Introduction to Modern Information Retrieval. John Wiley and Sons, New York. Wives, L. (22), Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. Exame de Qualificação EQ-69, PPGC-UFRGS. Wives, L. (1999), Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de Stopwords. Disertação de Mestrado, PPGC/UFRGS, Porto Alegre (Brasil).