Pré-processamento textual para a extração de informação em bases de patentes

Tamanho: px
Começar a partir da página:

Download "Pré-processamento textual para a extração de informação em bases de patentes"

Transcrição

1 Pré-processamento textual para a extração de informação em bases de patentes Bruno Silva Sette, Claudia Aparecida Martins Instituto de Computação Universidade Federal de Mato Grosso (UFMT) Av. Fernando Corrêa da Costa, nº 2367 Bairro Boa Esperança Cuiabá MT Brasil brunosilvasette@gmail.com, claudia@ic.ufmt.br Abstract. Patents are records of technological innovations stored in datasets. It is necessary an efficient method to search and analyze the information presents in the patents. This article describes a methodology that propose to collect, preprocess, extract and analyze of textual data relating to patents, from Periscope system. Several patents are recovered using a specific algorithms from patents site. In this work is showed the collection and preprocessing of patents. A preprocessing is realized for patterning of terms and reducing the number of characters. The results of preprocessing based on ten patents showed that the number of characters was reduced drastically. Resumo. s são registros de inovações tecnológicas armazenadas em banco de dados. É necessário um método eficaz para a busca tanto de informações, visando o processo de depósito de novas patentes, quanto para análise de conhecimento relevante de padrões, pois, apesar das patentes estarem disponíveis livremente na web, nem sempre o conhecimento intrínseco presente é aproveitado. Este artigo descreve uma metodologia proposta para a coleta, pré-processamento, extração de padrões e análise de dados textuais referente a documentos de patentes, relacionadas ao projeto Periscope. Várias patentes são recuperadas usando algoritmos específicos em um site de patentes. Um pré-processamento é realizado para padronização dos termos e redução do número de caracteres. O resultado do pré-processamento de dez patentes mostram que o número de caracteres são reduzidos drasticamente. 1. Introdução Descoberta de conhecimento em base de dados (Knowledge Discovery in Datasets - KDD) é um processo para obtenção de informações relevantes e úteis na tomada de decisões. No cenário atual, com a globalização da Internet e o acesso à informação, o conhecimento torna-se um fator de vantagem competitiva e, portanto, uma moeda valiosa a ser adquirida na área de gestão estratégica de uma empresa [Ferreira et al. 29]. Considerando o campo de inovações tecnológicas, no qual as patentes são registradas em banco de dados, é necessário um método eficaz para a busca tanto de informações, visando o processo de depósito de novas patentes, quanto para análise de conhecimento relevante de padrões, pois, apesar das patentes estarem disponíveis livremente na web, nem sempre o conhecimento intrínseco presente é aproveitado [Porter 1985]. No entanto, as patentes são armazenadas em formato textual e analisar dados não estruturados, como textos, é uma tarefa complexa que exige uma metodologia adequada, principalmente relacionada com o pré-processamento, comparada a dados estruturados. E como cerca de 8% de informações contidas nas organizações estão contidas em documentos textuais, métodos como o de Mineração de Textos (Text Mining) são aplicados em diversos contextos e finalidades [Mitchel 215].

2 Mineração de Textos é considerada, por muitos autores, como uma etapa do processo de Descoberta de Conhecimento em Textos (Knowledge Discovery from Text KDT) e utiliza técnicas de análise e extração de padrões a partir de textos e frases [Passos 26]. Consiste na aplicação de algoritmos computacionais a fim de buscar informações implícitas nos respectivos dados (textos) que, normalmente, não poderiam ser obtidas de forma tradicional [Morais 27; Wives 1999]. As principais contribuições nesse processo estão relacionadas à busca de informações específicas em documentos, a análise qualitativa e quantitativa de grandes volumes de textos, e a melhor compreensão do conteúdo disponível em documentos textuais [Passos, 26]. Considerando esse contexto, este trabalho apresenta uma metodologia computacional para ser aplicada nas etapas iniciais de busca e obtenção de informações e conhecimento em bases de patentes, metodologia essa baseada nos métodos de Mineração de Textos. É descrito sua etapa inicial, com a coleta de dados, até a etapa de tratamento e pré-processamento dos dados. É um trabalho em desenvolvimento que faz parte de um projeto maior desenvolvido num sistema multiplataforma, denominado Periscope. Neste sistema, os dados contidos nas patentes podem ser tratados pelo usuário para corrigir nomes de depositantes e inventores que, por vezes, são indexados de diferentes formas ou até mesmo com erros de grafia, nas bases de patente. Também é possível incluir informações não disponíveis nas bases nas quais os documentos foram extraídos, como por exemplo, a natureza jurídica dos depositantes. Nesse trabalho, são apresentados as duas primeiras etapas do projeto e seus resultados, ou seja, como foi realizada a coleta de dados e o pré-processamento das patentes recuperadas. O trabalho está organizado em seções. Na Seção 2 é apresentada a metodologia utilizada nas etapas um e dois do projeto maior. Na Seção 3 é descrita, também, cada etapa da metodologia e os resultados obtidos com o pré-processamento. Na Seção 4 são apresentadas as conclusões. 2. Metodologia aplicada em patentes O processo de Mineração de Textos consiste de várias etapas e envolve desde a coleta dos dados textuais, pré-processamento, indexação, mineração até a análise dos resultados, como mostrado na Figura 1 [Morais 27]. A Coleta é a etapa que responsável pela busca de dados, ou seja, os dados de interesse a serem recuperados. O Pré-processamento é a etapa de tratamento e limpeza dos dados coletados na etapa anterior. A etapa de Indexação consiste na aplicação de algoritmos para recuperar, em textos, documentos relevantes a uma query, sem precisar examinar o documento inteiro. A etapa de Mineração consiste na aplicação de algoritmos computacionais para extrair informações e padrões, a fim de obter conhecimentos implícitos nos dados recuperados. Por fim, a Análise, ou pósprocessamento, é a etapa que visa identificar e validar a veracidade nas informações recuperadas pelo sistema [Mitchel 215; Passos 26]. Devido ao escopo amplo do projeto e por ter iniciado recentemente, para este trabalho, foram realizadas as duas primeiras etapas do processo de mineração de textos, da seguinte forma:

3 Figura 1. Etapas de um processo de Mineração de Textos [Morais 27] 1. Coleta: os dados utilizados são textos de patentes coletados entre o mês de março e julho de 216, que estão disponíveis na página web United States Patent and Trademark Office 1 - USPTO. Para a obtenção destes dados, e o armazenamento dos mesmos, foi necessário a utilização de um mecanismo de busca e recuperação de dados em ambientes web, como um crawler. Crawler é um programa de computador desenvolvido para navegar pela Internet buscando informações e/ou coletando dados. Na teoria, é o procedimento de coletar dados por meio de qualquer meio que não seja um programa interagindo com uma API (Application programming interface). Normalmente, isso é feito implementando um programa que consulte um servidor web automaticamente, solicitando dados na forma de HTML (HyperText Markup Language, que significa Linguagem de Marcação de Hipertexto) ou outros arquivos. Diversas linguagens possuem bibliotecas prontas para o desenvolvimento de crawlers. Aqui, foi utilizada a biblioteca Beautfulsoup, pela facilidade da implementação e as funções desenvolvidas especialmente para as técnicas de coleta de dados, disponível na linguagem Python [Mitchel 215]. 2. Pré-processamento: o objetivo desta etapa é a eliminação de dados irrelevantes e a padronização de termos utilizando algoritmos específicos, de modo que, a etapa de recuperação de informação tenha uma melhor performance. Palavras (strings) como preposições, artigos, tags do HTML, entre outras, são pouco relevantes para o contexto do domínio de recuperação da informação visto que, geralmente, têm pouco significado na análise semântica dos textos, por serem comuns em todos os textos de uma mesma língua. Textos obtidos na web usando o s crawlers são carregados desses termos (palavras) irrelevantes considerando que são intrínsecas à qualquer texto e, portanto, não discriminam o domínio. É importante que essas palavras sejam eliminadas para não sobrecarregarem o processo e/ou para não interferirem na análise das informações. Diversas linguagens dão suporte para essa etapa de pré-processamento em dados textuais. Neste trabalho foi escolhida a biblioteca Natural Language Toolkit - NLTK, da linguagem Python, por possuir ferramentas adequadas para esta etapa do processo [Bird and Klein and Loper 21]. O pré-processamento foi dividido em quatro (sub)etapas: Case Folding, Remoção de tags HTML, Tokenização e Remoção de Stopwords, especificadas na Sessão 3. A seguir, são apresentados resultados preliminares das primeiras etapas, com 1

4 ilustração de dez documentos. 3. Resultado do Pré-processamento O mecanismo de pesquisa padrão do site USPTO é o Quick Search (pesquisa rápida). O usuário pode selecionar alguns termos básicos para a busca e, em seguida, obter os resultados relevantes, de acordo com os algoritmos utilizados pelo sistema de busca. O crawler utiliza os mesmos algoritmos de busca presentes no site para obter e gerar o resultado preliminar de patentes. Até o momento, já foram recuperadas e preprocessadas patentes do site USPTO, depositadas entre o mês de março e julho de 216. Para ilustrar os resultados do pré-processamento, considere dez patentes (textos) recuperados da USPTO. Os textos, ou patentes, obtidos são armazenados em arquivos, do tipo JSON (JavaScript Object Notation), que é um formato leve de arquivo para intercâmbio de dados computacionais, contendo a descrição geral da patente e o código da mesma, além da página contendo o corpo da patente. Como mencionado, os textos recuperados possuem características que não discriminam o domínio, tais como: caracteres irrelevantes para as análises e recuperação de informações, com tags HTML e uma quantidade significativamente grande de caracteres ou termos (Figura 2). 5 4 P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 2: de caracteres por patente Considerando essas dez patentes, que variam de 5K a 45K 2 caracteres, o préprocessamento consiste em padronizar termos, remover palavras irrelevantes, tags e caracteres especiais. A seguir são apresentadas as quatro etapas no pré-processamento dos textos Case Folding É o processo de converter todos os caracteres de um documento para o mesmo padrão, como letras em caixa alta para baixa, maiúsculas para minúsculas, etc. Nesta etapa não houve alterações na quantidade de caracteres Remoção de tags HTML O crawler retorna documento em formato HTML carregado de tags e outros símbolos que são parte da estrutura desse tipo de arquivo. Portanto, é necessário a remoção desses ruídos. Na Figura 3 é mostrada a quantidade de caracteres de cada patente após a remoção de tags. 2 Variação média em quantidade de caracteres de cada documento.

5 P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 3: de caracteres por patente sem as tags É interessante observar que a patente P3 reduziu em mais de 5K caracteres (45. para menos de 4.) Tokenização Essa etapa consiste em transformar o texto em apenas um conjunto de palavras (tokens) de forma limpa, eliminando caracteres inválidos e espaços eventualmente presentes no texto. Geralmente, os textos são carregados de caracteres especiais, como: etc. Além disso, a simples eliminação dos espaços diminui consideravelmente a quantidade de caracteres presentes na patente. O texto passa a ser tratado como uma lista, o que gera um ganho significativo no processamento desses dados e será útil para gerar uma tabela de valores, para as etapas posteriores. Na Figura 4 é mostrada a quantidade de caracteres de cada patente após a tokenização P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 4: de caracteres por patente após tokenização É interessante observar que a patente P3 reduziu drasticamente o número de caracteres, para menos de 35K, como mostrado na Figura Remoção de Stopwords Palavras irrelevantes em um processo de recuperação de informação devem ser eliminadas. Nesta etapa, uma lista contendo palavras a serem descartadas é utilizada - Stoplist. São palavras que não possuem conteúdo semântico significativo para o contexto em que elas existes, e portanto, irrelevantes para a análise discriminante de textos. Palavras tais como: (em inglês) i, me, my, myself, we, our, não

6 fornecem nenhuma informação discriminativa na expressão do conteúdo dos textos [Saton and Mcgill 1983]. Aqui, a remoção das stopwords foi realizada utilizando a biblioteca NLTK (Natural Language Toolkit) disponível na linguagem Python. Essa biblioteca já possui diversas stoplists em diversos idiomas. Novamente, a patente P3 reduziu o número de caracteres de aproximadamente 35K para pouco mais de 25K, como mostrado na Figura P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Figura 5: de caracteres por patente sem stopwords 3.5. Análise comparativa do pré-processamento das patentes Após todas as etapas, é possível analisar comparativamente os resultados obtidos na redução de caracteres em cada etapa realizada, como mostrados na Tabela 1 e na Figura 6, no qual Redução (%) é a porcentagem de caracteres excluídos em todo o processo.é interessante observar que o documento que teve o menor número de caracteres reduzidos foi a P1 e o maior número foi a patente P1. Está sendo analisada essa relação entre o número inicial de caracteres e o número final, após a redução. Tabela 1. Resumo dos caracteres das patentes

7 Inicial Sem HTML Tokens Stopwords Redução (%) P ,29% P ,28% P ,1% P ,72% P ,57% P ,55% P ,75% P ,46% P ,1% P ,13% P1 P2 P3 P4 P5 P6 P7 P8 P9 P1 Inicial Sem HTML Tokenizado Stopwords Figura 6: Comparação da quantidade de caracteres das patentes É possível verificar na Tabela 1, com o exemplo da P5 que teve uma redução ao final do processamento de 54,57% de caracteres, como mostrado também na Figura 6. É interessante observar na Figura 6 que a curva que representa o comportamento na redução de caracteres em todas as patentes foram similares. Observa-se que, o número de caracteres é reduzido drasticamente após o préprocessamento. Mesmo após essa redução de caracteres, a dimensionalidade ainda é significativa, o que pode garantir a integridades dos dados por um lado, mas ainda é um problema na geração de uma tabela, para processamento na etapa de mineração. Assim, técnicas de redução de dimensionalidade estão sendo selecionadas para aplicação nos dados para, posteriormente, gerar um conjunto de palavras relevantes a serem submetidos às próximas etapas. 4. Conclusões A busca de informações em patentes é uma importante tarefa para o depósito de novas patentes no banco e para a busca de padrões nesses dados. A aplicação de algoritmos de mineração de dados a textos é complexa devido a natureza não estruturada (textual) dos dados. Além disso, essa tarefa não é trivial devido ao grande volume de patentes e as diversas formas de dizer a mesma coisa com palavras semelhantes. Assim, é importante e necessário mecanismos automáticos para auxiliar na recuperação de informação nesses dados de patentes. Neste trabalho é proposta uma metodologia baseada nas etapas de um processo de KDT. Inicialmente, são apresentadas as etapas para coletar e realizar o préprocessamento de patentes relacionados ao sistema Periscope. Já foram coletadas e

8 processadas mais de quinhentas mil patentes do site USPTO. Para ilustrar as etapas desenvolvidas, são apresentadas o pré-processamento de dez documentos de patentes, no qual é possível verificar uma drástica redução no número de caracteres. Após essas etapas concluídas, o ganho referente a quantidade de caracteres desconsiderados no corpo das patentes pode ser considerada alta. As principais dificuldades encontradas no processo surgem da própria natureza dos dados analisados, como sua dimensionalidade, e na coleta dos mesmos, sendo necessário o desenvolvimento de métodos específicos para a coleta de formatos específicos. Os dados estão sendo processados para que possam ser reduzidos ainda mais a dimensionalidade das palavras, pela busca de palavras mais relevantes para o contexto e, também, serem transformados em uma tabela com os atributos (palavras) e respectivos valores, utilizando várias medidas e informações relacionadas ao contexto, para serem submetidos às etapas posteriores, como indexação, mineração, análise e integração ao Periscope. Referências Bird, Seven and Klein, Ewan and Loper Edward. (21), Natural Language Processing with Python, 1 th edition, O'Reilly. Ferreira, A., A., and Guimarães, E., R., and Contador, J., C., (29) como instrumento competitivo e como fonte de informação tecnológica in Gest. Prod., São Carlos, v. 16, n. 2, p Mitchel, Ryan. (215), Web Scraping with Python - Collecting Data from the Modern Web, 1 th edition, O'Reilly. Morais, Edison A., M. (27), Contextualização de Documentos em Domínios Representados por Ontologias Utilizando Mineração de Textos, Dissertação de Mestrado UFG. Passos, E. and Aranha, C. (26), A Tecnologia de Mineração de Textos - RESI- Revista Elerônica de Sistemas de Informação, Nº2. Porter, M. E. (1985) Vantagem competitiva: criando e sustentando um desempenho superior. 7 ed. Rio de Janeiro: Campus. Saton, G. and Mcgill, M. J. (1983), Introduction to Modern Information Retrieval. John Wiley and Sons, New York. Wives, L. (22), Tecnologias de descoberta de conhecimento em textos aplicadas à inteligência competitiva. Exame de Qualificação EQ-69, PPGC-UFRGS. Wives, L. (1999), Um Estudo sobre Agrupamento de Documentos Textuais em Processamento de Informações não Estruturadas Usando Técnicas de Stopwords. Disertação de Mestrado, PPGC/UFRGS, Porto Alegre (Brasil).

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos

Leia mais

SBC - Sistemas Baseados em Conhecimento

SBC - Sistemas Baseados em Conhecimento Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Pré-processamento de documentos Organização e Recuperação de Informação(GSI521) Introdução O pré-processamento de

Leia mais

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni

Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração

Leia mais

Descoberta de conhecimento em redes sociais e bases de dados públicas

Descoberta de conhecimento em redes sociais e bases de dados públicas Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:

Leia mais

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,

Leia mais

Utilização da Indexação Automática para Auxílio à Construção de uma Base de Dados para a Extração de Conhecimento aplicada à Doenças Pépticas

Utilização da Indexação Automática para Auxílio à Construção de uma Base de Dados para a Extração de Conhecimento aplicada à Doenças Pépticas Utilização da Indexação Automática para Auxílio à Construção de uma Base de Dados para a Extração de Conhecimento aplicada à Doenças Pépticas Daniel de F. Honorato 1, Huei D. Lee 1, Renato B. Machado 1,4,

Leia mais

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos

I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos 17 I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos Renan Gomes Pereira 1 Maria Fernanda Moura 2 Resumo: O objetivo deste trabalho é apresentar a ferramenta I-Preproc,

Leia mais

1 Introdução Motivação

1 Introdução Motivação 1 Introdução 1.1. Motivação Informações podem ser armazenadas das mais variadas maneiras. O modo mais clássico de armazenamento de informação é através da palavra escrita, impressa. O acesso à informação

Leia mais

APLICAÇÃO DA TÉCNICA TEXT MINING PARA AUXÍLIO NA CLASSIFICAÇÃO DE INCIDENTES DE SERVICE DESK

APLICAÇÃO DA TÉCNICA TEXT MINING PARA AUXÍLIO NA CLASSIFICAÇÃO DE INCIDENTES DE SERVICE DESK APLICAÇÃO DA TÉCNICA TEXT MINING PARA AUXÍLIO NA CLASSIFICAÇÃO DE INCIDENTES DE SERVICE DESK Carla Adriéli Fink Orientador: Professor Dr. Oscar Dalfovo Roteiro da Apresentação Introdução Objetivos Fundamentação

Leia mais

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words

Leia mais

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri Mineração de Dados Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri 1 Motivação Aumento da capacidade de processamento e de armazenamento de dados; Baixo custo; Grande quantidade de dados

Leia mais

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas

Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Ontologias Como Apoio Ao Mapeamento De Laudos Médicos De Endoscopia Digestiva Alta Para Bases De Dados Estruturadas Luiz Henrique Dutra da Costa (PIBIC/Unioeste), Carlos Andres Ferrero, Cláudio Saddy Rodrigues

Leia mais

TCE Informática Dados Estruturados e Não-Estruturados Prof. Marcelo Ribeiro

TCE Informática Dados Estruturados e Não-Estruturados Prof. Marcelo Ribeiro TCE Informática Dados Estruturados e Não-Estruturados Prof. Marcelo Ribeiro www.acasadoconcurseiro.com.br Informática DADOS ESTRUTURADOS E NÃO-ESTRUTURADOS Esses termos referem-se à forma como um conjunto

Leia mais

Uma ferramenta para expansão do vocabulário com base em coocorrência

Uma ferramenta para expansão do vocabulário com base em coocorrência Resumos Expandidos: XI Mostra de Estagiários e Bolsistas... 11 Uma ferramenta para expansão do vocabulário com base em coocorrência Exupério Lédo Silva Júnior 1 Roberta Akemi Sinoara 2 Solange Oliveira

Leia mais

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução 19 Congresso de Iniciação Científica IMPLEMENTAÇÃO DE GUIAS E ALGORITMOS PARA REGRAS DE ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) HARLEI MIGUEL DE ARRUDA LEITE Orientador(es)

Leia mais

M V C, J S O N E X M L P R O F. M E. H É L I O E S P E R I D I Ã O

M V C, J S O N E X M L P R O F. M E. H É L I O E S P E R I D I Ã O M V C, J S O N E X M L P R O F. M E. H É L I O E S P E R I D I Ã O A P L I C A Ç Õ E S M O N O L Í T I C A S Na época dos computares independentes um aplicativo era desenvolvido para ser usado em uma única

Leia mais

DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE

DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE DESCOBERTA DE CONHECIMENTO EM TEXTO APLICADA A UM SISTEMA DE ATENDIMENTO AOS USUÁRIOS DE UM PLANO DE ASSISTÊNCIA À SAÚDE Aline Regina de Oliveira Miranda Dissertação de Mestrado apresentada ao Programa

Leia mais

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO

DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO Universidade Federal de Ouro Preto - UFOP Instituto de Ciências Exatas e Biológicas - ICEB Departamento de Computação - DECOM DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO Aluno: Rafael

Leia mais

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro www.acasadoconcurseiro.com.br Informática PRÉ-PROCESSAMENTO DE DADOS EM DATA MINING Técnicas de pré-processamento e transformação de dados

Leia mais

Sistema Gestor de Bancos de Dados (SGBD)

Sistema Gestor de Bancos de Dados (SGBD) Sistema Gestor de Bancos de Dados (SGBD) Conceitos Gerais Prof. Guilherme Tomaschewski Netto guilherme.netto@gmail.com Roteiro! Contextualização! Apresentação, um pouco de história Legendas! Nesta apresentação

Leia mais

Ferramentas para Recuperação e Mineração de Informações

Ferramentas para Recuperação e Mineração de Informações Ferramentas Java para Recuperação e Mineração de Informações Fabrício J. Barth 1,2 1 Fundação Atech Tecnologias Críticas (fbarth@atech.br) 2 Centro Universitário SENAC (fabricio.jbarth@sp.senac.br) 9 de

Leia mais

Identificação em Documentos

Identificação em Documentos Identificação de Contexto Geográfico em Documentos Marcos Henrique Fonseca Ribeiro Bancos de Dados Geográficos Marcos Henrique Fonseca Ribeiro Slide 1 Roteiro Motivação e contexto Cenários a serem explorados

Leia mais

Tutorial sobre o MineraFórum

Tutorial sobre o MineraFórum Tutorial sobre o MineraFórum I Conceito O MineraFórum é um minerador de textos para fóruns de discussão. A ferramenta extrai os principais conceitos abordados no debate e oferece a opção de calcular a

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios

Leia mais

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida GESTÃO DE DADOS NAS ORGANIZAÇÕES Prof. Robson Almeida INFRA-ESTRUTURA DE SISTEMAS DE INFORMAÇÃO 3 CONCEITOS Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único

Leia mais

Aprendizagem de algoritmos Numéricos na Web usando PHP

Aprendizagem de algoritmos Numéricos na Web usando PHP Aprendizagem de algoritmos Numéricos Maria Angelica de Oliveira Camargo Brunetto Rafael Arabori Departamento de Computação UEL Sumário Como tudo começou Arquitetura do AnaWeb Conhecendo o Anaweb como aprendiz

Leia mais

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt BIG DATA: UMA INTRODUÇÃO Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) ronaldo.rgold@ime.eb.br / ronaldo.rgold@gmail.com 70% 60% 50% 40% 30% 20%

Leia mais

KDD, Mineração de Dados e Algoritmo Apriori

KDD, Mineração de Dados e Algoritmo Apriori Universidade Federal de São Carlos - UFSCar Departamento de Computação - DC Programa de Pós-Graduação em Ciência da Computação - PPGCC KDD, Mineração de Dados e Algoritmo Apriori Aluno: Rodrigo Moura J.

Leia mais

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário Roteiro PCC142 / BCC444 - Mineração de Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Introdução Tarefas

Leia mais

GERENCIAMENTO DE DADOS Exercícios

GERENCIAMENTO DE DADOS Exercícios GERENCIAMENTO DE DADOS Exercícios EXERCÍCIO 1 Marque a opção correta: 1. O conceito de administração de recursos de dados envolve o gerenciamento dos: a. Recursos de dados de uma organização e do seu pessoal.

Leia mais

6 Metodologia Proposta

6 Metodologia Proposta 6 Metodologia Proposta Neste capítulo são apresentados a metodologia proposta, a implementação e o desenvolvimento de um sistema para a coleta de dados inteligente na Web, seguido de aplicação prática

Leia mais

João Ribeiro Carrilho Junior. Desenvolvimento de uma Metodologia para Mineração de Textos. Dissertação de Mestrado

João Ribeiro Carrilho Junior. Desenvolvimento de uma Metodologia para Mineração de Textos. Dissertação de Mestrado João Ribeiro Carrilho Junior Desenvolvimento de uma Metodologia para Mineração de Textos Dissertação de Mestrado Dissertação apresentada como requisito parcial para obtenção do grau de Mestre pelo Programa

Leia mais

Extração de informação como base para descoberta de conhecimento em dados não estruturados

Extração de informação como base para descoberta de conhecimento em dados não estruturados Extração de informação como base para descoberta de conhecimento em dados não Rui Gureghian Scarinci* José Palazzo Moreira de Oliveira** Resumo Métodos de Descoberta de Conhecimento em Texto ou Knowledge

Leia mais

XML. Prof. Júlio Machado

XML. Prof. Júlio Machado XML Prof. Júlio Machado julio.machado@pucrs.br INTRODUÇÃO O que é XML? É a sigla de Extensible Markup Language Linguagem de especificação para descrever dados Padrão aberto e largamente usado Definido

Leia mais

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA

ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA ANALYTICINT FERRAMENTA WEB PARA AVALIAR O PERFIL ACADÊMICO DOS CURSOS TÉCNICOS INTEGRADO DO IFC-VIDEIRA Autores : Autor 1, Autor 2, Autor 3, Autor 4 1 Autor 2 Autor 3 Autor 4 Autor Introdução Com o objetivo

Leia mais

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017 Inteligência de Negócios Fatec Indaiatuba Prof. Piva Compreender as definições e conceitos básicos da Mineração de Dados (MD) Entender o processo KDD (Knowledge Discovery Data) e MD Descrever as etapas

Leia mais

IMAGE MINING: CONCEITOS E TÉCNICAS

IMAGE MINING: CONCEITOS E TÉCNICAS 125 IMAGE MINING: CONCEITOS E TÉCNICAS Diogo Floriano diiogofloriano@gmail.com Resumo A facilidade em armazenar imagens e a grande concentração de imagens em bases de dados impulsionou a geração de aplicações

Leia mais

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira

Universidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas

Leia mais

BCC390 - Monografia I

BCC390 - Monografia I BCC390 - Monografia I DESENVOLVIMENTO DE UM REPOSITÓRIO DE DADOS DO FUTEBOL BRASILEIRO Rafael Belini Souza November 9, 2012 Tópicos 1 Introdução 2 Justificativa 3 Objetivo 4 Fontes 5 Pré-processamento

Leia mais

Desenvolvimento Web. Introdução Geral. Prof. Vicente Paulo de Camargo

Desenvolvimento Web. Introdução Geral. Prof. Vicente Paulo de Camargo Introdução Geral Prof. Vicente Paulo de Camargo Web e Internet A Internet é uma rede de computadores que conecta milhões de computadores Se comunicam através do protocolos específicos A Web é uma forma

Leia mais

Abrindo os dado públicos da Universidade Federal do Maranhão Um breve estudo

Abrindo os dado públicos da Universidade Federal do Maranhão Um breve estudo Abrindo os dado públicos da Universidade Federal do Maranhão Um breve estudo Sérgio Souza Costa 1, João Baluz André Caminha 1 1 Coordenação do Curso em Ciência e Tecnologia Universidade Federal do Maranhão

Leia mais

Modelo para a representação de informações, utilizado por aplicações Web que trabalham com a tecnologia AJAX.

Modelo para a representação de informações, utilizado por aplicações Web que trabalham com a tecnologia AJAX. JSON Modelo para a representação de informações, utilizado por aplicações Web que trabalham com a tecnologia AJAX. 1. Introdução JSON (JavaScript Object Notation) é um modelo para armazenamento e transmissão

Leia mais

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI Conceitos Básicos Disciplina: Banco de Dados Prof: Márcio Palheta, Esp Manaus - AM ROTEIRO Introdução Dados

Leia mais

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital

Revisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital Revisão Meio ambiente da Recuperação de Informação Linguagem Analógico x Digital 1 Recuperação de Informação Recuperação de informação é o nome dado ao processo ou método pelo qual um potencial usuário

Leia mais

U NIVERSIDADE F EDERAL DE P ERNAMBUCO

U NIVERSIDADE F EDERAL DE P ERNAMBUCO U NIVERSIDADE F EDERAL DE P ERNAMBUCO GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO CENTRO DE INFORMÁTICA 2015.1 Extensão do Dataset OpenCIn com Dados Referentes às Notícias e Eventos Relacionados ao Centro de Informática

Leia mais

Sistemas da Informação. Banco de Dados I. Edson Thizon

Sistemas da Informação. Banco de Dados I. Edson Thizon Sistemas da Informação Banco de Dados I Edson Thizon (edson@esucri.com.br) 2008 Apresentação (mini-currículo) Formação Acadêmica Mestrando em Ciência da Computação (UFSC/ ) Créditos Concluídos. Bacharel

Leia mais

Descoberta de Conhecimento em Bancos de Dados - KDD

Descoberta de Conhecimento em Bancos de Dados - KDD Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação

Leia mais

Text Mining realiza várias funções de busca, análise lingüística e categorização. Mecanismos de busca se restringem à Internet. (Chen, H.

Text Mining realiza várias funções de busca, análise lingüística e categorização. Mecanismos de busca se restringem à Internet. (Chen, H. 1 Introdução Métodos de recuperação de textos sempre foram utilizados para organizar documentos, porém, com o aumento do volume de textos que vem ocorrendo, principalmente, pela digitalização do conteúdo

Leia mais

Recursos de Dados. Prof. Paulo Cesar F. de Oliveira, BSc, PhD. 06/05/14 P C F de Oliveira

Recursos de Dados. Prof. Paulo Cesar F. de Oliveira, BSc, PhD. 06/05/14 P C F de Oliveira Recursos de Prof. Paulo Cesar F. de Oliveira, BSc, PhD 1 Fonte: Administração de Sistemas de Informação, O Brien, J.A.; Marakas, G.M. (2012) 2 Seção 1.1 Gerenciamento de 3 ² Por quê gerenciar? Catalogados

Leia mais

Ryan Mitchell. Novatec

Ryan Mitchell. Novatec Ryan Mitchell Novatec Authorized Portuguese translation of the English edition of titled Web Scraping with Python, ISBN 9781491910290 2015 Ryan Mitchell. This translation is published and sold by permission

Leia mais

Geração Automática de Metadados

Geração Automática de Metadados Geração Automática de Metadados José David Fernández Curado Instituto de Matemática e Estatística - Universidade de São Paulo November 17, 2010 1 Introdução Motivação Metadados 2 Algoritmos de Geração

Leia mais

Web mining. Universidade Federal de Mato Grosso do Sul (UFMS) Campo Grande, MS Brasil

Web mining. Universidade Federal de Mato Grosso do Sul (UFMS) Campo Grande, MS Brasil Web mining Quintino Izidio S. Neto 1, Ricardo Romão 2, Bruno de Abreu Cárceres 1 Departamento de Ciência e Tecnologia 2 Ledes Laboratório de Desenvolvimento de Software Universidade Federal de Mato Grosso

Leia mais

CP Compiladores I Prof. Msc.. Carlos de Salles

CP Compiladores I Prof. Msc.. Carlos de Salles CP 5017.9 Prof. Msc.. Carlos de Salles 1 - EMENTA O Processo de Compilação. Deteção e Recuperação de Erros. Introdução à geração de Código Intermediário. Geração de Código de Máquina. Otimização. Uma visão

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO 5ª Jornada Científica e Tecnológica e 2º Simpósio de Pós-Graduação do IFSULDEMINAS 06 a 09 de novembro de 2013, Inconfidentes/MG MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO

Leia mais

Extração de Conhecimento & Mineração de Dados

Extração de Conhecimento & Mineração de Dados Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática

Leia mais

Um esquema de nomes para localização de fontes de informação na Web, esse esquema chama-se URI.

Um esquema de nomes para localização de fontes de informação na Web, esse esquema chama-se URI. Aula 01 - Visão geral do HTML5 Professor Bruno Kiedis De acordo com o W3C a Web é baseada em 3 pilares: Um esquema de nomes para localização de fontes de informação na Web, esse esquema chama-se URI. Um

Leia mais

Gosta de acompanhar os rumos das linguagens de programação? Então não fique de fora dessa! Descubra o que é o HTML 5!

Gosta de acompanhar os rumos das linguagens de programação? Então não fique de fora dessa! Descubra o que é o HTML 5! O que é HTML 5? Gosta de acompanhar os rumos das linguagens de programação? Então não fique de fora dessa! Descubra o que é o HTML 5! Leia mais em: http://www.tecmundo.com.br/navegador/2254-o-que-e-html-5-.htm#ixzz2xyr1tlam

Leia mais

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário

Leia mais

VISUALIZAÇÃO DE DADOS MÉDICOS

VISUALIZAÇÃO DE DADOS MÉDICOS VISUALIZAÇÃO DE DADOS MÉDICOS Aluno: Charles Kubudi Cordeiro Orientador: Marcelo de Andrade Dreux Introdução A visualização de dados médicos tem como objetivo organizar de forma coerente uma massiva quantidade

Leia mais

Palavras-chaves: Mineração de Texto, Indexação Semiautomática, Ciência da Informação, Recuperação da Informação, Gestão da Tecnologia da Informação.

Palavras-chaves: Mineração de Texto, Indexação Semiautomática, Ciência da Informação, Recuperação da Informação, Gestão da Tecnologia da Informação. INDEXAÇÃO SEMIAUTOMÁTICA DE PUBLICAÇÕES ATRAVÉS DE TÉCNICAS DE MINERAÇÃO DE TEXTO Área temática: Gestão do Conhecimento Organizacional Nilton Freitas Junior niltonfjunior@gmail.com Geórgia Gomes georgiargomes@gmail.com

Leia mais

Informática Parte 23 Prof. Márcio Hunecke

Informática Parte 23 Prof. Márcio Hunecke Escriturário Informática Parte 23 Prof. Márcio Hunecke Informática Json (ECMA-404) JSON (JavaScript Object Notation), é um formato compacto, de padrão aberto independente, de troca de dados simples e

Leia mais

RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados

RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados RDFMat Um serviço para criação de repositórios de dados RDF a partir de crawling na Web de dados Alberto T. Tavares, Hélio R. de Oliveira, Bernadette F. Lóscio Centro de Informática Universidade Federal

Leia mais

Aplicação de Mineração de Textos na Indicação de Palavras-chave em Artigos Científicos

Aplicação de Mineração de Textos na Indicação de Palavras-chave em Artigos Científicos Aplicação de Mineração de Textos na Indicação de Palavras-chave em Artigos Científicos Mariane Regina Sponchiado Cassenote 1, Adriel Secco 1, Rodrigo Luiz Antoniazzi 1, Patricia Mariotto Mozzaquatro Chicon

Leia mais

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS 7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução

Leia mais

Prof. Heitor Silvério Lopes

Prof. Heitor Silvério Lopes Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto

Leia mais

TÍTULO: DESENVOLVIMENTO DE UM SISTEMA DE PERGUNTA E RESPOSTA BASEADO EM CORPUS

TÍTULO: DESENVOLVIMENTO DE UM SISTEMA DE PERGUNTA E RESPOSTA BASEADO EM CORPUS TÍTULO: DESENVOLVIMENTO DE UM SISTEMA DE PERGUNTA E RESPOSTA BASEADO EM CORPUS CATEGORIA: CONCLUÍDO ÁREA: CIÊNCIAS EXATAS E DA TERRA SUBÁREA: COMPUTAÇÃO E INFORMÁTICA INSTITUIÇÃO: UNIVERSIDADE DO SAGRADO

Leia mais

4 Coleta de Informações, Extração de Atributos e Métodos de Classificação

4 Coleta de Informações, Extração de Atributos e Métodos de Classificação Coleta de Informações, Extração de Atributos e Métodos de Classificação 33 4 Coleta de Informações, Extração de Atributos e Métodos de Classificação 4.1. Coleta de Informações O processo de coleta de informações

Leia mais

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra Padrões e processos em Dinâmica de uso e Cobertura da Terra Introdução 1 2 3 4 Capacidade de Armazenamento X Análise e Interpretação

Leia mais

2COP355 INTELIGÊNCIA COMPETITIVA. Introdução. Sylvio Barbon Junior 14 de novembro de 2015 DC-UEL Sylvio Barbon Jr 1

2COP355 INTELIGÊNCIA COMPETITIVA. Introdução. Sylvio Barbon Junior 14 de novembro de 2015 DC-UEL Sylvio Barbon Jr 1 2COP355 INTELIGÊNCIA COMPETITIVA Introdução Sylvio Barbon Junior barbon@uel.br 14 de novembro de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Introdução Entendendo Inteligência e Estratégia Ética e Inteligência

Leia mais

Banco de Dados Data Mining Data Warehouse Big Data

Banco de Dados Data Mining Data Warehouse Big Data Universidade Estadual de Mato Grosso do Sul Curso de Computação, Licenciatura Banco de Dados Data Mining Data Warehouse Big Data Prof. José Gonçalves Dias Neto profneto_ti@hotmail.com Data Mining: Introdução

Leia mais

Banco de Dados. Banco de Dados

Banco de Dados. Banco de Dados Banco de Dados Banco de Dados Data Warehouse: banco de dados contendo dados extraídos do ambiente de produção da empresa, que foram selecionados e depurados, tendo sido otimizados para processamento de

Leia mais

Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB

Para onde vamos. Recuperação de Informação na WEB. Medidas de Avaliação. Recuperação de informação na WEB Onde Estamos 1 Para onde vamos Medidas de Avaliação Recuperação de Informação na WEB 2 Sites de Busca (search engines/buscadores) Permitem ao usuário submeter sua expressão de busca e recuperar uma lista

Leia mais

ORGANIZANDO DADOS E INFORMAÇÕES: Bancos de Dados

ORGANIZANDO DADOS E INFORMAÇÕES: Bancos de Dados ORGANIZANDO DADOS E INFORMAÇÕES: Bancos de Dados Gestão da Informação (07182) Instituto de Ciências Econ., Adm. e Contábeis (ICEAC) Universidade Federal do Rio Grande (FURG) Gestão de Dados As organizações

Leia mais

RetiraAcentuação e PostCounter: Ferramentas de otimização e preparação de arquivos

RetiraAcentuação e PostCounter: Ferramentas de otimização e preparação de arquivos RetiraAcentuação e PostCounter: Ferramentas de otimização e preparação de arquivos Yasmmin C. Martins, Breno F. T. Azevedo, Hélvia P. P. Bastos Núcleo de Informática na Educação (NIE) Instituto Federal

Leia mais

Avaliação de Monografias - MAC0499

Avaliação de Monografias - MAC0499 Avaliação de Monografias - MAC0499 João Paulo dos Santos Mota número USP: 5638911 5 de maio de 2012 1 Sumário 1 Monografia de André Shoji Asato e Rafael Lopes Gonçalves 3 1.1 Resumo da Monografia...............................

Leia mais

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão

DATA MINING & MACHINE LEARNING (I) Thiago Marzagão DATA MINING & MACHINE LEARNING (I) Thiago Marzagão transformando textos em dados Documento 1: Não trabalho para ter clientes; tenho clientes para poder trabalhar. Documento 2: Não se pode forçar a inteligência

Leia mais

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado

Gazetteers - Aplicação em RI Geográfica. Ivre Marjorie R. Machado Gazetteers - Aplicação em RI Geográfica Ivre Marjorie R. Machado Julho de 2009 Sumário Introdução Gazetteer Exemplos Locus Limitações Conclusão Referências 2 Introdução Quem nunca usou uma máquina de busca

Leia mais

5 Conclusão e trabalhos futuros

5 Conclusão e trabalhos futuros 5 Conclusão e trabalhos futuros Neste capítulo fazemos uma retrospectiva do trabalho realizado, uma avaliação da proposta de solução de integração de dados ou conhecimentos mostrada na dissertação e também

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Introdução Laboratório de Computação para Ciências Módulo II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Conceitos Básicos Introdução Tópicos Especiais Modelagem de Dados Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional

Leia mais

1 Introdução Motivação

1 Introdução Motivação 1 Introdução 1.1. Motivação Dados geográficos estão disponíveis em uma grande variedade de repositórios, desde os computadores pessoais até repositórios sofisticados mantidos por organizações. Para ajudar

Leia mais

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS

PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS PROTÓTIPO PARA SUMARIZAÇÃO AUTOMÁTICA DE TEXTOS ESCRITOS EM LÍNGUA PORTUGUESA ALEXANDRE BUSARELLO JOYCE MARTINS Roteiro Introdução Objetivos Fundamentação Teórica Especificação Implementação Operacionalidade

Leia mais

Uma Metodologia para Auxiliar no Processo de Construção de Bases de Dados Estruturadas a partir de Laudos Médicos

Uma Metodologia para Auxiliar no Processo de Construção de Bases de Dados Estruturadas a partir de Laudos Médicos Uma Metodologia para Auxiliar no Processo de Construção de Bases de Dados Estruturadas a partir de Laudos Médicos Daniel de Faveri Honorato 1,4, Huei Diana Lee 1,2, Maria Carolina Monard 2, Feng Chung

Leia mais

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing Arquitetura de um Ambiente de Data Warehousing Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri Arquitetura Típica usuário usuário... usuário

Leia mais

Leitura de Documentos. Priscila Engiel

Leitura de Documentos. Priscila Engiel Leitura de Documentos Priscila Engiel pengiel@inf.puc-rio.br Leitura de documentos Leitura de documentos formais que regulam ou descrevem o sistema ou aspectos que interferem em sua execução Quais documentos?

Leia mais

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Mineração de Dados Espaciais B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A Roteiro 2 Introdução Mineração de Dados Estado da Arte Artigo apresentado Conclusão

Leia mais

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS 6ª Jornada Científica e Tecnológica e 3º Simpósio de Pós-Graduação do IFSULDEMINAS 04 e 05 de novembro de 2014, Pouso Alegre/MG Implementação de um Modelo para Previsão de Evasão Escolar no IFSULDEMINAS

Leia mais

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos

Leia mais

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth - Mineração de Dados - Contextualização Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/ Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento; Manter, disseminar, organizar,

Leia mais

Web I F R N I N S T I T U TO F E D E R A L D E E D U C A Ç Ã O, C I Ê N C I A E T E C N O LO G I A D O R I O G R A N D E D O N R T E.

Web I F R N I N S T I T U TO F E D E R A L D E E D U C A Ç Ã O, C I Ê N C I A E T E C N O LO G I A D O R I O G R A N D E D O N R T E. Web I F R N I N S T I T U TO F E D E R A L D E E D U C A Ç Ã O, C I Ê N C I A E T E C N O LO G I A D O R I O G R A N D E D O N R T E. J O S É A N TÔ N I O D A C U N H A Web Page HTTP No início a web, era

Leia mais

as fases contemplam todas as etapas do ciclo de desenvolvimento (requisitos, análise, projeto, implementação, teste e validação);

as fases contemplam todas as etapas do ciclo de desenvolvimento (requisitos, análise, projeto, implementação, teste e validação); Título : B2 Processo de desenvolvimento de Sistemas Conteúdo : A UML estabelece uma abordagem para a construção, o desenvolvimento e a manutenção de software. Atualmente, metodologias utilizadas no desenvolvimento

Leia mais

Desenvolvimento de Aplicações Distribuídas

Desenvolvimento de Aplicações Distribuídas SOA e Web Services Pontifícia Universidade Católica de Minas Gerais Instituto de Ciências Exatas e Informática DAD (2019/01) Tópicos Apresentação da disciplina Introdução Desafios e características Arquitetura

Leia mais

Aprendizado de Máquina (Machine Learning)

Aprendizado de Máquina (Machine Learning) Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que

Leia mais

Desenvolvimento de um Web Crawler para indexação de documentos científicos

Desenvolvimento de um Web Crawler para indexação de documentos científicos Desenvolvimento de um Web Crawler para indexação de documentos científicos Heitor de Sousa Miranda¹, Rafael Gonçalves Barreira², Edeilson Milhomem da Silva³ Curso de Sistemas de Informação - CEULP/ULBRA

Leia mais

Conceitos Básicos Sistemas de banco de dados; Sistemas de gerência de banco de dados.

Conceitos Básicos Sistemas de banco de dados; Sistemas de gerência de banco de dados. Universidade Estadual de Mato Grosso do Sul Ciência da Computação Banco de Dados Prof. Nilton nilton@comp.uems.br Conceitos Básicos Sistemas de banco de dados; Sistemas de gerência de banco de dados. 2

Leia mais

Uso da Internet. Disciplina: Gestão da Tecnologia de Sistemas. Professor: Thiago Silva Prates

Uso da Internet. Disciplina: Gestão da Tecnologia de Sistemas. Professor: Thiago Silva Prates Uso da Internet Disciplina: Gestão da Tecnologia de Sistemas Professor: Thiago Silva Prates Uso da Internet nos negócios Com a evolução dos Sistemas de Informações nas organizações, da melhoria na infraestrutura,

Leia mais

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC

Figura 1: Metodologia de Reconhecimentos de Padrões desenvolvida na UFC Uma Solução para o GISSA: Análise Comparativa entre Algoritmos de Aprendizagem de Máquina Aplicados em um Dataset Relacionado ao Óbito Infantil Joyce Quintino Alves (1) ; Cristiano Lima da Silva (2); Antônio

Leia mais

Consultas por Similaridade em Domínios de Dados Complexos

Consultas por Similaridade em Domínios de Dados Complexos Consultas por Similaridade em Domínios de Dados Complexos Guilherme Felipe Zabot Orientador: Profº Dr Caetano Traina Jr Roteiro Objetivo Introdução Dados Complexos Representação de Dados Complexos Extração

Leia mais

Modelagem de Curvas B-Spline na Metodologia de Extração de Rodovias em Imagens Digitais

Modelagem de Curvas B-Spline na Metodologia de Extração de Rodovias em Imagens Digitais Modelagem de Curvas B-Spline na Metodologia de Extração de Rodovias em Imagens Digitais Autor(a): Elizeu Martins de Oliveira Junior¹ Instituição: Universidade do Estado de Mato Grosso Orientador(a): Érico

Leia mais