LÍNGUA NATURAL RECUPERAÇÃO DE INFORMAÇÃO (INFORMATION RETRIEVAL) Nuno Mamede N E C E S S I D A D E
|
|
- Sabina Canário Camilo
- 7 Há anos
- Visualizações:
Transcrição
1 LÍNGUA NATURAL N E C E S S I D A D E Internet mais de 3 biliões de documentos indexados pelo Google RECUPERAÇÃO DE INFORMAÇÃO (INFORMATION RETRIEVAL) Nuno Mamede Que quantidade de informação é gerada todos os anos? Várias necessidades: Procurar documentos por tópico Procurar determinada informação Procurar uma resposta a uma pergunta Procurar determinada informação noutra língua Licenciatura em Engenharia Informática e de Computadores Departamento de Engenharia Informática Instituto Superior Técnico 2 A L G U M A S D E F I N I Ç Õ E S D E Salton (1989): Information-retrieval systems process files of records and requests for information, and identify and retrieve from the files certain records in response to the information requests. The retrieval of particular records depends on the similarity between the records and the queries, which in turn is measured by comparing the values of certain attributes to records and information requests. A indexação e recuperação de documentos textuais A procura de páginas na World Wide Web é a aplicação mais recente e mais popular de um sistema de recuperação de Informação A principal preocupação é a procura de documentos relevantes para a pergunta Kowalski (1997): An Information Retrieval System is a system that is capable of storage, retrieval, and maintenance of information. Information in this context can be composed of text (including numeric and date data), images, audio, video, and other multi-media objects). A segunda preocupação é a procura eficiente em grandes conjuntos de documentos 3 4 E X T R A C Ç Ã O D E I N F O R M A Ç Ã O ( E I ) E X E M P L O S D E S I S T E M A S D E Identificar pedaços de informação (dados) num documento textual não estruturado ou semi-estruturado Transformar informação não estruturada (um corpus de documentos ou páginas web) numa base de dados estruturada Pode ser aplicado a diferentes tipos de texto: Artigos de jornal Páginas web Artigos científicos Mensagens de grupos de discussão Anúncios classificados Notas médicas... Convencional (catálogo de uma biblioteca) Procura por palavra chave, título, autor,... Baseado em texto (Lexis-Nexis, Google, FAST) Procura por palavra chave Procura limitada usando perguntas em LN Multimédia (QBIC, WebSeek, SaFe) Procura pela aparência visual (forma, cor, ) Sistemas de Pergunta-Resposta (AskJeeves, Answerbus) Outros: Procura (restrita) em língua natural Procura de informação em diversas línguas Procura pela melodia 5 6
2 T A R E F A T Í P I C A D E A R Q U I T E C T U R A T Í P I C A D E U M S I S T E M A D E Dado: Um corpus de documentos textuais (em língua natural) Uma pergunta de um utilizador na forma de uma cadeia de caracteres Corpus de Procurar: Um conjunto ordenado de documentos considerados relevantes Pergunta (cadeia de caracteres) SELECÇÃO DOS DOCUMENTOS RELEVANTES Relevantes 1. Doc1 2. Doc2 3. Doc3 7 8 S I S T E M A D E R E C U P E R A Ç Ã O N A R E D E R E L E V Â N C I A Web Pergunta (cadeia de caracteres) Corpus de SELECÇÃO DOS DOCUMENTOS RELEVANTES A relevância é um julgamento subjectivo que pode incluir: Pertencer ao mesmo assunto Ser actual (informação recente) Ser credível (de uma fonte de confiança) Satisfazer os objectivos do utilizador e a sua previsível utilização dessa informação (necessidade para a informação) Principal critério de relevância de um Sistema de RI: satisfazer as necessidades de informação do utilizador 1. Pág.1 2. Pág.2 3. Pág.3 Relevantes 9 10 A B O R D A G E M B Á S I C A : P R O C U R A P O R P A L A V R A C H A V E P R O B L E M A S D A S P A L A V R A S C H A V E A noção mais simples de relevância A pergunta deve ocorrer, ipsis verbis, no documento Uma noção mais elaborada As palavras da pergunta devem ocorrer frequentemente no documento, independente da ordem (saco de palavras) Pode não extrair documentos relevantes que incluem termos sinónimos restaurante vs. churrasqueira República Popular da China vs. China aluno vs. aluna vs. alunos vs. alunas Podem ser extraídos documentos irrelevantes que incluem termos ambíguos cachorro (alimento vs. mamífero) Apple (empresa vs. fruto) canto (esquina vs. acto de cantar) 11 12
3 T É C N I C A S I N T E L I G E N T E S D E A R Q U I T E C T U R A D E U M S I S T E M A D E Ter em atenção o significado das palavras usadas Ter em atenção a ordem das palavras na pergunta Adaptar-se (automaticamente ou semi-automaticamente) ao utilizador com base na informação providenciada pelo utilizador Estender a procura com termos relacionados Necessidades do utilizador Cometários do Utilizador Interface Utilizador Operações sobre o texto Operações sobre a pergunta Vista Lógica Indexação Texto Gestor BD Efectuar correcção ortográfica / restauração dos diacríticos (acentos e cedilhas) Ter em atenção a credibilidade das fontes Pergunta ordenados Procura Ordenação Índice Ficheiro invertido Recuperados BD de Textos C O M P O N E N T E S C O M P O N E N T E S Operações sobre o texto Segmentação Remoção das palavras funcionais Lematização Indexação Mapeia as palavras chave nos índices dos ficheiros Procura Recupera os documentos que contêm os símbolos da pergunta usando um índice invertido Ordenação Atribui uma valor a todos os documentos recuperados, com base em critérios de relevância Documento 1 I did enact Julius Caesar I was killed i' the Capitol; Brutus killed me. Documento 2 So let it be with Caesar. The noble Brutus hath told you Caesar was ambitious Interface com o utilizador Leitura da pergunta e saída dos documentos Processa o retorno sobre a relevância Visualização dos resultados Operações sobre a pergunta Expansão da pergunta usando um dicionário de sinónimos Transformação da pergunta usando o retorno sobre relevância M O D E L O S D E R I M O D E L O S C L Á S S I C O S D E R I C O N C E I T O S B Á S I C O S T a r e f a Recuperação Adhoc Filtragem Consulta Modelos clássicos Booleanos Vectoriais Probabilísticos Modelos Estruturados Non-Overlapping Lists Proximal Nodes Browsing Flat Structure Guided Hypertext Teoria de Conjuntos Fuzzy Extended Boolean Algébricos Generalized Vector Lat. Semantic Index Neural Networks Probabilísticos Inference Network Belief Network Cada documento é representado por um conjunto representativo de palavras chaves ou índice de termos Um índice de termos é um documento com palavras úteis para expressar os principais tópicos do documento Os termos do índice podem ser seleccionados para ser unicamente nomes, pois os nomes têm, por si só, significado Reduz a dimensão do índice Mas necessita de um POS Os mecanismos de procura assumem que todas as palavras que são potenciais termos ocorrem no índice (full text representation) 17 18
4 M O D E L O S C L Á S S I C O S D E R I C O N C E I T O S B Á S I C O S M O D E L O B O O L E A N O Nem todos os termos são igualmente úteis para representar o conteúdo de um documento Os termos menos frequentes permitem identificar conjuntos mais pequenos de documentos A importância de um índice de termos aumenta com a possibilidade de associar pesos aos termos Modelo simples baseado na teoria de conjuntos As perguntas são formuladas como expressões booleanas Semântica precisa Formalismo claro Termos ou estão presentes ou ausentes Ou seja, wij! {0,1} Assuma-se que ki seja um termo que ocorre no índice dj seja um documento wij é o peso associado com (ki,dj) O peso wij quantifica a importância do termo para descrever o conteúdo do documento Exemplo: pergunta = ka " (kb # kc) = (1,1,1) # (1,1,0) # (1,0,0) (forma normal conjuntiva) (1,1,0) é um componente conjuntivo M O D E L O B O O L E A N O I N C O N V E N I E N T E S D O M O D E L O B O O L E A N O q = Ka! (Kb " Kc) Recuperação baseada em critérios binários, sem a noção de emparelhamento parcial Ka Kb Não existe uma ordenação dos documentos (ausência de uma escala de semelhança) (1,0,0) (1,1,0) (0,1,0) A informação necessária tem de ser traduzida para uma expressão booleana (não é intuitivo para alguns utilizadores) (1,1,1) (1,0,1) (0,1,1) As perguntas Booleanas formuladas pelos utilizadores são (normalmente) muito simplistas (0,0,1) Como consequência, o modelo Booleano devolve, frequentemente, como resposta à pergunta do utilizador Kc ou muitos documentos ou poucos documentos A utilização de pesos binários é muito limitativo Pesos não-binários permitem considerar o emparelhamento parcial Os pesos dos termos são usados para calcular o grau de semelhança entre a pergunta e o documento O melhor emparelhamento é seleccionado depois de ordenar os documentos Definições: wij > 0 sempre que ki! dj wiq >= 0 fica associado ao par (ki,q) vec(dj) = (w1j, w2j,..., wtj) vec(q) = (w1q, w2q,..., wtq) Cada termo ki fica associado a um vector unitário vec(i) Assume-se que os vectores unitários vec(i) e vec(j) são ortornormais (i.e., assume-se que os índices dos termos ocorrem independentemente nos documentos) Os t vectores unitários vec(i) constituem a base ortornormal de um espaço de dimensão-t Neste espaço, as perguntas e os documentos são representados por vectores com pesos 23 24
5 j dj Sim(q,d j)! = [# w ij * w iq ] / d j * q # Como calcular os pesos w ij e w iq? Sim(q,d j)! = cos(")!!= [vec(d j ) vec(q)] / d j * q!!= [# w ij * w iq ] / d j * q Pois w ij > 0 e w iq > 0, 0 <= sim(q,d j ) <=1 Um documento é recuperado mesmo quando só emparelha parcialmente com a pergunta q i Uma boa política de pesos deve ter em atenção dois efeitos quantificação do conteúdo dentro de cada documento (similarity) factor tf, a frequência do termo dentro do documento quantificação da separação entre os documentos (dissi-milarity) factor idf, a frequência inversa do documento w ij = tf(i,j) * idf(i) M O D E L O P R O B A B I L Í S T I C O M O D E L O P R O B A B I L Í S T I C O Objectivo Usar o enquadramento probabilístico para resolver o problema da recuperação de informação Dada uma pergunta Existe uma resposta (conjunto de documentos) ideal Algoritmo Tentar adivinhar o conjunto de documentos ideal Melhorar iterativamente Algoritmo Escolhe (por qualquer processo) um conjunto de documentos pode usar o modelo vectorial ou booleano O utilizador inspecciona os documentos para identificar os relevantes (basta inspeccionar os melhor classificados) O sistema de RI usa a informação para refinar a descrição do conjunto ideal Pela repetição deste processo, a descrição do conjunto ideal vai melhorando A descrição da resposta ideal é modelada em termos probabilísticos P R I N C Í P I O D A O R D E N A Ç Ã O P R O B A B I L Í S T I C A T E R M O S U S A D O S E M Dada uma pergunta do utilizador q e um documento d j, o modelo probabilístico tenta estimar a probabilidade do utilizador considerar o documento dj relevante O modelo assume que a probabilidade de ser relevante depende unicamente da pergunta a da representação do documento O conjunto de resposta R deve maximizar a probabilidade de relevância. Os documentos pertencentes a R pressupõe-se serem relevantes PERGUNTA (question) Uma representação do que o utilizador procura: pode ser uma lista de palavras ou uma frase DOCUMENTO (document) Uma entidade (contém informação) que o utilizador quer extrair COLECÇÃO (collection) Um conjunto de documentos ÍNDICE (indice) Uma representação da informação que facilita a elaboração de perguntas TERMO (term) Palavra ou conceito que ocorre num documento ou pergunta 29 30
6 CLASSIFICAÇÃO (Classification) Classificação não supervisionada toda a classificação é efectuada sem referência a informação externa Classificação supervisionada existe algum mecanismo externo (como o reforço do utilizador) que fornece informação sobre a correcta classificação dos documentos????? (Cluster) grupo de elementos semelhantes, num domínio????? (Similarity, semantic closeness/proximity/nearness) Uma métrica que classifica a semelhança de um conjunto de documentos ou termos, com base na semelhança do significado /conteúdo semântico EXTRACÇÃO DE INFORMAÇÃO (Information Extraction) Aplica métodos e tecnologias da ciência dos computadores ao problema de processar automaticamente texto não estruturado, com o objectivo de extrair conhecimento estruturado relativamente a um domínio pré-definido PRECISÃO/COBERTURA (Precision/Recall) Precisão é a fracção do número de documentos relevantes no conjunto de documentos devolvidos por uma procura Cobertura é a fracção (da totalidade) do material relevante que é devolvida por uma procura LEMATIZAÇÃO (Stemming) Determina o lema de uma palavra flexionada (por vezes derivada). O lema não tem de ser idêntico à raiz da palavra PALAVRA FUNCIONAL (Stopword) Uma palavra usada frequentemente, como por exemplo a ou um, que não é indexada e consequentemente não usada pelo motor de procura FICHEIRO INVERTIDO (Inverted File) Indica o documento em que uma palavra aparece, e não o local do texto onde a palavra está presente EXPANSÃO DA PERGUNTA (Query Expansion) Aumenta a possibilidade de encontrar um documento expandindo a pergunta com as palavras ou frases que têm um significado semelhante RELEVÂNCIA (Relevance) Uma medida da semelhança entre um dado objecto (ficheiro, página web, registo da base de dados,...) e a informação providenciada pelo utilizador para efectuar uma procura 33 FREQUÊNCIA DE TERMOS (Term Frequency) Frequência de um termo num documento é uma medida da importância do termo nesse documento: é o número de vezes que a palavra aparece no documento a dividir pelo número total de palavras do documento. FREQUÊNCIA DO DOCUMENTO (Document Frequency) A frequência do documento é uma medida da importância do termo (o log do número de todos os documentos a dividir pelo número de documentos que contêm o termo) FREQUÊNCIA DE DOCUMENTOS INVERSA (Inverse Document Frequency) TFIDF quantifica a importância de uma palavra num documento A importância aumenta proporcionalmente ao número de vezes que a palavra aparece no documento, mas tendo em atenção a frequência dessa palavra em todos os documentos do corpus 34 C O N F E R Ê N C I A S I M P O R T A N T E S MODELO VECTORIAL (Vector Space Model) Modelo algébrico usado para filtrar os documentos relevantes durante um processo de busca. Representa os documentos através de uma representação formal de vectores num espaço multi-dimensional PESOS (Weighting) Controla a especificidade e a exaustividade da procura TREC (Text REtrieval Conference) Conferência anual onde os participantes competem com os seus sistemas de resposta a perguntas em qualquer tópico através da procura num corpus de textos MUC (Message Understanding Conference) Conferência que avalia sistemas capazes de extrair entidades encontrar palavras equivalentes preencher os atributos de padrões (templates) previamente definidos identificar relações entre os atributos de padrões 35 36
Indexação e Modelos Clássicos
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Construção de um Sistema de Busca 1ª Etapa: Definir
Leia maisProfª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni
Profª Ana Lúcia Lima Marreiros Maia Profª Fabiana Cristina Bertoni Motivação e Objetivos Etapas do Desenvolvimento de um Sistema de Recuperação de Informações (SRI): Pré-processamento; Representação; Extração
Leia maisUniversidade do Sul de Santa Catarina Ciência da Computação Aula 09 Introdução a Análise de Textos Prof. Max Pereira
Universidade do Sul de Santa Catarina Ciência da Computação Técnicasde InteligênciaArtificial Aula 09 Introdução a Análise de Textos Prof. Max Pereira Processamento de Linguagem Natural Conjunto de técnicas
Leia mais4 Recuperação de Informação
4 Recuperação de Informação No presente capítulo são apresentados os fundamentos da área de Recuperação de Informação utilizados em Mineração de Textos, como por exemplo, os modelos de representação de
Leia maisGestão e Recuperação de Informação. Avaliação em Sistemas de Recuperação de Informação. José Borbinha DEI/IST
Gestão e Recuperação de Informação Avaliação em Sistemas de Recuperação de Informação José Borbinha DEI/IST Problema: Como avaliar um sistema de RI? 2 Comecemos, analisando um exemplo... 3 Exemplo... 4
Leia maisModelo Probabilístico
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Proposto em 1976 por Roberstson e Sparck Jones;
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelosde RI e o ModeloBooleano Organização e Recuperação de Informação(GSI521) Tópicos Modelagem em RI; Caracterização
Leia maisRecuperação de Informação em Bases de Texto
Recuperação de Informação em Bases de Texto Mestrado em Engenharia Informática Universidade de Évora 2010/2011 Paulo Quaresma pq@di.uevora.pt http://www.moodle.uevora.pt 1 Objectivos Programa Avaliação
Leia maisModelo Booleano Wendel Melo
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Modelo simples; Baseado em teoria dos conjuntos
Leia mais03/07/2017. Modelo de Recuperação de Informação
Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação
Leia maisAULA TEÓRICA 10. Tema 7. Introdução ao Microsoft Access Ø. conceitos
AULA TEÓRICA 10 Tema 7. Introdução ao Microsoft Access Ø conceitos 1 Introdução ao Microsoft Access Microsoft Access é uma aplicação que permite criar bases de dados e ter acesso a informação com a simplicidade
Leia maisModelo Booleano Wendel Melo
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Modelo simples; Baseado em teoria dos conjuntos
Leia maisRecuperação de Dado X Informação. Gerenciamento de Dados e Informação. Histórico. Recuperação de Informação. Histórico. Histórico
Recuperação de Dado X Informação Gerenciamento de Dados e Informação Recuperação de Informação Fernando Fonseca Ana Carolina Robson Fidalgo Comparação (matching) Recuperação de Dados Exata Recuperação
Leia maisRecuperação de Informações
Recuperação de Informações Ana Carolina Salgado & Fernando Fonseca Comparação (matching) Dados Inferência Modelo Ling Consulta Esp da Consulta Recuperação de Dado X Informação Recuperação de Recuperação
Leia maisAvaliação da qualidade de imagens 2D reconstruídas a partir de imagens holoscópicas 3D
Avaliação da qualidade de imagens 2D reconstruídas a partir de imagens holoscópicas 3D A tecnologia de imagens holoscópica, também conhecidas como imagens plenópticas, imagens integrais ou imagens de campo
Leia maisMedidas de Avaliação
Medidas de Avaliação Medidas de Avaliação Para a maioria dos sistemas computacionais é necessário criar medidas para aferir sua eficácia e eficiência; A medida mais comum é o tempo e o espaço. Quanto menor
Leia maisPlanificação Anual da disciplina de Programação e Sistemas de Informação 10º 1PI
Res e M ó d u l o 1 - I n t r o d u ç ã o à P r o g r a m a ç ã o e A l g o r i t m i a 1. Introdução à Lógica de Programação 1.1. Lógica 1.2 Sequência Lógica 1.3 Instruções 1.4 Algoritmos 2. Desenvolvimento
Leia maisABD Arquivos e Bibliotecas Digitais
ABD Arquivos e Bibliotecas Digitais FEUP, Março de 2010 Parte III A interface dos Arquivos e Bibliotecas Digitais Documentos em ĺınguas diversas Tipos de interrogação Redução de maiúsculas e radicalização
Leia maisArquivos invertidos 39
Arquivos invertidos 39 Arquivos invertidos É um mecanismo que utiliza palavras para indexar uma coleção de documentos a fim de facilitar a busca e a recuperação Estruturas de um arquivo invertido Vocabulário
Leia maisVisualização de Texto e Documento
Visualização de Texto e Documento SCC5836 Visualização Computacional Prof. Fernando V. Paulovich http://www.icmc.usp.br/~paulovic paulovic@icmc.usp.br Instituto de Ciências Matemáticas e de Computação
Leia mais3 Recuperação de Informações Textuais
3 Recuperação de Informações Textuais Tudo deveria se tornar o mais simples possível, mas não simplificado. Albert Einstein Sistemas tradicionais de indexação costumam utilizar-se de termos-índice, que
Leia maisPonderação de termos
Ponderação de termos Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Adaptado do Material da Profª Vanessa Braganholo - IC/UFF Parte da ideia de que, dentro
Leia maisTerceira Geração de Sistemas de Pesquisa de Informação
Terceira Geração de Sistemas de Pesquisa de Informação João Ferreira Rui Jesus Arnaldo Abrantes jferreira@deetc.isel.ipl.pt rmfj@isel.ipl.pt aja@cedet.isel.ipl.pt Sumário: Pretende-se discutir e fundamentar
Leia maisRecuperação de Informação
Recuperação de Informação Avaliação de Desempenho de Sistemas de Recuperação de Informação Renato Fernandes Corrêa 1 Para que avaliar? Existem muitos modelos de RI, mas qual é o melhor? Qual a melhor escolha
Leia maisT6.1 Reconhecimento de Padrões
T6.1 Reconhecimento de Padrões Proc. Sinal e Imagem Mestrado em Informática Médica Miguel Tavares Coimbra Resumo 1. Introdução ao reconhecimento de padrões 2. Representação do conhecimento 3. Reconhecimento
Leia maisWeb Mining é a intersecção de várias áreas
Web Mining e Recuperação de Informação Web Mining é a intersecção de várias áreas Sistemas de Bancos de Dados Ciência da Informação e Bibliotecas Digitais Inteligência Artificial Processamento de Linguagem
Leia maisRealimentação de Relevância
Wendel Melo Faculdade de Computação Universidade Federal de Uberlândia Recuperação da Informação Ciclo de realimentação onde uma consulta q recebida do usuário é transformada em uma consulta modificada
Leia maisAgrupamento Automático de Páginas Web utilizando Técnicas de Web Content Mining
Universidade da Beira Interior Departamento de Informática Mestrado em Eng.ª Informática Agrupamento Automático de Páginas Web utilizando Técnicas de Web Content Mining Ricardo Campos Orientador: Professor
Leia maisBiomedical Text Mining J O S É F E R N A N D E S R U I S I L V A
Biomedical Text Mining J O S É F E R N A N D E S R U I S I L V A Objectivos e Desafios Extracção de informação útil a partir de fontes de dados documentos de texto - identificando e explorando padrões
Leia maispesquisa de informação científica 2. o processo de pesquisa
2.1. Definir claramente a necessidade de informação 2.1. Definir claramente a necessidade de informação Questões a definir: Qual o objectivo da pesquisa? Qual o nível de exaustividade? Qual o tipo de documento
Leia mais25/04/2017. Modelo de Recuperação de Informação
Modelo de Recuperação de Informação Modelo de Recuperação de Informação Um modelo de recuperação de informação é a especificação formal de três elementos: a representação dos documentos; a representação
Leia maisS O L U Ç Õ E S P A R A C H U R R A S C O
S O L U Ç Õ E S P A R A C H U R R A S C O CATÁLOGO DE CHURRASQUEIRAS 2 0 1 7 C H U R R A S Q U E I R A S G A M A F R I G O C H U R R A S Q U E I R A M O D O L A R F R I G O W H I T E - T I J O L O B R
Leia maisORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1
ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS 1 Resumo analítico indicativo Sequência de palavras-chave Definição de conceitos ORIENTAÇÕES DE RESPOSTA DAS ATIVIDADES FORMATIVAS NOTA: Além da capacidade
Leia maisMineração de Textos. Mineração de Textos
Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semi-estruturados
Leia maisIndexação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília
Indexação Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília 1 Penso, logo existo. Brincadeira feita por Fernando Modesto MODESTIKUS, Bibliotecário Grego René Descartes
Leia maisTECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO SISTEMAS DE GESTÃO DE BASE DE DADOS CONCEITOS BÁSICOS
TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO CONCEITOS BÁSICOS Necessidade das base de dados Permite guardar dados dos mais variados tipos; Permite um rápido e fácil acesso aos dados; Acelera os processos de
Leia maisQualidade. Ana Madureira
Qualidade Ana Madureira Qualidade da Informação A qualidade de uma informação é apreciada em função da sua pertinência (adaptação às necessidades do sistema de gestão). Três características permitem medir
Leia maisOrdenação e Pesquisa
Ordenação e Pesquisa Luís Lopes DCC-FCUP Estruturas de Dados Pesquisa de Informação A pesquisa eficiente de informação é extremamente relevante, seja: num catálogo indexado por uma relação de ordem, e.g.
Leia maisO Manual do sam. Peter H. Grasch
Peter H. Grasch 2 Conteúdo 1 Introdução 5 1.1 Fundo............................................. 5 1.1.1 Testes efectivos................................... 5 2 Usar o sam 6 2.1 Ficheiros de entrada &
Leia maisGSI024 - Organização e Recuperação da
GSI024 - Organização e Recuperação da Informação Ilmério Reis da Silva ilmerio@facom.ufu.br UFU/FACOM/BSI Arquivo 6 - Modelo Vetorial GSI024-ORI Pg:6. 1 Ranking baseado no modelo vetorial Considerações
Leia maisA Interação Humano-Computador
Interfaces de busca A Interação Humano-Computador Bem concebidos, os sistemas eficazes geram sentimentos positivos em seus usuários. Quando um sistema é bem projetado, a interface quase desaparece, permitindo
Leia maisFerramentas Web, Web 2.0 e Software Livre em EVT
E s t u d o s o b r e a i n t e g r a ç ã o d e f e r r a m e n t a s d i g i t a i s n o c u r r í c u l o d a d i s c i p l i n a d e E d u c a ç ã o V i s u a l e T e c n o l ó g i c a FluxTime Studio
Leia maisUNIVERSIDADE METODISTA DE PIRACICABA RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO
UNIVERSIDADE METODISTA DE PIRACICABA FACULDADE DE CIÊNCIAS EXATAS E DA NATUREZA MESTRADO EM CIÊNCIA DA COMPUTAÇÃO RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO UM MODELO PROBABILÍSTICO ESTENDIDO MARCELLO ERICK
Leia maisMineração de Textos na Web
Mineração de Textos na Web Luciano Antonio Digiampietri Escola de Artes Ciências e Humanidades da Universidade de São Paulo digiampietri@usp.br Resumo: Com o crescimento das informações disponíveis na
Leia maisMedidas de Avaliação. Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Recuperados não recuperados
Medidas de Avaliação Após a execução de uma busca, pode-se dividir os documentos do corpus nos seguintes conjuntos: Relevantes não-relevantes Recuperados não recuperados 1 Documentos úteis para atender
Leia maisIntrodução à programação em PASCAL. Aula de 22/10/2001. Nota: Conjunto de slides baseados nas transparências utilizadas em PEDA em anos anteriores
Introdução à programação em PASCAL Aula de 22/10/2001 Nota: Conjunto de slides baseados nas transparências utilizadas em PEDA em anos anteriores Conteúdo Conceito de linguagem de programação O processo
Leia maisModelo Espaço Vetorial. Mariella Berger
Modelo Espaço Vetorial Mariella Berger Agenda Introdução Atribuição de Pesos Frequência TF-IDF Similaridade Exemplo Vantagens e Desvantagens Modelo Espaço Vetorial Introdução Modelo Espaço Vetorial O modelo
Leia maisCAL ( ) MIEIC/FEUP Estruturas de Dados ( )
Conjuntos Disjuntos R. Rossetti, A.P. Rocha, A. Pereira, P.B. Silva, T. Fernandes FEUP, MIEIC, CPAL, 2010/2011 1 Conjuntos Disjuntos Objectivo resolver eficientemente o problema da equivalência estrutura
Leia maisSISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES
SISTEMA PARA RECUPERAÇÃO DE INFORMAÇÃO DE DOWNLOADS DE SOFTWARES Elzo Soares Pereira Filho, Matheus Rossi de Oliveira Costa, Vinícius Lobo Silva, Luciene Chagas de Oliveira, UNIUBE Universidade de Uberaba
Leia maisBases de Dados 2013/2014 Recuperação de Informação
Bases de Dados 2013/2014 Recuperação de Informação Pável Calado (baseado nos slides de Mário Gaspar da Silva) DMIR group@inesc-id Mário Silva Helena Galhardas H. Sofia Pinto Pável Calado Paulo Carreira
Leia maisMÓDULO 3: Programação Estruturada
Matriz de recuperação dos módulos 3, 4, 5, 7 e 9 da disciplina de Programação e Sistemas de Informação PSI Curso: Técnico de Gestão e Programação de Sistemas Informático MÓDULO 3: Programação Estruturada
Leia maisImplementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words
Leia maisFerramentas Web, Web 2.0 e Software Livre em EVT
E s t u d o s o b r e a i n t e g r a ç ã o d e f e r r a m e n t a s d i g i t a i s n o c u r r í c u l o d a d i s c i p l i n a d e E d u c a ç ã o V i s u a l e T e c n o l ó g i c a OpenZine M a
Leia maisProf. Walmes M. Zeviani
MINERAÇÃO DE TEXTO Conceitos & Aplicações Prof. Walmes M. Zeviani walmes@ufpr.br Laboratório de Estatística e Geoinformação Departamento de Estatística Universidade Federal do Paraná 06 de Fevereiro de
Leia maisO Manual do KSystemLog. Nicolas Ternisien
Nicolas Ternisien 2 Conteúdo 1 Usar o KSystemLog 5 1.1 Introdução.......................................... 5 1.1.1 O que é o KSystemLog?.............................. 5 1.1.2 Características....................................
Leia maisSistema Revolucionário de Gestão de Ficheiros
Licenciatura em Engenharia Informática e Computação Laboratório de Bases de Dados Sistema Revolucionário de Gestão de Ficheiros Grupo LBD09 Relatório de Especificação de Base de Dados Versão 1.0 Fernando
Leia maisTarefa Orientada 7 Consultas de selecção
Tarefa Orientada 7 Consultas de selecção Objectivos: Consultas de selecção O Sistema de Gestão de Bases de Dados MS Access Consultas As consultas (queries) permitem interrogar a base de dados, de acordo
Leia maisTerminologia Documental e sua aplicação: circuito do documento, análise documental, acesso e recuperação da informação
Terminologia Documental e sua aplicação: circuito do documento, análise documental, acesso e recuperação da informação Cadeia documental REUNIÃO Identificação Selecção Aquisição TRATAMENTO PRELIMINAR Carimbagem
Leia maisMelhorando a Recuperação de Informação
Recuperação de Informação e Web Mining 1 Melhorando a Recuperação de Informação O modelo de espaço vetorial Utiliza pesos para termos Permite o ranqueamento dos resultados Pode reduzir a dimensão do espaço
Leia maisReconhecimento de Padrões. Reconhecimento de Padrões
Reconhecimento de Padrões 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 Escola Superior de Tecnologia Engenharia Informática Reconhecimento de Padrões Prof. João Ascenso e Prof.
Leia maisCURSO PROFISSIONAL Técnico de Gestão e Programação de Sistemas Informáticos
ENSINO SECUNDÁRIO Agrupamento de Escolas Nº 1 de Abrantes CURSO PROFISSIONAL Técnico de Gestão e Programação de Sistemas Informáticos ESCOLA: Dr Solano de Abreu DISCIPLINA: Programação e Sistemas de Informação
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Realimentaçãode relevânciae expansão de consultas Organização e Recuperação de Informação(GSI521) Realimentação de
Leia maisRevisão. Meio ambiente da Recuperação de Informação. Linguagem Analógico x Digital
Revisão Meio ambiente da Recuperação de Informação Linguagem Analógico x Digital 1 Recuperação de Informação Recuperação de informação é o nome dado ao processo ou método pelo qual um potencial usuário
Leia maisDESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos
Leia maisTarefa Orientada 3 Criação de tabelas
Tarefa Orientada 3 Criação de tabelas Objectivos: Criação de Tabelas. Definição de chave primária. Definição de índices. Definição de propriedades (restrições) de campos. O Sistema de Gestão de Bases de
Leia maisSISTEMA DE INDEXAÇÃO E RECUPERAÇÃO DE INFORMAÇÃO EM CONSTRUÇÃO BASEADO EM ONTOLOGIA
SISTEMA DE INDEXAÇÃO E RECUPERAÇÃO DE INFORMAÇÃO EM CONSTRUÇÃO BASEADO EM ONTOLOGIA AMORIM, Sergio R. Leusin (1); CHERIAF, Malik (2) (1) UFF - Universidade Federal Fluminense, Rua Passo da Pátria, 156,
Leia maisRecuperação de Informação
Recuperação de Informação Estrutura de Dados II Mariella Berger 1 Roteiro Tarefas de Recuperação de Informação Modelos de Recuperação de Documentos Modelo Booleano Modelo Espaço Vetorial Recuperação de
Leia maisAprendizado de Máquina
Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução
Leia maisDescoberta de conhecimento em redes sociais e bases de dados públicas
Descoberta de conhecimento em redes sociais e bases de dados públicas Trabalho de Formatura Supervisionado Bacharelado em Ciência da Computação - IME USP Aluna: Fernanda de Camargo Magano Orientadora:
Leia maisAprendizagem a partir de observações. Capítulo 18 (Secções 1-3)
Aprendizagem a partir de observações Capítulo 18 (Secções 1-3) Sumário Agentes aprendizes Aprendizagem indutiva Aprendizagem com árvores de decisão Aprendizagem Aprendizagem é essencial em ambientes desconhecidos
Leia mais6. Pesquisa e Ordenação
6. Pesquisa e Ordenação Fernando Silva DCC-FCUP Estruturas de Dados Fernando Silva (DCC-FCUP) 6. Pesquisa e Ordenação Estruturas de Dados 1 / 30 Pesquisa de Informação A pesquisa eficiente de informação
Leia maisU N I V E R S I D A D E C A N D I D O M E N D E S P Ó S G R A D U A Ç Ã O L A T O S E N S U I N S T I T U T O A V E Z D O M E S T R E
U N I V E R S I D A D E C A N D I D O M E N D E S P Ó S G R A D U A Ç Ã O L A T O S E N S U I N S T I T U T O A V E Z D O M E S T R E E S T U D O D O S P R O B L E M A S D A E C O N O M I A B R A S I L
Leia maisFerramentas para Recuperação e Mineração de Informações
Ferramentas Java para Recuperação e Mineração de Informações Fabrício J. Barth 1,2 1 Fundação Atech Tecnologias Críticas (fbarth@atech.br) 2 Centro Universitário SENAC (fabricio.jbarth@sp.senac.br) 9 de
Leia maisConjuntos disjuntos. Objectivo resolver eficientemente o problema da equivalência estrutura de dados simples (vector) implementação rápida
Conjuntos disjuntos Objectivo resolver eficientemente o problema da equivalência estrutura de dados simples (vector) implementação rápida Desempenho análise complicada Uso problemas de grafos equivalência
Leia maisSistemas de Informação
Sistemas de Informação Escola Superior de Tecnologia e Gestão de Felgueiras Engenharia Informática 3º ano - 2003/2004 Ana Maria Madureira Informação Informação informatióne conjunto de dados em princípio
Leia maisCap. 1 Arquitectura de Sistemas de Bases de Dados
Cap. 1 Arquitectura de Sistemas de Bases de Dados Abel J.P. Gomes Bibliografia usada: T. Connoly e C. Begg. Database Systems: a pratical approach to design,implementation, and management. Addison-Wesley,
Leia maisÍNDICE. Índice remissivo...9. Iron Mountain Incorporated Ajuda do MyRoam do Connected Backup 1
ÍNDICE Acerca da Aplicação MyRoam....................................................................3 Processo de recuperação......................................................................3 Ficheiros
Leia maisOrganizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU
Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Pré-processamento de documentos Organização e Recuperação de Informação(GSI521) Introdução O pré-processamento de
Leia maisCONTEÚDOS. 1 O que é a Web of Science? 2 Registo 3 Pesquisa 4 Resultados de pesquisa 5 Personalizar
FORMAÇÃO DE UTILIZADORES 2018 CONTEÚDOS 1 O que é a Web of Science? 2 Registo 3 Pesquisa 4 Resultados de pesquisa 5 Personalizar 1 O que é a Web of Science? > É uma plataforma de bases de dados de referência
Leia maisA C T A N. º I V /
1 A C T A N. º I V / 2 0 0 9 - - - - - - A o s d e z a s s e t e d i a s d o m ê s d e F e v e r e i r o d o a n o d e d o i s m i l e n o v e, n e s t a V i l a d e M o n c h i q u e, n o e d i f í c
Leia maisDavid José Machado Ferreira. Procura Estruturada de Textos para Perfis de Utilizadores
David José Machado Ferreira Procura Estruturada de Textos para Perfis de Utilizadores Universidade da Beira Interior Departamento de Informática Agosto 2009 David José Machado Ferreira Procura Estruturada
Leia maisUnidade 1: Tecnologias da Informação e Comunicação Conceitos Introdutórios. Tecnologias da Informação e Comunicação
Agrupamento Campo Aberto - Beiriz Tecnologias da Informação e Comunicação Unidade 1: Tecnologias da Informação e Comunicação Objectivos n Conhecer os conceitos básicos relacionados com as TIC; n Caracterizar
Leia maisM a n h ã... p r e s e n t e! L u g a r... p r e s e n t e! Q u e m... p r e s e n t e! N e n h u m... p r e s e n t e! C u í c a... p r e s e n t e!
C a r o l i n a M a n h ã......................................................................... p r e s e n t e! L u g a r.......................................................................... p
Leia maisIntrodução à Programação. João Manuel R. S. Tavares
Introdução à Programação João Manuel R. S. Tavares Sumário 1. Ciclo de desenvolvimento de um programa; 2. Descrição de algoritmos; 3. Desenvolvimento modular de programas; 4. Estruturas de controlo de
Leia maisUFCD 786 Instalação e configuração de sistemas de bases de dados
Pág 2 UFCD 786 Instalação e configuração de sistemas de bases de dados Formadora Elsa Almeida Índice 1 Introdução... 3 2 Formulários... 4 2.1 Criar Formulários... 4 2.2 Inserção de Novos Registos e Manipulação
Leia maisAdministração e Optimização de BDs
Departamento de Engenharia Informática 2010/2011 Administração e Optimização de BDs Mini-Projecto 2 Entrega a 16 de Abril de 2011 2º semestre A resolução deve ser claramente identificada com o número de
Leia maisIntrodução à Programação
Introdução à Program João Manuel R. S. Tavares Sumário 1. Ciclo de desenvolvimento de um programa; 2. Descrição de algoritmos; 3. Desenvolvimento modular de programas; 4. Estruturas de controlo de um programa.
Leia maisDescoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters
Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters Descoberta
Leia maisLista de exercícios 2 Recuperação de Informação Textual
Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é
Leia maisEnquadramento e Conceitos Fundamentais
Licenciatura em Engenharia Informática e de Computadores Computação Gráfica Enquadramento e Conceitos Fundamentais Edward Angel, Cap. 1 LEIC CG Enquadramento e Conceitos Fundamentais Introdução à Computação
Leia maisGIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES
GIRS - GENETIC INFORMATION RETRIEVAL SYSTEM - UMA PROPOSTA EVOLUTIVA PARA SISTEMAS DE RECUPERAÇÃO DE INFORMAÇÕES - (-) - A recuperação de informação é uma subárea da ciência da computação que estuda o
Leia maisDr. Fone, o doutor que recupera o iphone, ipad e o ipod
Dr. Fone, o doutor que recupera o iphone, ipad e o ipod Date : 10 de Outubro de 2016 Nos dias de hoje, o uso e a dependência dos smartphones iphones, ipads e ipod touch - coloca-nos numa situação muito
Leia maisLaboratório 5 Estruturas de Selecção
Instituto Politécnico de Setúbal Escola Superior de Tecnologia Departamento de Sistemas e Informática Laboratório 5 Estruturas de Selecção Disciplina de Introdução à Programação Ano Lectivo 2006/2007 DSI
Leia maisTabela Hash: Índice remissivo
Capítulo 3 Tabela Hash: Índice remissivo Um índice remissivo lista os termos e tópicos que são abordados em um documento juntamente com páginas em que aparecem. É bastante comum encontrar tais índices
Leia maisUm estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) -
Um estudo sobre diferentes modelos de Recuperação de Informação em documentos semi-estruturados (XML) - Implementação, Análise, Avaliação e Comparação Autor: Mirella Silva Junqueira 1, Orientador: Prof.
Leia maisI-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos
17 I-Preproc: uma ferramenta para pré-processamento e indexação incremental de documentos Renan Gomes Pereira 1 Maria Fernanda Moura 2 Resumo: O objetivo deste trabalho é apresentar a ferramenta I-Preproc,
Leia maisServiços de Documentação da Universidade de Lisboa - Reitoria
Sumário: Apresentação... 1 Definição... 3 Recursos... 3 Pesquisa Rápida no Ulisses... 4 Fig. 1 Pesquisa Rápida, Simples... 5 Fig.2 Pesquisa Rápida, Avançada... 6 Fig.3 Resultados da pesquisa rápida...
Leia maisBases de dados. Conceito de Base de Dados e SGBD Modelo Relacional vs Modelo Monotabela Estruturas das Bases de Dados Elementos de uma Base de Dados
Bases de dados Conceito de Base de Dados e SGBD Modelo Relacional vs Modelo Monotabela Estruturas das Bases de Dados Elementos de uma Base de Dados O que é uma base de dados? é uma colecção de dados, organizados,
Leia mais