UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB

Tamanho: px
Começar a partir da página:

Download "UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB"

Transcrição

1 KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB MARINGÁ 2010

2

3 KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Orientador: Prof. Dr. Sérgio Roberto Pereira da Silva Co-Orientador: Profa. Dra. Valéria Delisandra Freltrim MARINGÁ 2010

4 Dados Internacionais de Catalogação na Publicação (CIP) M316a Marchi, Késsia Rita da Costa Abordagem para a personalização de resultados de busca na web, uma / Késsia Rita da Costa Marchi. Maringá: UEM, Orientador: Prof. Dr. Sérgio Roberto P. da Silva Co-orientadora: Profª. Drª. Valéria D. Feltrin Dissertação (mestrado) Universidade Estadual de Maringá, Programa de Pós-Graduação em Ciências da Computação, Ciência da Computação - busca. 2. Personalização resultado de busca na web. 3. Mecanismo de busca - modo de usar I. Universidade Estadual de Maringá II. Título. (21. ed.) CDD: 004 Bibliotecária Responsável Zineide Pereira dos Santos CRB 9/1577

5 KÉSSIA RITA DA COSTA MARCHI UMA ABORDAGEM PARA A PERSONALIZAÇÃO DE RESULTADOS DE BUSCA NA WEB Dissertação apresentada ao Programa de Pós-Graduação em Ciência da Computação da Universidade Estadual de Maringá, como requisito parcial para obtenção do grau de Mestre em Ciência da Computação. Aprovado em 25/02/2010 BANCA EXAMINADORA.

6

7 AGRADECIMENTOS Agradeço primeiramente a Deus, por ter me dado forças para concluir todas as etapas desse curso e, principalmente, concluir este trabalho. Agradeço e dedico este trabalho, a toda a minha família, em especial meus pais, José e Enete, meu marido André, minha filha Gabriela e meus irmãos Katiuce e Tiago, sem o apoio, compreensão, carinho, incentivo e companherismo de vocês a realização deste sonho não seria possível. Ao meu orientador, Prof. Dr. Sérgio Roberto P. da Silva, idealista deste trabalho e a minha co-orientadora, Profa. Dra. Valéria D. Feltrim, pelas orientações, auxílio e confiança em mim depositada. Aos meus eternos amigos de mestrado, e em especial aos meus irmãos de mestrado Roberto Pereira e José Valderlei da Silva (Jesus). Aos meus companheiros de trabalho, Claudete Werner, Wyllian Fressati e em especial à Daniela Eloise Flôr, que sempre me orientou e me ouviu nos momentos difíceis. Agradeço a vocês por todo apoio dado e todas as substituições realizadas ao longo do período de mestrado. Por fim, agradeço a Maira Inês Davanço, secretária do mestrado, por toda a dedicação e atenção dada a todos os alunos diariamente.

8

9 RESUMO O excesso de informação disponível na Web tem requerido dos usuários um maior esforço na recuperação de informação relevante ao seu interesse. Apesar dos motores de busca convencionais possuírem capacidade de retornar resultados de boa qualidade em resposta à maioria das consultas, eles ainda não conseguem oferecer estes resultados de forma eficiente. Neste trabalho é proposta uma arquitetura para um sistema de personalização de busca na Web que emprega a técnica de indexação de semântica latente, adaptada para o ambiente Web, em conjunto com um modelo de usuário construído de forma implícita por meio do acompanhamento da navegação do usuário nos documentos resultantes da busca. Por um lado, a técnica de indexação de semântica latente permite identificar a relação semântica existente entre os websites, proporcionando uma melhor ordenação dos resultados. Por outro, o modelo de usuário proporciona condições de identificar os interesses de um usuário na busca e possibilita uma melhoria na ordenação dos resultados oferecidos de acordo com esse interesse. Para validar esta proposta foram realizadas algumas simulações que comparam a classificação oferecida pelo motor de busca convencional Google com a reclassificação oferecida pelo protótipo desenvolvido. Os resultados dessas simulações apresentaram-se bastante favoráveis, mostrando uma melhor classificação para os documentos considerados relevantes, o que tende a reduzir os esforços empregados pelos usuários na busca de informação relevante. No entanto, o modelo de usuário ainda apresenta alta sensibilidade frente às escolhas de documentos com baixa relevância durante a navegação do usuário. Palavras-Chave: Personalização de Busca na Web, Indexação de Semântica Latente, Modelo de Usuário.

10

11 ABSTRACT The excess of information available on the Web has required a greater effort from users to retrieve information relevant to their interest. Despite conventional search engines possess the ability to retrieve good quality results in response to the majority of users' queries, they are not able to offer these results efficiently. In this work, we propose an architecture for a web search personalization system, employing the technique of latent semantic indexing, adapted to the Web environment, together with a user model built implicitly by monitoring users while they browse among the documents retrieved in the search. In one side, the technique of latent semantic indexing allows the identification of semantic relationship among websites, providing a better ordering of the results. In other side, the user model provides conditions to identify the interest of a user in the search and allows an improvement in the ordering of the results provided according to that interest. To evaluate this proposal, some simulations were carried out comparing the classification offered by conventional search engine Google with the reclassification offered by the prototype developed in our research. The results of these simulations are quite favorable, showing better classification for documents relevant to the user, which tends to reduce the efforts employed by users in finding relevant information. However, the user model stilll has a high sensitivity to the choice of low relevant documents during the user navigation. Keywords: Personalization of Web Search, Latent Semantic Indexing, User Model.

12

13 SUMÁRIO LISTA DE FIGURAS LISTA DE QUADROS E TABELAS LISTA DE EQUAÇÕES LISTA DE ABREVIATURAS E SIGLAS INTRODUÇÃO RECUPERAÇÃO DE INFORMAÇÃO Aspectos Gerais Pré-processamento em Documentos O processo de Tokenização O Processamento de Stopwords O Processo de Stemming Modelos Clássicos Modelo Booleano Modelo Vetorial Modelo Probabilístico Modelos Alternativos O Processo de Indexação de Semântica Latente Decomposição de Valores Singulares Exemplo de aplicação da LSI Recuperação de Informação na Web Aspectos gerais sobre os motores de busca Deficiências dos motores de busca atuais Experimento PERSONALIZAÇÃO DE BUSCA NA WEB A Modelagem do Usuário em Sistemas de Personalização Navegação Adaptativa Abordagens de Personalização na Web Pesquisa contextual Personalização baseada em histórico de consultas Personalização baseada na representação rica das necessidades dos usuários Resultados adaptados por clusterização Personalização baseada em hiperlink:... 86

14 4. ADAPTAÇÃO E PERSONALIZAÇÃO PARA BUSCAS NA WEB A Proposta de um Sistema Adaptativo de Busca Arquitetura do sistema proposto Etapa de pré-processamento Construção do modelo de usuário Adaptação da indexação de semântica latente Personalização dos resultados AVALIAÇÃO DA ARQUITETURA PROPOSTA Metodologia Definindo a Consulta Inicial Aplicando a LSI Aplicando a LSI Adaptada Aplicando o Modelo De Usuário CONCLUSÃO REFERÊNCIAS

15 LISTA DE FIGURAS Figura 1 - Processo básico de Recuperação de Informação Figura 2 - Processo de Tokenização e remoção de Stopwords Figura 3 Posição do primeiro documento relevante classificado pelo Google Figura 4 - Processo de personalização como parte do processo de recuperação Figura 5 Processo de personalização por re-classificação dos resultados obtidos Figura 6 - Processo de personalização por modificação da consulta Figura 7 - Distinção das abordagens de personalização Figura 8 - Arquitetura do Protótipo Figura 9 Proposta de interface Figura 10 - Long tail dos termos utilizados Figura 11- Personalização dos resultados Figura 12 - Processo de Simulação Figura 13 - Ordenação oferecida pelo Google para o primeiro usuário Figura 14 - Ordenação oferecida pelo Google para o segundo usuário Figura 15 - Ordenação oferecida pelo Google para o terceiro usuário Figura 16 Ordenação Google e Protótipo considerando consulta do primeiro usuário Figura 17 - Ordenação Google e Protótipo considerando consulta do segundo usuário Figura 18 - Ordenação Google e Protótipo considerando consulta do terceiro usuário Figura 19 - Gráfico da Comparação Precisão Média dos Retornos Oferecidos Figura 20 - Classificação obtida pelo primeiro usuário utilizando 80% dos termos Figura 21 - Classificação obtida pelo primeiro usuário utilizando 60% dos termos Figura 22 - Classificação obtida pelo primeiro usuário utilizando 40% dos termos Figura 23- Classificação obtida pelo primeiro usuário utilizando 20% dos termos Figura 24 - Classificação obtida pelo primeiro usuário utilizando 10% dos termos Figura 25 Tempo médio de processamento e % de termos utilizados Figura 26 - Precisão Média e % de termos utilizados Figura 27 - Precisão Média e tempo de processamento Figura 28 Ordenação Google e Protótipo considerando a navegação do primeiro usuário. 120 Figura 29 - Classificação obtida a partir de 1 website navegado Figura 30 - Classificação obtida a partir de 3 website navegado Figura 31 - Classificação obtida a partir de 5 website navegado Figura 32 - Classificação obtida a partir de 7 website navegado

16 Figura 33 - Classificação obtida a partir de 9 website navegado Figura 34 - Precisão média considerando a navegação do primeiro usuário Figura 35 - Precisão média considerando a navegação do segundo usuário Figura 36 - Precisão média considerando a navegação do terceiro usuário Figura 37 - Precisão média considerando websites parcialmente relevantes Figura 38 - Precisão média considerando websites irrelevantes

17 LISTA DE QUADROS E TABELAS Tabela 1 - Representação de uma coleção de documentos Tabela 2 - Modelos de Recuperação de Informação Tabela 3 - Coleção de documentos Tabela 4 - Matriz de frequência termo-documento Tabela 5 - Matriz termo-documento normalizada Tabela 6 - Matriz termo-documentos com cálculos TF-IDF Tabela 7 - Coleção de documentos re-ordenada Tabela 8 - Consultas realizadas por usuários Tabela 9 - Número de documentos totalmente relevantes Tabela 10 - Número de documentos com relevância parcial Tabela 11 - Comparação dos retornos obtidos pelos usuários Tabela 12 - Posição dos documentos relevantes Tabela 13 - Abordagens de personalização e forma de obtenção do perfil do usuário Tabela 14 Precisão média da ordenação oferecida pelo motor de busca Tabela 15- Tempo consumido para execução da LSI sem adaptação Tabela 16 - Redução no total de termos Tabela 17 - Precisão Média e Tempo de Execução para o corte de 20% dos termos Tabela 18 - Precisão Média e Tempo de Execução para o corte de 40% dos termos Tabela 19- Precisão Média e Tempo de Execução para o corte de 60% dos termos Tabela 20 - Precisão Média e Tempo de Execução para o corte de 80% dos termos Tabela 21 - Tempo de processamento X Precisão Média Tabela 22 - Precisão média

18

19 LISTA DE EQUAÇÕES Equação 1 - Representação Vetorial de um documento no modelo Espaço-Vetorial Equação 2 - Função de Similaridade Equação 3 Equação para comparação documento-documento Equação 4 Equação para realização do matching entre consulta e documentos Equação 5- Adição de novos documentos Equação 6 - Adição de novos termos Equação 7 - Cálculo da Precisão

20

21 LISTA DE ABREVEATURAS E SIGLAS LSI Latent Semantic Indexing HTML HyperText Markup Language TF Term-Frequency IDF Inverse document frequency SVD Single Value Decomposition HA Hipermídia Adaptativa MOSC Módulo de operações sobre as consultas MOST Módulo de operações sobre o texto MR Módulo de re-ordenação SEO Search Engine Optimization

22

23 23 C a p í t u l o I INTRODUÇÃO Recuperar informações em um contexto aberto, como é o caso da Web, ainda é uma tarefa complexa para os modelos tradicionais de busca de informações, baseados em algoritmos de indexação de conteúdos. A despeito dos softwares atuais de localização de informações, denominados motores de busca, possuirem um grande número de páginas indexadas, sendo capazes de obter resultados de boa qualidade em resposta às consultas dos usuários, os resultados nem sempre vão ao encontro dos reais interesses dos usuários. Em geral, o uso de técnicas de search engine optimization (SEO 1 ) coloca vários website comerciais nas primeiras posições do ranking destes motores de busca, o que pode ser contrário ao interesse de um usuário que está interessado na parte técnica ou artística de um assunto. 1 Os SEOs Search Engine Optimizator, são pessoas ou entidades que realizam trabalhos referentes à otimização de websites. Essa otimização é obtida por meio do posicionamento nos primeiros lugares nas ferramentas de busca para algumas palavras-chaves.

24 24 É neste cenário que os motores de busca convencionais encontram dois grandes desafios. O primeiro diz respeito à qualidade dos resultados, ou seja, como fornecer resultados de qualidade independente do nível de conhecimento sobre a construção de strings de consultas de cada usuário. Mesmo os melhores motores de busca ainda não conseguem retornar uma classificação precisa referente ao contexto de interesse do usuário. Os resultados oferecidos por estes motores de busca misturam websites que são verdadeiramente relevantes ao contexto do usuário com websites que apresentam uma similaridade marginal à consulta, ou que são totalmente irrelevantes. De acordo com MANNING (2008), o número de termos utilizados na elaboração de consultas na Web está em torno de duas ou três palavras-chaves e raramente são utilizados os conectivos booleanos ou caracteres especiais. Esse fato reflete diretamente nos resultados oferecidos pelos motores de busca, que tendem a retornar muitos websites irrelevantes, exigindo que o usuário realize uma filtragem manual dos resultados para obtenção dos que traduzam realmente seu interesse. O esforço empregado nessa filtragem pode ser alto de acordo com a precisão da classificação dos resultados oferecidos pelo motor de busca (HARDTKE, 2009; BRUSILOVSKY, 2009; [B] MICARELLI, 2007; PANT, 2003). O segundo desafio dos motores de busca se relaciona com qualidade da interface com o usuário, ou seja, como atender usuários leigos e/ou profissionais experientes com uma única interface simples. Embora se deseje ter uma interface simples, é interessante que ela possua recursos que facilitem a navegação e, ao mesmo tempo, constituam uma poderosa ferramenta para consultas complexas. Essas interfaces devem ser capazes de apresentar resultados que atendam as necessidades do usuário e exijam desse usuário um mínimo esforço na busca de informação relevante.

25 25 De acordo com KHOPKAR (2003), os motores de busca que têm recursos que possibilitam a interação com o usuário, visando a construção de um modelo de interesses do usuário, apresentam um nível maior de complexidade de interação. Essa interação pode ocorrer de duas formas, sendo por meio: do feedback implícito, no qual as ações do usuário são capturadas de forma não intrusiva; ou do feedback explícito, que requer do usuário uma intervenção direta. Os sistemas que fazem uso do feedback explícito apresentam problemas relacionados a obtenção da informação correta, devido à preocupação com a privacidade ([B] MICARELLI, 2007; PAZZANI, 2007). Softwares como o SurfCanyon (HARDTKE, 2009) utilizam os dois meios de interação, entretanto, usuários leigos apresentam dificuldade de interagir com os recursos adicionais, como os ícones apresentados no final de cada link que possibilita a aproximação de websites similares a esse link. Com o intuito de discutir possíveis melhorias aos problemas referentes aos retornos oferecidos pelos motores de busca convencionais, este trabalho explora ineficiências comuns a estes motores de busca, propondo uma forma de personalização dos resultados oferecidos pelos mesmos de acordo com um modelo de usuário construído de forma implícita, o qual considera as ações do mouse ou do teclado durante a navegação do usuário, possibilitando, assim, identificar o interesse do usuário em cada website. Com a finalidade de apoiar a realização da personalização dos resultados das consultas, foi considerada a hipótese de se criar um modelo de usuário implícito com o uso da técnica de LSI (Latent Semantic Indexing) para auxiliar na indexação semântica dos websites (por meio da identificação de estruturas semânticas ocultas nas relações entre termos e websites) (MANNING, 2008; DEERWESTER, 1996; BAEZA-YATES, 1999). Trabalhos citados por [A] MICARELLI (2007), BRUSILOVSKY (2004, 2009), MANNING (2008), sugerem o uso da LSI em motores de busca no momento da indexação. Neste trabalho, é proposta a aplicação dessa técnica em websites retornados pelos motores de busca

26 26 convencionais e a apresentação de uma nova classificação baseada na similaridade identificada pela LSI no browser do usuário. O modelo de usuário será construído a partir da matriz LSI de cada website visitado. Para tornar viável a utilização da LSI no ambiente web é necessária a realização de adaptações. Com base na lei de Zipf (BRYNJOLFSSON, 2007; KOCH, 2000; ZIPF, 1949) é proposto um corte significativo no número de termos usados na matriz LSI, o que proporciona um maior desempenho e possibilita que as classificações dos resultados das consultas realizadas pelos usuários aconteçam em paralelo à sua navegação. As classificações ocorrem a cada atualização do modelo de usuário e os resultados são re-ordenados por meio do método de visualização personalizada, fazendo uso da ordenação, ou classificação, adaptativa dos links retornados pelo motor de busca. Para validar a utilização da técnica de LSI em conjunto com o modelo de usuário construído de forma implícita, foram realizadas algumas simulações com os resultados obtidos por meio de um protótipo construído e comparados aos resultados obtidos pelo motor de busca Google. As simulações realizadas indicaram a viabilidade de se aplicar o modelo de usuário proposto e a técnica de LSI aplicada a um percentual de termos extraídos de cada documento, na re-ordenação dos resultados oferecidos pelos motores de busca convencionais na Web. Entretanto, é importante salientar que, por se tratar de uma simulação, certos detalhes foram ignorados, como, a não consideração das diferentes taxas de conexões que os usuário utilizam e as questões de interação humano-computador. Esta dissertação está organizada da seguinte forma. No Capítulo II, apresentamos os conceitos relativos a área de recuperação de informação, falando sobre a etapa de préprocessamento de texto realizado nas tarefas de Recuperação de Informação (RI); os modelos clássicos de RI; os modelos alternativos, como a LSI; e o processo de recuperação de informação na Web, citando o funcionamento tradicional dos motores de busca e identificando

27 27 algumas de suas deficiências. No Capítulo III, abordamos os conceitos sobre personalização de busca na Web, enfocando conceitos de adaptatividade, hipermídia adaptativa, modelo de usuário; navegação adaptativa e técnicas de personalização. No Capítulo IV, descrevemos nossa proposta de personalização dos resultados oferecidos pelos motores de busca convencionais utilizando a LSI aplicada a um percentual de termos em conjunto com um modelo de usuário criado de forma implícita. No Capítulo V, detalhamos o processo de simulação realizado e as análises dos resultados obtidos nesse processo. Finalmente, no Capítulo VI, apresentamos nossas conclusões sobre o trabalho desenvolvido, discutimos suas limitações e sugerimos algumas pesquisas futuras.

28

29 29 C a p í t u l o II RECUPERAÇÃO DE INFORMAÇÃO Atarefa de recuperar informações lida com os processos de representação, armazenamento, organização e acesso à informação, objetivando proporcionar ao usuário uma maior facilidade de acesso à informação relevante (BAEZA- YATES, 1999). Neste capítulo, aborda-se o conceito de Recuperação de Informação (RI), sua origem, aplicações e classificação. Apresentam-se ainda as tarefas que ocorrem na etapa de préprocessamento dos documentos, a qual tem como objetivo principal identificar as palavras importantes do texto no contexto ao qual elas pertencem. A seguir são apresentados os

30 30 modelos booleano, vetorial e probabilístico, os quais são considerados clássicos na tarefa de RI. Após essas discussões são citados alguns modelos alternativos de RI e realizada uma explanação sobre o processo de Indexação de Semântica Latente (LSI do Inglês Latent Semantic Index), o qual visa melhorar os resultados oferecidos em tarefas de RI. Por fim, apresenta-se as características inerentes à recuperação de informação na Web, a qual, normalmente, ocorre por meio de motores de busca Aspectos Gerais O termo RI tem sido utilizado desde a década de 40, sendo citado pela primeira vez por Calvin Mooers em sua dissertação de mestrado (MOOERS, 1950). A RI é reconhecida como uma área de pesquisa interdisciplinar, englobando áreas como Ciência da Computação, Arquitetura da Informação, Psicologia Cognitiva, Lingüística, Estatística e outras (GARFIELD, 1977). No princípio, a RI era uma tarefa utilizada apenas por pessoas que trabalhavam em áreas específicas, como bibliotecários, paralegais e pesquisadores em geral. Entretanto, a sobrecarga de informação 2 atual mudou esse cenário. Hoje milhares de pessoas estão engajadas na recuperação de informações quando estão utilizando a Web por meio dos motores de busca disponíveis, ou mesmo na consulta de seus s. Nesse contexto, nota-se que a RI abrange outros tipos de dados que não somente os estruturados como no modelo de banco de dados relacional, fortemente empregado hoje em dia no armazenamento de dados. Dessa forma, estabeleceu-se uma nova necessidade: a consulta em dados semi-estruturados, os quais são caracterizados por possuírem uma estrutura 2 Sobrecarga de Informação é um termo amplamente utilizado para definir a quantidade excessiva de informações disponível na Web (HIMMA, 2007).

31 31 irregular e, muitas vezes, implícita como nos tipos de dados contidos nas páginas HTML (HyperText Markup Language) (MANNING, 2008; PAPAKONSTANTINOU, 1995). Os dados semi-estruturados apresentam uma representação estrutural heterogênea, sendo caracterizados por não possuírem um esquema pré-definido, tendo o esquema de representação presente de forma implícita ou explícita juntamente com os dados, ou seja, eles possuem uma estrutura auto-descritiva. Este tipo de estrutura determina que deve ser feita uma análise dos dados para identificar e extrair a estrutura e os dados que poderão ser utilizados (ELMASRI, 2005). Sistemas de RI são classificados, segundo MANNING (2008), em três escalas. Na escala inicial está a recuperação de informação pessoal, a qual apresenta como objetivo realizar a recuperação de informação em computadores pessoais. Sistemas operacionais como o Windows 7 e Apple s Mac OS X, entre outros, tem integrado a recuperação pessoal de informação. Outros exemplos são os programas de s que fornecem meios para classificações automáticas ou manuais em pastas particulares e filtros anti-spam. Na escala intermediária, encontram-se os sistemas empresariais, institucionais e de busca em um domínio específico, nos quais a recuperação ocorre em uma coleção de dados específica, como em uma determinada base de dados ou em artigos resultantes de uma pesquisa (na qual, normalmente, esses arquivos ficam armazenados em um sistema centralizado). Por fim, na escala mais avançada, tem-se a busca na Web, na qual o sistema realiza a pesquisa na Web e deve ser capaz de trabalhar de forma eficiente, tornando possível que o usuário empregue o menor esforço, e eficaz, produzindo o melhor resultado. A pesquisa realizada deve considerar aspectos particulares da rede, como a exploração de hiperdocumentos e a existência de spamming 3, para a manipulação dos resultados obtidos nos mecanismos de busca. 3 Spamming são técnicas que promovem uma maior exposição do website nos mecanismos de busca, ocasionando resultados insatisfatórios.

32 32 De uma forma geral, sistemas de RI suportam três processos básicos, sendo eles: a representação dos conteúdos dos documentos; a representação das necessidades dos usuários, normalmente indicadas por consultas; e a comparação entre esses dois processos, conforme mostra a figura 1 (CROFT, 1993). Figura 1 - Processo básico de Recuperação de Informação Os documentos são representados por um processo chamado de indexação, o qual gera uma representação formal dos dados de cada documento. Os algoritmos que realizam a indexação variam desde soluções triviais, normalmente utilizadas para indexar documentos de textos completos, até algoritmos mais complexos que armazenam parcialmente o conteúdo dos documentos, geralmente utilizados para grandes coleções. Além dos conteúdos, os índices também guardam informações sobre a localização real de cada documento. Há vários métodos de indexação já desenvolvidos, como o array de sufixos, a assinatura de arquivos e os índices invertidos (HIEMSTRA, 2001). A representação de informações sobre o problema, ilustrada na figura 1, frequentemente é referenciada como o processo de formulação de consultas. Formular uma consulta pode denotar a interação completa entre o sistema e o usuário. Por meio da consulta, o sistema consegue subsídios para começar a entender qual é a necessidade do usuário

33 33 (HIEMSTRA, 2001). Deste modo, a formulação da consulta determina diretamente os resultados oferecidos no processo de comparação. Para formular uma consulta nas ferramentas de busca convencionais pode-se: Fazer uso de termos, ou seja, palavras chaves extraídas da comunicação em linguagem natural, para as quais o mecanismo de busca retornará documentos que possuem esses termos, independentes de sua posição no texto. Ex. information retrieval retornará qualquer documento que possua a palavra information ou retrieval, independente de sua posição. Fazer uso de aspas, que permite definir a sequência exata dos termos, normalmente formando uma frase. Ex. information retrieval retornará documentos que possuem essa sequência de palavras. Fazer uso de conectivos lógicos AND e OR, que determinam a obrigatoriedade ou não do termo no documento. Ex1. information AND retrieval retornará documentos que possuam, obrigatoriamente, os dois termos independentes de posição. Ex2. information OR retrieval retornará documentos que possuam, pelo menos, um dos termos utilizados na consulta. Fazer uso de negação, que permite especificar que a presença de um determinado termo no documento exclua esse documento da lista de retornos, ou seja, consultando por information retrieval serão retornados documentos que possuam o termo information e não possuam o termo retrieval. Escrever consultas que reúnam termos, aspas, conectivos lógicos e negação para explicitar de forma completa a necessidade do usuário. Formulando uma consulta de forma consistente e coerente é possível obter um maior número de documentos relevantes ao interesse do usuário. Quanto mais detalhes forem

34 34 apresentados ao mecanismo de busca no momento da formulação da consulta, mais refinado fica o resultado apresentado por esse mecanismo. O processo de comparação (matching) refere-se a comparar a consulta formulada pelo usuário com os documentos indexados pelo mecanismo de busca. A partir de um conjunto de documentos e uma consulta, o processo de comparação obtém um subconjunto ordenado de documentos relevantes à consulta formulada. Essa ordenação tem como objetivo principal minimizar o tempo que o usuário leva para encontrar documentos interessantes e é estabelecida pelo algoritmo de classificação de cada mecanismo de busca. Esses algoritmos, na sua maioria, utilizam a frequência dos termos e/ou métodos estatísticos para a distribuição desses documentos. Ao navegar nos documentos retornados, o usuário pode obter informações sobre o problema, o que pode auxiliá-lo a melhorar a query e, por conseqüência, obter um maior número de documentos relevantes. Na sua forma convencional, o processo de comparação realizado por motores de busca utiliza simplesmente a recuperação de palavras por semelhança literal, não levando em consideração toda a informação existente no documento ou as interações realizadas pelos usuários. RIJSBERGEN (1999) comenta que esse processo poderia ser realizado por meio do conjunto de palavras pertencentes aos documentos da coleção, fazendo o uso de sinonímia 4. A sinonímia pode causar uma sensível redução no número de documentos retornados relevantes à consulta, devido ao fato de que a palavra-chave que está sendo utilizada na consulta pode não estar sendo utilizada no documento. E, além desse uso, também é possível utilizar informações referentes ao interesse do usuário por meio da sua interação com o sistema. Em uma abordagem de RI, tanto a sinonímia quanto a polissemia 5, são problemas importantes que devem ser tratados na etapa de pré-processamento. A polissemia pode causar retornos de documentos não relevantes ao usuário, pois as palavras-chaves utilizadas na string 4 Sinonímia é um fenômeno que ocorre com palavras diferentes que apresentam o mesmo significado. 5 A polissemia é um fenômeno em que uma palavra possui múltiplos significados.

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico

04/03/2013. Gerenciamento de Dados e Informação. Recuperação de Dado X Informação. Histórico Recuperação de Dado X Informação Gerenciamento de Dados e Informação Fernando Fonseca Ana Carolina Robson Fidalgo Comparação (matching) Recuperação de Dados Exata Recuperação de Informação Aproximada Dados

Leia mais

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O

Leia mais

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS ISBN 978-85-61091-05-7 Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS Marcello Erick Bonfim 1

Leia mais

Mineração de Textos. E. A. M. Morais A. P. L. Ambrósio. Instituto de Informática Universidade Federal de Goiás www.inf.ufg.br

Mineração de Textos. E. A. M. Morais A. P. L. Ambrósio. Instituto de Informática Universidade Federal de Goiás www.inf.ufg.br Mineração de Textos E. A. M. Morais A. P. L. Ambrósio Technical Report - INF_005/07 - Relatório Técnico December - 2007 - Dezembro The contents of this document are the sole responsibility of the authors.

Leia mais

Organização e Recuperação da Informação

Organização e Recuperação da Informação GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução Porque RI? Problemas da solução

Leia mais

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o

Leia mais

25/05/2015. Relevance Feedback. Expansão de Consulta. Relevance Feedback

25/05/2015. Relevance Feedback. Expansão de Consulta. Relevance Feedback Relevance Feedback Expansão de Consulta Relevance Feedback 1 Relevance Feedback Baeza-Yates; Ribeiro-Neto, (2011, cap 5) distinguem dois métodos: Explicit Relevance Feedback a informação para a reformulação

Leia mais

Otimização de Recuperação de Informação usando Algoritmos Genéticos

Otimização de Recuperação de Informação usando Algoritmos Genéticos Otimização de Recuperação de Informação usando Algoritmos Genéticos Neide de Oliveira Gomes, M. Sc., nog@inpi.gov.br Prof. Marco Aurélio C. Pacheco, PhD Programa de Doutorado na área de Métodos de Apoio

Leia mais

Recuperação de Imagens na Web Baseada em Informações Textuais

Recuperação de Imagens na Web Baseada em Informações Textuais Recuperação de Imagens na Web Baseada em Informações Textuais André Ribeiro da Silva Mário Celso Candian Lobato Universidade Federal de Minas Gerais Departamento de Ciência da Computação {arsilva,mlobato}@dcc.ufmg.br

Leia mais

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION Seminário da disciplina Engenharia de Requisitos Aluno: Eliaquim Lima Sá Neto (elsn@cin.ufpe.br) Autores 2 Sandra Fabbri Professora

Leia mais

Estudo exploratório da Indexação Semântica Latente e das funções peso

Estudo exploratório da Indexação Semântica Latente e das funções peso Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Estudo exploratório da Indexação Semântica Latente e das funções peso Diego

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

EMENTAS DO CURSO SUPERIOR DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS

EMENTAS DO CURSO SUPERIOR DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS EMENTAS DO CURSO SUPERIOR DE TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS INTRODUÇÃO À COMPUTAÇÃO 60 h 1º Evolução histórica dos computadores. Aspectos de hardware: conceitos básicos de CPU, memórias,

Leia mais

Aplicação da Medida TfIdf em Bancos de Dados Relacionais para Ordenação de Consultas por Termos

Aplicação da Medida TfIdf em Bancos de Dados Relacionais para Ordenação de Consultas por Termos Aplicação da Medida TfIdf em Bancos de Dados Relacionais para Ordenação de Consultas por Termos Daniel Pereira Lima 1, Naziane Alves Pinto 2, Carla Oran Fonseca de Souza 3, Francisca Sancha Azevedo da

Leia mais

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA Daniel Mandelli Martins Faculdade de Engenharia de Computação CEATEC danielmartins@puc-campinas.edu.br Juan Manuel Adán Coello

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

Opala: uma biblioteca de indexação e busca de textos e imagens por conteúdo

Opala: uma biblioteca de indexação e busca de textos e imagens por conteúdo Opala: uma biblioteca de indexação e busca de textos e imagens por conteúdo Lidijanne de Miranda Santos (1); Aécio Solano Rodrigues Santos (2); Ricardo Martins Ramos (3); Valéria Oliveira Costa (4) Instituto

Leia mais

2 Conceitos Gerais de Classificação de Documentos na Web

2 Conceitos Gerais de Classificação de Documentos na Web Conceitos Gerais de Classificação de Documentos na Web 13 2 Conceitos Gerais de Classificação de Documentos na Web 2.1. Páginas, Sites e Outras Terminologias É importante distinguir uma página de um site.

Leia mais

Universidade FUMEC. Classificação de Documentos Eletrônicos por Sintagmas Nominais na Web. CHAVES Rodrigo S.; MAIA Luiz C. G.

Universidade FUMEC. Classificação de Documentos Eletrônicos por Sintagmas Nominais na Web. CHAVES Rodrigo S.; MAIA Luiz C. G. Universidade FUMEC Classificação de Documentos Eletrônicos por Sintagmas Nominais na Web CHAVES Rodrigo S.; MAIA Luiz C. G., 2013 RESUMO Com o desenvolvimento tecnológico a informação passou a ter um papel

Leia mais

Universidade Federal de Santa Catarina. Text Mining. Data Mining INE5644

Universidade Federal de Santa Catarina. Text Mining. Data Mining INE5644 Universidade Federal de Santa Catarina Text Mining Data Mining INE5644 Augusto Fredigo Hack Luis Felipe Nunes Matheus Hoffmann Silva Thiago Thalison Firmino de Lima Florianópolis, 19 de outrubro de 2013

Leia mais

textos documentos semi-estruturado

textos documentos semi-estruturado 1 Mineração de Textos Os estudos em Aprendizado de Máquina normalmente trabalham com dados estruturados Entretanto, uma grande quantidade de informação é armazenada em textos, que são dados semiestruturados

Leia mais

Excel 2010 Modulo II

Excel 2010 Modulo II Excel 2010 Modulo II Sumário Nomeando intervalos de células... 1 Classificação e filtro de dados... 3 Subtotais... 6 Validação e auditoria de dados... 8 Validação e auditoria de dados... 9 Cenários...

Leia mais

Recuperação de Informação

Recuperação de Informação Recuperação de Informação Estrutura de Dados II Mariella Berger 1 Roteiro Tarefas de Recuperação de Informação Modelos de Recuperação de Documentos Modelo Booleano Modelo Espaço Vetorial Recuperação de

Leia mais

Introdução à Simulação

Introdução à Simulação Introdução à Simulação O que é simulação? Wikipedia: Simulação é a imitação de alguma coisa real ou processo. O ato de simular algo geralmente consiste em representar certas características e/ou comportamentos

Leia mais

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd. Apresentação Este curso tem como objetivo, oferecer uma noção geral sobre a construção de sistemas de banco de dados. Para isto, é necessário estudar modelos para a construção de projetos lógicos de bancos

Leia mais

Além da correção ortográfica nos editores de textos livres

Além da correção ortográfica nos editores de textos livres Além da correção ortográfica nos editores de textos livres William D. Colen M. Silva (colen@users.sourceforge.net) Eng. Computação pela Escola Politécnica da USP (2006) Mestrando Ciência da Computação

Leia mais

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Rafael Rodrigo da Silva 1, Wender Magno Cota 1 1 Universidade Presidente Antônio Carlos (UNIPAC) Faculdade Regional

Leia mais

Características do PHP. Começando a programar

Características do PHP. Começando a programar PHP Introdução Olá pessoal. Desculpe o atraso na publicação da aula. Pude perceber pelas respostas (poucas) ao fórum que a realização da atividade do módulo I foi relativamente tranquila. Assistam ao vídeo

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Análisede links Page Rank Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Motivação Suponha que um modelo clássico, como

Leia mais

Laboratório de Mídias Sociais

Laboratório de Mídias Sociais Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais parte I Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Universidade Federal de Goiás O que é Análise Textual? Análise

Leia mais

Padrões de Contagem de Pontos de Função

Padrões de Contagem de Pontos de Função Padrões de Contagem de Pontos de Função Contexto Versão: 1.0.0 Objetivo O propósito deste documento é apresentar os padrões estabelecidos para utilização da técnica de Análise de Pontos de Função no ambiente

Leia mais

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL Diretoria de Sistema - DS Superintendência de Arquitetura de Sistemas - SAS Gerência de Arquitetura de Informação - GAAS

Leia mais

Programação para Internet I

Programação para Internet I Programação para Internet I Faculdade de Tecnologia SENAC Curso Superior de Análise e Desenvolvimento de Sistemas Edécio Fernando Iepsen (edecio@terra.com.br) Vantagens da HTML 5 Código notadamente semântico;

Leia mais

SEO Search Engine Optimization

SEO Search Engine Optimization SEO Search Engine Optimization II Semana de Atualização Tecnológica FASE 22/07/11 Felipe Augusto Pereira felipe@unu.com.br Quem sou eu? Felipe Pereira Educador Empreendedor Pesquisador Doutorando UNU Soluções

Leia mais

3 OOHDM e SHDM 3.1. OOHDM

3 OOHDM e SHDM 3.1. OOHDM 32 3 OOHDM e SHDM Com a disseminação em massa, desde a década de 80, de ambientes hipertexto e hipermídia, principalmente a Web, foi identificada a necessidade de elaborar métodos que estruturassem de

Leia mais

O MODELO ESPAÇO VETORIAL NO DESENVOLVIMENTO DE INTERFACES DE BUSCA E RECUPERAÇÃO DE INFORMAÇÃO

O MODELO ESPAÇO VETORIAL NO DESENVOLVIMENTO DE INTERFACES DE BUSCA E RECUPERAÇÃO DE INFORMAÇÃO O MODELO ESPAÇO VETORIAL NO DESENVOLVIMENTO DE INTERFACES DE BUSCA E RECUPERAÇÃO DE INFORMAÇÃO RESUMO LOPES, T.S.F. 1., FERNEDA, E. 2 1 Mestranda do Programa de Pós-graduação em Ciência da Informação Rua

Leia mais

Resolução de problemas e desenvolvimento de algoritmos

Resolução de problemas e desenvolvimento de algoritmos SSC0101 - ICC1 Teórica Introdução à Ciência da Computação I Resolução de problemas e desenvolvimento de algoritmos Prof. Vanderlei Bonato Prof. Cláudio Fabiano Motta Toledo Sumário Análise e solução de

Leia mais

CURSO DE SISTEMAS DE INFORMAÇÃO

CURSO DE SISTEMAS DE INFORMAÇÃO 1 CURSO DE SISTEMAS DE INFORMAÇÃO EMENTÁRIO DAS DISCIPLINAS 2011.1 BRUSQUE (SC) 2015 2 SUMÁRIO 1ª FASE... 4 01 ARQUITETURA DE COMPUTADORES... 4 02 FILOSOFIA... 4 03 FUNDAMENTOS MATEMÁTICOS PARA COMPUTAÇÃO...

Leia mais

Ajuda. Nas abas superiores é possível visualizar os itens em uma ordem específica:

Ajuda. Nas abas superiores é possível visualizar os itens em uma ordem específica: Ajuda A Biblioteca Digital de Monografias (BDM) disponibiliza e preserva documentos digitais implementando a tecnologia de arquivos abertos. Aqui, podem-se encontrar trabalhos de conclusão dos cursos de

Leia mais

Um Método Probabilístico para o Preenchimento Automático de Formulários Web a partir de Textos Ricos em Dados

Um Método Probabilístico para o Preenchimento Automático de Formulários Web a partir de Textos Ricos em Dados Um Método Probabilístico para o Preenchimento Automático de Formulários Web a partir de Textos Ricos em Dados Guilherme Alves Toda 1, Altigran Soares da Silva (Orientador) 1 1 Departamento de Ciência da

Leia mais

Desenvolvido por: Juarez A. Muylaert Filho - jamf@estacio.br Andréa T. Medeiros - andrea@iprj.uerj.br Adriana S. Spallanzani - spallanzani@uol.com.

Desenvolvido por: Juarez A. Muylaert Filho - jamf@estacio.br Andréa T. Medeiros - andrea@iprj.uerj.br Adriana S. Spallanzani - spallanzani@uol.com. UAL é uma linguagem interpretada para descrição de algoritmos em Português. Tem por objetivo auxiliar o aprendizado do aluno iniciante em programação através da execução e visualização das etapas de um

Leia mais

Conteúdo Programático

Conteúdo Programático Conteúdo Programático Conhecimentos Básicos Português Básico Gramática Sobre o curso: Ele é direcionado a todo aluno que pretende construir uma base sólida de conhecimentos fundamentais para resolver as

Leia mais

Anexo III Funcionamento detalhado do Sistema Montador de Autoria

Anexo III Funcionamento detalhado do Sistema Montador de Autoria 1 Sumário Anexo III Funcionamento detalhado do Sistema Montador de Autoria Anexo III Funcionamento detalhado do Sistema Montador de Autoria... 1 1 Sumário... 1 2 Lista de Figuras... 5 3 A Janela principal...

Leia mais

Aplicação de uma FAQ Baseada em RBC para Suporte a Usuários de um Sistema Web

Aplicação de uma FAQ Baseada em RBC para Suporte a Usuários de um Sistema Web Aplicação de uma FAQ Baseada em RBC para Suporte a Usuários de um Sistema Web Richard Marthendal Guckert 1, Daniela Souza Moreira 2, Anita Maria da Rocha Fernandes 1, 2 1 Curso de Ciência da Computação

Leia mais

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial T U T O R I A I S WEB OF SCIENCE TUTORIAL Biblioteca da Escola de Engenharia da UFRGS WEB OF SCIENCE - Tutorial O que é? O Web of Science é uma base de dados que disponibiliza acesso a mais de 9.200 títulos

Leia mais

Realizado por: Luis Miguel das Neves Leal. Orientadora: Engº. Fátima Rodrigues

Realizado por: Luis Miguel das Neves Leal. Orientadora: Engº. Fátima Rodrigues Text Mining Text Mining Realizado por: Luis Miguel das Neves Leal Orientadora: Engº. Fátima Rodrigues Índice Índice de Figuras...III Índice de Tabelas... IV 1. Introdução...1 1.1 Motivação...1 1.2 Objectivo...1

Leia mais

linguagem técnica de informática; Perceber os sinais de pontuação e identificar sua função no texto; Ler siglas e identificar seus significados;

linguagem técnica de informática; Perceber os sinais de pontuação e identificar sua função no texto; Ler siglas e identificar seus significados; PLANO DE CURSO Disciplina Competências Habilidades Bases Tecnológicas INGLÊS TÉCNICO Aumentar e consolidar o seu vocabulário ativo e passivo, através da fixação de novas palavras e expressões contidas

Leia mais

Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu

Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu Alessandro Mueller alessandro@univali.br UNIVALI Luiz Gonzaga Ferreira

Leia mais

Recuperação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília

Recuperação. Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília Recuperação Profa. Lillian Alvares Faculdade de Ciência da Informação Universidade de Brasília 1 2 Contexto Grande quantidade de informações são produzidas e disponibilizadas diariamente Com a elevada

Leia mais

Como os Mecanismos de Busca da Web Indexam Páginas HTML

Como os Mecanismos de Busca da Web Indexam Páginas HTML Como os Mecanismos de Busca da Web Indexam Páginas HTML Fernando Campos campos@dcc.ufmg.br Departamento de Ciência da Computação Universidade Federal de Minas Gerais Marcello Peixoto Bax bax@eb.ufmg.br

Leia mais

3 Ferramentas de busca

3 Ferramentas de busca 3 Ferramentas de busca A Internet se transformou em um vasto repositório de informações. Podemos encontrar sites sobre qualquer assunto, de futebol a religião. O difícil, porém é conseguir encontrar a

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

Introdução ao Scilab

Introdução ao Scilab Programação de Computadores 1 Capítulo 1 Introdução ao Scilab José Romildo Malaquias Departamento de Computação Universidade Federal de Ouro Preto 2014.2 1/35 1 MATLAB e Scilab 2 O ambiente Scilab 2/35

Leia mais

PARANÁ GOVERNO DO ESTADO

PARANÁ GOVERNO DO ESTADO PARANÁ GOVERNO DO ESTADO COLÉGIO ESTADUAL DE PARANAVAÍ ENSINO FUNDAMENTAL, MÉDIO, NORMAL E PROFISSIONAL CURSO TÉCNICO EM INFORMÁTICA DISCIPLINA: INTERNET E PROGRAMAÇÃO WEB 1º MÓDULO SUBSEQUENTE MECANISMOS

Leia mais

Desenvolvimento de uma interface extratora de dados genérica e inserção automática de dados em Sistemas de Informação Geográficos

Desenvolvimento de uma interface extratora de dados genérica e inserção automática de dados em Sistemas de Informação Geográficos Desenvolvimento de uma interface extratora de dados genérica e inserção automática de dados em Sistemas de Informação Geográficos Caroline Julliê de Freitas RIBEIRO¹, Vantuil José de OLIVEIRA NETO¹, Gabriel

Leia mais

Impressão e Fotolito Oficina Gráfica da EDITORA VIENA. Todos os direitos reservados pela EDITORA VIENA LTDA

Impressão e Fotolito Oficina Gráfica da EDITORA VIENA. Todos os direitos reservados pela EDITORA VIENA LTDA Autores Karina de Oliveira Wellington da Silva Rehder Consultores em Informática Editora Viena Rua Regente Feijó, 621 - Centro - Santa Cruz do Rio Pardo - SP CEP 18.900-000 Central de Atendimento (0XX14)

Leia mais

Documento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação

Documento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação Documento Descritivo do Mecanismo de Busca Este documento visa esclarecer as regras que serão executadas pelo mecanismo de busca para a recuperação de informações a partir de uma palavra e/ou expressão

Leia mais

SEO Search Engine Optimization

SEO Search Engine Optimization SEO Search Engine Optimization 08 a 11 de outubro de 2014 08 a 11 de outubro de 2014 1 Introdução Contatos Carlos José carlos.jose.r2n@gmail.com www.carlosjose.net @carlosjoser2n SEO Introdução Atualmente

Leia mais

4 Conversor EDTV Raw. 4.1 Arquitetura

4 Conversor EDTV Raw. 4.1 Arquitetura 4 Conversor EDTV Raw O conversor EDTV Raw é o programa que lê um documento escrito no perfil NCL EDTV e gera um documento Raw equivalente, i.e. que define a mesma apresentação. Este capítulo, apresenta

Leia mais

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar

Leia mais

SEO PARA INICIANTES Como otimizar um blog Guia passo a passo para fazer o seu blog otimizado e indexado corretamente!

SEO PARA INICIANTES Como otimizar um blog Guia passo a passo para fazer o seu blog otimizado e indexado corretamente! 1 SEO PARA INICIANTES Como otimizar um blog Guia passo a passo para fazer o seu blog otimizado e indexado corretamente! Fórmula Hotmart - www.formulahotmart.com 2 Este ebook pertence: Claudio J. Bueno

Leia mais

Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos

Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos Wilson Pires Gavião Neto 1, Sidnei Renato Silveira 1 1 Sistemas de Informação: Ciência e Tecnologia

Leia mais

Seleção de Informações Usando Text Mining com RI

Seleção de Informações Usando Text Mining com RI Seleção de Informações Usando Text Mining com RI Bruno Blumetti¹, Caique Lemos¹, Luis Carlos¹, Rafael Araújo¹ ¹Departamento de Ciência da Computação Universidade Federal da Bahia (UFBA) Av. Adhemar de

Leia mais

Pesquisa Operacional

Pesquisa Operacional GOVERNO DO ESTADO DO PARÁ UNIVERSIDADE DO ESTADO DO PARÁ CENTRO DE CIÊNCIAS NATURAIS E TECNOLOGIA DEPARTAMENTO DE ENGENHARIA Pesquisa Operacional Tópico 4 Simulação Rosana Cavalcante de Oliveira, Msc rosanacavalcante@gmail.com

Leia mais

XML e Banco de Dados. Prof. Daniela Barreiro Claro DCC/IM/UFBA

XML e Banco de Dados. Prof. Daniela Barreiro Claro DCC/IM/UFBA XML e Banco de Dados DCC/IM/UFBA Banco de Dados na Web Armazenamento de dados na Web HTML muito utilizada para formatar e estruturar documentos na Web Não é adequada para especificar dados estruturados

Leia mais

Sugestão de palavras chave para campanhas em motores de busca em arranque

Sugestão de palavras chave para campanhas em motores de busca em arranque Relatório Técnico FEUP Sugestão de palavras chave para campanhas em motores de busca em arranque João Albuquerque AdClick Ricardo Morla INESC TEC e FEUP Gabriel David INESC TEC e FEUP Rui Campos AdClick

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Modelo Vetorial Organização e Recuperação de Informação(GSI521) Motivação Discutido nos seguintes trabalhos: K. Spark

Leia mais

Algumas propriedades dos objetos:

Algumas propriedades dos objetos: Orientação a Objetos Vivemos num mundo de objetos. Esses objetos existem na natureza, nas entidades feitas pelo homem, nos negócios e nos produtos que usamos. Eles podem ser categorizados, descritos, organizados,

Leia mais

XML e Banco de Dados de Internet. Tópicos Especiais em Tecnologia da Informação Profa. Késsia R. C. Marchi

XML e Banco de Dados de Internet. Tópicos Especiais em Tecnologia da Informação Profa. Késsia R. C. Marchi XML e Banco de Dados de Internet Tópicos Especiais em Tecnologia da Informação Profa. Késsia R. C. Marchi Motivação Diversas aplicações Web utilizam Fontes de Dados (BD); Arquitetura Cliente-Servidor (2

Leia mais

CENTRO DE ENSINO SUPERIOR DE AGUDOS - FAAG BIBLIOTECA MANUAL PARA ELABORAÇÃO DE ARTIGOS PARA O PERIÓDICO. REVISTA DiCA!

CENTRO DE ENSINO SUPERIOR DE AGUDOS - FAAG BIBLIOTECA MANUAL PARA ELABORAÇÃO DE ARTIGOS PARA O PERIÓDICO. REVISTA DiCA! CENTRO DE ENSINO SUPERIOR DE AGUDOS - FAAG BIBLIOTECA MANUAL PARA ELABORAÇÃO DE ARTIGOS PARA O PERIÓDICO REVISTA DiCA! Biblioteca - FAAG Tel. (14) 3262-9400 Ramal: 417 Email: biblioteca@faag.com.br http://www.faag.com.br/faculdade/biblioteca.php

Leia mais

3 Estado da arte em classificação de imagens de alta resolução

3 Estado da arte em classificação de imagens de alta resolução 37 3 Estado da arte em classificação de imagens de alta resolução Com a recente disponibilidade de imagens de alta resolução produzidas por sensores orbitais como IKONOS e QUICKBIRD se tornou-se possível

Leia mais

Afinal o que é HTML?

Afinal o que é HTML? Aluno : Jakson Nunes Tavares Gestão e tecnologia da informacão Afinal o que é HTML? HTML é a sigla de HyperText Markup Language, expressão inglesa que significa "Linguagem de Marcação de Hipertexto". Consiste

Leia mais

Para testar seu primeiro código utilizando PHP, abra um editor de texto (bloco de notas no Windows) e digite o código abaixo:

Para testar seu primeiro código utilizando PHP, abra um editor de texto (bloco de notas no Windows) e digite o código abaixo: Disciplina: Tópicos Especiais em TI PHP Este material foi produzido com base nos livros e documentos citados abaixo, que possuem direitos autorais sobre o conteúdo. Favor adquiri-los para dar continuidade

Leia mais

2 Auto-sintonia de Bancos de Dados e Agentes de Software

2 Auto-sintonia de Bancos de Dados e Agentes de Software 2 Auto-sintonia de Bancos de Dados e Agentes de Software A uso da abordagem de agentes de software 1 pode trazer benefícios a áreas de aplicação em que é necessário construir sistemas autônomos, ou seja,

Leia mais

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia. 1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade

Leia mais

Apresentação e formatação de artigo em publicação periódica científica:

Apresentação e formatação de artigo em publicação periódica científica: Apresentação e formatação de artigo em publicação periódica científica: Conforme NBR 6022:2003 Seção de atendimento ao usuário - SISBI Outubro 2013 Normas técnicas Norma técnica é um documento estabelecido

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

Integração de Dados na Web. Ana Carolina Salgado Bernadette Lóscio

Integração de Dados na Web. Ana Carolina Salgado Bernadette Lóscio Integração de Dados na Web Ana Carolina Salgado Bernadette Lóscio Conteúdo Introdução Integração de Informações Consultando a Web Introdução Motivação Web e BD Arquitetura na Web Introdução Evolução da

Leia mais

Laboratório de Banco de Dados

Laboratório de Banco de Dados Universidade Federal de Mato Grosso-UFMT Sistemas de Informação Laboratório de Banco de Dados Prof. Clóvis Júnior Laboratório de Banco de Dados Conteúdo Administração de Usuários de Papéis; Linguagens

Leia mais

Interface Homem- Computador

Interface Homem- Computador Interface Homem- Computador (IHC) Profª. Leticia Lopes Leite Software Educacional I Interface Deve ser entendida como sendo a parte de um sistema computacional com a qual uma pessoa entra em contato física,

Leia mais

APOSTILA BÁSICA INFORMÁTICA: 1. PROCESSADOR DE TEXTOS 1.1 Conhecendo o aplicativo Word 2007 2.EDITOR DE PLANILHAS

APOSTILA BÁSICA INFORMÁTICA: 1. PROCESSADOR DE TEXTOS 1.1 Conhecendo o aplicativo Word 2007 2.EDITOR DE PLANILHAS APOSTILA BÁSICA INFORMÁTICA: 1. PROCESSADOR DE TEXTOS 1.1 Conhecendo o aplicativo Word 2007 2.EDITOR DE PLANILHAS 3.INTERNET 3.1. Internet: recursos e pesquisas 3.2. Conhecendo a Web 3.3. O que é um navegador?

Leia mais

UMA PROPOSTA DE CONSTRUÇÃO DE ÍNDICE INVERTIDO PARA RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO

UMA PROPOSTA DE CONSTRUÇÃO DE ÍNDICE INVERTIDO PARA RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO UNIVERSIDADE FEDERAL DE UBERLÂNDIA FACULDADE DE COMPUTAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UMA PROPOSTA DE CONSTRUÇÃO DE ÍNDICE INVERTIDO PARA RECUPERAÇÃO DE IMAGENS BASEADA EM CONTEÚDO

Leia mais

Java Como Programar, 8/E

Java Como Programar, 8/E Capítulo 2 Introdução aos aplicativos Java Java Como Programar, 8/E (C) 2010 Pearson Education, Inc. Todos os 2.1 Introdução Programação de aplicativo Java. Utilize as ferramentas do JDK para compilar

Leia mais

XML. 1. XML: Conceitos Básicos. 2. Aplicação XML: XHTML 3. Folhas de Estilo em Cascata XML

XML. 1. XML: Conceitos Básicos. 2. Aplicação XML: XHTML 3. Folhas de Estilo em Cascata XML 1 1. : Conceitos Básicos 2. Aplicação : XHTML 3. Folhas de Estilo em Cascata 2 é um acrônimo para EXtensible Markup Language é uma linguagem de marcação muito parecida com HTML foi designada para descrever

Leia mais

Introdução aos cálculos de datas

Introdução aos cálculos de datas Page 1 of 7 Windows SharePoint Services Introdução aos cálculos de datas Aplica-se a: Microsoft Office SharePoint Server 2007 Ocultar tudo Você pode usar fórmulas e funções em listas ou bibliotecas para

Leia mais

LICENCIATURA EM COMPUTAÇÃO

LICENCIATURA EM COMPUTAÇÃO Coordenador: Duração: Carga Horária: LICENCIATURA EM COMPUTAÇÃO Victor Emanuel Corrêa Lima 6 semestres 2800 horas Situação Legal: Reconhecido pela Portaria MEC nº 503 de 15/02/2006 MATRIZ CURRICULAR Primeiro

Leia mais

Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua

Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua Inferências Geográfica: Inferência Bayesiana Processo Analítico Hierárquico Classificação contínua Análise Multi-Critério Classificação continua (Lógica Fuzzy) Técnica AHP (Processo Analítico Hierárquico)

Leia mais

Criação de Consultas e Relatórios no Access CRIAÇÃO DE CONSULTAS E RELATÓRIOS NO ACCESS

Criação de Consultas e Relatórios no Access CRIAÇÃO DE CONSULTAS E RELATÓRIOS NO ACCESS Criação de Consultas e Relatórios no Access CRIAÇÃO DE CONSULTAS E RELATÓRIOS NO ACCESS Sumário Conceitos / Autores chave... 3 1. Introdução... 4 2. Consultas... 5 3. Relatórios... 8 4. Conclusões... 11

Leia mais

Ementário das Disciplinas

Ementário das Disciplinas Ementário das Disciplinas As ementas das disciplinas estão agrupadas em semestres para uma melhor visualização da organização da matriz curricular. As referências bibliográficas serão especificadas no

Leia mais

Plano de Aula - Word 2010 Avançado - cód.5546 24 Horas/Aula

Plano de Aula - Word 2010 Avançado - cód.5546 24 Horas/Aula Plano de Aula - Word 2010 Avançado - cód.5546 24 Horas/Aula Aula 1 Capítulo 1 - Introdução aos Recursos Avançados do Word Aula 2 Capítulo 2 - Salvar e Proteger Documentos Aula 3 Capítulo 3 - Formatar Textos

Leia mais

Softwares de Sistemas e de Aplicação

Softwares de Sistemas e de Aplicação Fundamentos dos Sistemas de Informação Softwares de Sistemas e de Aplicação Profª. Esp. Milena Resende - milenaresende@fimes.edu.br Visão Geral de Software O que é um software? Qual a função do software?

Leia mais

EMENTAS DAS DISCIPLINAS

EMENTAS DAS DISCIPLINAS EMENTAS DAS DISCIPLINAS CST SISTEMAS DE INFORMAÇÃO DISCIPLINA: Algoritmo e Programação I A disciplina aborda o estudo de algoritmos, envolvendo os conceitos fundamentais: variáveis, tipos de dados, constantes,

Leia mais

UTILIZANDO ICONIX NO DESENVOLVIMENTO DE APLICAÇÕES DELPHI

UTILIZANDO ICONIX NO DESENVOLVIMENTO DE APLICAÇÕES DELPHI UTILIZANDO ICONIX NO DESENVOLVIMENTO DE APLICAÇÕES DELPHI Dr. George SILVA; Dr. Gilbert SILVA; Gabriel GUIMARÃES; Rodrigo MEDEIROS; Tiago ROSSINI; Centro Federal de Educação Tecnológica do Rio Grande do

Leia mais

PC Fundamentos Revisão 4

PC Fundamentos Revisão 4 exatasfepi.com.br PC Fundamentos Revisão 4 André Luís Duarte...mas os que esperam no Senhor renovarão as suas forças; subirão com asas como águias; correrão, e não se cansarão; andarão, e não se fatigarão.is

Leia mais

Otimização da exposição de websites em mecanismos de busca vista como atividade de indexação

Otimização da exposição de websites em mecanismos de busca vista como atividade de indexação Otimização da exposição de websites em mecanismos de busca vista como atividade de indexação Bruno Viana Rezende 1 Marcello Peixoto Bax 2 Resumo O artigo apresenta a atividade considerada de webmarketing

Leia mais

Dado Vetorial. Características do Dado Vetorial. Usa entidades como ponto, linha e polígono para identificar localizações;

Dado Vetorial. Características do Dado Vetorial. Usa entidades como ponto, linha e polígono para identificar localizações; Estrutura dos Dados Geográficos Organização lógica dos dados para preservar sua integridade e facilitar o seu uso. Vetorial Raster ou Matricial Dado Vetorial Usa entidades como ponto, linha e polígono

Leia mais