Estudo exploratório da Indexação Semântica Latente e das funções peso

Tamanho: px
Começar a partir da página:

Download "Estudo exploratório da Indexação Semântica Latente e das funções peso"

Transcrição

1 Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Estudo exploratório da Indexação Semântica Latente e das funções peso Diego Alonzo Hinojosa Foronda Orientadora: Profª. Drª. Vera Lúcia Strube de Lima Dissertação apresentada como requisito parcial à obtenção do grau de mestre em Ciência da Computação Porto Alegre, janeiro de 2005

2 ii

3 iii

4 AGRADECIMENTOS Agradeço a Deus por ter-me guiado nesta jornada. Aos meus pais por dar-me esta oportunidade, pelo seu apoio e por estarem sempre me encorajando para seguir em frente. Um agradecimento especial à professora Vera por toda sua paciência, ajuda e compreensão que teve comigo todo este tempo. Ao Marco por toda sua ajuda no transcurso da dissertação. Aos meus amigos do mestrado que no dia a dia estiveram Obrigado iv

5 ABSTRACT In this work we present a study of the Latent Semantic Indexing (LSI) and the weighting functions performance applied on this method. The LSI method allows to find a semantic structure associated to a document collection. An important factor that influences on the results gotten for a query is the weighting functions. It is through out these functions that we can distinguish a document inside of all the collection, because the weighting function associates relevance for each indexed term. For this research was chosen the weighting functions Ltu, Okapi and atc, the most used in information retrieval researches. A case study was made with the MEDLINE collection, through the implementation of a prototype the results shows that a good retrieve is going to depend of the weighting function and also of the chosen level (k-level) that represent the matrix. v

6 RESUMO Este trabalho apresenta um estudo exploratório da Indexação Semântica Latente (Latent Semantic Indexing ou LSI) e do rendimento que têm as funções peso aplicadas a este método. O LSI permite encontrar uma estrutura semântica associada a uma coleção de documentos. Um fator importante que influencia nos resultados obtidos por uma consulta são as funções peso. É por meio destas funções que se consegue distinguir um documento dentro de toda a coleção, pois a função peso associa uma relevância para cada termo de índice. Para esta pesquisa foram escolhidas as funções peso Ltu, Okapi e atc, as mais utilizadas nas pesquisas de recuperação de informação. Um estudo de caso foi realizado com a coleção de documentos MEDLINE através da implementação de um protótipo. Os resultados obtidos mostram que uma boa recuperação vai depender da função peso e também das dimensões (nível de k) escolhidas para a matriz de representação. vi

7 SUMÁRIO ABSTRACT... V RESUMO...VI LISTA DE FIGURAS...IX LISTA DE TABELAS... X LISTA DE SIGLAS E ABREVIATURAS...XI 1 INTRODUÇÃO PROBLEMA TRABALHOS CORRELATOS Trabalhos correlatos à Indexação Semântica Latente Trabalhos correlatos às Funções Peso OBJETIVOS METODOLOGIA UTILIZADA ORGANIZAÇÃO DESTA DISSERTAÇÃO RECUPERAÇÃO DE INFORMAÇÃO CONSIDERAÇÕES INICIAIS MODELO VETORIAL AVALIAÇÃO DA RECUPERAÇÃO DE INFORMAÇÃO OPERAÇÕES EM TEXTOS Eliminação de Stopwords Stemming Seleção de Termos de Índice, Indexação e Busca INDEXAÇÃO SEMÂNTICA LANTENTE UMA VISÃO GERAL Representação Matricial vii

8 3.2 SIMPLE VALUE DECOMPOSITION (SVD) Comparando consulta e índices Atualização Exemplo de aplicação do método LSI FUNÇÕES PESO INTRODUÇÃO Tipos de funções peso Uma Conceitualização de Função Peso ESTUDO DE CASO ORGANIZAÇÃO FUNÇÕES ESCOLHIDAS Função atc Função Ltu Função Okapi Função Básica COLEÇÃO DE DOCUMENTOS PROTÓTIPO Arquitetura do protótipo RESULTADOS OBTIDOS CONCLUSÕES PROCESSO DE PESQUISA Proposta inicial O Método LSI Funções Peso CONCLUSÕES REFERENTES AOS RESULTADOS OBTIDOS Implementação O método LSI e as funções peso Resultados obtidos RECOMENDAÇÕES E TRABALHOS FUTUROS BIBLIOGRAFIA...92 ANEXO...96 viii

9 LISTA DE FIGURAS Figura 2.1: Exemplo de Abrangência e Precisão...24 Figura 2.2: Precisão, Abrangência, Velocidade...25 Figura 3.1: Inserção de novos termos...39 Figura 3.2: Inserção de novos documentos...39 Figura 3.3: Projeção do vetor Consulta...53 Figura 3.4: Avaliação do exemplo...54 Figura 4.1: Freqüência de palavras...56 Figura 5.1: Arquitetura da Solução...72 Figura 5.2: Curvas abrangência precisão nível Figura 5.3: Curvas abrangência precisão nível Figura 5.4: Curvas abrangência precisão nível Figura 5.5: Curvas abrangência precisão nível Figura 5.6: Abrangência e precisão - Função Básica...80 Figura 5.7: Abrangência e precisão - Função atc...81 Figura 5.8: Abrangência e precisão - Função Ltu...82 Figura 5.9: Abrangência e precisão - Função Okapi ix

10 LISTA DE TABELAS Tabela 2.1: Modelos de RI...21 Tabela 2.2: Abrangência e Precisão...23 Tabela 3.1: Comparação entre os elementos do modelo vetorial e do modelo LSI...33 Tabela 3.2: Coleção de documentos...45 Tabela 3.3: Matriz termo-documento...46 Tabela 3.4: Ranking matriz pesada...51 Tabela 3.5: Coordenadas dos termos e documentos...52 Tabela 3.6: Comparação de resultados...53 Tabela 4.1: Exemplo tf...57 Tabela 4.2: Fórmulas de peso local (l ij )...60 Tabela 4.3: Fórmulas de peso global (g i )...61 Tabela 4.4: Fórmulas para normalização de documentos (d j )...61 Tabela 5.1: Abrangência e precisão com k = Tabela 5.2: Abrangência e precisão com k = Tabela 5.3: Abrangência e precisão com k = Tabela 5.4: Abrangência e precisão com k = x

11 LISTA DE SIGLAS E ABREVIATURAS avg_dl Average document lenght BM25 Best Match 25 dl Document lenght HTML HyperText Markup Language idf Inverse document frequency LSI Latent Semantic Indexing MAP Mean uninterpolated Average Precision PLSI Probabilistic Latent Semantic Indexing RI Recuperação de informação SCR SparseCcolumn-Row SPQR Sparse Pivoted QR approximation SVD Single Value Decomposition tf Term frequency TREC Text REtrieval Conference XML extensible Markup Language xi

12 1 INTRODUÇÃO Os sistemas de recuperação de informação (RI) ganharam importância quando surgiram as bibliotecas digitais: a necessidade de encontrar informação específica a perguntas em geral booleanas era o objetivo destes sistemas de RI. Com a chegada da Internet estes sistemas se tornaram mais populares e passaram a exigir mais recursos, já que a informação disponibilizada versara era mais sobre uma área específica de informação em um dado formato, mas sim sobre diversos assuntos e em diferentes formatos (textos, imagens, vídeo, etc.). Esta informação, que é disponibilizada por meio de Web sites, blogs, etc., cresceu de forma inesperada e com ela cresceu também a necessidade de encontrar informação específica na Internet. Devido à variedade de formatos de informação existentes, utilizam-se distintos formatos para mostrar a informação disponível (por exemplo: html 1, páginas dinâmicas, rss 2, etc.). Esta heterogeneidade de recursos e de informação disponível levou os sistemas de RI, conhecidos comumente como ferramentas de busca, a novos desafios: indexar a maior quantidade de páginas na Web e fornecer respostas às consultas feitas ao sistema pelos usuários. As tecnologias para mostrar a informação, apoiadas na criação de novos conteúdos, facilitaram também o desenvolvimento de sítios Web sem standards e possibilitaram o uso do spam 3 para melhorar seu posicionamento nas diversas ferramentas de busca, o que leva a uma resposta que em geral não satisfaz a consulta do usuário. Pela diversidade da informação on-line e dos domínios existentes na Web, entre outros fatores, as ferramentas de busca tiveram de melhorar seus algoritmos de indexação, busca e RI, pois a necessidade do usuário cresceu e, com ela, a concorrência entre as diversas ferramentas de busca. Esta necessidade levou a pesquisar-se áreas como clustering, indexação de diversos formatos de arquivos, interação humano-computador e semântica da informação, entre as mais destacadas. No presente trabalho de pesquisa nosso 1 Do inglês: HyperText Markup Language. 2 RDF Site Summary, Rich Site Summary, ou Really Simple Syndication. 3 Por spam entenda-se o envio de informação não solicitada e enviada em massa. Nas páginas Web, spam é o abuso de certos recursos que levam a melhorar o posicionamento destas páginas nas ferramentas de busca. 12

13 interesse é trabalhar com o conteúdo da informação, especificamente com a semântica da informação, considerada na atualidade como sendo uma das áreas que pode levar a satisfazer as exigências do usuário já que, quando se faz uma consulta, deseja-se obter uma resposta, a mais exata possível, para a consulta que se formulou. É nesse sentido que o método Latent Semantic Indexing (LSI) [BER94] trabalha, ajudando a encontrar uma relação semântica entre uma consulta e os termos indexados. Desta forma, embora as palavras não sejam iguais na relação, diminui a informação redundante. Este método é relativamente novo e visa melhorar os resultados, sobretudo, trabalhando com problemas tais como sinonímia e polissemia. A empresa Google demonstrou interesse por este método, incorporando o LSI em seu sistema de publicidade AdSense 4. Outra forma de melhorar o processo de RI na obtenção de uma resposta que satisfaça ao usuário é dotar o sistema de RI de critérios de discriminação entre os termos indexados, isto é, destacar quais são os termos mais relevantes dentro da coleção. Estes critérios de discriminação são chamados de funções peso. Estas funções determinam um valor numérico, chamado peso, para cada termo de índice da coleção de tal forma que, na realização de uma consulta, a relevância entre a consulta e os termos de índice vai ser determinada pelos termos que possuam maior peso. Em geral estes pesos vão depender do objetivo do sistema de RI e da coleção que está sendo utilizada. Existem diversas pesquisas sobre estas funções; entre elas, uma das propostas mais estudadas é a do sistema OKAPI [ROB99] [ROB04a]. É nesta linha que o presente trabalho de pesquisa aborda as duas áreas descritas anteriormente: o estudo do método LSI e o rendimento das funções peso aplicadas a este método. 4 Mais detalhes encontram-se em 13

14 1.1 PROBLEMA Quando se trabalha com uma coleção contendo uma quantidade abrangente de documentos, existe a dificuldade de encontrar, ou recuperar, documentos que sejam relevantes a uma necessidade expressa em uma consulta. Essa necessidade é suprida pelas ferramentas de busca, que recuperam documentos a partir de uma consulta fornecida por um usuário, mas os documentos recuperados, em geral, são documentos que não satisfazem plenamente à consulta do usuário, pelos seguintes motivos: O usuário exige cada vez mais das ferramentas de busca, com o menor esforço possível, sobretudo quanto aos resultados obtidos para a consulta que forneceu, tanto no tempo de resposta, quanto na exatidão (precisão) do rankeamento 5. Em resumo, o usuário busca ferramentas inteligentes que possam entender sua consulta e bem resolvê-la. No âmbito da Web, a falta de padronização na criação de páginas por parte dos programadores, webmasters e outros, e a sobrecarga de informação relevante (uso de técnicas de spam e técnicas de posicionamento SEO 6 ) fazem que se percam diferenças no conteúdo dos documentos. A maioria das ferramentas de busca recuperam documentos por similaridade entre as palavras do documento e a consulta fornecida. Observa-se que os três motivos anteriores estão relacionados a um único problema central: a falta de alguma análise semântica no tratamento da informação. 5 Por rankeamento entenda-se a classificação dos documentos mostrados como resposta. 6 Os SEOs (do inglês Search Engine Optimizator) são pessoas ou entidades que se dedicam à otimização de sítios Web. Por otimização entende-se o processo desenvolvido nos Web sites para que estes sejam posicionados nos primeiros lugares nas ferramentas de busca para algumas palavras-chave. 14

15 1.2 TRABALHOS CORRELATOS Embora o método LSI seja relativamente novo, existem pesquisas sobre este método aplicadas a distintas áreas. Nesta seção são elencadas as publicações referentes a LSI mais relevantes para esta pesquisa. Apresentam-se também os trabalhos de pesquisa referentes às funções peso, que são amplamente aplicadas em diversas áreas Trabalhos correlatos à Indexação Semântica Latente Dado que o LSI é um tema relativamente novo, ainda existem poucas referências a esse tema. A seguir relacionam-se as referências consideradas como relevantes. Cross-language: Em [DEE96a] e [LIT96] os autores mostram como o LSI auxilia na tradução (representação) de documentos multilingües. Tal trabalho tem como resultado gráficos de comparações, entre as consultas feitas em um idioma e documentos similares recuperados em outros idiomas, onde destaca-se que a consulta fornecida não precisa ser traduzida para recuperar os documentos. O trabalho não contribui para a presente pesquisa, já que o foco é o Cross-language Information Retrieval. Autotutor: É um sistema tutor inteligente para a Web [WIE99], auspiciado pela Universidade de Memphis e desenvolvido por uma equipe interdisciplinar. Este sistema conta com vários módulos, entre eles o LSI, e seu objetivo é utilizar agentes inteligentes, mediante uma conversa em linguagem natural, para ensino aos estudantes sobre um tema em particular. A forma de avaliar se os estudantes respondem corretamente faz uso do LSI: os pesquisadores fazem uma comparação entre as respostas esperadas (consideradas como boas ) e as respostas fornecidas pelos usuários. Devido ao grau de abrangência que uma resposta pode ter, ao utilizar o LSI chega-se a avaliar de melhor forma esta resposta, já que é considerada a semelhança que existe entre a resposta do usuário e a resposta do sistema. O foco do trabalho volta-se a um sistema tutor. A relação que o mesmo tem com RI é muito reduzida e pouco contribui ao trabalho de pesquisa realizado. 15

16 Michael W. Berry et al. descrevem em [BER94] e [BER99] o LSI aplicado à RI mostrando vantagens, relacionadas à sinonímia e à polissemia, para citar algumas. Em particular, os autores Michael W. Berry e Susan T. Dumais, são os que deram início às pesquisas sobre o LSI e possuem diversas publicações aplicando o LSI à RI. No decorrer deste documento, utilizam-se tais trabalhos como base teórica para a pesquisa realizada Trabalhos correlatos às Funções Peso Descrevendo o estado-da-arte, encontram-se os seguintes trabalhos de pesquisa relacionados às funções peso: PageRank [PAG98]: o conhecido algoritmo de rankeamento do Google, que serve para rankear páginas segundo a popularidade (determinada por este algoritmo) que a página possua, foi fruto de um estudo bastante completo voltado ao rankeamento de páginas Web, considerando variáveis tais como links de ingresso e saída de uma página. Diversas pesquisas foram desenvolvidas em torno deste PageRank. Entre estas encontrase o trabalho de Taher H. Haveliwala e Sepandar D. Kamvar [HAV03], que mostra como detectar o spam de links e calcular de forma mais rápida o PageRank, entre outros aspectos. Este trabalho contribui à presente pesquisa oferecendo uma visão da variabilidade que as funções peso podem ter: distintas variáveis que fazem parte da função vão depender do objetivo que o sistema de RI queira atingir. Em [BAE99], os autores abordam as funções peso clássicas tais como a norma e função booleana. Os autores não apresentam um estudo intenso sobre este tema, apenas fornecem uma conceitualização inicial do comportamento destas funções. Este livro dá a base inicial da pesquisa para descrever as funções peso. 16

17 O autor Stephen Robertson parece ser o pesquisador mais destacado neste tema. Diversas pesquisas sobre as funções peso levaram-no, com sua equipe, a criar a função peso Okapi, uma das funções mais utilizadas em RI. Em [JIN01] é relatada a utilização dessa função, junto com outras três, para mostrar uma forma alternativa de avaliar os documentos recuperados, sem utilizar abrangência e precisão. Em [ROB04a] mostra-se como aplicar a função peso BM25, uma das variações da função Okapi, em documentos estruturados em HTML ou XML. Tal artigo faz uma ponderação dos documentos em si, e das tags existentes nos mesmos. A presente dissertação utiliza os resultados das diversas pesquisas desenvolvidas por Stephen Robertson. Cross-language. Em [CHE01] é apresentado um estudo dos pesos na tradução de idiomas, especificamente na recuperação de documentos em inglês traduzidos ao árabe. Os pesquisadores utilizam como função peso uma variação da função inverse document frequency. As contribuições trazidas por esta pesquisa são empregadas no presente trabalho, no sentido de fazer modificações nas funções peso para obter uma melhor recuperação. 1.3 OBJETIVOS Embora o método LSI seja testado em coleções com uma quantidade de documentos relativamente grande, não foi aplicado (pelo menos, não foi encontrado registro de aplicação na revisão bibliográfica realizada até esta data) em sistemas de recuperação com um volume de informação considerável, associado a funções peso distintas, para fins de estudo. A única referência de aplicação encontrada foi a da empresa Google, que aplicou o método num serviço específico (AdSense ). Assim, o objetivo principal desta dissertação é: Fazer um estudo exploratório sobre o método LSI e a aplicação de funções peso associadas ao uso do método. 17

18 Os objetivos secundários são: Observar o comportamento que têm as funções peso neste contexto; Determinar qual(is) função peso melhor ajudam a recuperar documentos. trabalho. Na seguinte seção descreve-se a metodologia adotada para o desenvolvimento do 1.4 METODOLOGIA UTILIZADA A metodologia adotada para o desenvolvimento do presente trabalho constou inicialmente de uma pesquisa bibliográfica nas áreas de recuperação de informação de forma geral, aprofundada nas áreas concernentes ao método LSI e às funções peso. Após terminada a revisão bibliográfica estudou-se o método LSI, abrangendo desde a criação da matriz termo-documento (matriz inicial) até os métodos que podem ser utilizados para atualizar a estrutura semântica encontrada. No que se refere às funções peso, foi estudado o modo como estas funções são criadas e como afetam os termos de índice. Em particular, foram escolhidas e analisadas as funções peso mais utilizadas encontradas na bibliografia. De modo a analisar o comportamento das funções peso escolhidas para associação com o método LSI, constatou-se a necessidade de desenvolver um protótipo de modo a aplicar estas funções junto a uma coleção de documentos (previamente avaliada), cuja estrutura semântica foi obtida com o uso do método LSI. A determinação da(s) função(ões) que possuem melhor rendimento foi feita com uso das consultas pré-definidas da coleção empregada, e os resultados foram avaliados quanto a abrangência e precisão. 18

19 1.5 ORGANIZAÇÃO DESTA DISSERTAÇÃO O texto da dissertação divide-se em cinco capítulos, precedidos desta introdução e seguidos de Bibliografia e Anexo. No Capítulo 1 se faz uma introdução aos problemas existentes, discutem-se trabalhos de pesquisa realizados e apresentam-se trabalhos correlatos das duas áreas que são abordadas neste documento, o método LSI e as funções peso, destacando os trabalhos cujas contribuições são utilizadas nesta pesquisa. No Capítulo 2 se faz uma introdução à RI destacando os pontos concernentes à pesquisa. No Capítulo 3 é estudado em detalhe o método LSI, explicando-se a forma de representar os documentos e termos indexados e apresentando-se, o método matemático que é utilizado para reduzir a dimensão da matriz e realizar o matching entre uma consulta e os termos indexados. No Capítulo 4 são detalhadas as funções peso, a importância das mesmas e o modo como influenciam nos resultados de uma consulta. Já no Capítulo 5 apresenta-se o estudo de caso realizado, a modelagem do protótipo implementado, e o estudo de caso trabalhado no contexto da dissertação, através do qual foram analisadas quatro diferentes funções peso em uma coleção de documentos com consultas pré-definidas. Por último, no Capítulo 6, apresentam-se as conclusões da pesquisa realizada e considerações quanto a trabalhos futuros. 19

20 2 RECUPERAÇÃO DE INFORMAÇÃO 2.1 CONSIDERAÇÕES INICIAIS Os autores Baeza-Yates e Ribeiro-Neto [BAE99] e van Rijsbergen [RIJ99], respectivamente, iniciam suas obras abordando a diferença entre recuperar dados e recuperar informação. É natural que, no resultado dessa comparação, a RI tenha-se saído melhor. O motivo principal é que recuperar informação possui um valor maior do que recuperar só dados. Mas a RI também tem seus limites. Quando a RI trabalha com as palavras de um documento de forma isolada, só recupera palavras por semelhança literal, perdendo toda a informação existente no conjunto das palavras e dos documentos. Os documentos que se deseja recuperar não precisam necessariamente possuir as mesmas palavras da consulta. Em uma abordagem de recuperação semântica ter-se-ía que estar atento a um importante problema: a sinonímia. E não só à sinonímia de palavras, mas também de frases, já que duas frases distintas poderiam ter o mesmo significado, ou uma frase poderia ter representação equivalente a outra existente. Para trabalhar com este tipo de situação é preciso utilizar alternativas tais como stopwords, stemming, palavras funcionais e atribuição de pesos às palavras. As alternativas anteriores e os modelos clássicos de RI, o modelo vetorial e o probabilístico, são descritos em detalhe em [BAE99] e [RIJ99]. Quando se faz referência a modelos clássicos, estão aí incluídos os modelos mais aceitos e utilizados, tanto pela comunidade de pesquisa, quanto pelas empresas que implementam os motores de busca. Na Tabela 2.1 mostra-se como Baeza-Yates e Ribeiro- Neto classificam aos modelos de RI. 20

21 Modelos Clássicos Modelo Booleano Modelo Vetorial Tabela 2.1: Modelos de RI (adaptado de [BAE99]) Conjuntos Teóricos Alternativos Modelo de Conjuntos Difusos (Fuzzy sets) Extensão do Modelo Booleano Modelos Algébricos Alternativos Generalização do modelo espaço vetorial Latent Semantic Indexing (LSI) Modelo Probabilístico Redes Neurais é o LSI. Entre os modelos algébricos alternativos, uma abordagem apresentada em [BAE99] 2.2 MODELO VETORIAL A maioria dos sistemas de RI utilizam este modelo pelo fato de que o mesmo é capaz de representar e trabalhar com a informação de forma matemática e estatística. Esta abordagem gerou diversas pesquisas tanto na maneira como trabalhar cada elemento do vetor, quanto no modo de fazer o matching entre uma consulta e os documentos representados. Cada vetor representa um documento d, e este vetor possui como elementos os termos t i. Este vetor possui a seguinte representação: d j = (t 1,t 2,..., t n ) (1) Onde j é o número do documento d na coleção e cada t i é um termo, sendo que pertence ao intervalo 1 i n, sendo n o total de termos do documento. 21

22 Com respeito ao matching, quando um usuário faz uma consulta q esta pode ser representada em forma de vetor da mesma maneira como é representado um documento. A forma de saber se uma consulta q está próxima a um documento d é mediante o produto ponto, ou produto interno entre os dois vetores: d q. Este produto serve para medir o grau de similaridade entre um documento armazenado e a consulta do usuário. Fazendo uma ordenação pelos pesos dos documentos recuperados, como resultado se tem um ranking de um conjunto de documentos recuperados, obtendo uma resposta ordenada. A maneira como se designa um valor, denominado peso, para cada elemento do vetor, é explicada na seção AVALIAÇÃO DA RECUPERAÇÃO DE INFORMAÇÃO O tipo de avaliação geralmente depende do objetivo do sistema: a idéia é avaliar a performance da recuperação. C. J. van Rijsbergen [RIJ99] aponta a existência de diversos indicadores para a avaliação. Entre eles, os mais aceitos nas pesquisas de RI são abrangência e precisão, dado que seu propósito é medir a efetividade de um sistema de RI. A seguir serão descritos em detalhe estes dois indicadores e será brevemente comentado um terceiro, denominado fallout. Os modelos de abrangência e precisão podem ser utilizados como modelos de avaliação da RI na Web. Apresentam-se na Tabela 2.2 os conceitos inerentes à abrangência e precisão [RIJ00] (em uma visão de teoria dos conjuntos). 22

23 Tabela 2.2: Abrangência e Precisão (retirado de [RIJ99]) Responde à pergunta (A) Não responde à pergunta (~A) Recuperado (B) A B ~A B Não Recuperado (~B) A ~B ~A ~B Para entender melhor a Tabela 2.2 apresenta-se graficamente na Figura 2.1 cada um dos conceitos de abrangência e precisão. A seguir explicam-se estes dois conceitos: Abrangência. Representa uma porcentagem dos documentos que foram recuperados. É uma parte dos documentos, o subconjunto dos documentos relevantes (R), entre os documentos que foram recuperados. n d r Abrangênci a = ou r A B A (2) Onde, n r representa os n primeiros documentos relevantes recuperados e d r representa os documentos relevantes a uma determinada consulta. Precisão. Representa uma porcentagem dos documentos que foram recuperados. É uma parte dos documentos recuperados, o conjunto A, constituído pelos documentos que foram recuperados e que são realmente relevantes. Precisão n r A B = ou n B (3) Onde n r representa os n primeiros documentos relevantes recuperados e n o total de documentos. 23

24 Figura 2.1: Exemplo de Abrangência e Precisão (retirado de [BAE99]) A precisão em 11 pontos é uma forma de representar os resultados das medidas de abrangência e precisão. Estes pontos (no intervalo de 0 a 1) apresentam os valores da precisão em função dos valores da abrangência. Estes pontos são interpolados para cada valor da abrangência, considerando os documentos recuperados. Nesta interpolação, é considerado o valor máximo da precisão obtida para os valores da abrangência entre o ponto atual e, inclusive, o próximo [GON05]. Estes pontos podem ser representados em um gráfico onde o eixo das abscissas é a abrangência e o eixo das ordenadas é a precisão: esta forma de apresentar o resultado tem a facilidade de mostrar, no mesmo gráfico, cada um dos sistemas avaliados. 24

25 Figura 2.2: Precisão, Abrangência, Velocidade (retirado de [KOB00]) A Figura 2.2 mostra que os sistemas de RI em Internet possuem um terceiro fator de medida, que é a velocidade. Estes sistemas on-line precisam ter velocidade na recuperação de documentos. O usuário, particularmente, exige velocidade na recuperação dos documentos e precisão destes documentos com respeito à consulta que forneceu. 2.4 OPERAÇÕES EM TEXTOS Para trabalhar com textos considera-se que existem palavras mais relevantes que outras no mesmo texto, o que significa que aquelas palavras são mais representativas que as outras (no que se refere aos modelos de recuperação, estas palavras possuem peso maior). Estas palavras são chamadas termos de índice. Para obter resultados melhores, pode-se recorrer à desambigüização do texto, uma vez que se pretende identificar o sentido de uma palavra num determinado contexto e num conjunto de palavras candidatas. Para atingir tal objetivo se faz uma análise lexical. Esta análise é o processo de conversão de um conjunto de caracteres, do texto do documento, em uma cadeia de palavras, candidatas a ser termos de índice. 25

26 O objetivo de fazer uma análise lexical é identificar as palavras importantes dentro de um texto. Este processo vai estar sujeito a conhecimentos adicionais como distinguir letras maiúsculas de minúsculas, conhecer a importância dos números como termos de índice, etc Eliminação de Stopwords Palavras que aparecem no texto repetidas vezes são boas candidatas a termos de índice. Porém, existem palavras que, mesmo aparecendo com alta freqüência, não apresentam tal significância (exemplo: artigos, preposições, etc.). Este conjunto de palavras não significantes é conhecido como stopwords. A eliminação de stopwords evita que palavras não significantes interfiram no processo de recuperação, ajudando a reduzir o tamanho do texto e, com isto, potencialmente reduzir a abrangência. Quando se eliminam as stopwords se reduz o texto e o tamanho do documento, o que facilita o armazenamento dos documentos Stemming Quando o usuário faz uma consulta através de uma palavra, pode ser que uma variante dessa palavra (plural, palavra adicionada de sufixos, etc.) esteja num documento relevante, ou seja, uma variação dessa palavra pode permitir encontrar termos de índice e, desse modo, melhorar o resultado da busca. Para operar esta melhora se substitui a palavra pela respectiva raiz (stem), e este processo de substituição é conhecido como stemming. A raiz é a parte da palavra que resta, depois de eliminados seus afixos. 26

27 É importante utilizar o stemming para melhorar a performance da recuperação porque esta operação reduz as palavras a um termo núcleo, além do que os afixos de uma palavra não constituem a essência semântica da mesma. Existem diversas técnicas de stemming descritas por Baeza-Yates e Ribeiro-Neto [BAE99]: retirada de afixos, tabela de lookup, variação do sucessor e N gramas. A eliminação de sufixos às vezes pode trazer erros: só se remove um sufixo quando o contexto está correto [RIJ99]. Entenda-se por correto o contexto representado nas seguintes situações: 1. O comprimento restante do stem excede a um valor; usualmente este valor é 2; 2. A letra final do stem satisfaz a uma condição (por exemplo: que não termine com a letra g). Por exemplo, a palavra estadual, eliminado o sufixo ual leva à cadeia estad, mas para a palavra igual, se eliminado o sufixo ual, restaria ig (situação 1) e a palavra terminaria com a letra g (situação 2), levando a uma incorreção no stemming Seleção de Termos de Índice, Indexação e Busca Como já explicado anteriormente, um termo de índice pode derivar do texto de um documento ou pode ser independente. Os termos de índice a escolher podem ser identificados por um especialista ou ser identificados de forma automática. Para se ter um melhor controle da linguagem, pode-se prever uma hierarquia que relacione os termos de índice. 27

28 Existem dois fatores importantes para a efetividade de uma linguagem indexada 7, que são exaustividade (exhaustivity), que é o número de diferentes temas indexados, e especificidade (specificity), a facilidade com que se descrevem temas precisamente. Pensado em uma procura na Web, não é viável o uso deste modelo. Como alternativa podemos indexar termos do texto construindo uma estrutura a qual possa manter-se atualizada. É claro que isto vai ocorrer quando os índices não tiverem que ser inseridos constantemente (por exemplo, a cada segundo). Mas este exemplo de inserções constantes é que caracteriza a representação das máquinas de busca da Internet. indexação: Baeza-Yates e Ribeiro-Neto [BAE99] descrevem as seguintes técnicas de Arquivos Invertidos (Inverted files). Esta técnica consiste em transformar as palavras de um texto em uma lista ordenada ascendentemente. Os arquivos indexados são compostos por: o Vocabulário: Conjunto de todas as palavras do texto; o Ocorrências: É uma lista que armazena cada palavra e a posição onde aparece. Arrays de sufixos (Suffix arrays). Servem para dar respostas mais precisas a consultas mais complexas. Esta técnica pode ser utilizada para indexar palavras sem stopwords. Cada posição no texto é considerada como texto sufixo. 7 Linguagem indexada é a linguagem que descreve documentos e consultas. 28

29 Com respeito à busca, Kang e Kim [KAN03] classificam em três grupos os tipos de consultas que o usuário fornece na Internet: temas de relevância (de informação), busca de homepages (navegacional) e busca de serviços (transacional). Esta classificação ajuda a ter um filtro de busca para obter resultados mais exatos. 29

30 3 INDEXAÇÃO SEMÂNTICA LANTENTE 3.1 UMA VISÃO GERAL Em [DEE96a] os autores explicam que as limitações da atual indexação automática são causadas, principalmente, por três fatores: A maneira como os termos de índice são identificados é incompleta. Quando se escolhem palavras para servirem de índices, geralmente estas palavras são escolhidas por um grupo de pessoas que selecionam os termos mais freqüentes dentro de um documento, para evitar a sinonímia. Uma solução alternativa é a construção de tesauros (listas de palavras com seus significados e as relações entre elas; normalmente restritos a um domínio específico de conhecimento), só que esta alternativa de solução exige muito trabalho humano. Existe carência de modelos automáticos para trabalhar com a polissemia. Este problema pode ser tratado de duas formas: utilizar um humano que atue como tradutor. Os dois modelos anteriores não são totalmente efetivos, além de serem custosos [DEE96a]. Os termos são trabalhados de forma isolada. Desta maneira se perde a relação existente entre as palavras em uma mesma frase. A existência dos fatores anteriores levou ao desenvolvimento e pesquisa de outros modelos para melhorar essas falhas. O LSI trabalha rompendo as limitações com os três fatores mencionados anteriormente. 30

31 A Indexação Semântica Latente (do inglês Latent Semantic Indexing, LSI) tenta superar as deficiências da recuperação por combinação de termos, tratando a falta de confiabilidade dos dados associados a uma relação termo-documento ou documentodocumento, como um problema estatístico. Este método assume que há uma estrutura semântica oculta (latente), subjacente aos dados. Esta semântica é esquecida parcialmente pela aleatoriedade da escolha da palavra no que se refere à recuperação, pelo fato de que se escolhem palavras individuais para serem recuperadas, indexadas, etc. Utiliza-se no LSI um modelo matemático para estimar esta estrutura latente, que liberta do ruído constituído pela polissemia e pela sinonímia existente nos documentos. A descrição dos termos e dos documentos baseados na estrutura semântica latente é utilizada tanto para a indexação como para a recuperação. Entende-se por estrutura semântica a estrutura de correlação entre as palavras individuais que aparecem nos documentos; semântico implica o fato de que os termos, em um documento, possam ser tomados como referentes ao documento ou ao assunto desse documento. Esta técnica de análise da semântica de palavras em distintos documentos é automática: essa é a diferença principal que existe entre o LSI e os outros modelos existentes. O modelo matemático que se utiliza para criar a estrutura semântica é a decomposição Single Value Decomposition (SVD). O resultado da aplicação deste modelo, após realizadas operações matriciais, é uma matriz aproximada à matriz original. Esta matriz original é a matriz que representa uma relação, podendo ser esta relação termodocumento, termo-termo ou documento-termo. Matematicamente, este resultado pode ser interpretado como uma configuração espacial na qual o produto co-seno entre vetores representa a similaridade estimada entre dois documentos e, na área de RI, SVD é interpretada como uma técnica para gerar um conjunto de indexações não correlacionadas de variáveis ou fatores; cada relação (por exemplo, a relação termo-documento) é representada por seu vetor de valores [DEE96a]. 31

32 3.1.1 Representação Matricial O modelo vetorial é o mais aceito pelos pesquisadores para a RI. Este modelo é representado da seguinte forma [BAE99]: d j = ( w1, j, w2, j,..., wn, j ) (4) O vetor d j representa um documento j qualquer da coleção e w 1,j, w 2,j..., w n,j representam as palavras-chave do documento vetor j. d Da mesma forma que o modelo vetorial, o LSI trabalha com um conjunto de vetores que possuem as mesmas palavras-chave agrupando vários documentos e analisando, assim, a existência de palavras comuns entre esses documentos. De forma simples, a idéia principal é arranjar uma quantidade bastante grande de relações que co-ocorram simultaneamente em uma mesma dimensão. Entretanto, formalmente, trabalha-se com uma matriz na qual relacionam-se termos e documentos. Esta matriz é analisada pelo modelo SVD e, como resultado, é gerada uma matriz de menor dimensão. Se assume que essa nova matriz, de nível k, é a melhor aproximação à matriz original. Comparando os elementos do modelo vetorial e do LSI, se tem o resultado apresentado na Tabela 3.1. Nesta comparação, observou-se que a principal diferença que existe entre os dois modelos é que o modelo LSI trabalha com um conjunto de documentos (representados em uma matriz) ao mesmo tempo, enquanto que o modelo vetorial trabalha com um só documento por vez. 32

33 33 Tabela 3.1: Comparação entre os elementos do modelo vetorial e do modelo LSI Elemento do vetor j d Elemento da matriz A k w i,j Documento j, onde j ao j- ésimo vetor na coleção de documentos. Termo i, onde i representa a i- ésima posição no vetor d j. Palavra (ou termo) que ocorre na posição i do vetor j. w i,j Documento j, onde j à coluna de documentos. Termo i, onde i ao vetor-linha de termos t. Freqüência associada ao peso de i no documento j, onde i ocorre no documento j. A seguir observa-se a representação dos dois possíveis casos que ocorrem na decomposição SVD para uma matriz termo-documento onde m representa as linhas (os termos) e n as colunas (os documentos): Quando m > n: = * * * * * * * * * * * * * * * (5) Quando m < n: = * * * * * * * * * * * * * * * (6) documentos termo s A U V T documentos documentos termo s A V T U

34 Da equação (5) se tem que: A: É a matriz original com a relação termo-documento, de dimensões m x n; U: É a matriz ortogonal de dimensões m x k; k é um valor intermediário entre m e n. : É a matriz de tamanho k x k com elementos positivos ou nulos na diagonal principal. Os elementos da diagonal principal recebem o nome de valores singulares e estão ordenados de forma decrescente, sendo nulos nas últimas posições da matriz; V T : É a matriz ortogonal de tamanho k x n, onde T denota tratar-se de uma matriz transposta. A decomposição SVD representa a matriz original A nas matrizes U, e V T. Cada uma das associações que existem para construir a matriz A possui uma equação. A seguir se descreve cada uma dessas equações [DEE96a]: Comparação termo-termo. O produto co-seno entre dois vetores-linha de A k mostra a extensão na qual dois termos têm um padrão semelhante de ocorrências, em um conjunto de documentos. A matriz resultante é uma matriz quadrada simétrica: A = U 2 U T (6) Comparação documento-documento. O produto co-seno entre duas colunas mostra a extensão na qual dois documentos têm um perfil similar entre eles: A = V 2 V T (7) 34

35 Comparação termo-documento. O produto das matrizes resultantes de uma matriz que é aproximadamente igual à matriz A, sendo esta matriz de nível k. Assim o produto resultante é a matriz A k : A = U V T (8) Esta última equação da relação termo-documento vai ser trabalhada com detalhe nas próximas seções. 3.2 SIMPLE VALUE DECOMPOSITION (SVD) O SVD é realizado em matrizes reais ou complexas (condição inicial para aplicar a decomposição nas matrizes). Em [TRE97] descrevem-se duas formas de fazer a decomposição: uma forma reduzida e outra completa. Os exemplos abordados no presente trabalho de pesquisa utilizam matrizes reais e utilizam a decomposição SVD completa. A decomposição SVD gera uma matriz A k de nível k (rank-k) relacionada à matriz original A, uma matriz aproximada à matriz original A. Este nível k é representado como r k. Esta matriz A k expressa a melhor representação da estrutura semântica de certo domínio, podendo ser este domínio uma coleção de documentos ou um banco de dados. A escolha de qual o melhor nível de aproximação vai ser feita por testes empíricos, já que os modelos para encontrar esta matriz ainda estão em discussão [BER99]. As primeiras r A linhas de V T formam a base do espaço linha de A, enquanto que as primeiras r A colunas de U formam a base do espaço coluna de A. Obtendo a aproximação à matriz A de nível k, onde k r A, pode-se construir uma matriz aproximada A k de nível k, donde se obtém a seguinte equação: A 2 Ak = mín A B = F 1 rank ( B) k F k + 2 σ σ r A (9) 35

36 Onde A k = U k k V k T, e U k e V k são compostas das primeiras k colunas de U e V respectivamente e k é matriz diagonal de tamanho k x k contendo os k maiores valores singulares de A. O conteúdo semântico de um documento é geralmente determinado pela freqüência relativa de termos e, para descrever este conteúdo semântico de uma coleção de textos, podem ser utilizados os vetores base da matriz original A (os espaços coluna de A). A aplicação da decomposição SVD ajuda, principalmente, a reduzir o tamanho de m e n, já que em geral os dados da matriz A são altamente esparsos, isto porque nem todos os termos aparecem em todos os documentos Comparando consulta e índices Após aplicar a decomposição SVD à matriz original e encontrar a matriz A K aproximada à matriz original, resta ver como se faz o matching 8 entre uma consulta fornecida pelo usuário e a matriz aproximada. [BER94] apresenta uma equação simples para fazer o matching entre um vetor e a coleção de documentos: q ˆ (10) 1 = q T U kσ k A soma dos vetores-termo de dimensão k é refletida por q T U K na equação anterior, e esse resultado multiplicado por 1 diferencia os pesos em dimensões separadas. O resultado desta equação são as coordenadas dentro de um plano cartesiano; esta equação é mostrada visualmente na Figura 3.3 (Seção 3.2.3) após realizada a consulta ao sistema. 8 Por matching entenda-se o uso de um critério de comparação entre um recurso e outro, podendo ser estes recursos palavras, frases, documentos, etc. 36

37 Em geral, para fazer o matching entre uma consulta fornecida ao sistema e a coleção de documentos (neste caso, a matriz aproximada de nível k) é utilizado o método de comparação do co-seno. O objetivo de utilizar o co-seno é medir a semelhança existente entre uma consulta e os documentos da coleção. Esta equação é apresentada em [BER99] da seguinte forma: ( ) ( ) Ak e j q cos ϑ j = para j = 1, 2,.., n. (11) A e q k j T 2 2 Onde e j é um vetor que representa a coluna j de uma matriz identidade de tamanho n x n, q representa o vetor de consulta do usuário e 2 é a norma euclidiana do vetor. Assim, por exemplo, q representa a norma euclidiana do vetor q. Como critério de discriminação, 2 em [LAN98] utiliza-se para cos ϑ j o valor mínimo de 0.5. Isto indica que os valores iguais ou maiores (pesos dos documentos recuperados) que este valor são relevantes para a consulta q. Uma equação alternativa para encontrar o matching entre a consulta e os documentos, com um custo computacional mínimo segundo [BER99], é: ( ) ( ) T T s U q cos ˆ j k ϑ j = para j = 1, 2,..., n. (12) T s U q j 2 k 2 Onde, para documentos escalados, o vetor s j = Σ V e. Para todos os vetores documento k T k j (s j ) se cumpre que cosϑˆ j cos ϑ j. Isto implica que, às vezes, se recuperam mais documentos relevantes utilizando esta equação, do que com a equação proposta inicialmente. Tem-se de considerar que estes cálculos (e para que se obtenha um custo computacional baixo) são previstos para matrizes de tipo esparsas. 37

38 Em [FIE02] apresenta-se uma outra equação alternativa para o matching entre consultas. Para tanto, primeiro a consulta q é projetada sobre a estrutura semântica encontrada, da seguinte forma: 1 ˆ K T q = Σ U q (13) K Após encontrar qˆ realiza-se o matching através da seguinte equação: VK qˆ cos ˆ j ϑ j = para j = 1, 2,..., n. (14) V qˆ K j 2 2 O objetivo de projetar a consulta q nas matrizes K e U K é que a consulta faça o matching entre os termos de nível k da coleção (a multiplicação com as matrizes e U de nível k) e, uma vez encontrado o resultado, se faz a comparação com a matriz V K (os documentos de nível k da coleção). Note-se que, ao fazer o matching entre a consulta e os termos, esta operação é calculada uma vez só. O resultado (que é o vetor qˆ ) é comparado com todos os documentos da matriz V K, e isto leva a ter um ganho no processo da consulta, já que não é refeito o cálculo em cada iteração Atualização Uma vez encontrada a estrutura semântica, as matrizes U, e V de nível k, existe a possibilidade de querer inserir novos termos ou novos documentos na coleção de documentos, na matriz A K. A forma como teriam que ser inseridos os novos q termos e p documentos na matriz A K é mostrada nas figuras 3.1 e 3.2, correspondentemente. 38

39 Figura 3.1: Inserção de novos termos Figura 3.2: Inserção de novos documentos Para fazer uma atualização na estrutura semântica, o caminho mais simples seria criar uma nova matriz A com os novos termos ou documentos e calcular novamente a matriz A k. Esta forma de atualização, embora seja a mais precisa, tem custo computacional elevado. Como alternativa de solução existem dois métodos para fazer a atualização: o folding-in e o SVD-Updating, ambos descritos em [BER94] e [OBR94]. Nas próximas seções são abordados estes dois métodos. 39

40 Folding-in Uma alternativa de fazer a atualização é utilizar o folding-in, descrito em [BER94]. Uma condição inicial para que os novos documentos ou termos sejam adicionados à matriz A K é que sejam representados em forma de vetores. A adição de documentos em uma estrutura de LSI já existente se dá por meio da seguinte equação: 1 K d ˆ = d T U K (15) Assim, após ser calculado o resultado da equação anterior, é inserido o novo documento na matriz V K. De igual forma, para adicionar novos termos na matriz U k segue-se a equação: 1 V K K t ˆ = t (16) Esta forma de atualizar é rápida e com custo computacional baixo. A desvantagem de utilizar esta técnica de atualização é que a mesma reproduz uma representação inexata da atualização dos novos termos ou documentos [BER99], ou seja, quanto maior a quantidade de termos ou documentos adicionados, maior a variação nos resultados SVD-Updating O SVD-Updating é outra forma de atualizar a coleção de documentos; além de permitir inserir novos documentos e novos termos, tem a possibilidade de fazer correções nos pesos dos termos [BER99] [OBR94]. 40

41 No que se refere ao método de cálculo, seja D a representação dos p novos vetores documentos a serem processados, que será uma matriz esparsa 9 m x p (lembre-se que m representa o número de termos existentes na coleção). D é incorporada às colunas da matriz A de nível k, e para tal efeito são calculados os correspondentes valores e vetores singulares da equação: ( AK B) B = (17) A forma de calcular os novos valores para U B, B e V B é dada a seguir. Seja SVD( B) = U B Σ V. Então: B T B U T B VK B 0 I 0 P = T ( Σ U D) K K (18) Sendo A K = U Σ V. K K T K T Se F ( Σ K U K D) = e SVD( F) = U F Σ V então os valores para U K, K e V K são: F T F U B = U K U V 0 K F, VB = VF e Σ F = Σ B 0 I (19) P Para inserir novos termos, seja T a coleção de novos termos que serão anexados na coleção de documentos. Esta matriz esparsa T é de dimensão q x n (já que n representa o número de documentos existentes na coleção). Esta matriz é incorporada na matriz A K, então os novos valores e vetores singulares são calculados por meio da seguinte equação: A C = K T (20) 9 Afirma-se que esta matriz é esparsa já que nem todos os termos vão aparecer em todos os documentos. 41

42 Os novos valores para U C, C e V C são calculados da seguinte forma. Seja SVD( C) = U C Σ V, então: C T C U 0 T K 0 I q CV K Σ = TV K K (21) Σ K Se H = e TVK são: SVD( H ) = U H Σ V então os valores correspondentes para U C, C e V C H T H U C U 0 K = U H I, 0 q V C = V K V H e Σ H = Σ C (22) Já inclusos os novos termos ou documentos na coleção, procedemos às modificações nos pesos dos termos da coleção. Para trocar o valor do peso em j termos, segue-se o processo: seja Yj uma matriz de dimensão n x j, esta matriz é uma matriz unitária de nível j. Seja a matriz Zj de dimensão n x j onde as colunas especificam a diferença atual entre os pesos antigos e novos, para cada um dos j termos. A equação para calcular o novo peso é: W = A + Y Z (23) K j T j Para calcular os novos pesos dos termos e documentos procede-se da seguinte forma. Seja SVD( W ) = U W Σ V então: W T W T K K T T ( Σ U Y Z V ) U WV = + (24) K K j j K T T Se Q ( Σ +U Y Z V ) = e K K j j K SVD( Q) = U Q Σ V então os valores para U W e V W são: Q T Q 42

43 U W = U K U Q e V W = V K V Q (25) Maiores detalhes sobre os métodos de atualização explicados anteriormente encontram-se em [OBR94], onde o autor faz um estudo detalhado da atualização de termos ou documentos em uma estrutura semântica já calculada. Referentes ao SVD, existem estudos de melhoria ou variantes ao uso desta decomposição. Entre eles encontram-se: Decomposição Semidiscreta. A decomposição SDD (do inglês Semidiscrete Decomposition) e a decomposição QR 10 são descritas em [BER99] como dois métodos alternativos de decomposição de matrizes. Em geral as decomposições SVD e SDD estão baseadas na decomposição QR, e este processo de decomposição é descrito em [TRE97]. Riemannian SVD (R-SVD). Este é um dos métodos propostos como melhoria ao método LSI. Em [FIE02] os autores apresentam o método Riemannian-SVD aplicado ao LSI. O objetivo desta decomposição é criar as matrizes U, e V sem precisar da decomposição SVD. Estas matrizes, criadas pela decomposição ULV, possuem um nível k menor. Desta forma o cálculo da matriz A de nível k é mais rápido. Em [BER05] são estudados dois métodos de low-rank approximation, métodos alternativos ao método QR. Na pesquisa os autores apresentam algoritmos para calcular o sparse pivoted QR approximation (SPQR) e o sparce column-row (SCR), duas formas de obter um nível k mais baixo que o obtido pela decomposição SVD. 10 A decomposição QR de uma matriz é a decomposição da matriz numa matriz ortogonal e triangular. 43

4 Segmentação. 4.1. Algoritmo proposto

4 Segmentação. 4.1. Algoritmo proposto 4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças

Leia mais

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Aula anterior Organização e Recuperação de Informação(GSI521) Modelo vetorial- Definição Para o modelo vetorial, o

Leia mais

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho 20 Capítulo 3 Avaliação de Desempenho Este capítulo aborda como medir, informar e documentar aspectos relativos ao desempenho de um computador. Além disso, descreve os principais fatores que influenciam

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna O que é uma planilha eletrônica? É um aplicativo que oferece recursos para manipular dados organizados em tabelas. A partir deles pode-se gerar gráficos facilitando a análise e interpretação dos dados

Leia mais

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados 1. Introdução O governo é um dos maiores detentores de recursos da informação. Consequentemente, tem sido o responsável por assegurar que tais recursos estejam agregando valor para os cidadãos, as empresas,

Leia mais

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO Versão Março 2008 1 Introdução Este documento tem por objetivo

Leia mais

CONSTRUÇÃO DE BLOG COM O BLOGGER

CONSTRUÇÃO DE BLOG COM O BLOGGER CONSTRUÇÃO DE BLOG COM O BLOGGER Blog é uma abreviação de weblog, qualquer registro frequênte de informações pode ser considerado um blog (últimas notícias de um jornal online por exemplo). A maioria das

Leia mais

Título do trabalho: subtítulo do trabalho

Título do trabalho: subtítulo do trabalho Título do trabalho: subtítulo do trabalho Resumo Este documento apresenta um modelo de formatação a ser utilizado em artigos e tem como objetivo esclarecer aos autores o formato a ser utilizado. Este documento

Leia mais

GUIA DE REDAÇÃO PARA TRABALHO DE EM974

GUIA DE REDAÇÃO PARA TRABALHO DE EM974 GUIA DE REDAÇÃO PARA TRABALHO DE EM974 CONSIDERAÇÕES GERAIS O objetivo deste documento é informar a estrutura e a informação esperadas num texto de Trabalho de Graduação. O conteúdo do texto deverá ser

Leia mais

Documento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação

Documento Descritivo do Mecanismo de Busca. Preparação do Portal para indexação Documento Descritivo do Mecanismo de Busca Este documento visa esclarecer as regras que serão executadas pelo mecanismo de busca para a recuperação de informações a partir de uma palavra e/ou expressão

Leia mais

ROTEIRO PARA ELABORAÇÃO DE PROJETOS

ROTEIRO PARA ELABORAÇÃO DE PROJETOS APRESENTAÇÃO ROTEIRO PARA ELABORAÇÃO DE PROJETOS Breve histórico da instituição seguido de diagnóstico e indicadores sobre a temática abrangida pelo projeto, especialmente dados que permitam análise da

Leia mais

Só Matemática O seu portal matemático http://www.somatematica.com.br FUNÇÕES

Só Matemática O seu portal matemático http://www.somatematica.com.br FUNÇÕES FUNÇÕES O conceito de função é um dos mais importantes em toda a matemática. O conceito básico de função é o seguinte: toda vez que temos dois conjuntos e algum tipo de associação entre eles, que faça

Leia mais

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS Planificação Anual da Disciplina de TIC Módulos 1,2,3-10.ºD CURSO PROFISSIONAL DE TÉCNICO DE APOIO À GESTÃO DESPORTIVA Ano Letivo 2015-2016 Manual adotado:

Leia mais

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperaçãode Informação GSI521 Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Análisede links Page Rank Prof. Dr. Rodrigo Sanches Miani FACOM/UFU Motivação Suponha que um modelo clássico, como

Leia mais

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS) Definição Geral: Disciplina de Compiladores Prof. Jorge Bidarra (UNIOESTE) A especificação de requisitos tem como objetivo

Leia mais

Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA QUESTÃO RESPOSTA QUESTÃO RESPOSTA

Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA QUESTÃO RESPOSTA QUESTÃO RESPOSTA ANÁLISE E DESENVOLVIMENTO DE SISTEMAS TURMA 2008 3º PERÍODO - 5º MÓDULO AVALIAÇÃO A4 DATA 23/04/2009 ENGENHARIA DE SOFTWARE Dados de identificação do Acadêmico: Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA

Leia mais

Guia Básico de Utilização da Biblioteca Virtual da FAPESP. Thais Fernandes de Morais Fabiana Andrade Pereira

Guia Básico de Utilização da Biblioteca Virtual da FAPESP. Thais Fernandes de Morais Fabiana Andrade Pereira Guia Básico de Utilização da Biblioteca Virtual da FAPESP Thais Fernandes de Morais Fabiana Andrade Pereira Centro de Documentação e Informação da FAPESP São Paulo 2015 Sumário Introdução... 2 Objetivos...

Leia mais

ISO/IEC 12207: Gerência de Configuração

ISO/IEC 12207: Gerência de Configuração ISO/IEC 12207: Gerência de Configuração Durante o processo de desenvolvimento de um software, é produzida uma grande quantidade de itens de informação que podem ser alterados durante o processo Para que

Leia mais

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br 04/08/2012. Aula 7. Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord

MODELAGEM DE DADOS MODELAGEM DE DADOS. rafaeldiasribeiro.com.br 04/08/2012. Aula 7. Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 7 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Aprender sobre a modelagem lógica dos dados. Conhecer os

Leia mais

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial T U T O R I A I S WEB OF SCIENCE TUTORIAL Biblioteca da Escola de Engenharia da UFRGS WEB OF SCIENCE - Tutorial O que é? O Web of Science é uma base de dados que disponibiliza acesso a mais de 9.200 títulos

Leia mais

Disciplina de Banco de Dados Introdução

Disciplina de Banco de Dados Introdução Disciplina de Banco de Dados Introdução Prof. Elisa Maria Pivetta CAFW - UFSM Banco de Dados: Conceitos A empresa JJ. Gomes tem uma lista com mais ou menos 4.000 nomes de clientes bem como seus dados pessoais.

Leia mais

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO - TIC 10º C. Planificação de. Curso Profissional de Técnico de Secretariado

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO - TIC 10º C. Planificação de. Curso Profissional de Técnico de Secretariado Escola Básica e Secundária de Velas Planificação de TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO - TIC Curso Profissional de Técnico de Secretariado 10º C MÓDULO 1 FOLHA DE CÁLCULO Microsoft Excel Conteúdos

Leia mais

ENGENHARIA DE SOFTWARE I

ENGENHARIA DE SOFTWARE I ENGENHARIA DE SOFTWARE I Prof. Cássio Huggentobler de Costa [cassio.costa@ulbra.br] Twitter: www.twitter.com/cassiocosta_ Agenda da Aula (002) Metodologias de Desenvolvimento de Softwares Métodos Ágeis

Leia mais

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR

Novell. Novell Teaming 1.0. novdocx (pt-br) 6 April 2007 EXPLORAR O PORTLET BEM-VINDO DESCUBRA SEU CAMINHO USANDO O NOVELL TEAMING NAVIGATOR Novell Teaming - Guia de início rápido Novell Teaming 1.0 Julho de 2007 INTRODUÇÃO RÁPIDA www.novell.com Novell Teaming O termo Novell Teaming neste documento se aplica a todas as versões do Novell Teaming,

Leia mais

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS ISBN 978-85-61091-05-7 Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS Marcello Erick Bonfim 1

Leia mais

Análise de Links e Busca na Web

Análise de Links e Busca na Web Análise de Links e Busca na Web Redes Sociais e Econômicas Prof. André Vignatti PageRank O PageRank é uma espécie de fluido que circula pela rede Para uma rede com n nós, o PageRank é calculado da seguinte

Leia mais

Ajuda ao SciEn-Produção 1. 1. O Artigo Científico da Pesquisa Experimental

Ajuda ao SciEn-Produção 1. 1. O Artigo Científico da Pesquisa Experimental Ajuda ao SciEn-Produção 1 Este texto de ajuda contém três partes: a parte 1 indica em linhas gerais o que deve ser esclarecido em cada uma das seções da estrutura de um artigo cientifico relatando uma

Leia mais

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br Introdução O computador como ferramenta indispensável: Faz parte das nossas vidas; Por si só não faz nada de útil; Grande capacidade de resolução

Leia mais

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd. Apresentação Este curso tem como objetivo, oferecer uma noção geral sobre a construção de sistemas de banco de dados. Para isto, é necessário estudar modelos para a construção de projetos lógicos de bancos

Leia mais

APLICAÇÕES DA DERIVADA

APLICAÇÕES DA DERIVADA Notas de Aula: Aplicações das Derivadas APLICAÇÕES DA DERIVADA Vimos, na seção anterior, que a derivada de uma função pode ser interpretada como o coeficiente angular da reta tangente ao seu gráfico. Nesta,

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

Equações do primeiro grau

Equações do primeiro grau Módulo 1 Unidade 3 Equações do primeiro grau Para início de conversa... Você tem um telefone celular ou conhece alguém que tenha? Você sabia que o telefone celular é um dos meios de comunicação que mais

Leia mais

1 INTRODUÇÃO Internet Engineering Task Force (IETF) Mobile IP

1 INTRODUÇÃO Internet Engineering Task Force (IETF) Mobile IP 1 INTRODUÇÃO Devido ao crescimento da Internet, tanto do ponto de vista do número de usuários como o de serviços oferecidos, e o rápido progresso da tecnologia de comunicação sem fio (wireless), tem se

Leia mais

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS

AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO BACHARELADO AMBIENTE PARA AUXILIAR O DESENVOLVIMENTO DE PROGRAMAS MONOLÍTICOS Orientando: Oliver Mário

Leia mais

NOME COMPLETO DA SUA INSTITUIÇÃO. Nome completo do integrante A Nome completo do integrante B Nome completo do integrante C

NOME COMPLETO DA SUA INSTITUIÇÃO. Nome completo do integrante A Nome completo do integrante B Nome completo do integrante C NOME COMPLETO DA SUA INSTITUIÇÃO Nome completo do integrante A Nome completo do integrante B Nome completo do integrante C TÍTULO DO TRABALHO: subtítulo, se houver Santa Rita do Sapucaí 2015 Nome completo

Leia mais

Organização e Recuperação da Informação

Organização e Recuperação da Informação GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução Porque RI? Problemas da solução

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

Resolução de problemas e desenvolvimento de algoritmos

Resolução de problemas e desenvolvimento de algoritmos SSC0101 - ICC1 Teórica Introdução à Ciência da Computação I Resolução de problemas e desenvolvimento de algoritmos Prof. Vanderlei Bonato Prof. Cláudio Fabiano Motta Toledo Sumário Análise e solução de

Leia mais

MANUAL DO UTILIZADOR

MANUAL DO UTILIZADOR MANUAL DO UTILIZADOR Versão 1.6 PÁGINA DE PESQUISA A página principal do PacWeb permite a realização de um número muito variado de pesquisas, simples, ou pelo contrário extremamente complexas, dependendo

Leia mais

Feature-Driven Development

Feature-Driven Development FDD Feature-Driven Development Descrição dos Processos Requisitos Concepção e Planejamento Mais forma que conteúdo Desenvolver um Modelo Abrangente Construir a Lista de Features Planejar por

Leia mais

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES 3.1 - IDENTIFICADORES Os objetos que usamos no nosso algoritmo são uma representação simbólica de um valor de dado. Assim, quando executamos a seguinte instrução:

Leia mais

2. Representação Numérica

2. Representação Numérica 2. Representação Numérica 2.1 Introdução A fim se realizarmos de maneira prática qualquer operação com números, nós precisamos representa-los em uma determinada base numérica. O que isso significa? Vamos

Leia mais

EBSCOhost. Pesquisa avançada. www.ebsco.com

EBSCOhost. Pesquisa avançada. www.ebsco.com EBSCOhost Pesquisa avançada Tópicos Operadores booleanos Campos de busca Pesquisas adicionais Assuntos Publicações Índices Imagem Pesquisa avançada Histórico de pesquisa 2 Operadores booleanos Operadores

Leia mais

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação SOFT DISCIPLINA: Engenharia de Software AULA NÚMERO: 10 DATA: / / PROFESSOR: Andrey APRESENTAÇÃO O objetivo desta aula é apresentar e discutir os conceitos de coesão e acoplamento. DESENVOLVIMENTO Projetar

Leia mais

UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS

UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS Alexia Guilherme Bianque (PIBIC/CNPq), Ederson Marco Sgarbi (Orientador), a.g.bianque10@gmail.com.br Universidade

Leia mais

Departamento de Matemática - UEL - 2010. Ulysses Sodré. http://www.mat.uel.br/matessencial/ Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Departamento de Matemática - UEL - 2010. Ulysses Sodré. http://www.mat.uel.br/matessencial/ Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010. Matemática Essencial Extremos de funções reais Departamento de Matemática - UEL - 2010 Conteúdo Ulysses Sodré http://www.mat.uel.br/matessencial/ Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Leia mais

Análise de Ponto de Função

Análise de Ponto de Função Complemento para o Curso Análise de Ponto de Função FUNÇÕES DO TIPO DADO O termo Arquivo não significa um arquivo do sistema operacional, como é comum na área de processamento de dados. Se refere a um

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Semântica para Sharepoint. Busca semântica utilizando ontologias

Semântica para Sharepoint. Busca semântica utilizando ontologias Semântica para Sharepoint Busca semântica utilizando ontologias Índice 1 Introdução... 2 2 Arquitetura... 3 3 Componentes do Produto... 4 3.1 OntoBroker... 4 3.2 OntoStudio... 4 3.3 SemanticCore para SharePoint...

Leia mais

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador> FACULDADE DE ENGENHARIA DE COMPUTAÇÃO PROJETO FINAL I e II PLANO DE TRABALHO O Trabalho de Conclusão de Curso (TCC) a ser desenvolvido

Leia mais

Desenvolvimento de um CMS 1 para a criação e publicação de web sites acessíveis por deficientes visuais.

Desenvolvimento de um CMS 1 para a criação e publicação de web sites acessíveis por deficientes visuais. Desenvolvimento de um CMS 1 para a criação e publicação de web sites acessíveis por deficientes visuais. Tales Henrique José MOREIRA 1 ; Gabriel da SILVA 2 ; 1 Estudante de Tecnologia em Sistemas para

Leia mais

NOME SEXO CPF NASCIMENTO SALARIO

NOME SEXO CPF NASCIMENTO SALARIO Tutorial SQL Fonte: http://www.devmedia.com.br/articles/viewcomp.asp?comp=2973 Para começar Os Sistemas Gerenciadores de Bancos de Dados Relacionais (SGBDr) são o principal mecanismo de suporte ao armazenamento

Leia mais

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software

PROCESSO DE DESENVOLVIMENTO DE SOFTWARE. Modelos de Processo de Desenvolvimento de Software PROCESSO DE DESENVOLVIMENTO DE SOFTWARE Introdução Modelos de Processo de Desenvolvimento de Software Os modelos de processos de desenvolvimento de software surgiram pela necessidade de dar resposta às

Leia mais

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. Conceitos relativos à Informação 1. Informação O que á a informação? Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. 2. Dados Em informática designa-se

Leia mais

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

Introdução ao EBSCOhost 2.0

Introdução ao EBSCOhost 2.0 Introdução ao EBSCOhost 2.0 Tutorial support.ebsco.com O que é? O EBSCO Host é um poderoso sistema de referência on-line acessível através da Internet, e oferece uma variedade de bases de dados de texto

Leia mais

O PROJETO DE PESQUISA. Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza

O PROJETO DE PESQUISA. Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza O PROJETO DE PESQUISA Prof. Angelo Augusto Frozza, M.Sc. http://about.me/tilfrozza ROTEIRO Escolher um tema de pesquisa Por onde começar? Ler para aprender Estrutura do Projeto de Pesquisa A Definição

Leia mais

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento

Leia mais

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi

Metodologias de Desenvolvimento de Sistemas. Analise de Sistemas I UNIPAC Rodrigo Videschi Metodologias de Desenvolvimento de Sistemas Analise de Sistemas I UNIPAC Rodrigo Videschi Histórico Uso de Metodologias Histórico Uso de Metodologias Era da Pré-Metodologia 1960-1970 Era da Metodologia

Leia mais

Manual da Turma Virtual: MATERIAIS. Para acessar a turma virtual com o perfil Docente, siga o caminho indicado abaixo:

Manual da Turma Virtual: MATERIAIS. Para acessar a turma virtual com o perfil Docente, siga o caminho indicado abaixo: Manual da Turma Virtual: MATERIAIS Para acessar a turma virtual com o perfil Docente, siga o caminho indicado abaixo: MENU TURMA VIRTUAL MENU MATERIAIS CONTEÚDO/PÁGINA WEB Esta operação possibilita que

Leia mais

Arquitetura de Rede de Computadores

Arquitetura de Rede de Computadores TCP/IP Roteamento Arquitetura de Rede de Prof. Pedro Neto Aracaju Sergipe - 2011 Ementa da Disciplina 4. Roteamento i. Máscara de Rede ii. Sub-Redes iii. Números Binários e Máscara de Sub-Rede iv. O Roteador

Leia mais

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Pós-Graduação em Gerenciamento de Projetos práticas do PMI Pós-Graduação em Gerenciamento de Projetos práticas do PMI Planejamento do Gerenciamento das Comunicações (10) e das Partes Interessadas (13) PLANEJAMENTO 2 PLANEJAMENTO Sem 1 Sem 2 Sem 3 Sem 4 Sem 5 ABRIL

Leia mais

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO QFD: CASA DA QUALIDADE - PASSO A PASSO 1 - INTRODUÇÃO Segundo Akao (1990), QFD é a conversão dos requisitos do consumidor em características de qualidade do produto e o desenvolvimento da qualidade de

Leia mais

7.Conclusão e Trabalhos Futuros

7.Conclusão e Trabalhos Futuros 7.Conclusão e Trabalhos Futuros 158 7.Conclusão e Trabalhos Futuros 7.1 Conclusões Finais Neste trabalho, foram apresentados novos métodos para aceleração, otimização e gerenciamento do processo de renderização

Leia mais

Manual do Painel Administrativo

Manual do Painel Administrativo Manual do Painel Administrativo versão 1.0 Autores César A Miggiolaro Marcos J Lazarin Índice Índice... 2 Figuras... 3 Inicio... 5 Funcionalidades... 7 Analytics... 9 Cidades... 9 Conteúdo... 10 Referência...

Leia mais

11 de maio de 2011. Análise do uso dos Resultados _ Proposta Técnica

11 de maio de 2011. Análise do uso dos Resultados _ Proposta Técnica 11 de maio de 2011 Análise do uso dos Resultados _ Proposta Técnica 1 ANÁLISE DOS RESULTADOS DO SPAECE-ALFA E DAS AVALIAÇÕES DO PRÊMIO ESCOLA NOTA DEZ _ 2ª Etapa 1. INTRODUÇÃO Em 1990, o Sistema de Avaliação

Leia mais

PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR. Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 *

PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR. Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 * PESQUISA OPERACIONAL: UMA ABORDAGEM À PROGRAMAÇÃO LINEAR 1 Graduando Rodolfo Cavalcante Pinheiro 1,3 Cleber Giugioli Carrasco 2,3 * 2 Pesquisador - Orientador 3 Curso de Matemática, Unidade Universitária

Leia mais

6. Geometria, Primitivas e Transformações 3D

6. Geometria, Primitivas e Transformações 3D 6. Geometria, Primitivas e Transformações 3D Até agora estudamos e implementamos um conjunto de ferramentas básicas que nos permitem modelar, ou representar objetos bi-dimensionais em um sistema também

Leia mais

Bacharelado em Ciência e Tecnologia Bacharelado em Ciências e Humanidades. Representação Gráfica de Funções

Bacharelado em Ciência e Tecnologia Bacharelado em Ciências e Humanidades. Representação Gráfica de Funções Bacharelado em Ciência e Tecnologia Bacharelado em Ciências e Humanidades BC 0005 Bases Computacionais da Ciência Representação Gráfica de Funções Prof a Maria das Graças Bruno Marietto graca.marietto@ufabc.edu.br

Leia mais

MANUAL PAPELETA MOTORISTA Criado em: 15/02/2013 Atualizado em: 12/11/2014

MANUAL PAPELETA MOTORISTA Criado em: 15/02/2013 Atualizado em: 12/11/2014 O objetivo deste manual é explicar passo a passo o controle da papeleta do motorista realizado no SAT. De acordo com a LEI Nº 12.619, DE 30 DE ABRIL DE 2012, que pode ser acessada em: http://www.planalto.gov.br

Leia mais

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc. MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 1 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Apresenta a diferença entre dado e informação e a importância

Leia mais

Todos os exercícios sugeridos nesta apostila se referem ao volume 1. MATEMÁTICA I 1 FUNÇÃO DO 1º GRAU

Todos os exercícios sugeridos nesta apostila se referem ao volume 1. MATEMÁTICA I 1 FUNÇÃO DO 1º GRAU FUNÇÃO IDENTIDADE... FUNÇÃO LINEAR... FUNÇÃO AFIM... GRÁFICO DA FUNÇÃO DO º GRAU... IMAGEM... COEFICIENTES DA FUNÇÃO AFIM... ZERO DA FUNÇÃO AFIM... 8 FUNÇÕES CRESCENTES OU DECRESCENTES... 9 SINAL DE UMA

Leia mais

Universidade Federal de Goiás UFG Campus Catalão CAC Departamento de Engenharia de Produção. Sistemas ERP. PCP 3 - Professor Muris Lage Junior

Universidade Federal de Goiás UFG Campus Catalão CAC Departamento de Engenharia de Produção. Sistemas ERP. PCP 3 - Professor Muris Lage Junior Sistemas ERP Introdução Sucesso para algumas empresas: acessar informações de forma rápida e confiável responder eficientemente ao mercado consumidor Conseguir não é tarefa simples Isso se deve ao fato

Leia mais

PLANEJAMENTO DA MANUFATURA

PLANEJAMENTO DA MANUFATURA 58 FUNDIÇÃO e SERVIÇOS NOV. 2012 PLANEJAMENTO DA MANUFATURA Otimizando o planejamento de fundidos em uma linha de montagem de motores (II) O texto dá continuidade à análise do uso da simulação na otimização

Leia mais

Conceitos de Banco de Dados

Conceitos de Banco de Dados Conceitos de Banco de Dados Autor: Luiz Antonio Junior 1 INTRODUÇÃO Objetivos Introduzir conceitos básicos de Modelo de dados Introduzir conceitos básicos de Banco de dados Capacitar o aluno a construir

Leia mais

Manual Q-Acadêmico 2.0 Módulo Web - Aluno

Manual Q-Acadêmico 2.0 Módulo Web - Aluno Manual Q-Acadêmico 2.0 Módulo Web - Aluno Índice 1 Acessando o sistema via internet...3 2 Funcionalidades...6 2.1 Horário Individual...7 2.2 Calendário Acadêmico...8 2.3 Biblioteca...9 2.3.1 Consultar

Leia mais

Modelagem e Simulação Material 02 Projeto de Simulação

Modelagem e Simulação Material 02 Projeto de Simulação Modelagem e Simulação Material 02 Projeto de Simulação Prof. Simão Sirineo Toscani Projeto de Simulação Revisão de conceitos básicos Processo de simulação Etapas de projeto Cuidados nos projetos de simulação

Leia mais

Organização e Arquitetura de Computadores I

Organização e Arquitetura de Computadores I Organização e Arquitetura de Computadores I Aritmética Computacional Slide 1 Sumário Unidade Lógica e Aritmética Representação de Números Inteiros Aritmética de Números Inteiros Representação de Números

Leia mais

Curso: Técnico de Informática Disciplina: Redes de Computadores. 1- Apresentação Binária

Curso: Técnico de Informática Disciplina: Redes de Computadores. 1- Apresentação Binária 1- Apresentação Binária Os computadores funcionam e armazenam dados mediante a utilização de chaves eletrônicas que são LIGADAS ou DESLIGADAS. Os computadores só entendem e utilizam dados existentes neste

Leia mais

Regra do Evento Raro p/ Inferência Estatística:

Regra do Evento Raro p/ Inferência Estatística: Probabilidade 3-1 Aspectos Gerais 3-2 Fundamentos 3-3 Regra da Adição 3-4 Regra da Multiplicação: 3-5 Probabilidades por Meio de Simulações 3-6 Contagem 1 3-1 Aspectos Gerais Objetivos firmar um conhecimento

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Banco de Dados. CursoTécnico em Informática Modalidade Integrado. Professora Michelle Nery. Instituto Federal do Sul de Minas, câmpus Pouso Alegre

Banco de Dados. CursoTécnico em Informática Modalidade Integrado. Professora Michelle Nery. Instituto Federal do Sul de Minas, câmpus Pouso Alegre Banco de Dados CursoTécnico em Informática Modalidade Integrado Instituto Federal do Sul de Minas, câmpus PousoAlegre Professora Michelle Nery Conteúdo Programático Introdução O que é Banco de Dados O

Leia mais

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos Microsoft Access: Criar consultas para um novo banco de Vitor Valerio de Souza Campos Conteúdo do curso Visão geral: consultas são essenciais Lição: inclui sete seções Tarefas práticas sugeridas Teste.

Leia mais

BIBLIOTECA ANACOM MANUAL DO UTILIZADOR

BIBLIOTECA ANACOM MANUAL DO UTILIZADOR BIBLIOTECA ANACOM MANUAL DO UTILIZADOR ÍNDICE Biblioteca ANACOM - Manual do utilizador... 2 Página de entrada... 3 Barra de menus da Biblioteca ANACOM... 3 Tipos de pesquisa... 3 Pesquisa simples... 3

Leia mais

Usando Ferramentas de Busca

Usando Ferramentas de Busca Web Marketing Usando Ferramentas de Busca Marcelo Silveira Novatec Editora Ltda. www.novateceditora.com.br 1 Conhecendo o cenário de pesquisas na Internet Este capítulo apresenta uma visão geral sobre

Leia mais

Orientações Preliminares. Professor Fábio Vinícius

Orientações Preliminares. Professor Fábio Vinícius Orientações Preliminares Professor Fábio Vinícius O ENEM O ENEM foi criado pelo Instituto Nacional de Estudos e Pesquisas Educacionais (INEP), sob a supervisão do Ministério da Educação (MEC), em 1998,

Leia mais

Construção Páginas de Internet

Construção Páginas de Internet Construção Páginas de Internet Definir um Site no Frontpage Objectivos da sessão: No final da sessão os formandos deverão ser capazes de: Saber o que são os metadados do Frontpage; Distinguir entre Sites

Leia mais

Equações do segundo grau

Equações do segundo grau Módulo 1 Unidade 4 Equações do segundo grau Para início de conversa... Nesta unidade, vamos avançar um pouco mais nas resoluções de equações. Na unidade anterior, você estudou sobre as equações de primeiro

Leia mais

A PÁGINA DISCIPLINAR DE MATEMÁTICA DO PORTAL DIA A DIA EDUCAÇÃO

A PÁGINA DISCIPLINAR DE MATEMÁTICA DO PORTAL DIA A DIA EDUCAÇÃO A PÁGINA DISCIPLINAR DE MATEMÁTICA DO PORTAL DIA A DIA EDUCAÇÃO Resumo: Dolores Follador Secretaria de Estado da Educação do Paraná e Faculdades Integradas do Brasil - Unibrasil doloresfollador@gmail.com

Leia mais

Adapti - Technology Solutions www.adapti.net Leonor cardoso nº 331 Fone : (041) 8844-7805 81240-380 Curitiba - PR MANUAL DO USUÁRIO

Adapti - Technology Solutions www.adapti.net Leonor cardoso nº 331 Fone : (041) 8844-7805 81240-380 Curitiba - PR MANUAL DO USUÁRIO MANUAL DO USUÁRIO 1 Índice Administração de Documentos...2 Lista de documentos criados...3 Criando um novo documento...3 Barra de ferramentas do editor...4 Editando um documento...7 Administrando suas

Leia mais

4 Metodologia. 4.1. Tipo de pesquisa

4 Metodologia. 4.1. Tipo de pesquisa 4 Metodologia Este capítulo descreve a metodologia adotada na execução do trabalho de pesquisa: definição da variável alvo, delimitação da população, processo de seleção da amostra, técnicas e procedimentos

Leia mais

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE MÓDULO 6 INTRODUÇÃO À PROBBILIDDE Quando estudamos algum fenômeno através do método estatístico, na maior parte das vezes é preciso estabelecer uma distinção entre o modelo matemático que construímos para

Leia mais

Engenharia de Software: conceitos e aplicações. Prof. Tiago Eugenio de Melo, MSc tiagodemelo@gmail.com

Engenharia de Software: conceitos e aplicações. Prof. Tiago Eugenio de Melo, MSc tiagodemelo@gmail.com Engenharia de Software: conceitos e aplicações Prof. Tiago Eugenio de Melo, MSc tiagodemelo@gmail.com 1 Objetivos da aula Apresentar os conceitos de Engenharia de Software e explicar a sua importância.

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

UNIDADE 4. Introdução à Metodologia de Desenvolvimento de Sistemas

UNIDADE 4. Introdução à Metodologia de Desenvolvimento de Sistemas UNIDADE 4. Introdução à Metodologia de Desenvolvimento de Sistemas 4.1 Motivação Sistemas de Informação são usados em diversos níveis dentro de uma organização, apoiando a tomada de decisão; Precisam estar

Leia mais