UM MODELO ALGÉBRICO PARA REPRESENTAÇÃO, INDEXAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE DOCUMENTOS DIGITAIS *

Tamanho: px
Começar a partir da página:

Download "UM MODELO ALGÉBRICO PARA REPRESENTAÇÃO, INDEXAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE DOCUMENTOS DIGITAIS *"

Transcrição

1 UM MODELO ALGÉBRICO PARA REPRESENTAÇÃO, INDEXAÇÃO E CLASSIFICAÇÃO AUTOMÁTICA DE DOCUMENTOS DIGITAIS * Elias Oliveira Patrick Marques Ciarelli Marcos Hercules Santos Bruno Oliveira da Costa Resumo Apresenta-se idéia da representação, indexação e classificação automática de documentos digitais. A representação de documentos via o modelo vetorial é simples e permite-nos lidar com classificação de uma grande quantidade de documentos os quais estão sendo carregados diariamente nas quase 35 bibliotecas digitais de tese e dissertação no Brasil. A expectativa é de termos outras 20 bibliotecas a mais na lista para o fim deste ano. Comparou-se a metodologia de classificação automática descrita nesse artigo, usando uma amostra de documentos reais, com aquela feita pelo especialista humano. Os resultados mostram que esta metodologia é promissora em se reduzir o esforço dos especialistas na realização dessa tarefa. Palavras-chave: Indexação automática. Classificação automática. Inteligência Artificial. Modelos Estatísticos. AN ALGEBRAIC MODEL OF REPRESENTATION, INDEXATION AND AUTOMATIC CLASSIFICATION OF DIGITAL DOCUMENTS Abstract In this paper we introduce the idea of representing, indexing and automatically classifying digital documents. The vectorial model of representing documents is simple and allows us to deal with the classification of a great amount of digital documents which were loaded daily in almost 35 Brazilian Digital Library of Thesis and Dissertation. We expect to have another 20 libraries by the end of this year. Using a sample of real documents, we compare this methodology of classification to that done by specialists. The results show that this methodology is promising in reducing the effort of specialists when performing such task. KEYWORDS: Automatic Indexation. Automatic classification. Artificial Intelligence. Statistical models. Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

2 1 INTRODUÇÃO O volume de informação codificada disponível ao público, de maneira geral, vem crescendo vertiginosamente desde a iniciativa da imprensa de Gutemberg em 1455 (CHARTIER, 1998). Hoje, o fato de ter maior acesso a diversas informações via a rede Internet e a facilidade de publicar o que quiser nessa rede, vem inundando-nos de informação de uma forma jamais vista na história da humanidade (TEIXEIRA; SCHIEL, 1997). Por outro lado, o excedente informacional produzido nesses últimos anos, em particular, na Internet, trouxe junto consigo uma nova dificuldade aos usuários da informação eletrônica (MARCONDES; SAYÃO, 2002). Em conseqüência disso, vemos que cada vez mais se torna crítico o problema de identificação da informação relevante para um usuárioalvo. Isso nos leva ao caos organizacional, provocado por essa enxurrada de documentos disponíveis na rede e, ainda, pela falta de ferramental apropriado para o tratamento dessa informação. Essa carência evidencia-se nos atuais sistemas de busca, que ainda produzem uma alta revocação e apresentam baixa precisão na informação recuperada. A despeito de recentes esforços (CAMPOS et al., 2006), a Internet ainda não está organizada de forma a ser semanticamente tratável. Portanto, não há como se ter, já, uma estruturação da informação ali armazenada, dificultando, assim, o seu tratamento, para uma recuperação mais precisa. Nesse contexto, apresenta-se um dos grandes desafios aos profissionais da informação de hoje (CUNHA, 2005): lidar de forma produtiva com a informação dispersa na Internet. Não temos como ignorar esse grande repositório de informação que é a Internet, mas não podemos deixar somente por conta do usuário o árduo trabalho equivalente ao de garimpar pedras preciosas, por ele almejadas, nesse moderno repositório digital. Mesmo nessa nova estrutura do mundo moderno, devemos nos preocupar em fornecer a cada livro seu leitor, como nos diz a terceira lei fundamental de Ranganathan (1996), ou, reformulando essa lei para os novos meios eletrônicos, a cada porção de informação o seu consumidor. Com vistas à resolução dessa estruturação semântica dos repositórios eletrônicos de informação, para posteriormente facilitar sua recuperação, alguns autores vêm propondo a utilização de metadados. Um dos grandes problemas relacionados a essa metodologia está na escolha do momento da inserção dessa estruturação semântica nos documentos eletrônicos. Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

3 Alvarenga (2001) aponta a dificuldade que seria exigir que o usuário mude seu modus operandus de criar documentos, tendo de inserir a priori mais informações do que o próprio texto que ele cria. Por outro lado, concordamos com a autora que o tratamento a posteriori ao processo de produção do documento tem baixas chances de sucesso, em virtude da grande quantidade de documentos gerados a cada segundo. Na verdade, a metodologia do tratamento a posteriori é uma prática que vem sendo utilizada pelos profissionais de bibliotecas há mais de um século para a descrição e interpretação dos dados bibliográficos. Nos dias de hoje, temos presenciado a dificuldade que tem sido dar conta dessa atividade dentro de uma biblioteca de tamanho médio para grande, dado o grande volume de materiais informacionais que aportam a cada momento na biblioteca. Assim, este artigo trata da apresentação de uma metodologia que vem sendo utilizada para lidar automaticamente com uma grande massa de documentos no que diz respeito a sua indexação (BRIN; PAGE, 1998), utilizando-se da extração dos termos relevantes do documento. A partir dessa metodologia, utilizaremos um modelo vetorial de representação dos documentos, para avaliar similaridades entre os mesmos. Com isso produziremos classes de documentos segundo seus enfoques temáticos. Compararemos esses resultados, produzidos de forma automática, com aqueles gerados pelo especialista humano, para avaliar a eficácia e eficiência dessa metodologia automática. Este artigo está organizado da seguinte forma: na Seção 2, apresentamos de brevemente, as tecnologias recentes, relacionadas à criação de metadados, para, logo após, descrevermos um dos mais modernos tipos de repositórios de informações existentes hoje, os RSSs, onde as letras da sigla significam Rich Site Summary. A estrutura de metadados desse tipo de repositório é gerada a priori, o que facilitará os estudos feitos neste artigo. Na Seção 3, fazemos uma breve revisão da literatura relacionada com o trabalho desenvolvido aqui, além de apresentarmos alguns modelos para representação abstrata de documentos para manipulação automática. Nossos experimentos são apresentados na Seção 4. Nossa conclusão é apresentada na Seção 5, onde também lançamos algumas idéias para futuros trabalhos. Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

4 2 APLICAÇÕES DE METADADOS A utilização de metadados tem por objetivo facilitar a representação, consulta, transferência e recuperação da informação, mas seu uso tornou-se efetivamente prático pela primeira vez quando a Biblioteca do Congresso Norte-Americano desenvolveu o formato MARC na década de 60, com o propósito de explorar a utilização do computador para o intercâmbio de dados catalográficos (ANDRESEN, 2004). A partir do MARC, vários outros padrões de metadados foram desenvolvidos, por exemplo, o IAFA templates, Text Encoding Initiative (TEI), Encode Archival Descriptor (EAD) e outros novos que vêm sendo propostos (ALVARENGA, 2001). Metadado até então cumpria um papel estático no processo de recuperação da informação, pois, mesmo com o advento da Internet, o seu uso era tipicamente no ambiente das bibliotecas e entre bibliotecas. Com o recente surgimento da linguagem XML, essa característica estática do uso de metadados está prestes a ser deixada no passado. A linguagem XML é uma linguagem proposta para simplificar a complexidade de uma outra linguagem, a SGML, assim como para suprir as frustrações em relação à linguagem HTML, própria para formatação de documentos. As regras para se criar tags, atributos e estruturação de dados existentes no núcleo da linguagem XML, definida pela W3C, juntamente com outras tecnologias a ela associadas, tais como XSLT, XPath e etc (MANGANO, 2002), confere a esse padrão um certo poder de intercâmbio e modelagem da informação independente da plataforma tecnológica. A partir da XML, foi possível concretizar grandes projetos de compartilhamento e cooperação de informação com segurança e menos esforços. Exemplos como o Project Management Extensible Markup Language (http://xml.coverpages.org/projectmanageschema.html) que estabelece a criação de um padrão único para acesso e troca de informações pertinentes a tarefas, condições e recursos a serem envolvidos nos portfólios de projetos a serem desenvolvidos pelas indústrias. No Brasil, temos a consolidação da Plataforma Lattes do CNPq (PACHECO; KERN, 2001a, 2001b) como um dos mais importantes conjuntos de base de dados do mundo em produção científica em virtude da adoção da linguagem XML para solução de problemas complexos. Um outro exemplo é a proposta apresentada por Santos et al. (2005a) para diminuir o esforço operacional e auxiliar nos processos de gestão de Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

5 bibliotecas, onde metadados, descritos via XML, são utilizados como uma ferramenta para apoio na tomada de decisão na área de desenvolvimento de coleções em bibliotecas universitárias. A seguir, daremos um enfoque especial a um recente recurso existente na Internet, o qual promete revolucionar a forma de se disponibilizar documentos de hoje em diante, sem dúvida uma ponta da Web Semântica. 2.1 RSS: Repositórios de documentos Esta é mais uma tecnologia que se torna disponível para a disseminação seletiva da informação em meio eletrônico. O RSS, nada mais é que um protocolo que usa XML. Dessa forma, podemos vê-lo como uma mera forma de descrição textual de documentos, a qual possibilita descrever conteúdos sumarizados dos mesmos. Todavia, por ser um protocolo, o RSS vai além de uma simples descrição de documentos (HAMMERSLEY, 2005). Talvez possamos entendê-lo como um método de disponibilização e, também, distribuição de links de conteúdos para um determinado segmento de usuários de informação. Funciona, portanto, como uma espécie altamente eficiente de filtro da informação demandada pelo usuário. Isso nos lembra a quarta Lei de Ranganathan: poupe o tempo do leitor (RANGANATHAN, 1996). A estrutura de descrição de um item em um RSS segue um conceito simples de apresentação do metadados do documento e da disponibilização da URL para acesso ao conteúdo completo do documento. Tomemos como exemplo de um item de informação a descrição na QuadroQuadro 1. <item> <disciplina> Recuperação Inteligente da Informação <link> </link> <descricao>esta disciplina tem por objetivo estudar técnicas modernas de recuperação da informação em meio eletrônico.</descricao> </disciplina> </item> Quadro 1- Exemplo de um item de RSS. Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

6 A tag inicia o nódulo de informação e termina esse nódulo. Logo a seguir, com, se inicia a apresentação de uma disciplina. Entre as tags e é feita uma breve descrição dessa disciplina e, entre e, é apontado um hiperdocumento onde encontraremos efetivamente maiores informações sobre essa disciplina, tais como ementa, bibliografia e etc. Como pode se perceber, as tags da linguagem XML se assemelham em estrutura as da linguagem HTML. A diferença é que na XML o usuário é quem as cria e dá significado a elas. 3 TRATAMENTO DE DOCUMENTOS DIGITAIS Muitas iniciativas têm surgido nos últimos anos no sentido de disponibilizar uma larga quantidade de materiais bibliográficos. Mais recentemente tivemos, também, iniciativa como a Google Book Search (http://books.google.com) com o projeto de digitalizar o acervo de várias bibliotecas de universidades norte-americanas, incluindo algumas no Brasil. Indo em sentido semelhante, já há algum tempo, importantes editores de revistas científicas vêm disponibilizando seus acervos em meio digital. À parte esses projetos milionários, podemos constatar o crescente número de bibliotecas digitais de dissertações e teses que estão sendo implantadas recentemente (CUNHA; MCCARTHY, 2006) no Brasil. Entretanto, para realmente tirarmos proveito desse imenso acervo digital que está sendo formado aqui e no mundo, será necessário que processemos, de forma mais inteligente (POLTRONIERI; OLIVEIRA, 2005) as muitas páginas de esforço intelectual que estão sendo disponibilizadas e, também, muitas outras que estão a caminho. O processo manual de organização documental pode ser feito por profissionais da informação, como bibliotecários, ou por especialistas da área de conhecimento do corpus (FUJITA, 2003). Entretanto, esse processo é lento e requer a presença constante de um especialista, nem sempre disponível. Como fator-limite, Packer (1998) aponta o tempo gasto para a extração de elementos da estrutura de um documento para a construção dos metadados na publicação de uma revista eletrônica. Além disso, mesmo utilizando uma equipe de profissionais qualificados e uma política de indexação consistente, para a organização documental, a subjetividade desse Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

7 processo pode levar a situações em que um mesmo documento poderá ser representado de diferentes formas (FERNEDA; PINHEIRO, 2005). Em conseqüência desse inconveniente, usar uma metodologia automatizada pode auxiliar o profissional da informação a realizar o tratamento técnico documental trazendo, dessa forma, várias vantagens, por exemplo poupar do indexador o trabalho de realizar uma leitura exaustiva dos documentos para a escolha de seus descritores (DZIEKANIAK; KIRINUS, 2004). Diante disso, precisamos repensar o fazer tradicional de organização bibliográfico, para que possamos dar conta de acompanhar o crescimento dessa massa documental. Talvez por conta da história de formação da área de Ciência da Informação no Brasil e, em particular, a Biblioteconomia, as discussões sobre o uso das não tão novas tecnologias têm sido ainda muito tímidas. Os autores têm-se limitado a apenas mencionar e, conseqüentemente, pouca pesquisa tem, de fato, sido feita sobre o assunto. Nas próximas seções, introduziremos o assunto do tratamento automático de texto. Para isso, começaremos com o processo de indexação. Os modelos que iremos apresentar ainda estão longe de reproduzir o especialista humano quando fazendo a mesma tarefa, porém, o que desejamos é alcançar um resultado com qualidade aceitável em um tempo bem inferior àquele despendido quando um humano realiza a mesma tarefa. 3.1 Indexação automática A indexação é uma etapa importante do tratamento técnico documental para facilitar a recuperação da informação (PIEDADE, 1977). Essa etapa consiste em extrair termo(s) de um documento que melhor representem seu conteúdo. Há décadas os profissionais da informação vêm desempenhando essa atividade. Porém, com a explosão do número de documentos, surge a necessidade de utilizar métodos mais automatizados para a indexação (LANCASTER, 2003). Soma-se ao alto desempenho a redução da subjetividade nos processos manuais de indexação (MAMFRIM, 1991, p. 191). Indexação automática é, segundo Robredo, citado em (SILVA; FUJITA, 2004), qualquer procedimento que permita identificar e selecionar os termos que representem o conteúdo dos documentos, sem a intervenção direta do documentarista. Como no processo manual, os métodos automáticos de indexação consistem também em extrair os termos que se encontram em certa posição de um documento, por exemplo, no título ou no resumo (LANCASTER, 2003). Um outro método Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

8 alternativo de indexação consiste em se escolher os termos de indexação por meio da contagem de palavras que ocorram com uma determinada freqüência, em um documento como um todo. A indexação automática baseada na freqüência de termos surgiu na década de 50 (LANCASTER, 2003). Contudo, não são quaisquer palavras que servem como termo de indexação. O sistema automático utiliza-se de uma lista de palavras proibidas, as quais possuem pouco significado semântico. Tais palavras, portanto, não serão consideradas como termos de indexação. Às palavras relevantes para a indexação devemos encontrar pesos apropriados para distinguir umas das outras no contexto em estudo. Buscar os melhores pesos para tais termos não é uma tarefa trivial, entretanto, com ajuda de modelos matemáticos e técnicas de Inteligência Artificial poderemos obter bons resultados, como veremos a seguir. Na seção seguinte, iremos apresentar uma metodologia de representação algébrica de documentos. Nessa metodologia, os documentos são representados de forma vetorial, baseados na freqüência de ocorrência de seus termos. Como conseqüência dessa representação, seremos capazes de lidar com uma base de dados de documentos com instrumentos vindos da Matemática e Estatística. 3.2 Alguns modelos de Representação de documentos Em razão da massa documental existente no mundo contemporâneo, urge utilizarmos alguma forma abstrata para representação desses documentos (BRIN; PAGE, 1998) para, então, eles serem tratados. A literatura (BAEZA-YATES; RIBIERO-NETO, 1998) é rica em modelos de representação de documentos textuais. Entre muitos outros, podemos citar as Redes Neurais Artificiais (HAYKIN, 1998), os processos estatísticos Bayesianos (PEARL, 1988), a técnica Latent Semantic Indexing (LSI) (BERRY, 2003; BERRY et al., 1995), entre outras (SEBASTIANI, 2002, DHILLON; SVINGEN, 1998; MOONEY, 1996). A maioria dos métodos utilizados, em particular, o escolhido para os experimentos nesta pesquisa, fazem uso da comparação lexical entre as palavras existentes no índice dos textos, para a realização do processo de classificação dos documentos. Isso acontece por ainda serem muito custosas, do ponto de vista computacional, técnicas como as de extração automática de ontologia formal e análise conceitual desses documentos, como as apontadas Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

9 por Alvarenga (2001), ou mesmo da extração dos sintagmas, como propõem outros autores (KURAMOTO, 2002). Neste trabalho, adotaremos o modelo vetorial de representação de documentos textuais. Escolhemos esse modelo pela simplicidade de implementação e por atender bem aos propósitos ilustrativos deste trabalho. Entretanto, queremos apontar que o método LSI, mencionado anteriormente, também baseado no modelo vetorial de representação dos documentos, traz vantagens sobre o modelo escolhido neste trabalho (BERRY et al., 1995; RAMIRO et al., 2005) Representação vetorial de documentos No modelo que adotamos neste trabalho, o vetorial, os documentos são representados por vetores no espaço (BAEZA-YATES; RIBIERO-NETO, 1998), onde representa o número de termos-palavras nos documentos considerados. Cada documento é considerado, portanto, um vetor de termos. Formalizando o que foi dito, consideremos um conjunto de documentos, onde é um dos elementos desse conjunto. O documento será representado, portanto, por um vetor de pesos, sendo que é o número de todos os termos { } distintos que aparecem no documento. Os demais { }, associados aos pesos, são termos que aparecem em outros documentos. Portanto, { } são todos os termos do vetor do documento e a freqüência dos termos nesse vetor. Assim, podemos concluir que um termo (palavra no documento) pode aparecer em mais de um documento. Portanto, a cada termo será atribuído um peso. O peso que esse termo recebe leva em consideração dois aspectos: a quantidade de vezes que ele ocorre no próprio documento e a quantidade de vezes que ele aparece em outros documentos analisados. Através disso, ponderamos a importância desse termo no conjunto de documentos onde ele aparece. Uma das propostas de ponderação dessa importância apresentada na literatura (BAEZA-YATES; RIBIERO-NETO, 1998) é dada pela função Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

10 onde, inverse document frequency, é o valor dessa ponderação para o termo, é o total de documentos no conjunto e, o número de documentos em que o termo aparece. Assim, queremos tornar sensível o fato de que, se um termo aparece em todos os documentos, esta função assumirá valor próximo a zero. Tabela 1 - Representação vetorial de um documento Índice Peso Termo 1 3 campeonato 2 1 brasileiro 3 1 próximo 4 1 fim 5 1 foi 6 1 prejudicado 7 1 desorganização 8 2 times 9 1 famosos 10 1 poderão 11 1 rebaixados 12 1 entrando 13 1 justiça 14 1 pedir 15 1 anulação Fonte: Crédito dos pesquisadores Para dar uma ilustração do que acabamos de formalizar, vejamos um exemplo dos procedimentos de construção do vetor representativo do documento dado a seguir. Considere que tenhamos a seguinte notícia na área de esporte: : O campeonato brasileiro está próximo ao fim. Tal campeonato foi muito prejudicado pela desorganização e times famosos poderão ser rebaixados. Alguns times estão entrando na Justiça para pedir a anulação do campeonato. Primeiramente devemos excluir as palavras sem muito significado: os artigos e preposições, por exemplo são as stopwords (BAEZA-YATES; RIBIERO-NETO, 1998). Ficaremos com a lista de palavras apresentada na Tabela 1 quando analisarmos o documento. Para facilitar o entendimento, nesse exemplo, consideraremos a influência dos Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

11 para todos os pesos dos termos. Outra estratégia que estaremos adotando neste trabalho será, utilizar, na representação vetorial do documento, apenas as palavras que tiverem peso maior que 50% do termo de maior peso. No caso da Tabela 1, o termo de maior peso é a palavra campeonato, com peso 3. Assim, somente utilizaremos as palavras com peso igual ou superior a. Com isso, ficamos somente com campeonato e times para a representação vetorial desse documento. Agora, considere outros dois documentos que, depois do procedimento que acabamos de descrever, teriam os seguintes termos representativos: 1. : peso 5 para o termo campeonato, 4 para brasileiro e 3 para times; 2. : peso 2 para o termo campeonato, 3 para brasileiro e 1 para times; Através desse exemplo ilustrativo e sua representação, é possível, agora, visualizar os três documentos de forma gráfica. Na forma gráfica, podemos ver a relação de distância que existe entre os documentos quando olhamos o ângulo que um vetor tem com o outro. Esse conceito de distância será muito utilizado mais adiante. Figura 1 - Representação gráfica de três documentos de acordo com o modelo vetorial Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

12 Na Figura 1, apresentamos a representação vetorial, de forma gráfica, de três documentos ilustrativos dessa metodologia. Os eixos campeonato, brasileiro e times representam os pesos dos termos que aparecem nos documentos e, representados em vermelho, azul e cinza, respectivamente. No gráfico, o peso dado ao termo no documento foi 5, enquanto em foi 2, o que significa que esse termo tem uma importância maior para o segundo documento. Notamos que o termo não ocorre em, por isso, está com valor nulo na segunda posição do vetor representativo do documento. Essa forma de representar um documento nos mostra que enquanto nós, seres humanos, pensamos, as máquinas fazem contas. Portanto, o que está por trás de um modelo como esse é o fato de transformar o processo de indexação e classificação em um processo de contagem, para que o computador possa nos auxiliar a tratar grandes volumes de documentos. Dessa forma, consideraremos a pequena base ilustrativa de documentos. O que queremos agora é saber, precisamente, quão similar é um documento ao outro. O que desejamos é calcular o valor de entre quaisquer dois documentos da base. Uma vez que temos a representação vetorial dos documentos da base, como apresentado na Figura 2, a conta que agora devemos fazer é a seguinte (BAEZA-YATES; RIBIERO-NETO, 1998): (1) (2) onde é o módulo do vetor. é o cosseno do ângulo entre os vetores que representam os dois documentos e. O valor do cosseno de um ângulo varia em um intervalo de a. Esse fato nos dará uma interpretação de distância entre os documentos, onde significará o mais alto grau de dissimilaridade e, completa Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

13 similaridade. Já o valor indica o peso referente ao termo no documento, como descrito anteriormente. Vamos exemplificar utilizando os três documentos ilustrativos. Para os documentos e, a conta é a seguinte: As contas realizadas indicam-nos que os documentos e têm o mais alto grau de similaridade entre os três documentos: Note que, intuitivamente, podemos visualizar esse resultado no gráfico da Figura 2. Esse exemplo foi criado de forma a ilustrar as partes importantes do modelo que estamos abordando, por isso escolhemos situações em que apenas três termos foram utilizados. Na próxima seção, trabalharemos com documentos de mais de 600 termos, o que não nos permitirá representá-los graficamente. 4 SUBMETENDO À PROVA O MODELO APRESENTADO Esta seção está dividida em duas partes. Na primeira, Seção 4.1, mostrou-se como o modelo escolhido nesse trabalho pode ser ajustado à medida que os documentos forem sendo corretamente classificados. A expressão corretamente classificados se refere ao que o(s) especialista(s), ou grupo social local de indivíduos, definem como sendo similaridade, ou diferenciação, entre documentos que servirão de parâmetro para o modelo. É com base nessa escolha inicial que nosso modelo fará as futuras escolhas, agora, sim, de forma automática. Na Seção Representação vetorial de documentos, fazemos a validação do modelo, introduzindo novos documentos para serem testados de acordo com o modelo de classificação automática. Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

14 4.1 Calibrando o modelo Os experimentos realizados neste trabalho tiveram como objetivo principal a exemplificação das metodologias algébricas de representação e de indexação automáticas de documentos textuais, como mais uma ferramenta para o profissional da informação. Além disso, nosso objetivo secundário vai no sentido de mostrar que este conjunto de técnicas pode ser utilizado para classificar documentos de forma automática (ou semi-automática em certas circunstâncias em que a máquina não conseguir ter certeza) e, em conseqüência disso, muito mais rápido do que faria um ser humano. Entendemos que, em muitas situações do dia-a-dia, a máquina não será capaz de superar o especialista humano. Porém, também entendemos que o especialista está muitas vezes assoberbado com pequenas tarefas que, nos dias de hoje, a máquina poderia realizar mais rápido e com um bom nível de qualidade. Advogamos que agrupamento de documentos textuais, de interesse de um usuário particular, ou mesmo para outros fins (SANTOS et al., 2005b), seja uma dessas atividades. Utilizamos o repositório de notícias RSS do UOL para realização de nossos experimentos. A escolha desse repositório, assim como outros similares, deveu-se ao fato de caracterizar-se como uma boa fonte de documentos publicamente disponíveis e já classificados por especialistas humanos. Dessa forma, será possível comparar os resultados da classificação de documentos produzidos em nossos experimentos com os existentes no repositório. Desse repositório, extraímos, manualmente e ao acaso, cinco documentos de notícias sobre cada um dos seguintes assuntos: economia (eco), esporte (esp), e cinema (cin). Como os textos, por vezes, são longos, apenas indicamos aqui os hiperlinks onde eles poderão ser encontrados. 1. Na área de economia: 2. Na área de esportes: eco1: eco2: eco3: eco4: eco5: esp1: esp2: wt= uolnot&p=bndpzc0zodk5mdqtbm51bs0g esp3: esp4: Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

15 3. Na área de cinema: esp5: cin1: cin2: cin3: cin4: cin5: Quadro 2 Hiperlinks Fonte: Créditos dos pesquisadores Os algoritmos para extração dos termos de indexação dos documentos foram todos implementados na linguagem Java (NEWMAN et al., 1996). Para a indexação desconsideramos as palavras sem muito significado, ou seja, as stopwords (BAEZA-YATES; RIBIERO-NETO, 1998). Os índices, para cada um dos documentos, são os termos relevantes extraídos do próprio documento. Esses índices, em um sistema de recuperação de informação, funcionariam como chaves de entrada para recuperação de tais documentos (LANCASTER, 2003). Como estamos interessados no agrupamento de documentos semelhantes, fomos além de simplesmente prover mecanismos de resgate dos documentos armazenados. Após a indexação dos documentos, geramos, para cada uma das áreas acima, um documento artificial contendo somente os termos cuja freqüência seja de pelo menos 50% da freqüência do termo que mais ocorre no documento. Cada um desses documentos artificiais é dinâmico, ou seja, sempre que um novo documento vier a ser agrupado em uma dada classe, seus termos serão considerados para, possivelmente, compor a lista de termos já existente no documento artificial daquela classe. Dessa forma, buscamos acompanhar a linguagem correntemente utilizada em cada área, naquele tempo, uma vez que consideramos a linguagem como um sistema vivo e, portanto, dinâmico. A idéia por trás da criação destes documentos artificiais veio de uma técnica muito conhecida na Estatística como Análise Discriminante de dados Johnson e Wichern. Ou seja, estamos dizendo que os termos existentes em cada um destes documentos artificiais são termos que discriminam, ou separam, os documentos da classe relacionada ao documento de outras. Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

16 No modelo que adotamos neste trabalho, o vetorial, os documentos são representados por vetores, como descrito na Seção Para sabermos quão similar um documento será ao documento discriminante, utilizaremos um procedimento que consiste no cálculo do produto vetorial entre dois vetores (CALLIOLI et al., 1994) (veja Equações (1) e (2), na Seção 3.2.1). Com essa metodologia, transformamos o procedimento de análise de documentos em um procedimento de cálculo. Portanto, o espaço de busca por documentos similares se torna um subespaço do. Estaremos interessados em encontrar vetores que mais se assemelhem a um dado vetor, que no nosso experimento será o vetor representativo da classe, o documento discriminante. Tabela 2 - Cálculo de similaridade entre os documentos analisados e os das classes Parte I Classes de Documentos cinema economia esporte cin cin cin cin cin eco eco eco eco eco esp esp esp esp esp Fonte: Crédito dos pesquisadores Os resultados obtidos com esses experimentos estão apresentados na Tabela 2, na qual, as colunas cinema, economia e esporte representam os documentos discriminantes citados anteriormente. As linhas da tabela representam os documentos utilizados para este experimento. Assim, podemos ver que os documentos se agrupam com mais alto grau de similaridade em torno dos documentos discriminantes de suas respectivas classes. Por outro lado, o grau de similaridade desse documento com respeito às outras classes é bem mais baixo, quando não é nulo. Por exemplo, o documento cin5 tem uma similaridade de com o documento cinema, por outro lado, tem uma similaridade de com a classe de Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

17 economia, bem baixa, como podemos ver. Um outro exemplo é o documento eco2, que tem uma similaridade de com o documento discriminante de economia, e zero com as demais classes. Em dados não apresentados na Tabela 2, pudemos constatar que o documento eco4 obteve uma alta similaridade com eco1, 0.418, maior do que o valor apresentado em relação ao documento discriminante de economia. O que pudemos perceber analisando os dois documentos é que eco1 e eco4 falam sobre o mesmo assunto: bolsa de valores. Um outro exemplo curioso foi o documento esp2. Esse documento apresenta similaridade zero em relação a todos os outros documentos utilizados como exemplos, inclusive, alguns da classe de esporte. Em nosso entendimento, isso foi possível dada a grande variedade de esportes e modalidades dos mesmos. Portanto, ao analisar a notícia existente neste documento, esp2, descobrimos que o assunto se tratava de handebol, enquanto os documentos esp1, esp4 e esp5 relatam futebol e esp3, motovelocidade. Porém, isso não nos trouxe nenhuma dificuldade em classificá-lo corretamente como sendo de esporte, com um alto grau de similaridade de como mostra a Tabela 2. Para considerarmos um documento como pertencente a uma determinada classe, adotamos um ponto de corte pc. Dessa forma, bastará calcularmos a similaridade do novo documento em relação aos documentos discriminantes. Se a similaridade desse documento for menor que pc, significará que ele pode, ou não, pertencer à classe do documento discriminante. Se esse dado documento estiver abaixo do valor de pc de todas as outras classes, pode-se adotar a alternativa de se deixar a cargo do especialista humano a decisão de escolher em que classe esse documento melhor se enquadraria. O valor pc é calculado através do procedimento descrito a seguir. Considere a média, onde representa a classe sendo avaliada: similaridade dos documentos corretamente classificados em uma classe. Por exemplo, no caso apresentado na Tabela 2, nós temos cinco documentos corretamente classificados em economia. A média de similaridades desses documentos é, portanto, calculada da seguinte forma: Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

18 Agora, temos que adotar um limite inferior de similaridade que representará nosso ponto de corte pc. Para isso, calculamos o desvio padrão usando a fórmula: Finalmente, o ponto de corte é calculado da seguinte forma: Para o exemplo apresentado na Tabela 2, a Tabela 3 mostra os respectivos valores de ponto de corte para cada uma das classes. Tabela 3 - Cálculo dos valores de ponto de corte para cada uma das classes consideradas no experimento Ponto de Corte para as Classes cinema economia esporte pc: Fonte: Crédito dos pesquisadores Note que esses pontos de corte conseguem decidir que cin2, com similaridade com a classe de cinema, pertencem a essa classe, e não à classe de esporte, com uma similaridade de 0.039, já que o ponto de corte para esporte exigiria que o documento tivesse um grau de similaridade maior que Nesse sentido, é interessante notar que o documento esp5 estaria fora da classe de esporte, por ter um grau de similaridade de apenas com o documento discriminador da classe inferior, portanto, ao ponto de corte para essa classe. Esse é um caso em que o especialista humano deverá tomar a decisão de escolher em que classe esse documento melhor se enquadra. Todavia, o especialista humano tem agora uma pré-análise de acordo com a qual esse documento teria mais chances de pertencer à classe de esportes, e não às outras, com as quais não tem nenhuma aparente afinidade (Tabela 2). Nessa metodologia, quanto maior o número de documentos representativos de cada classe mais fácil será o processo decisório para os novos documentos. Isso se deve ao fato de que os documentos já classificados corretamente servirão de base, no tocante à Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

19 variabilidade de seus termos, para os cálculos feitos acima. Portanto, como já dissemos anteriormente, cada novo documento classificado em uma determinada classe ensina ao modelo novas lições, por meio da introdução de novos termos ao documento discriminante da classe. Para validar o processo que acabamos de descrever, na próxima seção, escolheremos outros três documentos para avaliar se a técnica apresentada consegue distinguilos em uma das três classes já apresentadas. 4.2 Classificando novos documentos Uma vez tendo gerado uma base de dados com documentos classificados corretamente, podemos, agora, utilizar o modelo/sistema para tentar classificar automaticamente outros documentos. Dessa forma, escolhemos outros três documentos, cada um se enquadrando em uma das três classes, para mostrar como se dá o processo como um todo. Os documentos escolhidos foram: cin6: eco6:http://noticias.uol.com.br/economia/ultnot/efe/2006/04/20/ult1767u65477.jhtm esp6:http://espnbrasil.uol.com.br/scripts/noticia/artigo.asp?idartigo=38669 Tabela 4 - Cálculo de similaridade entre os documentos analisados e os discriminantes das classes parte II. Classes de Documentos cinema economia esporte Cin Eco esp Fonte: Crédito dos pesquisadores O cálculo de similaridade foi suficiente para determinar a classe para dois dos três documentos selecionados. Os documentos nas áreas de economia e esportes, eco6 e esp6, respectivamente, têm seus valores de similaridades acima do ponto de corte determinado na tabela 3. Todavia, vemos que o modelo não foi capaz de identificar, com alto grau de Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

20 precisão, as classes às quais eles pertencem. O documento cin6 tem um grau de similaridade de com a classe cinema, quando o ponto de corte para essa classe é de Esse é o momento em que, como já apontamos em outro caso anterior, a interferência humana se faz necessária. Mesmo quando não conseguimos com grande grau de certeza apontar uma classe para um determinado documento, o modelo que apresentamos aqui indicará com qual das classes tal documento terá maior afinidade. Assim, o especialista humano terá uma sugestão a mais para sua tomada de decisão. Quando esse especialista decidir colocar o documento cin6 associado à classe cinema, ele estará fazendo com que o modelo aprenda. Isso se dá pelo fato de que uma nova contagem deverá ser realizada com os termos existentes entre os documentos da classe e, em decorrência disso, o ponto de corte pc será alterado, dando assim, uma dinamicidade ao modelo. 5 CONCLUSÃO Assistimos a um crescimento vertiginoso de repositórios de informação no Brasil e também no mundo. O problema que surge daí é como recuperar de forma mais inteligente a informação necessária para o usuário/cliente. Os métodos tradicionais de tratamento da informação não são mais compatíveis com repositórios do tamanho da Internet. Portanto, para novos problemas, devemos buscar novas soluções. Esse artigo discute a representação abstrata de documentos. A representação vetorial escolhida nesse trabalho é tal que, permite-nos representar graficamente um documento, visualizando-o, em até três dimensões. Dessa representação, são extraídos os termos que servirão de índices para tais documentos. A representação dos documentos por meio de vetores permite-nos utilizar o cálculo do ângulo entre vetores, como medida de similaridade entre quaisquer dois documentos. Com isso, obtemos uma forma, automática, para agrupá-los em classes de semelhança. Para testar o modelo apresentado neste trabalho, escolhemos um conjunto de documentos já previamente classificado pelo especialista humano. Com isso, submetemos os documentos ao modelo de indexação e, posteriormente, a classificação. Os resultados mostraram que o modelo trouxe, de forma automática, a mesma classificação dada pelo especialista humano. Esses resultados apontam para possibilidade promissora de utilização Revista Brasileira de Biblioteconomia e Documentação, Nova Série, São Paulo, v.3, n.1, p.73-98, jan-jun

Nathalie Portugal Vargas

Nathalie Portugal Vargas Nathalie Portugal Vargas 1 Introdução Trabalhos Relacionados Recuperação da Informação com redes ART1 Mineração de Dados com Redes SOM RNA na extração da Informação Filtragem de Informação com Redes Hopfield

Leia mais

Lívia Lopes Azevedo, Thiago Bortolo Ramiro, Valéria Monteiro, Sergio Teixeira e Elias Oliveira. Departamento de Ciências da Informação

Lívia Lopes Azevedo, Thiago Bortolo Ramiro, Valéria Monteiro, Sergio Teixeira e Elias Oliveira. Departamento de Ciências da Informação RECUPERAÇÃO DE INFORMAÇÃO ATRAVÉS DO PROCESSO DE APROXIMAÇÕES SUCESSIVAS Autores do Artigo Lívia Lopes Azevedo, Thiago Bortolo Ramiro, Valéria Monteiro, Sergio Teixeira e Elias Oliveira Departamento de

Leia mais

PROPOSTA PARA CONSTRUÇÃO DE UMA BIBLIOTECA DIGITAL COMO FERRAMENTA DE AUXÍLIO NO ENSINO À DISTÂNCIA

PROPOSTA PARA CONSTRUÇÃO DE UMA BIBLIOTECA DIGITAL COMO FERRAMENTA DE AUXÍLIO NO ENSINO À DISTÂNCIA PROPOSTA PARA CONSTRUÇÃO DE UMA BIBLIOTECA DIGITAL COMO FERRAMENTA DE AUXÍLIO NO ENSINO À DISTÂNCIA Daniel Gonzaga dos Santos 1 Faculdade Cidade de João Pinheiro Resumo: Este artigo aborda as etapas para

Leia mais

Opala: uma biblioteca de indexação e busca de textos e imagens por conteúdo

Opala: uma biblioteca de indexação e busca de textos e imagens por conteúdo Opala: uma biblioteca de indexação e busca de textos e imagens por conteúdo Lidijanne de Miranda Santos (1); Aécio Solano Rodrigues Santos (2); Ricardo Martins Ramos (3); Valéria Oliveira Costa (4) Instituto

Leia mais

Universidade FUMEC. Classificação de Documentos Eletrônicos por Sintagmas Nominais na Web. CHAVES Rodrigo S.; MAIA Luiz C. G.

Universidade FUMEC. Classificação de Documentos Eletrônicos por Sintagmas Nominais na Web. CHAVES Rodrigo S.; MAIA Luiz C. G. Universidade FUMEC Classificação de Documentos Eletrônicos por Sintagmas Nominais na Web CHAVES Rodrigo S.; MAIA Luiz C. G., 2013 RESUMO Com o desenvolvimento tecnológico a informação passou a ter um papel

Leia mais

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS

RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS ISBN 978-85-61091-05-7 Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 RECUPERAÇÃO DE DOCUMENTOS TEXTO USANDO MODELOS PROBABILISTICOS ESTENDIDOS Marcello Erick Bonfim 1

Leia mais

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS

CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO DE DOCUMENTOS III SBA Simpósio Baiano de Arquivologia 26 a 28 de outubro de 2011 Salvador Bahia Políticas arquivísticas na Bahia e no Brasil CLASSIFICAÇÃO AUTOMÁTICA DE PATENTES COM O MODELO VETORIAL DE REPRESENTAÇÃO

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

EXTRAÇÃO DE INFORMAÇÃO DE MÍDIAS SOCIAIS NA WEB

EXTRAÇÃO DE INFORMAÇÃO DE MÍDIAS SOCIAIS NA WEB EXTRAÇÃO DE INFORMAÇÃO DE MÍDIAS SOCIAIS NA WEB Fernando Alberto Zambelan Bossarino Engenharia de Computação CEATEC fernandozambelan@hotmail.com Carlos Miguel Tobar Toledo Sistemas Inteligentes CEATEC

Leia mais

25/05/2015. Relevance Feedback. Expansão de Consulta. Relevance Feedback

25/05/2015. Relevance Feedback. Expansão de Consulta. Relevance Feedback Relevance Feedback Expansão de Consulta Relevance Feedback 1 Relevance Feedback Baeza-Yates; Ribeiro-Neto, (2011, cap 5) distinguem dois métodos: Explicit Relevance Feedback a informação para a reformulação

Leia mais

Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu

Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu Alessandro Mueller alessandro@univali.br UNIVALI Luiz Gonzaga Ferreira

Leia mais

METADADOS PARA A PRESERVAÇÃO DA INFORMAÇÃO DIGITAL

METADADOS PARA A PRESERVAÇÃO DA INFORMAÇÃO DIGITAL 354 METADADOS PARA A PRESERVAÇÃO DA INFORMAÇÃO DIGITAL José Carlos Abbud Grácio (UNESP) Bárbara Fadel (UNESP) 1. Introdução Com os avanços das tecnologias de informação e comunicação (TIC) as instituições

Leia mais

Laboratório de Mídias Sociais

Laboratório de Mídias Sociais Laboratório de Mídias Sociais Aula 02 Análise Textual de Mídias Sociais parte I Prof. Dalton Martins dmartins@gmail.com Gestão da Informação Universidade Federal de Goiás O que é Análise Textual? Análise

Leia mais

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU

Organizaçãoe Recuperação de Informação GSI521. Prof. Rodrigo Sanches Miani FACOM/UFU Organizaçãoe Recuperação de Informação GSI521 Prof. Rodrigo Sanches Miani FACOM/UFU Introdução Organização e Recuperação de Informação(GSI521) Tópicos Recuperação de informação (RI); Breve histórico; O

Leia mais

RSS no desenvolvimento de uma Central de Notícias

RSS no desenvolvimento de uma Central de Notícias RSS no desenvolvimento de uma Central de Notícias Darley Passarin 1, Parcilene Fernandes de Brito 1 1 Sistemas de Informação Centro Universitário Luterano de Palmas (CEULP/ULBRA) Palmas TO Brasil darley@centralrss.com.br,

Leia mais

Recuperação de Imagens na Web Baseada em Informações Textuais

Recuperação de Imagens na Web Baseada em Informações Textuais Recuperação de Imagens na Web Baseada em Informações Textuais André Ribeiro da Silva Mário Celso Candian Lobato Universidade Federal de Minas Gerais Departamento de Ciência da Computação {arsilva,mlobato}@dcc.ufmg.br

Leia mais

FONTES OU RECURSOS DE INFORMAÇÃO: CATEGORIAS E EVOLUÇÃO CONCEITUAL * 1. TENTANDO CLARIFICAR QUESTÕES CONCEITUAIS E DE TRADUÇÃO

FONTES OU RECURSOS DE INFORMAÇÃO: CATEGORIAS E EVOLUÇÃO CONCEITUAL * 1. TENTANDO CLARIFICAR QUESTÕES CONCEITUAIS E DE TRADUÇÃO 1 FONTES OU RECURSOS DE INFORMAÇÃO: CATEGORIAS E EVOLUÇÃO CONCEITUAL * Lena Vania Ribeiro Pinheiro, IBICT 1. TENTANDO CLARIFICAR QUESTÕES CONCEITUAIS E DE TRADUÇÃO Alguns termos técnicos de Ciência da

Leia mais

05/05/2015. Recuperação de Informação

05/05/2015. Recuperação de Informação Recuperação de Informação Recuperação de Informação Recuperar consiste em identificar, em um conjunto de documentos (corpus), quais atendem à necessidade de do usuário. O usuário de um sistema de recuperação

Leia mais

2 Conceitos Gerais de Classificação de Documentos na Web

2 Conceitos Gerais de Classificação de Documentos na Web Conceitos Gerais de Classificação de Documentos na Web 13 2 Conceitos Gerais de Classificação de Documentos na Web 2.1. Páginas, Sites e Outras Terminologias É importante distinguir uma página de um site.

Leia mais

Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos

Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos Revisando o Método de Análise da Semântica Latente para Propósitos de Mineração de Opiniões sobre Produtos Wilson Pires Gavião Neto 1, Sidnei Renato Silveira 1 1 Sistemas de Informação: Ciência e Tecnologia

Leia mais

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA

FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA FILTRAGEM DE INFORMAÇÃO NA WEB USANDO REDE NEURAL DE HOPFIELD E ONTOLOGIA Daniel Mandelli Martins Faculdade de Engenharia de Computação CEATEC danielmartins@puc-campinas.edu.br Juan Manuel Adán Coello

Leia mais

Web Semântica e Matching de Ontologias: Uma Visão Geral

Web Semântica e Matching de Ontologias: Uma Visão Geral Web Semântica e Matching de Ontologias: Uma Visão Geral Hélio Rodrigues de Oliveira Departamento de Computação Universidade Federal do Ceará heliorodrigues@lia.ufc.br Bernadette Farias Lóscio Departamento

Leia mais

Descoberta de Domínio Conceitual de Páginas Web

Descoberta de Domínio Conceitual de Páginas Web paper:25 Descoberta de Domínio Conceitual de Páginas Web Aluno: Gleidson Antônio Cardoso da Silva gleidson.silva@posgrad.ufsc.br Orientadora: Carina Friedrich Dorneles dorneles@inf.ufsc.br Nível: Mestrado

Leia mais

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION Seminário da disciplina Engenharia de Requisitos Aluno: Eliaquim Lima Sá Neto (elsn@cin.ufpe.br) Autores 2 Sandra Fabbri Professora

Leia mais

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior Unidade III PLANEJAMENTO ESTRATÉGICO DE TECNOLOGIA DA INFORMAÇÃO Prof. Daniel Arthur Gennari Junior Sobre esta aula Gestão do conhecimento e inteligência Corporativa Conceitos fundamentais Aplicações do

Leia mais

Data, Text and Web Mining

Data, Text and Web Mining Data, Text and Web Mining Fabrício J. Barth TerraForum Consultores Junho de 2010 Objetivo Apresentar a importância do tema, os conceitos relacionados e alguns exemplos de aplicações. Data, Text and Web

Leia mais

Conheça o Projeto. Apresentação. Finalidade. Objetivo

Conheça o Projeto. Apresentação. Finalidade. Objetivo Manual do Usuário Índice Conheça o Projeto...3 Apresentação...3 Finalidade...3 Objetivo...3 Histórico...4 Usando o Portal...5 Efetuando o cadastro na biblioteca digital...5 Logando na Biblioteca Digital...6

Leia mais

Otimização de Recuperação de Informação usando Algoritmos Genéticos

Otimização de Recuperação de Informação usando Algoritmos Genéticos Otimização de Recuperação de Informação usando Algoritmos Genéticos Neide de Oliveira Gomes, M. Sc., nog@inpi.gov.br Prof. Marco Aurélio C. Pacheco, PhD Programa de Doutorado na área de Métodos de Apoio

Leia mais

ACERVO DIGITAL INTEGRADO AO MOODLE

ACERVO DIGITAL INTEGRADO AO MOODLE / ACERVO DIGITAL INTEGRADO AO MOODLE Curitiba,05/2010 Sandramara Scandelari Kusano de Paula Soares, UFPR/CIPEAD, sskusano@ufpr.br Mario de Paula Soares Filho UFPR, paulasoares@ufpr.br Dieval Guizelini

Leia mais

Extração de Informação de Mídias Sociais na Web

Extração de Informação de Mídias Sociais na Web Extração de Informação de Mídias Sociais na Web Fernando Alberto Zambelan Bossarino Engenharia de Computação CEATEC fernandozambelan@puccampinas.edu.br Resumo: Este resumo apresenta os resultados do trabalho

Leia mais

Palavras-chave: Sistema neuro-fuzzy, Sistemas de avaliação, Sistemas Adaptativos.

Palavras-chave: Sistema neuro-fuzzy, Sistemas de avaliação, Sistemas Adaptativos. ANÁLISE DO CURSO DE ENGENHARIA ELÉTRICA NA UERJ A PARTIR DE INDICADORES CONSTRUÍDOS BASEADOS NO EXAME NACIONAL DE CURSOS: UM SISTEMA NEBULOSO DE AVALIAÇÃO Maria Luiza F. Velloso mlfv@centroin.com.br Universidade

Leia mais

Interpretador AIML alimentado com tags HTML5

Interpretador AIML alimentado com tags HTML5 2º Congresso de Pesquisa Científica : Inovação, Ética e Sustentabilidade Interpretador AIML alimentado com tags HTML5 Rafael Luiz de Macedo (Ciência da Computação - UNIVEM - Marília/SP) Email: rafaelldemacedo@gmail.com

Leia mais

Sugestão de palavras chave para campanhas em motores de busca em arranque

Sugestão de palavras chave para campanhas em motores de busca em arranque Relatório Técnico FEUP Sugestão de palavras chave para campanhas em motores de busca em arranque João Albuquerque AdClick Ricardo Morla INESC TEC e FEUP Gabriel David INESC TEC e FEUP Rui Campos AdClick

Leia mais

RBC no Auxílio de Avaliações Imobiliárias

RBC no Auxílio de Avaliações Imobiliárias RBC no Auxílio de Avaliações Imobiliárias Adauto Trigueiro, Alcione da Costa Pinheiro, Clerton Filho, Kátia Silva Unidade Acadêmica de Sistemas e Computação Universidade Federal de Campina Grande (UFCG)

Leia mais

Biblioteca digital: novo paradigma da informação

Biblioteca digital: novo paradigma da informação Biblioteca digital: novo paradigma da informação Murilo Bastos da Cunha Universidade de Brasília Faculdade de Ciência da Informação Brasília, DF E-mail: murilobc@unb.br Introdução A Internet está revolucionando

Leia mais

Aplicação de um Metamodelo de Contexto a uma Tarefa de Investigação Policial

Aplicação de um Metamodelo de Contexto a uma Tarefa de Investigação Policial Aplicação de um Metamodelo de Contexto a uma Tarefa de Investigação Policial Lucas A. de Oliveira, Rui A. R. B. Figueira, Expedito C. Lopes Mestrado em Sistemas e Computação Universidade de Salvador (UNIFACS)

Leia mais

Guia de Introdução ao Windows SharePoint Services

Guia de Introdução ao Windows SharePoint Services Guia de Introdução ao Windows SharePoint Services - Windows SharePoint Services... Page 1 of 11 Windows SharePoint Services Guia de Introdução ao Windows SharePoint Services Ocultar tudo O Microsoft Windows

Leia mais

HTML5 E WEB SEMÂNTICA, A WEB COM SIGNIFICADO

HTML5 E WEB SEMÂNTICA, A WEB COM SIGNIFICADO HTML5 E WEB SEMÂNTICA, A WEB COM SIGNIFICADO Djalma Gonçalves Costa Junior¹, Willian Barbosa Magalhães¹ ¹Universidade Paranaense (Unipar) Paranavaí - PR - Brasil djalma.g.costajr@gmail.com wmagalhaes@unipar.br

Leia mais

Fabrício J. Barth. Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com

Fabrício J. Barth. Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com Uma Introdução à Mineração de Informações Fabrício J. Barth Apontador http://www.apontador.com.br http://www.apontador.com.br/institucional/ fabricio.barth@lbslocal.com Outubro de 2010 Objetivo Apresentar

Leia mais

Avaliação de técnicas de seleção de quadros-chave na recuperação de informação por conteúdo visual

Avaliação de técnicas de seleção de quadros-chave na recuperação de informação por conteúdo visual Avaliação de técnicas de seleção de quadros-chave na recuperação de informação por conteúdo visual Shênia Salvador de Pinho, Kleber J. F. Souza Instituto de Ciências Exatas e Informática PUC Minas Guanhães,

Leia mais

Organização e Recuperação da Informação

Organização e Recuperação da Informação GSI024 Organização e Recuperação da Informação Introdução Ilmério Reis da Silva ilmerio@facom.ufu.br www.facom.ufu.br/~ilmerio/ori UFU/FACOM - 2011/1 Arquivo 1a Introdução Porque RI? Problemas da solução

Leia mais

Inovação no acervo e acesso de informações: o sistema de repositório institucional nos Tribunais de Contas do Brasil

Inovação no acervo e acesso de informações: o sistema de repositório institucional nos Tribunais de Contas do Brasil Powered by TCPDF (www.tcpdf.org) Inovação no acervo e acesso de informações: o sistema de repositório institucional nos Tribunais de Contas do Brasil Sílvia Maria Berté Volpato (TCE/SC) - silviaberte@hotmail.com

Leia mais

Classes Funcionais 21

Classes Funcionais 21 Classes Funcionais 21 3 Classes Funcionais Em todo trabalho de classificação funcional é necessário determinar quais serão as classes funcionais utilizadas. Esta divisão não se propõe a ser extensiva,

Leia mais

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto

Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Criação de um Arquivo Invertido para a Recuperação de Informação em Grandes Volumes de Texto Rafael Rodrigo da Silva 1, Wender Magno Cota 1 1 Universidade Presidente Antônio Carlos (UNIPAC) Faculdade Regional

Leia mais

SEO PARA INICIANTES Como otimizar um blog Guia passo a passo para fazer o seu blog otimizado e indexado corretamente!

SEO PARA INICIANTES Como otimizar um blog Guia passo a passo para fazer o seu blog otimizado e indexado corretamente! 1 SEO PARA INICIANTES Como otimizar um blog Guia passo a passo para fazer o seu blog otimizado e indexado corretamente! Fórmula Hotmart - www.formulahotmart.com 2 Este ebook pertence: Claudio J. Bueno

Leia mais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais

TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR O TEMPO DA MINERAÇÃO DE DADOS: Uma análise de Tipos de Coberturas Florestais UNIVERSIDADE ESTADUAL DE PONTA GROSSA PRÓ-REITORIA DE PESQUISA E PÓS-GRADUAÇÃO PROGRAMA DE PÓS-GRADUAÇÃO EM COMPUTAÇÃO APLICADA CRISTIAN COSMOSKI RANGEL DE ABREU TÉCNICAS DE COMPUTAÇÃO PARALELA PARA MELHORAR

Leia mais

TECNOLOGIA DA INFORMAÇÃO E GESTÃO DO CONHECIMENTO EM BIBLIOTECAS UNIVERSITÁRIAS BRASILEIRAS E PORTUGUESAS

TECNOLOGIA DA INFORMAÇÃO E GESTÃO DO CONHECIMENTO EM BIBLIOTECAS UNIVERSITÁRIAS BRASILEIRAS E PORTUGUESAS 1 TECNOLOGIA DA INFORMAÇÃO E GESTÃO DO CONHECIMENTO EM BIBLIOTECAS UNIVERSITÁRIAS BRASILEIRAS E PORTUGUESAS São Carlos SP Abril 2011 Euro Marques Júnior USP eurojr@uol.com.br Educação Universitária Serviços

Leia mais

Criação do Sistema Integrado de Bibliotecas do Sistema ACAFE: utilizando JAVA e XML

Criação do Sistema Integrado de Bibliotecas do Sistema ACAFE: utilizando JAVA e XML Criação do Sistema Integrado de Bibliotecas do Sistema ACAFE: utilizando JAVA e XML Alberto Pereira de Jesus (FURB) albertop@furb.br Jefferson José Gomes(ACAFE) jeffer@acafe.org.br Resumo. Este artigo

Leia mais

GESTÃO DA INFORMAÇÃO DIGITAL NA BIBLIOTECA CENTRAL DA UNIVERSIDADE DE BRASÍLIA: relato de experiência

GESTÃO DA INFORMAÇÃO DIGITAL NA BIBLIOTECA CENTRAL DA UNIVERSIDADE DE BRASÍLIA: relato de experiência TRABALHO ORAL IMPACTO DAS TECNOLOGIAS DE INFORMAÇÃO NA GESTÃO DA BIBLIOTECA UNIVERSITÁRIA Dimensionamento dos impactos dos serviços digitais na Biblioteca GESTÃO DA INFORMAÇÃO DIGITAL NA BIBLIOTECA CENTRAL

Leia mais

ENSINET/NAV: UMA FERRAMENTA PARA ESTRUTURAÇÃO DE CURSOS BASEADOS EM OBJETOS DE APRENDIZAGEM *

ENSINET/NAV: UMA FERRAMENTA PARA ESTRUTURAÇÃO DE CURSOS BASEADOS EM OBJETOS DE APRENDIZAGEM * ENSINET/NAV: UMA FERRAMENTA PARA ESTRUTURAÇÃO DE CURSOS BASEADOS EM OBJETOS DE APRENDIZAGEM * Diego Lemos de Souza ** Graçaliz Pereira Dimuro *** Antônio Carlos da Rocha Costa **** Raquel Mello de Miranda

Leia mais

Dublin Core e MARC 21 : um estudo de correspondência de elementos de metadados

Dublin Core e MARC 21 : um estudo de correspondência de elementos de metadados Dublin Core e MARC 21 : um estudo de correspondência de elementos de metadados Maria das Dores Rosa Alves¹, Marcia Izabel Fugisawa Souza¹ ¹Embrapa Informática Agropecuária Caixa postal 6014 Campinas, SP

Leia mais

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais.

tipos de métodos, técnicas de inteligência artificial e técnicas de otimização. Por fim, concluise com as considerações finais. 1. Introdução A previsão de vendas é fundamental para as organizações uma vez que permite melhorar o planejamento e a tomada de decisão sobre o futuro da empresa. Contudo toda previsão carrega consigo

Leia mais

O USO INTELIGENTE DO COMPUTADOR NA EDUCAÇÃO José A. Valente NIED - UNICAMP

O USO INTELIGENTE DO COMPUTADOR NA EDUCAÇÃO José A. Valente NIED - UNICAMP O USO INTELIGENTE DO COMPUTADOR NA EDUCAÇÃO José A. Valente NIED - UNICAMP INTRODUÇÃO O que seria a utilização do computador na educação de maneira inteligente? Seria fazer aquilo que o professor faz tradicionalmente

Leia mais

Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce

Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce Reconhecimento de entidades nomeadas em textos em português do Brasil no domínio do e-commerce Lucas Hochleitner da Silva 1,2, Helena de Medeiros Caseli 1 1 Departamento de Computação Universidade Federal

Leia mais

Scientific Electronic Library Online Sistema SciELO de Publicação Guia do usuário

Scientific Electronic Library Online Sistema SciELO de Publicação Guia do usuário Scientific Electronic Library Online Sistema SciELO de Publicação Guia do usuário São Paulo, junho de 2007 1º Versão SUMÁRIO 1 Introdução... 3 2 Autor... 5 2.1 Cadastro no sistema (http://submission.scielo.br),

Leia mais

RECUPERANDO INFORMAÇÃO SOBRE TEXTOS PUBLICADOS NO TWITTER

RECUPERANDO INFORMAÇÃO SOBRE TEXTOS PUBLICADOS NO TWITTER RECUPERANDO INFORMAÇÃO SOBRE TEXTOS PUBLICADOS NO TWITTER Autores: Miguel Airton FRANTZ 1 ;; Angelo Augusto FROZZA 2, Reginaldo Rubens da SILVA 2. Identificação autores: 1 Bolsista de Iniciação Científica

Leia mais

Biblioteca Digital da UNIVATES utilizando a ferramenta DSpace. Alexandre Stürmer Wolf, Ana Paula Lisboa Monteiro, Willian Valmorbida

Biblioteca Digital da UNIVATES utilizando a ferramenta DSpace. Alexandre Stürmer Wolf, Ana Paula Lisboa Monteiro, Willian Valmorbida Biblioteca Digital da UNIVATES utilizando a ferramenta DSpace Alexandre Stürmer Wolf, Ana Paula Lisboa Monteiro, Willian Valmorbida Roteiro Biblioteca Digital da UNIVATES Bibliotecas: Conceitos Metas da

Leia mais

USO DOS CONCEITOS DE INTERAÇÃO HUMANO-COMPUTADOR NO DESENVOLVIMENTO WEB PARA EDUCAÇÃO A DISTÂNCIA

USO DOS CONCEITOS DE INTERAÇÃO HUMANO-COMPUTADOR NO DESENVOLVIMENTO WEB PARA EDUCAÇÃO A DISTÂNCIA Discutindo a visibilidade da EaD Pública no Brasil USO DOS CONCEITOS DE INTERAÇÃO HUMANO-COMPUTADOR NO DESENVOLVIMENTO WEB PARA EDUCAÇÃO A DISTÂNCIA Priscilla Márcia Scarpelli Bastos 1, Diogo Marcos de

Leia mais

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR

Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Experimentos de Mineração de Dados em R Disciplina do curso de Pós-Graduação da UTFPR Paulo Carvalho Diniz Junior CPGEI / UTFPR Avenida Sete de Setembro, 3165 Curitiba-PR - CEP 80.230-910 E-mail: paulo.carvalho.diniz@gmail.com

Leia mais

3 Modelo Proposto. 6 http://www.w3.org

3 Modelo Proposto. 6 http://www.w3.org 3 Modelo Proposto O surgimento da Web semântica (Berners-Lee, 2001), adiciona uma camada de "inteligência" à Web, onde computadores são capazes de representar significados dos conteúdos acessados na Web,

Leia mais

BUSCANDO SOLUÇÕES PARA TRABALHAR O ACERVO FÍSICO, DIGITAL E VIRTUAL NUM MESMO AMBIENTE: UTILIZANDO O SOFTWARE PERGAMUM. RESUMO

BUSCANDO SOLUÇÕES PARA TRABALHAR O ACERVO FÍSICO, DIGITAL E VIRTUAL NUM MESMO AMBIENTE: UTILIZANDO O SOFTWARE PERGAMUM. RESUMO BUSCANDO SOLUÇÕES PARA TRABALHAR O ACERVO FÍSICO, DIGITAL E VIRTUAL NUM MESMO AMBIENTE: UTILIZANDO O SOFTWARE PERGAMUM. Ana Cláudia Philippi Cristiane Salvan Machado Eliane Back Hadra Mônica Kuester Marcio

Leia mais

Rational Quality Manager. Nome: Raphael Castellano Campus: AKXE Matrícula: 200601124831

Rational Quality Manager. Nome: Raphael Castellano Campus: AKXE Matrícula: 200601124831 Rational Quality Manager Nome: Raphael Castellano Campus: AKXE Matrícula: 200601124831 1 Informações Gerais Informações Gerais sobre o RQM http://www-01.ibm.com/software/awdtools/rqm/ Link para o RQM https://rqmtreina.mvrec.local:9443/jazz/web/console

Leia mais

FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS

FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS FERRAMENTA PARA CRIAÇÃO DE BASES DE CONHECIMENTO NA FORMA DE ONTOLOGIA OWL A PARTIR DE DADOS NÃO ESTRUTURADOS Aluno: Allan Renato Sabino Orientador: Roberto Heinzle Roteiro Introdução; Objetivos; Fundamentação

Leia mais

CURSO DE SISTEMAS DE INFORMAÇÃO

CURSO DE SISTEMAS DE INFORMAÇÃO 1 CURSO DE SISTEMAS DE INFORMAÇÃO EMENTÁRIO DAS DISCIPLINAS 2011.1 BRUSQUE (SC) 2015 2 SUMÁRIO 1ª FASE... 4 01 ARQUITETURA DE COMPUTADORES... 4 02 FILOSOFIA... 4 03 FUNDAMENTOS MATEMÁTICOS PARA COMPUTAÇÃO...

Leia mais

As etapas de automação

As etapas de automação As etapas de automação NEGREIROS, Leandro Ribeiro. Sistemas eletrônicos de gerenciamento de documentos arquivísticos: um questionário para escolha, aplicação e avaliação. Dissertação (mestrado em Ciência

Leia mais

XX Seminário Nacional de Distribuição de Energia Elétrica SENDI 2012-22 a 26 de outubro Rio de Janeiro - RJ - Brasil

XX Seminário Nacional de Distribuição de Energia Elétrica SENDI 2012-22 a 26 de outubro Rio de Janeiro - RJ - Brasil XX Seminário Nacional de Distribuição de Energia Elétrica SENDI 2012-22 a 26 de outubro Rio de Janeiro - RJ - Brasil Rosimeri Xavier de Oliveira Light Serviços de Eletricidade S/A rosimeri.oliveira@light.com.br

Leia mais

DICOM-Database: Uma ferramenta de suporte à extração e publicação de imagens médicas DICOM através da Internet

DICOM-Database: Uma ferramenta de suporte à extração e publicação de imagens médicas DICOM através da Internet DICOM-Database: Uma ferramenta de suporte à extração e publicação de imagens médicas DICOM através da Internet Renato Rangel Guimarães 1, Jacob Scharcanski 2 1 Universidade Católica de Pelotas (UCPel)-

Leia mais

Núcleo de Pós Graduação Pitágoras

Núcleo de Pós Graduação Pitágoras Núcleo de Pós Graduação Pitágoras Professor: Fernando Zaidan Disciplina: Arquitetura da Informática e Automação MBA Gestão em Tecnologia 1 da Informaçao 2 Figura: Tela do IBM Mainframe Fonte: Arquivo próprio

Leia mais

3 Ferramentas de busca

3 Ferramentas de busca 3 Ferramentas de busca A Internet se transformou em um vasto repositório de informações. Podemos encontrar sites sobre qualquer assunto, de futebol a religião. O difícil, porém é conseguir encontrar a

Leia mais

CIÊNCIA DA INFORMAÇÃO: O QUE É ISTO? RESUMO

CIÊNCIA DA INFORMAÇÃO: O QUE É ISTO? RESUMO CIÊNCIA DA INFORMAÇÃO: O QUE É ISTO? Harold Borko Equipe de Tecnologia e Sistemas de Informação System Development Corp. Santa Monica, California RESUMO Buscando um novo consenso quanto à identidade, questionamos,

Leia mais

srbo@ufpa.br www.ufpa.br/srbo

srbo@ufpa.br www.ufpa.br/srbo CBSI Curso de Bacharelado em Sistemas de Informação BI Prof. Dr. Sandro Ronaldo Bezerra Oliveira srbo@ufpa.br www.ufpa.br/srbo Tópicos Especiais em Sistemas de Informação Faculdade de Computação Instituto

Leia mais

Intranets. FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO

Intranets. FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO Intranets FERNANDO ALBUQUERQUE Departamento de Ciência da Computação Universidade de Brasília 1.INTRODUÇÃO As intranets são redes internas às organizações que usam as tecnologias utilizadas na rede mundial

Leia mais

Arquitetura de Informação - 6

Arquitetura de Informação - 6 Arquitetura de Informação - 6 Ferramentas para Web Design Prof. Ricardo Ferramentas para Web Design 1 Objetivo do Sistema de Rotulação O sistema de rotulação é o componente da Arquitetura de Informação

Leia mais

3 OOHDM e SHDM 3.1. OOHDM

3 OOHDM e SHDM 3.1. OOHDM 32 3 OOHDM e SHDM Com a disseminação em massa, desde a década de 80, de ambientes hipertexto e hipermídia, principalmente a Web, foi identificada a necessidade de elaborar métodos que estruturassem de

Leia mais

Introdução ao Plone. terça-feira, 4 de agosto de 15

Introdução ao Plone. terça-feira, 4 de agosto de 15 Introdução ao Plone Sumário O que é Gestão de Conteúdo O que é Conteúdo Principais características de um CMS O que é o Plone Tipos de conteúdo no Plone Metadados Templates Interface do portal Gestão de

Leia mais

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1. O que é a ciência de dados (data science). Discussão do conceito Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.3, Outubro, 2015 Nota prévia Esta apresentação tem por objetivo, proporcionar

Leia mais

WWW - World Wide Web

WWW - World Wide Web WWW World Wide Web WWW Cap. 9.1 WWW - World Wide Web Idéia básica do WWW: Estratégia de acesso a uma teia (WEB) de documentos referenciados (linked) em computadores na Internet (ou Rede TCP/IP privada)

Leia mais

Expandindo o conceito de biblioteca: interoperabilidade, personalização, curadoria digital e novos documentos

Expandindo o conceito de biblioteca: interoperabilidade, personalização, curadoria digital e novos documentos II ENCONTRO DE BIBLIOTECÁRIOS DA AERONÁUTICA - FAB Expandindo o conceito de biblioteca: interoperabilidade, personalização, curadoria digital e novos documentos ou a Biblioteca na Porta da Geladeira Luana

Leia mais

Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador

Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador Soluções de análise da SAP Edições Edge do SAP InfiniteInsight Visão geral Viabilizando insights preditivos apenas com cliques de mouse, sem códigos de computador Índice 3 Um caso para análise preditiva

Leia mais

A INTERNET COMO FERRAMENTA AUXILIAR NO ENSINO DE MECÂNICA COMPUTACIONAL

A INTERNET COMO FERRAMENTA AUXILIAR NO ENSINO DE MECÂNICA COMPUTACIONAL A INTERNET COMO FERRAMENTA AUXILIAR NO ENSINO DE MECÂNICA COMPUTACIONAL Manoel Theodoro Fagundes Cunha Sergio Scheer Universidade Federal do Paraná, Setor de Tecnologia, Centro de Estudos de Engenharia

Leia mais

A Biblioteca Escolar Digital Gildenir Carolino Santos

A Biblioteca Escolar Digital Gildenir Carolino Santos INTRODUÇÃO A Biblioteca Escolar Digital Gildenir Carolino Santos Historicamente já possuímos três períodos principais que retratam a evolução das bibliotecas, iniciamos com as bibliotecas tradicionais,

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Similaridade entre Objetos Localizados em Fontes de Dados Heterogêneas

Similaridade entre Objetos Localizados em Fontes de Dados Heterogêneas Similaridade entre Objetos Localizados em Fontes de Dados Heterogêneas Rubens Guimarães 1, Gustavo Zanini Kantorski 1 1 Curso de Sistemas de Informação Universidade Luterana do Brasil (ULBRA) Campus Santa

Leia mais

Padronização de Processos: BI e KDD

Padronização de Processos: BI e KDD 47 Padronização de Processos: BI e KDD Nara Martini Bigolin Departamento da Tecnologia da Informação -Universidade Federal de Santa Maria 98400-000 Frederico Westphalen RS Brazil nara.bigolin@ufsm.br Abstract:

Leia mais

Web Semântica para Máquinas de Busca

Web Semântica para Máquinas de Busca Web Semântica para Máquinas de Busca Eli Nogueira Milagres Júnior, Elio Lovisi Filho (orientador) Departamento de Ciência da Computação - Faculdade de Ciência da Computação e Comunicação Social (FACICS)

Leia mais

Sistema Educacional e Médico On-line (SEMedicOn): uma ferramenta híbrida para auxiliar pacientes, médicos e estudantes da saúde

Sistema Educacional e Médico On-line (SEMedicOn): uma ferramenta híbrida para auxiliar pacientes, médicos e estudantes da saúde Sistema Educacional e Médico On-line (SEMedicOn): uma ferramenta híbrida para auxiliar pacientes, médicos e estudantes da saúde Cláudia Batista Melo 1, 2, Ulrich Schiel 3, Lourdes Mattos Brasil 4, Edilson

Leia mais

Sistema Web de Ensino Voltado aos Conteúdos da Física

Sistema Web de Ensino Voltado aos Conteúdos da Física Sistema Web de Ensino Voltado aos Conteúdos da Física Fábio Luiz P. Albini 1 Departamento de Informática, Instituto Federal do Paraná (IFPR) Curitiba, Paraná 81520-000, Brazil. fabio.albini@ifpr.edu.br

Leia mais

AS POTENCIALIDADES DA WEB SEMÂNTICA PARA A CIÊNCIA DA INFORMAÇÃO

AS POTENCIALIDADES DA WEB SEMÂNTICA PARA A CIÊNCIA DA INFORMAÇÃO AS POTENCIALIDADES DA WEB SEMÂNTICA PARA A CIÊNCIA DA INFORMAÇÃO Resumo Este artigo aborda a Web Semântica em termos conceituais e explora as suas potencialidades para a Ciência da Informação. Através

Leia mais

WEB SEMÂNTICA E SUAS CONTRIBUIÇÕES PARA A CATALOGAÇÃO: UM ESTUDO SOBRE ARQUITETURAS DE METADADOS E FRBR

WEB SEMÂNTICA E SUAS CONTRIBUIÇÕES PARA A CATALOGAÇÃO: UM ESTUDO SOBRE ARQUITETURAS DE METADADOS E FRBR PÔSTER WEB SEMÂNTICA E SUAS CONTRIBUIÇÕES PARA A CATALOGAÇÃO: UM ESTUDO SOBRE ARQUITETURAS DE METADADOS E FRBR Renata Eleuterio da Silva, Plácida Leopoldina Ventura Amorim da Costa Santos Resumo: Os avanços

Leia mais

Agregadores de Conteúdo

Agregadores de Conteúdo Agregadores de Conteúdo São programas ou sites capazes de interpretar e mostrar o conteúdo dos Feeds RSS. Essa é uma forma de facilitar a leitura de vários sites e blogs, acessando o que há de novo em

Leia mais

Categorização de Textos baseada em Conceitos

Categorização de Textos baseada em Conceitos Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Programa de Pós-Graduação em Ciência da Computação Encontro de PLN Categorização de Textos baseada em Conceitos Silvia Maria

Leia mais

UNIVERSIDADE ESTADUAL DE CAMPINAS. Instituto de Matemática, Estatística e Computação Científica

UNIVERSIDADE ESTADUAL DE CAMPINAS. Instituto de Matemática, Estatística e Computação Científica UNIVERSIDADE ESTADUAL DE CAMPINAS Instituto de Matemática, Estatística e Computação Científica Relatório Final - MS777 Modelagem matemático/probabilística dos módulos acústicos e de linguagem de sistemas

Leia mais

6 Infraestrutura de Trabalho

6 Infraestrutura de Trabalho 6 Infraestrutura de Trabalho Este capítulo tem como objetivo fornecer uma visão geral do ambiente de trabalho encontrado na organização estudada, bem como confrontá-lo com a organização ideal tal como

Leia mais

Thiago Tokiori Higuchi

Thiago Tokiori Higuchi Thiago Tokiori Higuchi Relatório de Projeto: Classicação Automática de Cantos de Pássaros Brasileiros:Uma Abordagem Baseada em Aprendizagem de Máquina. Subprojeto: Extração, Estruturação e Armazenamento

Leia mais

O TRATAMENTO DA INFORMAÇÃO:

O TRATAMENTO DA INFORMAÇÃO: O TRATAMENTO DA INFORMAÇÃO: FACE AOS SISTEMAS AUTOMATIZADOS DE RECUPERAÇÃO ESQUEMA GERAL Importância do acesso à informação, O crescimento e diversificação dos sistemas de informação Explosão bibliográfica

Leia mais

DESENVOLVIMENTO DE UMA FERRAMENTA PARA A GESTÃO DE UM SERVIÇO DE INFORMAÇÃO, BASEADO NA INTERAÇÃO UNIVERSIDADE E SOCIEDADE: O CASO DO UFSCAR

DESENVOLVIMENTO DE UMA FERRAMENTA PARA A GESTÃO DE UM SERVIÇO DE INFORMAÇÃO, BASEADO NA INTERAÇÃO UNIVERSIDADE E SOCIEDADE: O CASO DO UFSCAR DESENVOLVIMENTO DE UMA FERRAMENTA PARA A GESTÃO DE UM SERVIÇO DE INFORMAÇÃO, BASEADO NA INTERAÇÃO UNIVERSIDADE E SOCIEDADE: O CASO DO UFSCAR Roniberto Morato do Amaral 1, Pedro Ivo Silveira Andretta 2,

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA

UNIVERSIDADE FEDERAL DE SANTA CATARINA UNIVERSIDADE FEDERAL DE SANTA CATARINA CIÊNCIAS DA COMPUTAÇÃO MÁQUINAS DE COMITÊ APLICADAS À FILTRAGEM DE SPAM Monografia submetida à UNIVERSIDADE FEDERAL DE SANTA CATARINA para a obtenção do grau de BACHAREL

Leia mais

Sistema Multiagentes de Recomendação de Eventos

Sistema Multiagentes de Recomendação de Eventos Universidade Federal do Espírito Santo Inteligência Artificial Sistema Multiagentes de Recomendação de Eventos Grupo: André Gustavo Almeida Bernardo Gonçalves Marcel Damásio Rodolfo Gabri Vitória 2007/02

Leia mais

Otimização da exposição de websites em mecanismos de busca vista como atividade de indexação

Otimização da exposição de websites em mecanismos de busca vista como atividade de indexação Otimização da exposição de websites em mecanismos de busca vista como atividade de indexação Bruno Viana Rezende 1 Marcello Peixoto Bax 2 Resumo O artigo apresenta a atividade considerada de webmarketing

Leia mais

Como os Mecanismos de Busca da Web Indexam Páginas HTML

Como os Mecanismos de Busca da Web Indexam Páginas HTML Como os Mecanismos de Busca da Web Indexam Páginas HTML Fernando Campos campos@dcc.ufmg.br Departamento de Ciência da Computação Universidade Federal de Minas Gerais Marcello Peixoto Bax bax@eb.ufmg.br

Leia mais