UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS



Documentos relacionados
A Empresa. Alguns Clientes que já utilizam nossa tecnologia.

Manual do Visualizador NF e KEY BEST

ÍNDICE 1 INTRODUÇÃO ACESSO AOS SISTEMAS DOCUMENTOS MANUTENÇÃO OCR REGISTRO DE DOCUMENTOS GERANDO DOCUMENTOS

GED CRIAÇÃO DE NOVO DOCUMENTO E OBJETO AUTOMÁTICO

O Gerenciamento de Documentos Analógico/Digital

SISTEMAS DE GESTÃO São Paulo, Janeiro de 2005

Utilização de Técnicas de Recuperação da Informação na Construção de uma Ferramenta de Busca em Documentos do Arquivo Público de Biguaçu

ISO/IEC 12207: Gerência de Configuração

Introdução ao GED Simone de Abreu

Sistemas Distribuídos

Projeto 8 Servidor de estatísticas de desempenho on-line da BVS 11 de janeiro de 2005

Luciano Rocha Diretor Técnico Enial Coord..de TI Sec. Geral Mesa da ALES - luciano@al.es.gov.br Tel.:

gerenciamento de portais e websites corporativos interface simples e amigável, ágil e funcional não dependendo mais de um profissional especializado

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

Tecnologias de GED Simone de Abreu

Manual do Painel Administrativo

SERVICE DESK MANAGER SDM. Manual do Sistema - DPOI

Entrar neste site/arquivo e estudar esse aplicativo Prof. Ricardo César de Carvalho

Software. Bem vindo ao mundo do GED e Tecnologias Digitais. Gerenciamento Eletrônico de Documentos, Softwares, e muito mais...

Apresentação PostgreSQL 8.2/ 8.3 Domingos Martins ES

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Receber intimações: poderão receber intimações em processos eletrônicos nos quais estejam vinculados.

Soluções Inteligentes

Roteiro 3: Apresentações eletrônicas (parte 1)

Paginas em Branco: O sistema possui a possibilidade de configuração, que remove automaticamente as páginas em branco.

Questionamento 3. Ano. Série. Nome do Aluno. Escola

DocAdmin Gerenciamento Eletrônico de Documentos

Manual da Nota Fiscal Eletrônica

AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP.

EMISSÃO DE CERTIFICADOS ELETRÔNICOS NOS EVENTOS DO INSTITUTO FEDERAL CATARINENSE CÂMPUS VIDEIRA

Upload e Download de Arquivos. Ao programador Morfik, cabe implementar em sua aplicação os mecanismos gerenciem todo o processo acima.

DataDoc 4.0 Sistema de Gestão de Arquivos. Características do Sistema

MÓDULO 5 Movimentações

Construtor de sites SoftPixel GUIA RÁPIDO - 1 -

MANUAL. Perfil de Professor

EMISSÃO DE CERTIFICADOS ELETRÔNICOS NOS EVENTOS DO INSTITUTO FEDERAL CATARINENSE CÂMPUS VIDEIRA

Manual de utilização do sistema OTRS (Atendimento) Cliente Externo

O e-docs foi testado e homologado pela Microsoft via certificadora internacional Verisign.

DATA WAREHOUSE. Introdução

Manual dos Serviços de Interoperabilidade

VVS Sistemas (21)

SOFTWARE DE GERENCIAMENTO DA SECRETARIA DA SAUDE PROJETO DE TRABALHO

O PaperPort 12 Special Edition (SE) possui uma grande variedade de novos e valiosos recursos que ajudam a gerenciar seus documentos.

UNIDADE 4. Introdução à Metodologia de Desenvolvimento de Sistemas

Objetivos. Página - 2

Sistema de Controle de Solicitação de Desenvolvimento

Proposta de uma Biblioteca Digital para Documentos Técnico-cientícos do Departamento de Computação da Universidade Federal de Ouro Preto

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Image Enable: conceito

Manual Do Usuário Processo Aditivo de Prazo

Os equipamentos multifuncionais devem possuir digitalizador (scanner) com as seguintes características mínimas:

Gerenciamento do ciclo de vida de um documento Simone de Abreu

GED / ECM / EIM. Gerenciamento Eletrônico de Documentos ou Gestão Eletrônica de Documentos. Por: Marcelo Vasconcelos Fatudo

Layout : Este layout desenvolvido com html5 e css3 e compatível com qualquer dispositivo, ou seja, ele se molda para qualquer resolução, tablet,

Processo Digital Gerir Combustível Manual do Usuário

Microsoft Office Outlook Web Access ABYARAIMOVEIS.COM.BR

ARQUIVOLOGIA - TIPOLOGIAS DOCUMENTAIS E SUPORTES FÍSICOS. Prof. Antonio Victor Botão

PHC dcontroldoc. O acesso a diversos tipos de ficheiros

Tutorial Gerar arquivo PDF. Gerando um documento pdf com várias imagens 1- Inserir imagem no Word

Análise de Dados do Financeiro

Satélite. Manual de instalação e configuração. CENPECT Informática cenpect@cenpect.com.br

Tutorial para envio de comunicados e SMS

T U T O R I A I S WEB OF SCIENCE TUTORIAL. Biblioteca da Escola de Engenharia da UFRGS. WEB OF SCIENCE - Tutorial

Manual do Contribuidor. Portal de Internet. Projeto: Novo Portal de internet

Pró-Reitoria de Administração - PRAd Assessoria de Informática - AI SISTEMA DE PUBLICAÇÃO DE LICITAÇÕES. Manual de Procedimentos

MANUAL C R M ÍNDICE. Sobre o módulo de CRM Definindo a Campanha... 3

Fluxo de trabalho do Capture Pro Software: Indexação de OCR e separação de documentos de código de correção

Projeto Disciplinar de Infra-Estrutura de Software SISPA FACULDADE SENAC

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

Tabela e Gráficos Dinâmicos Como estruturar dinamicamente dados no Excel

AULA 04 - TABELA DE TEMPORALIDADE

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

02 - Usando o SiteMaster - Informações importantes

GUIA INTEGRA SERVICES E STATUS MONITOR

Conceitos de Banco de Dados

1. Tela de Acesso pg Cadastro pg Abas de navegação pg Abas dados cadastrais pg Aba grupo de usuários pg.

Manual SAGe Versão 1.2 (a partir da versão )

Guia Rápido para Acesso, Preenchimento e Envio Formulário de Cadastro da Empresa e Formulário de Projeto

Manual BitFarmácia Popular Versão 2 Software Autorizador Farmácia Popular

MULTIACERVO Implementações da versão 20-1

5 Mecanismo de seleção de componentes

Astra. Introdução e conceitos básicos do sistema

Construção da Consulta. Para a construção da consulta, siga os passos abaixo:

AUTOR(ES): IANKSAN SILVA PEREIRA, ALINE GRAZIELE CARDOSO FEITOSA, DANIELE TAMIE HAYASAKA, GABRIELA LOPES COELHO, MARIA LETICIA VIEIRA DE SOUSA

Critérios para certificação de Sites SciELO: critérios, política e procedimentos para a classificação e certificação dos sites da Rede SciELO

Gerencie a sala de espera e garanta a satisfação dos pacientes

Manual de Instalação e Utilização do Pedido Eletrônico Gauchafarma

Manual do Publicador. Wordpress FATEA Sistema de Gerenciamento de Conteúdo Web

Status. Barra de Título. Barra de Menu. Barra de. Ferramentas Padrão. Caixa de nomes. Barra de. Ferramentas de Formatação. Indicadores de Coluna

Distribuidor de Mobilidade GUIA OUTSOURCING

Uma Abordagem sobre Mapeamento Objeto Relacional com Hibernate

MANUAL DO ADMINISTRADOR LOCAL. Entidade Municipal

3 SCS: Sistema de Componentes de Software

ARQUIVO DIGITAL e Gestão de Documentos

Um Driver NDIS Para Interceptação de Datagramas IP

Noções de. Microsoft SQL Server. Microsoft SQL Server

Plataforma Sentinela

Transcrição:

UM ESTUDO DE CASO SOBRE A INDEXAÇÃO AUTOMÁTICA DE DOCUMENTOS OFICIAIS DA UENP BASEADO EM LAYOUTS Alexia Guilherme Bianque (PIBIC/CNPq), Ederson Marco Sgarbi (Orientador), a.g.bianque10@gmail.com.br Universidade Estadual do Norte do Paraná/Campus Luiz Meneghel Área Ciências Exatas e da Terra e sub-área Informática Aplicada Palavras-chave: Recuperação da informação, metadados, busca, documentos eletrônicos. Resumo O trabalho visa a solução de um problema comum na área empresarial e pública: a necessidade das organizações em gerenciar as informações contidas em documentos que se encontram impressas e arquivadas de forma desestruturada. A quantidade de documentos impressos armazenados tem crescido exponencialmente e esse aumento faz surgir à necessidade de encontrar uma maneira eficiente para que o processo de localização dos documentos seja preciso e rápido. Por meio dos metadados desses documentos, da indexação e da recuperação da informação isso torna-se possível. O trabalho tem como objetivo a criação de uma ferramenta que reconheça os metadados, faça a indexação automática do documento eletrônico e que proporcione ao usuário a recuperação da informação rapidamente e ofereça a busca por dados de forma precisa. Introdução Com o número crescente de documentos produzidos pelas organizações, o armazenamento e a busca por informações importantes pode se tornar uma tarefa demorada e árdua. Quanto maior a quantidade de informações, maior a necessidade de um gerenciamento eficiente a fim de transformá-las em conhecimento. Neste contexto, a Gestão Eletrônica de Documentos (GED) tem se destacado como uma ferramenta estratégica para garantir agilidade na recuperação de documentos [2]. Os documentos necessitam ser digitalizados e armazenados por meio de um processo de indexação, facilitando assim, a busca por informações. Para que a indexação e a busca tornem-se possíveis existe a necessidade de reconhecer os metadados dos documentos eletrônicos. [4]. Os metadados são a chave para se ter acesso à informação que precisamos, quando precisamos". De nada adianta possuir uma solução para gerenciar os documentos se não houver a preocupação com a interpretação dos dados contidos nos mesmos [3]. A informação passa a ser insumo para qualquer atividade e para que ela seja útil e relevante tem que estar disponível no momento certo, além disso, De nada adianta a informação existir, se quem dela necessita não sabe a sua existência ou se ela não puder ser encontrada, por isso existe a necessidade das informações serem recuperadas rapidamente e de forma correta quando requeridas pelo usuário por meio de busca por palavras-chaves [6].

A recuperação da informação (RI) pode ser entendida como um processo de recuperar referências de documentos em resposta a alguma solicitação. Os sistemas de RI são sistemas de operações interligadas para identificar, entre um grande conjunto de informações, aquelas que são realmente úteis, isto é, que estão de acordo com o que o usuário solicitou [1]. Material e Método O projeto desenvolvido possui caráter qualitativo, pois ambiente natural é a fonte direta para coleta de dados e o pesquisador é o instrumento chave. O principal foco de abordagem é o estudo de técnicas de GED com o objetivo de implementar uma solução automática para documentos oficiais por meio da definição de metadados para a realização da indexação automática e a recuperação de informações de forma rápida. A pesquisa realizada visa gerar conhecimento para a solução de um problema específico: a indexação automática e a consulta em documentos eletrônicos, sendo assim uma pesquisa do tipo qualitativa e aplicada. Para o desenvolvimento deste trabalho são necessários os seguintes passos: a) Definir o conjunto de metadados relevantes para os documentos da UENP; b) Definir uma ferramenta para indexação de texto; c) Implementar o protótipo de indexação automática baseado em metadados; d) Implementar o protótipo para pesquisa baseada no índice gerado; Metodologia Proposta O trabalho tem como objetivo a implementação de um protótipo que reconheça os metadados, realize a indexação automática de documentos oficiais da UENP e que ofereça a busca por dados, proporcionando ao usuário a recuperação da informação de forma rápida e precisa. Figura 1. Etapas para o processo de indexação automática e consulta. O processo de indexação tem como entrada um documento digitalizado do tipo PDF. Aplicando o processamento de imagem no documento Portable Document Format (PDF) obtém-se os blocos de texto do tipo texto simples, que serão utilizados para o processo de indexação. Os blocos serão indexados da seguinte forma: cada bloco de texto corresponderá ao conteúdo de um metadado. Os blocos são enviados para o processo de indexação e por meio de uma configuração o mecanismo já reconhece qual bloco pertence a seu respectivo metadado, estruturando o documento como o original, para que possa ser retornado posteriormente ao usuário.

Necessidade do Usuário O projeto tem como foco a necessidade do usuário, pois esta etapa consiste na definição de quais informações são relevantes para a indexação e a busca baseando-se nos documentos da organização. Definir as reais necessidades e demandas do usuário é um dos mais importantes aspectos do desenvolvimento e implementação de qualquer inovação tecnológica. A quantidade de documentos impressos armazenados vem crescendo exponencialmente surgindo a necessidade nas organizações de gerenciar as informações contidas nos documentos que se encontram desestruturadas. É importante ter um processo eficiente de busca e localização dos documentos. Por meio deste processo economiza-se tempo, pela rapidez das buscas, espaço físico, pois não há necessidade de armazenar documentos impressos já que o gerenciamento é eletrônico; não há preocupação com a conservação dos documentos, pois dados eletrônicos não se desgastam e caso o armazenamento seja realizado com segurança a probabilidade de perda dos documentos é mínima. Por meio dos metadados, da indexação e da RI isso torna-se possível. Os documentos oficias da UENP como: Portarias, Licitações e Resoluções possuem suas particularidades, sendo compostas de acordo com as normas oficiais de elaboração de documentos Definição das Áreas A partir de um documento da UENP impresso é gerado um documento digitalizado por meio de um scanner, sendo este a cópia digital do documento existente em papel. O documento digitalizado passa por um processamento de imagem que é composto por diversos filtros. Após aplicados os filtros o documento está pronto para aplicação das técnicas de reconhecimento automático de layout [7]. O reconhecimento de layout é realizado da seguinte forma: para rotulação dos blocos foi utilizada a técnica de vizinhança que junta as linhas mais próximas do documento, para que seja possível a formação dos blocos. Após isso são delimitadas as áreas por todo documento [7]. Depois que os blocos estão rotulados é aplicado o OCR (Optical Caracter Recognition) que extrai os caracteres do documento digitalizado. Ao fim de todo este processo, são gerados documentos do tipo texto puro que correspondem as áreas que foram demarcadas no documento e deverão ser utilizados no processo de indexação [7]. Metadados Por meio de um estudo realizado na estrutura dos documentos que a UENP gera diariamente foram definidos seus respectivos metadados. Os metadados extraídos são do tipo descritivos, pois facilitam a identificação do assunto e o conteúdo do objeto, tendo o intuito de recuperar documentos, utilizando elementos como: título, autor, local e palavras-chave. A escolha de metadados foi realizada baseada na necessidade do usuário, pois este manipulará e utilizará as informações dos documentos conforme a precisão. A definição dos metadados dos documentos eletrônicos consiste na combinação de elementos de esquema de metadados, pois se trata uma aplicação que tem necessidades particulares. Utilizou dois elementos existentes no Dublin Core sendo esses: Título e Autor. O restante dos metadados foram escolhidos de acordo com as informações contidas no layout dos documentos da UENP, sendo estes: Súmula, Introdução, Corpo do Texto e Local, somando ao todo seis metadados que serão apresentados no Quadro 1.

Elemento Titulo Súmula Introdução Corpo do Texto Local Autor Quadro 1. Metadados. Descrição O nome dado ao documento eletrônico pelo autor ou editor. Representa o assunto do documento eletrônico. Informações sobre o autor do documento. Descrição do conteúdo. O local e a data que o documento foi disponibilizado. Entidades ou pessoas responsáveis por tornar o documento disponível na presente forma. Processo de Indexação A partir de cada documento são gerados seis arquivos do tipo texto simples, cada arquivo corresponde ao conteúdo de um metadado. A Indexação dos blocos é feita por meio do Solr, mecanismo de indexação e busca textual baseado no motor de busca da biblioteca Lucene. Cada bloco foi definido como um determinado metadado pelo autor e cada documento será representado por um conjunto de seis campos. Todo campo corresponde ao conteúdo de um metadado. Após o usuário selecionar a pasta do documento que deseja indexar, os seis blocos contidos dentro da pasta serão ligados aos seus respectivos campos. A partir disso, os blocos serão estruturados em um único documento, por meio de uma estrutura Extensible Markup Language (XML) gerada pelo SOLR, e indexado, gerando um índice. Após indexado pode-se utilizar dados contidos no documento para buscas por palavras, permitindo que o usuário encontre qualquer documento que contenha uma determinada palavra ou frase. Processo de Recuperação A busca será implementada de acordo com as necessidades do usuário, por meio de uma interface que se comunica com a ferramenta Apache SOLR, o qual, se integra com a biblioteca Apache Lucene e possibilita uma busca textual com termos destacados. O usuário solicita uma pesquisa, é feita a requisição no servidor do Solr, onde se encontra o acervo de documentos indexados da UENP. A requisição retorna ao usuário uma lista de documentos que correspondem a pesquisa solicitada. Após o usuário encontrar o documento que satisfaça sua necessidade, ele tem a possibilidade de acessar o documento digitalizado em PDF. Resultados e Discussão Atualmente há uma elevada produção e busca por informação, se fazendo necessário organizar os dados utilizando tecnologias, para disponibilizá-las ao usuário de maneira satisfatória. A partir disto, existe a necessidade de se criar e melhorar técnicas para que as buscas se tornem mais eficazes. Observa-se que a indexação é a conexão entre os documentos existentes no sistema e quais documentos são recuperados, de acordo com sua necessidade do usuário. Visando agilizar e automatizar este processo foi desenvolvido uma solução para indexação automática de documentos oficiais da UENP baseando-se em seus layouts. Foi possível definir o conjunto de metadados relevantes pois os layouts dos documentos estudados nesse trabalho seguem um padrão, ou seja, são similares em sua estrutura e particularidades.

A consulta em documentos baseado em metadados torna a pesquisa mais ágil pois o usuário diz ao sistema em qual metadado está a palavra que ele quer encontrar, evitando que o sistema passe por milhões de registros a procura da informação que lhe interessa. Conclusões Neste trabalho foi proposto e desenvolvido uma ferramenta que indexe documentos oficiais da UENP e que posteriormente os recupere baseando-se em seus metadados. A ferramenta tem como proposta o desenvolvimento de princípios que melhorem a produtividade no ambiente de gestão da UENP, proporcionando melhoras, tais como: economia de espaço físico; a possibilidade de recuperação rápida por meio de categorias e por várias pessoas ao mesmo tempo; e ainda a possibilidade de se fazer cópias de segurança. Com o resultado deste trabalho confirmamos que seus objetos foram cumpridos por meio da utilização do Apache Solr juntamente com o conjunto de metadados. A combinação do Apache Solr e o conjunto de metadados escolhidos resultaram em uma interface de indexação e consulta, sendo esta, uma proposta de Recuperação da Informação, que facilita ao usuário o acesso as informações contidas nos documentos. As principais contribuições dessa pesquisa são a extração e classificação automática de metadados dos documentos oficiais da UENP. A extração se faz partir do modo como foi organizada e desenvolvida a indexação. Ambos fatores, resultam diretamente no resultado e no tempo de busca por um termo. A ferramenta desenvolvida se mostra uma boa solução para os Gerenciamento Eletrônico de Documentos. Tendo em vista, o GED como um todo, a ferramenta criada auxiliaria nas tarefas de indexação automática e na capacidade de recuperar informações baseando-se nos metadados dos documentos. Referências 1. ARAÚJO JUNIOR, R. H. Precisão no processo de busca e recuperação da informação. Brasília: Thesaurus, 2007 2. BALDAM, R., VALLE, R., CAVALCANTI, M. GED: Gerenciamento Eletrônico de Documentos. São Paulo: Érica, 2002. 3. CHESTER, Bernard. Archiving Eletronic Files. AIIM E - Doc Magazine. 2006. v.20, n.3, p. 63. 4. FANNING, Betsy. Data,Data,Everywhere Data: Metadata Standards. AIIM E-Doc Magazine. 2006. v.20, n.3, p. 76. 5. Lucene Project (2014). Página do projeto Lucene. Disponível em:<http://lucene.apache.org> Acesso em: 20 set. 2014. 6. MARCONDES, Carlos Henrique. METADADOS: DESCRIÇÃO E RECUPERAÇÃO DE INFORMAÇÕES NA WEB. 2009. 15 f. Monografia (Especialização) - Curso de Ciência da Informação, UFF, Rio de Janeiro, 2009. Disponível em: <http://www.unifai.edu.br/upload/aula/marcondes, C. H. - Metadados.pdf>. Acesso em: 15 jun. 2014. 7. OLIVEIRA, Ricardo. RECONHECIMENTO AUTOMÁTICO DE BLOCOS PARA AUXILIAR A INDEXAÇÃO EM SOLUÇÕES GED. 2014. 45 f. TCC (Graduação) - Curso de Sistemas de Infomação, Centro de Ciências Tecnológicas, Universidade Estadual do Norte do Paraná, Bandeirantes, 2014.