MEC/Setec/Projeto SIEP Biblioteca Digital da EPT Centro de Documentação Digital da EPT Rogério Atem de Carvalho Rafael Manhães Monnerat CEFET Campos Ricardo Martins Ramos Valéria Oliveira Costa CEFET Piauí 1
Biblioteca Digital 2 Atividade 1 2 3 4 5 6 7 8 9 10 11 12 Núcleo Campos Melhoria da Documentação de Modelagem Traduzir extrator de tabelas PDF para Python Melhoria de Estatísticas de Busca, Uso e Acesso Habilitação de Serviços da Granularização Desenvolver processo de ECM Adaptar Processo de ECM ao da STI Melhorar escalabilidade de granularização de PDF Refinar xuser Campos PI, Campos Campos Campos Campos Campos Campos
Biblioteca Digital Atividade 1 2 3 4 5 6 7 8 9 10 11 12 Núcleo Campos Investigação de Melhoria de Desempenho de Cachê Desenvolver Mecanismo de Referências Cruzadas Investigar Integração com outras bases 2 Definir DTD de Indexação,Consulta, Estatísticas Definir Implementar funções de indexação e recuperação Definir Padrão de Serviços de Indexação Escalabilidade e Alta Disponibilidade de Buscas Campos PI, Campos PI, Campos PI, Campos PI, Campos PI 3
Biblioteca Digital Atividade 1 2 3 4 5 6 7 8 9 10 11 12 Núcleo Pesquisar Busca por PI Conteúdo em Imagem Implementar PI Protótipo de Busca por Conteúdo em Imagem Criar Help de Buscas PI, Campos Implementar Campos download por diferentes formatos Investigação de Campos Granularização de Vídeo Implementação de Granularização de Vídeo Campos 4
Centro de Documentação Digital Atividade 1 2 3 4 5 6 7 8 9 10 11 12 Habilitação de Serviços Investigar Padrões Processos de Negócio Modelar e Implementar Processos de Negócio Desenvolver Ferramenta de BPM Pesquisa Emprego de OCR Implementar OCR 5
Recuperação Integrada Web 2.0 SOC LimProD ReI ReMeD OnTEPT Siep Gerencial ArDaE ArDaX BD Outras Fontes Granulador CDD 6
Estrutura Comum - Extensões Granular Document (GD): Suporta MS-Office, Open Office, PDF e HTML. Duas versões: Armazenamento convencional (Fev/2007). Armazenamento via Enhanced Storage (Jul/2007). Documentos do MS-Office e PDF são convertidos para Open Office (XML). XML é parseado para indexação e identificação de grãos. Armazenamento e download pode ser em formato original ou Open Office (OO). Visualização on-line, on-the-fly em HTML. 7
Estrutura Comum - Extensões 8 Granular Document (GD): Conversão para OO é feita por um servidor (ou cluster de servidores) que fornecem web service de conversão via O3Tool. Conteúdo, incluindo metadados, é enviado para indexação para servidor (ou grid) de indexação Lucene, também via web service. Obs.: há sempre alternativa, não tão escalável, porém mais fácil de configurar, de fazer a indexação no próprio Zope. Armazenamento dos grãos e do arquivo original são enviadas para o servidor (ou cluster) de armazenamento. Grãos são cacheados apropriadamente, melhorando uso dos recursos de rede e memória (precisa ser melhor estudado). Grãos podem ser visualizados on-line.
Estrutura Comum - Extensões Granular Document (GD): Direitos Autorais podem ser gerenciados apropriadamente via workflows, oferecendo os seguintes níveis de acesso: Público: busca por metadados, texto integral e ontologia, granularização, self service e download do documento completo. Restrito com visualização: busca por metadados e visualização de PDF, sem possibilidade de download ou impressão (depende de estudo jurídico). Restrito: busca por metadados, obtenção via autor. Como a granularização é parte de um workflow configurável, é possível criar documentos que possuam todas as características do GD, exceto a granularização, que nem sempre é desejável. 9
Document -------------------- -------------------- -------------------- -------------------- Table -------------------- Image -------------------- Table -------------------- Generates Generates Table Image Table Table OO Built Document Table Table Image Table Image Image Table Table Image Table Table 10
11
Estrutura Comum - Extensões Grain Collector: Permite ao usuário que optar por busca granular montar um documento a partir de grãos de outros documentos, a sua escolha (self-service). O mecanismo irá montar um documento Open Office resultante com os grãos e respectiva lista de referências bibliográficas em padrão ABNT. Com este documento em mãos, o usuário poderá montar novos materiais, como um artigo, apostila, relatório etc. 12
Estrutura Comum - Extensões Grain Collector: Previsto opção de edição do novo documento on-line. Novo documento on-line poderá ser diretamente disponibilizado para a BD. Grain Cart: carrinho de compras que permite inserir grãos e documentos inteiros e gerar novo documento (on-line ou baixado), guardar na estante privativa do usuário (File Cabinet xuser) ou ainda simplesmente baixar todo o carrinho. 13
14 Estrutura Comum - Extensões Extended User (xuser): Maneira de estimular o uso continuado da solução. Usuário se cadastra no portal e a partir daí passa a usufruir de: Armazenamento de buscas. Serviço de Push e RSS Feed: Usuário seleciona categorias de documentos de interesse, de acordo com área do CNPq e/ou autores e/ou tipo de documento. A partir daí, recebe via RSS ou email links de novas aquisições da BD. Pode ainda armazenar notas, montando e organizando sua biblioteca particular, automaticamente atualizada. Atribuir notas e resenhas a objetos da BD. Participar em Listas de Discussão sobre objetos específicos, coleções de objetos ou temas da BD.
Estrutura Comum - Extensões Extended Search (xsearch): Permite ao administrador do portal configurar páginas de busca. Basta ao administrador selecionar os metadados que deseja incluir em uma página de busca e o produto automaticamente gera a nova página de busca, que ficará disponível para os usuários. Níveis de acesso são também definidos por configuração quais usuários podem fazer quais buscas. Administrador pode mudar visual das páginas ou usar padrões do site. 15
Estrutura Comum - Infraestrutura Visa dar alta disponibilidade e escalabilidade. Disponibilidade é garantida pelo gerenciamento de disponibilidade de hardware e serviços. Escalabilidade é vista como composição de: Escalabilidade de Acesso. Escalabilidade de Armazenamento. Escalabilidade de Indexação. Escalabilidade de Conversão. Alta escalabilidade deve valer para os quatro componentes. 16
Estrutura Comum - Infraestrutura Servidores de Web funcionam em cluster tendo sua carga de trabalho distribuída - escalabilidade de acesso. Servidores de indexação funcionam em grid, podem ser máquinas distribuídas fisicamente em uma WAN - escalabilidade de indexação. Servidores de armazenamento funcionam em cluster, implementando um sistema de arquivos distribuído escalabilidade de armazenamento. Cluster de máquinas rodando O3 Deamon atendem a pedidos de conversão simultâneos escalabilidade de conversão. 17
Estrutura Comum - Infraestrutura À distribuição de carga é somada alta disponibilidade, sempre havendo um servidor que pode assumir a carga de outro que venha a sair da rede. Arquitetura já testada em laboratório com as seguintes cargas: Dezenas de milhares de arquivos. Dezenas de Gb de armazenamento. Centenas de usuários simultâneos. Dezenas de pedidos de conversão simultâneos. Testes mais pesados aguardam acúmulo de centenas de gigabytes de arquivos (em dezembro de 2007: cerca de 50 GBytes). 18
19
Biblioteca Digital Possuirá Thesaurus e Ontologia da EPT, que devem ser aplicados ao CDD, Portal da EPT e Observatório da EPT. Estrutura de conteúdo (categorias): Tipo (tese/dissertação, artigo e boletim). Autor. Área do CNPq. Ano. Origem. Termo do Thesaurus. 20
Biblioteca Digital Buscas: Categoria Ontologia Metadados Texto Integral Combinações das anteriores Opções de Busca: Resultados por página. Número de resultados por página. Relevância. Ordenação. Apresentação de grãos 21
Observatório Nacional da EPT Similar à BD, porém voltado para estatísticas e análises sobre o mundo do trabalho e da EPT. Estrutura de conteúdo (categorias): Tipo (notícia, nota, artigo e boletim). Região Ano. Origem. Termo do Thesaurus. Buscas e Opções de Busca: idênticas às da BD. 22
Centro de Documentação Digital Estrutura de conteúdo (categorias): Tipo (memorando, portaria, informe, projeto etc). Ano. Origem. Termo do Thesaurus. 23
Centro de Documentação Digital Buscas: Categoria Ontologia Metadados Texto Integral Combinações das anteriores Opções de Busca: Resultados por página. Número de resultados por página. Relevância. Ordenação. 24
Centro de Documentação Digital Baseado em dois conjuntos de componentes principais: modelos de documentos e workflows. Modelos de Documentos: De acordo com o tipo: memorando, portaria, informe, projeto etc. Visam padronizar estrutura de documentos e portanto da comunicação escrita via estes documentos. Permitem a extração automática de metadados. 25
26 Centro de Documentação Digital Workflows: Automação de processos de negócio. Permitem criar listas de distribuição e de trabalho (working lists). Necessitam modelagem apropriada (Business Process Modeling). Representam forte mudança cultural. Garantem correto encaminhamento do trabalho realizado sobre documentos, bem como seu armazenamento em meio digital e posterior recuperação. Auxiliam no gerenciamento do ciclo de vida dos documentos. Há previsão de desenvolvimento de uma ferramenta de gerenciamento e reuso de workflows para Zope.
Metodologia 27 Método de Trabalho Levantamento de requisitos foi baseada na experiência da equipe desenvolvedora, bem como envolveu pesquisa de aplicações semelhantes e uma compreensão da visão dos portais dentro do Projeto SIEP como um todo. Foi estabelecida uma escala de prioridades: das necessidades mais básicas até as opcionais mais sofisticadas. Desenvolvimento incremental, com releases semanais internas e previsão de releases públicas de acordo com os marcos estabelecidos no SIEP. Está em desenvolvimento um Processo de Modelagem de Aplicações ECM, independente da plataforma (Abril/2008).
Metodologia Método de Testes Testes dos formatos de arquivos Testes dos tipos de Conteúdo Testes de carga Testes de batch upload Testes de granularização Testes de funcionalidades Alguns números... 43.000 arquivos 50 Gb Taxa de erro: 5%, sendo que apenas 2,5% foram erros de código já corridos Erros devido à quantidade de versões dos mesmos formatos. 28
Produtos Obtidos até Dezembro de 2007 Granular Document PDF: questões de escalabilidade a resolver. Grain Collector e Grain Cart (Self Service) Visualização on-the-fly de grãos, documentos e vídeos. O3Tool + Serviço de Conversão de Documentos Enhanced Storage Extended Search Extended User (protótipo) Navegação por Metadados Esquema básico de indexação via Lucene Protótipo de estatísticas de buscas e acesso. 29
Produtos - 2008 Março Extrator de Tabela de PDF melhorado. Documentação melhorada. Conversão de PDF escalável. Refinamento do xuser. Abril Processo de Modelagem de Aplicações ECM. Granularização refinada. Granuralização de PDF mais escalável. Junho Estatísticas aperfeiçoadas. Serviços básicos estabilizados e certificados. Processo de ECM integrado à processo da STI. Pesquisa de otimização de cache concluída 30
Produtos - 2008 Junho Pesquisa de padrões de processos de negócio. Ferramenta de BPMMR Versão 1. Outubro Mecanismo de referência cruzada para BD. Dezembro Busca Federada Integração OLAP x Information Retrieval -Versão 1. XML Document Warehouse Versão 1. Integração com outras bases Versão 1. Modelar e implementar Processos de Negócio do CDD. Ferramenta de BPMMR. 31
Proposta de Arquitetura Emprego de SOA no back-end: criação de um Enterprise Service Bus (ESB), com mecanismos de registro (UDDI) e descoberta semântica de serviços (WSDL). Emprego de Web 2.0 no front-end: aproveitamento da inteligência coletiva e maior interatividade. Emprego de Visão Integrada das informações estruturadas e não-estruturadas, através de montagem de estrutura que facilite recuperação, reuso, distribuição, derivação e criação de conhecimento. 32
Proposta de Arquitetura - Produtos Granularizador: identifica os grãos dos objetos e permite sua recuperação e reuso. Biblioteca Digital: gerencia o conhecimento acadêmico (fim). Centro de Documentação Digital: gerencia o conhecimento administrativo* (meio). LiMProD - Linha de Montagem de Produtos Digitais: facilita a criação on-line de produtos digitais. ArDaX - Armazém de Dados XML: armazena os dados em formato flexível. RI - Recuperação Integrada: recupera informação de várias fontes de maneira inteligente. OnTEPT - Ontologia e Thesaurus da EPT: adiciona semântica (inteligência) às buscas. ReMeD Repositório de Metadados: padroniza nomes. 33
Proposta de Arquitetura - Fatores Deve haver integração também entre: Portal da EPT Observatório da EPT Portal da EPT à Distância SIEP Gerencial Seria necessário definir padrões metodológicos e tecnológicos, bem como adaptar processos e produtos. SOA promove reuso, reduzindo tempos e custos, porém acrescenta novas atividades ao processo de desenvolvimento e representa uma forte mudança de paradigma. 34
Proposta de Arquitetura - Ontologia Web 2.0 SOC LimProD ReI OnTEPT ReMeD ArDaX Granulador BD CDD 35
Conclusões Solução busca ser confiável, funcional, de baixo custo e capaz de rodar em hardware commodity. Fruto de cinco anos de amadurecimento da tecnologia e metodologia GINE no CEFET Campos. Experiência bem sucedida em outros projetos na mesma plataforma também contribuiu largamente. Já há artigo sobre a solução, publicado em evento internacional da IFIP e em livro da Springer- Verlag. São esperadas mais inovações, como integração OLAP-IR, XML Data Warehouse e Linha de Montagem. 36