EXPLORANDO TÉCNICAS E RECURSOS DO GERENCIADOR DE DADOS ABERTOS CKAN Prof. Dr. José Eduardo Santarem Segundo USP santarem@usp.br TuaneFaria USP tuanefaria@yahoo.com.br
Introdução Disponibilizar Dados Disponibilizar os dados em grande parte das vezes não é uma tarefa tão trivial. É notado que em algumas organizações a política de informação, quando ela existe, não é clara a respeito da responsabilidade da publicação de dados abertos em formatos que possam ser consumidos pela comunidade, tampouco ao conhecimento de como fazê-lo ou então que ambientes tecnológicos utilizar para disponibilizar este tipo de informação.
Objetivos Apresentar o CKAN, um ambiente digital para gerenciamento de dados abertos, como ferramenta apta para a gestão dos dados abertos das organizações. Analisar algumas funcionalidades e recursos deste ambiente informacional digital como a utilização de metadados e seu sistema de harvester. Desmistificar a utilização do CKAN; minimizar a utilização de formatos proprietários na publicação de dados abertos assim como facilitar a interoperabilidade entre esses dados.
CKAN CKAN é um sistema de gerenciamento de dados abertos, open source, que oferece ferramentas para agilizara publicação,compartilhamento, recuperação e favorece a utilização dos dados publicados. CKAN é a plataforma mais utilizada pelos principais países que publicam dados abertos ao redor do mundo para tornar suas informações disponíveis.
Características Publicar e permitir a pesquisa, tanto com utilização de filtros como de tags, em dados através de uma interface web amigável; Armazenar os dados brutos e também seus metadados; Visualizar os dados em formatos estruturados como tabelas, gráficos e mapas; Ter integração direta como gerenciadores de conteúdo como Drupale Joomla; Permite criar um sistema de harvesterpara interoperabilidade com outros portais de dados abertos; Ser open sourcee por isso permitir o uso e também a customização se necessária;
Alguns projetos que utilizam CKAN Portal de Dados da Austria-contém dados do governo e de dados colhidos a partir de uma série de portais de cidade austríacas; Portal de Dados da Alemanha é um portal de dados federal da Alemanha, quefoi ao arem fevereiro de 2013.Ele inclui dados publicados pelo governo federal, bem como os dados colhidos a partir de portais regionais e das cidades usando as capacidades de harvesting do CKAN Portal de Dados da Holanda-O site é construído em Drupale usa o CKAN para o catálogo de dados. Portal de Dados da Noruega -O governo norueguês lançou seu site Open Data usando CKAN em dezembro de 2010. Porta de Dados do Reino Unido O Reino Unidofoi um dos primeiros portais de dados governamentais, lançado em 2009, usando o Drupalpara construir o site e CKAN como um back-end.foi relançado em junho de 2012, com páginas de pesquisa de dados agora apresentados diretamente pelo CKAN. Portal de Dados do Uruguai O Portal de Dados Abertos do Uruguaifoi lançado em 5 de dezembro de 2012. Agências governamentais nacionais e locais podem adicionar datsets ao catálogo. Portal de Dados Abertos do EUA -O governo dos EUA anunciou em janeiro de 2013 que estavam trocando e unificando seus catálogos de dados abertos. Os novos portais de dados utiliza a tecnologia CKAN. Portal Dados Abertos do Brasil Desenvolvido e administrado pela SECRETARIA DE LOGÍSTICA E TECNOLOGIA DA INFORMAÇÃO - SLTI
Estrutura de Metadados -CKAN Utiliza uma estrutura própria com os seguintes elementos: Título, Identificador único(url), Descrição, Histórico de revisão, Visualização de dados Conjunto de informações em formato CSV, Campos extras permitem qualquer tipo de informação adicional, como dados de localização ou tipos relevantes, Licença Informações a respeito do tipo de licença em que os dados estão publicados, Tags Sistema de rótulos para os dados publicados, Grupos(categorização), Múltiplos formatos (tabela com multiplicidade de formatos)
Relação com Dublin Core É notável que a comunidade que desenvolve o CKAN também entenda que o padrão Dublin Core é altamente recomendável para publicação de dados na Web; A documentação do CKAN apresenta uma sugestão de conversão do seu modelo de metadados para o Dublin Core, prevendo intercambio entre os formatos. No site da ferramenta há um conjunto de scripts que oferecem o formato de metadados Dublin Core integrado a plataforma CKAN.
Interoperabilidade e Harvester O harvesteré comumente conhecido como uma aplicação da interoperabilidade através de um processo de coleta de informações. O CKAN já tem incorporado o processo de harvesterna ferramenta de forma que possibilite todas as organizações que o utilizam a implementarem o serviço. Algumas organizações tem seus dados publicados em outros formatos, porém o processo de harvesterdo CKAN pode ser configurado para obter dados de diferentes repositórios, incluindo servidores com dados geográficos e outros catálogos com índices HTML.
Ferramenta Pesquisa Modelo de pesquisa rápida no formato Google-Style Pesquisar em todos os atributos do conjunto de dados; Pesquisa de texto completo nos campos; Fuzzy-matching:opção para procurar por termos que combinam em vez de correspondências exatas (lógica fuzzyé uma extensão da lógica booleana que admite valores lógicos intermediários); Busca facetada:drill-downatravés de facetas -por exemplo, etiquetas de formato, de licença, de editor.capacidade de consecutivamente restringir a pesquisa por novas facetas. Pesquisa via API.
Utilização Sugestão de ser instalado em plataforma Linux Debian/Ubuntu. Ferramenta baseada nas tecnologias: Linguagem de Programação Python Banco de Dados PostgreSQL Apache Solr- Plataforma de pesquisa OpenJDK6 JDK -Kit de Desenvolvedor Java Opção de imagem disponível através de uma Máquina Virtual para Oracle Virtual Box.
Demo Para experimentar um pouco do CKAN não é necessária exatamente a instalação e configuração do ambiente, apesar dessa ser a forma ideal de conhecer todos os detalhes da ferramenta. Uma versão demo (que não integra todos os recursos do CKAN) está disponível para ser utilizada: http://demo.ckan.org
Catálogo Aberto O DataHub(http://datahub.io/pt_BR/), é um portal administrado pela comunidade, que permite a disponibilização de dados abertos na Internet. O DataHubestá disponível em vários idiomas, incluindo o português brasileiro. Há outras iniciativas de catalogosque compartilham informações: Europe spublicdata (http://publicdata.eu) e o DataCatalog.org (http://datacatalogs.org/)
DataHub O Data Hubé um catálogo de dados abertos livremente editável, no estilo da Wikipédia. O DataHubfoi desenvolvido e é mantido pela Open Knowledge Foundation. Atualmente os países que mais publicam dados no DataHub são Senegal e Canadá.
Considerações Finais CKAN é hoje a principal alternativa para utilização e publicação de dados abertos ao redor do mundo; É possível verificar que a ferramenta, além de open source, tem um rico conjunto de funcionalidades e detalhes que o habilita não apenas para o depósito de dados, mas também para todos os conceitos de publicação da informação em ambientes abertos como boa ferramenta de pesquisa, a utilização de metadados, a questão da interoperabilidade e principalmente o enginepronto para harvester, facilitando a troca e coleta de dados entre comunidades distintas;
EXPLORANDO TÉCNICAS E RECURSOS DO GERENCIADOR DE DADOS ABERTOS CKAN Prof. Dr. José Eduardo Santarem Segundo USP santarem@usp.br TuaneFaria USP tuanefaria@yahoo.com.br