SOAR Data Quality Management: A Brazilian SOAR Data Archive Iranderly Fernandes de Fernandes UEFS
O que é Data Quality É o desagradável ser que fica apontando os defeitos no conjunto de dados? Prefiro pensar que seja a consciência do conjunto de dados. 2
Uma Visão Richard Wang (2000) defende a idéia de que a qualidade dos dados depende dos processo utilizados durante o projeto e geração desses dados. Ele trata a questão da qualidade sob duas perspectivas: visão interna e visão externa. Onde a visão interna trata do projeto e da operação E a visão externa trata da utilização e o valor da qualidade. 3
O que a Qualidade de Dados deve garantir em uma Data Warehouse Acurácia - representa a margem entre valor correto do dado e sua possível variação. Fornece a margem de erro aceitável. Precisão - a representação dos dados é fidedigna à realidade. Integridade - as estruturas dos dados são mantidas de forma consistente, de forma a garantir a veracidade das relações entre elas. Completude - todos os dados necessários estão presentes. 4
O que a Qualidade de Dados deve Garantir em uma Data Warehouse Validade - os valores estão dentro dos limites estipulados. Disponibilidade - os dados estão disponíveis quando requisitados. Acesso - os dados são facilmente acessados, compreendidos e usados. 5
Os problemas de Qualidade de Dados são gerados por: erros de entrada de dados, acomodação indevida de informações devido à inexistência de uma forma adequada de armazená-las, integração de fontes de dados, erros sistêmicos como modelagem inadequada ou insuficiente evolução e a necessidade de interação de novos sistemas com outros sistemas. 6
Tratamento de problemas de Qualidade de Dados Data profiling, (detecção avaliação correção ) a deduplicação, a padronização de dados, verificação de valores, a adoção de metadados (só para citar alguns). 7
SOAR VO e Data Quality Uma breve estória de acertos e erros Ou o real valor da qualidade de dados 8
Objective Create a SOAR VO compliant archive. Provides a seamless access to the SOAR astronomical data Archives Catalogs ( that will be produced) Provides analysis environment under which multiwavelength study can be easily conducted An analysis tool is dedicated for each instrument A homogeneous interface to the software Easy access to the software 1 9
Structure SOAR-VO Physical Structure MMDDYYYY Program 1 Tree structure (simple) (to reproduce real world) Logical Structure Program 2 Science Calibration Science Relational data base Metadata extracted from FITS header Tables of metadata crated MMDDYYYY Program 3 Program 1 Program 4 Calibration Science Calibration Program 5 3 10
Structure General Concept User SOAR-VO Protocols SOAR DB Federated DB 5 11
VO - Protocol Cone Search SIAP SSAP Data Scope 7 12
VO - Protocol Cone Search Example 8 13
Query Results HTML VOTable 9 14
VO - Protocol CSV - Comma Separated Values Navigation Chart (test phase) 10 15
VO Protocol SIAP (Simple Image Access Protocol) Example Images Download File 13 16
VO Protocol SIAP (Simple Image Access Protocol) Example FITS HEADER 14 17
VO Protocol Data Scope Calling the NVO Service 15 18
Data Quality Onde entra a qualidade dos dados nisso? O susto!!!!!!! 34% dos dados antigos do SOAR apresentavam problemas nos metadados. Problemas na parte binária dos arquivos FITS (SOI) Neste momento é que se percebe a necessidade de um processo de Data Quality. 19
Investigação Onde seria a fonte deste problema? Como corrigí-lo? 20
Modos de Aquisição Fila (Brasil) Clássico (Parceiros e Brasil) Remoto (parceiros e Brasil) Imprecisão humana ao criar o header 21
Instrumentos SOI OSIRIS Godmann Outros Headers (metadados) não homogêneos. 22
Correções Da parte de obtenção de dados Aviso ao astrônomo que o Controle do telescópio está operacional (garante que os headers sejam escritos). Impossível definir um único modo de aquisição. Porém, pode se tentar minimizar a interação do astrônomo com o software de aquisição. Garantir que o observador forneça uma descrição detalhada da noite de observação através do log de observação. Reuniões da equipe de astrônomos residentes para discutir falhas e minimizá-las. 23
Correções Da parte dos bancos de dados Recuperar as informações faltantes por meio dos logs de observação. Ou por meio do banco de dados de solicitações de tempo. Criar um conjunto de metadados homogêneo e funcional ao VO e editá-los. 24
Concluindo Moral da estória: Com data quality tem solução. Porém é interessante garantir que não seja preciso mudanças drásticas durante o processo de criação da data warehouse. Como? Tentando descobrir pontualmente onde pode ser gerado uma imprecisão e de pronto sugerir a sua correção sistemática. Pensando todo o processo da aquisição e criação do dado até o usuário final 25
OBRIGADO 26