Qualidade de Dados em Data Warehouse Prof. Dr. Jorge Rady de Almeida Jr. Escola Politécnica da USP C/1 Relevância do Tema Principal motivação p/ manter alta QD: impactos nos lucros DW: tomada de decisões estratégicas Desastres pela baixa QD (apenas USA) Ataque à embaixada chinesa em 99: 3 vidas e US$ 27 milhões endereço errado Perda de sonda climática da NASA em 99: US$ 125 milhões unidade de medida errada Incerteza na eleição presidencial em 2000 Paciente morre em 2003 após transplante de órgãos de outro tipo sanguíneo C/2 QD QD - Conceituação Medida de concordância entre os dados armazenados e seus valores reais Data Mining Qualidade de Dados Dimensões de QD Acuracidade: correção, livre de erros Disponibilidade Atualização Metadados Confiabilidade/Credibilidade C/3 C/4 Aspectos da Baixa QD Principais causas Entrada de dados inicial com problema Degradação dos dados: obsolescência Utilização incorreta dos dados: não conhecimento de significado/má interpretação Alta incidência de mudanças e reestruturação: troca de BD, migração,... Baixo nível de monitoramento dos dados Melhoria de QD Nível de QD pode ser melhorado pelo incentivo ao uso dos dados (analogia com fenômeno biológico da atrofia) (Ken Orr) Principais mecanismos Padronização segundo conjunto de regras (abreviaturas,...) Decomposição de registros (ex. endereço) Correção de metadados C/5 C/6 1
QD - Desafios Informações similares em BD diferentes Independência entre fontes de informação Cultura de manutenção dos dados Formatos dos dados Convenções locais Processo que afetam a QD Conversão de dados Integração de sistemas Carga manual de dados Mudanças em SW sem devido teste Remoção automática de dados Processos legados Custos C/7 C/8 Regras de QD Regras para a Qualidade de Dados Restrições que devem ser obedecidas pelos dados para garantir sua qualidade Regras não são as mesmas para projetos diferentes Restrições de Domínio do Atributo Restrições de Integridade Relacional Restrições para Dados Históricos C/9 C/10 Restrições de Domínio do Atributo Valores permitidos para cada atributo Valores dos atributos: características de objetos, pessoas, lugares, eventos Há valores que não podem ser representados nos atributos: não refletem a realidade do domínio Restrições presentes nos modelos / dicionários de dados (porém não atualizadas) Restrições de Domínio do Atributo Opcionalidade ou Obrigatoriedade: atributo pode aceitar ou não o valor nulo Opção: criar valor default para casos em que o valor é desconhecido Restrições de Formato: forma esperada para armazenamento dos valores Códigos identificadores de objetos não seguem um padrão Formato texto / formato numérico C/11 C/12 2
Restrições de Domínio do Atributo Restrições de precisão e granularidade: todos valores de um atributo devem ter a mesma precisão, granularidade e unidade de medida Precisão: para campos numéricos deve ser definido o número casas decimais desejado. Granularidade: campo salário representar o mesmo nível de granularidade (mensal, horário,...) Unidade de medida: moedas Restrições de Integridade Relacional Regras de Identidade: cada linha de uma tabela corresponde a uma única instância do conjunto de entidades do mundo real (chave primárias) Regras de Referência: cada valor de um objeto referenciado em uma tabela exista (na tabela referenciada) (chave estrangeira) Geralmente estão presentes nos modelos de dados nem sempre implementadas relaxamento em dados com problemas C/13 C/14 Restrições de Integridade Relacional Regras de Cardinalidade: restrições de cardinalidade de relacionamentos Pode haver uma cardinalidade específica não representada no modelo Relacionamento alternativo: dados reais não disponíveis no momento adequado Regras de Herança: entidades associadas por generalização/ especialização Restrições para Dados Históricos Regras de qualidade de dados para atributos dependentes do fator tempo Restrições de Timestamp: restrição de tempo associado ao valor de um atributo Restrições de granularidade e de continuidade. Granularidade: mesma período de agrupamento dos dados Continuidade: não pode existir uma lacuna na evolução histórica dos dados C/15 C/16 Restrições para Dados Históricos Restrições de Valores Valores históricos geralmente seguem um padrão Alguns tipos de padrões Direção dos dados (direção permitida) Magnitude (faixa de valores permitidos valor mínimo e valor máximo) Volatilidade (freqüência de mudança permitida) Restrições para Dados Históricos Restrições para eventos históricos Eventos históricos são mais complexos que valores históricos. Dependências entre eventos Condições de eventos C/17 C/18 3
Referências para a Qualidade de Dados C/19 C/20 Information Lifecycle Management for Data Warehousing:Matching Technology to Reality By W.H. Inmon, 2005 C/21 C/22 Modelo de Maturidade de Qualidade CMMI Modelo Integrado de Maturidade de Capacitação 5 níveis de maturidade: inicial, repetível, definido, gerenciado e otimizado CMMI específico p/ DW (Data Warehousing Process Maturity: An Exploratory Study of Factors Influencing User Perceptions, IEEE Transactions on Engineering Management, Sem; Sinha e Ramamurthy ago/2006) 5 níveis de maturidade de data warehouse Modelo de Maturidade de Qualidade IQMM Maturidade de Gerenciamento de Qualidade de Informação (Information Quality Management Maturity: Toward the Inteligent Learning Organization, TDAN.com, Larry English - 2004) 5 níveis de maturidade de qualidade de informação C/23 C/24 4
Exemplo de Mecanismo de Certificação de Dados que Chegam ao DW Fluxograma para a Qualidade de Dados C/25 C/26 Reconhecer o problema Evidência do Problema Freqüentes falhas/interrupções de sistema Mapear Queda Cadeia de na Inform. desempenho X Volume Atrito com clientes Determinação do Problema Avaliar Entrevistas Situação Atualcom clientes e empregados C/27 C/28 Buscar Divulgar Programa suporte de QD da gerência Definir e estabelecer Metadados política de propriedade de dados Atribuir responsabilidades sobre propriedade de dados Avaliar Gerar Situação documento Atual oficializando a política Divulgar programa de QD Mostrar aspectos de negócio e depois aspectos técnicos Treinamento Impacto econômico do nível de QD Dimensões da QD Projeto Técnicas Piloto de melhoria de QD Outros e sua Problemas medição C/29 C/30 5
Mapear a cadeia de informação Identificar estágios de processamento Determinar conectividade entre estágios Mapear cadeia de informação completa Elaborar o Ajuda a identificar oportunidades de melhoria Evidenciar maiores impactos ($) de Medir baixa Melhorias QD Mostrar a redução de custo esperada com a melhoria Scorecard: atividade, impacto, custo C/31 C/32 Avaliar situação atual Escolher locais críticos na cadeia de informação Escolher subconjunto das dimensões Outros da Problemas QD Medir QD atual C/33 Avaliar requisitos Refinar e detalhar requisitos Data Quality Identificar Scorecardrequisitos e responsáveis Identificar pontos de impacto na cadeia de informação C/34 Montar uma equipe Gerente proj., arquiteto sistema, especialistas, eng. regras de software e de Garantia da Qualidade Escolher projeto piloto Escolher onde a resolução do problema terá maior impacto C/35 C/36 6
Escolher ferramentas de trabalho Correção automática de dados Padronização de dados Definir modelo de metadados Tipos de dados e domínios, visões, consultas C/37 C/38 Definir regras de qualidade de dados Identificar domínios de dados Identificar mapeamento Definir regras de QD Tratamento de valores nulos e campos sobrecarregados Gerenciar fornecedores de dados Mostrar requisitos de QD Estabelecer e divulgar métricas a todos Impedir a entrada de dados incorretos C/39 C/40 Executar a melhoria Arquitetar solução: determinar Selecionar locais p/ Softwares integrar mecanismos de validação Integrar e testar regras Mapear Executar Cadeia de correção Inform. estática de Definir forma Regras automática de QD Migrar sistemas de regras p/ ambiente definitivo Medir melhorias percebidas Apresentar evidências de melhorias (nº de erros detectados) C/41 C/42 7
Conclusões Data Explorar Quality Scorecard outros problemas / projetos de QD Apresentar caso de sucesso para abrir novas oportunidades Baixa QD gera perdas de tempo, dinheiro e oportunidades QD não é subjetiva: pode ter requisitos, ser analisada, medida e melhorada QD p/ DW é ainda mais crítica, pois dados são usados p/ decisões estratégicas Organizações precisam gerenciar a qualidade de dados e ajustar processos de monitoração e correção de dados C/43 C/44 8