Qualidade de Dados em Data Warehouse



Documentos relacionados
Checklist de Projeto de Data Warehouse

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Qualidade de Dados para Gestão do Conhecimento na Área de Saúde

Fundamentos em Teste de Software. Vinicius V. Pessoni

Disciplina: Gerenciamento de Projetos e Práticas de Integração. Gerenciamento de Projetos e Práticas de Integração AULA 3.

Gerência de Redes NOC

Gerenciamento de Dados e Gestão do Conhecimento

Engenharia de Software II: Criando a Declaração de Escopo. Prof. Msc Ricardo Britto DIE-UFPI rbritto@ufpi.edu.br

Políticas de Qualidade em TI

Programa de Capacitação em Gestão do PPA Curso PPA: Elaboração e Gestão Ciclo Básico. Elaboração de Planos Gerenciais dos Programas do PPA

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE CONFIGURAÇÃO

Banco de Dados I. 1. Conceitos de Banco de Dados

Implantação de um Processo de Medições de Software

PMI-SP PMI-SC PMI-RS PMI PMI-PR PMI-PE

Sistema de Gestão da Qualidade

Padrões de Qualidade de Software e Métricas de Software

PMI-SP PMI-SC PMI-RS PMI PMI-PR PMI-PE

Módulo 4: Gerenciamento de Dados

Gerência de Projetos Prof. Dr. Sandro Ronaldo Bezerra Oliveira

PRIMAVERA RISK ANALYSIS

Qualidade de Software. Profa. Cátia dos Reis Machado

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Projeto 2.47 QUALIDADE DE SOFTWARE WEB

Fundamentos de Gestão de TI

Professor: Disciplina:

Disciplina de Banco de Dados Parte V

Gerenciamento de Níveis de Serviço

SGQ 22/10/2010. Sistema de Gestão da Qualidade. Gestão da Qualidade Qualquer atividade coordenada para dirigir e controlar uma organização para:

Sistema de Informação Gerencial baseado em Data Warehouse aplicado a uma software house

Tecnologia e Sistemas de Informações

Desempenho da Fase Analítica. Fernando de Almeida Berlitz

UNIDADE VI - Planejamento e Controle de Projetos

Prova de Conhecimento para Consultores de Implementação MPS.BR INSTRUÇÕES

Exame de Fundamentos da ITIL

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

SISTEMA GERENCIADOR DE BANCO DE DADOS

Metodologia de Gerenciamento de Projetos da Justiça Federal

LINGUAGEM DE BANCO DE DADOS

Profa. Daniela Barreiro Claro

CONCURSO PÚBLICO ANALISTA DE SISTEMA ÊNFASE GOVERNANÇA DE TI ANALISTA DE GESTÃO RESPOSTAS ESPERADAS PRELIMINARES

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

Gerenciamento de Qualidade. Paulo C. Masiero Cap SMVL

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

CIÊNCIA DA COMPUTAÇÃO Engenharia de SoftwareLuiz Carlos Aires de Macêdo. Gestão de Projeto de Software

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

Engenharia de Software

APLICACAÇÃO DE METRICAS E INDICADORES NO MODELO DE REFERENCIA CMMI-Dev NIVEL 2

PODER JUDICIÁRIO TRIBUNAL REGIONAL DO TRABALHO DA 3ª REGIÃO

Pós-Graduação em Gerenciamento de Projetos práticas do PMI

Engenharia de Software Processo de Desenvolvimento de Software

PLANEJAMENTO ESTRATÉGICO Prof. Mércio Rosa Júnior PRODUÇÃO 02 e 03 de Fevereiro de 2011

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

GARANTIA DA QUALIDADE DE SOFTWARE

ISO/IEC 12207: Gerência de Configuração

Qual a diferença entre certificação e acreditação? O que precisamos fazer para obter e manter a certificação ou acreditação?

Padrões de Qualidade de Software

Fundamentos de Teste de Software

Engenharia de Software. Apostila I >>> Introdução à ES - HEngholmJr

Padrões de Qualidade e Métricas de Software. Aécio Costa

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

PEDRO HENRIQUE DE OLIVEIRA E SILVA MESTRE EM MODELAGEM MATEMÁTICA E COMPUTACIONAL PEDROHOLI@GMAIL.COM CMM E CMMI

CLOUD. tendências CLOUD. entendendo e contratando assertivamente. Agosto/2012 INFORMATIVO TECNOLÓGICO DA PRODESP EDIÇÃO 02

PROJETOS DE SISTEMA EMBALAGEM COM A ABORDAGEM PLM FIGURA 1: O SISTEMA EMBALAGEM E SEUS COMPONENTES.

LEVANTAMENTO DE REQUISITOS. Lílian Simão Oliveira

O Modelo de Entidades e Relacionamentos (MER) é um modelo conceitual usado para projeto de aplicações de banco de dados.

Modernização e Evolução do Acervo de Software. Gustavo Robichez de Carvalho guga@les.inf.puc-rio.br

Engenharia de Software

MASTER IN PROJECT MANAGEMENT

Análise de Pontos por Função

Data Mining: Conceitos e Técnicas

Introdução à Qualidade de Software. Profº Aldo Rocha

Fundamentos de Teste de Software

Garantia da Qualidade de Software

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Engenharia de Software na Prática Hélio Engholm Jr.

Melhores práticas no planejamento de recursos humanos

A Disciplina Gerência de Projetos

Gerência de Projetos de Software Modelos de gerência. CMM: Capability Maturity Model ITIL: Information Technology Infrastructure Library MPS BR

GESTÃO DE PROJETOS PARA A INOVAÇÃO

O que é CMMI? Base do CMMI. Melhorando o processo é possível melhorar-mos o software. Gerais. Processo. Produto

Nome: Login: CA: Cidade: UF CARTÃO RESPOSTA QUESTÃO RESPOSTA QUESTÃO RESPOSTA

Palestra Informativa Sistema da Qualidade NBR ISO 9001:2000

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

Engenharia de Software II: Definindo Projeto III. Prof. Msc Ricardo Britto DIE-UFPI

Modelo para elaboração do Plano de Negócios

Engenharia de Software III

FACULDADE INTEGRADAS DE PARANAÍBA ADMINISTRAÇÃO DE EMPRESAS. Bancos de Dados Conceitos Fundamentais

Roteiro SENAC. Análise de Riscos. Análise Quantitativa de Riscos. Análise Quantitativa de Riscos. Análise Quantitativa de Riscos

CHECK LIST DE AVALIAÇÃO DE FORNECEDORES Divisão:

CAPABILITY MATURITY MODEL INTEGRATION. Prof. Késsia R. C. Marchi

BANCO DE DADOS PROFESSOR MAURÍCIO - MAURICIO.MELLO@PUCPR.BR AULA 02. O Modelo Entidade-Relacionamento ( MER )

Transcrição:

Qualidade de Dados em Data Warehouse Prof. Dr. Jorge Rady de Almeida Jr. Escola Politécnica da USP C/1 Relevância do Tema Principal motivação p/ manter alta QD: impactos nos lucros DW: tomada de decisões estratégicas Desastres pela baixa QD (apenas USA) Ataque à embaixada chinesa em 99: 3 vidas e US$ 27 milhões endereço errado Perda de sonda climática da NASA em 99: US$ 125 milhões unidade de medida errada Incerteza na eleição presidencial em 2000 Paciente morre em 2003 após transplante de órgãos de outro tipo sanguíneo C/2 QD QD - Conceituação Medida de concordância entre os dados armazenados e seus valores reais Data Mining Qualidade de Dados Dimensões de QD Acuracidade: correção, livre de erros Disponibilidade Atualização Metadados Confiabilidade/Credibilidade C/3 C/4 Aspectos da Baixa QD Principais causas Entrada de dados inicial com problema Degradação dos dados: obsolescência Utilização incorreta dos dados: não conhecimento de significado/má interpretação Alta incidência de mudanças e reestruturação: troca de BD, migração,... Baixo nível de monitoramento dos dados Melhoria de QD Nível de QD pode ser melhorado pelo incentivo ao uso dos dados (analogia com fenômeno biológico da atrofia) (Ken Orr) Principais mecanismos Padronização segundo conjunto de regras (abreviaturas,...) Decomposição de registros (ex. endereço) Correção de metadados C/5 C/6 1

QD - Desafios Informações similares em BD diferentes Independência entre fontes de informação Cultura de manutenção dos dados Formatos dos dados Convenções locais Processo que afetam a QD Conversão de dados Integração de sistemas Carga manual de dados Mudanças em SW sem devido teste Remoção automática de dados Processos legados Custos C/7 C/8 Regras de QD Regras para a Qualidade de Dados Restrições que devem ser obedecidas pelos dados para garantir sua qualidade Regras não são as mesmas para projetos diferentes Restrições de Domínio do Atributo Restrições de Integridade Relacional Restrições para Dados Históricos C/9 C/10 Restrições de Domínio do Atributo Valores permitidos para cada atributo Valores dos atributos: características de objetos, pessoas, lugares, eventos Há valores que não podem ser representados nos atributos: não refletem a realidade do domínio Restrições presentes nos modelos / dicionários de dados (porém não atualizadas) Restrições de Domínio do Atributo Opcionalidade ou Obrigatoriedade: atributo pode aceitar ou não o valor nulo Opção: criar valor default para casos em que o valor é desconhecido Restrições de Formato: forma esperada para armazenamento dos valores Códigos identificadores de objetos não seguem um padrão Formato texto / formato numérico C/11 C/12 2

Restrições de Domínio do Atributo Restrições de precisão e granularidade: todos valores de um atributo devem ter a mesma precisão, granularidade e unidade de medida Precisão: para campos numéricos deve ser definido o número casas decimais desejado. Granularidade: campo salário representar o mesmo nível de granularidade (mensal, horário,...) Unidade de medida: moedas Restrições de Integridade Relacional Regras de Identidade: cada linha de uma tabela corresponde a uma única instância do conjunto de entidades do mundo real (chave primárias) Regras de Referência: cada valor de um objeto referenciado em uma tabela exista (na tabela referenciada) (chave estrangeira) Geralmente estão presentes nos modelos de dados nem sempre implementadas relaxamento em dados com problemas C/13 C/14 Restrições de Integridade Relacional Regras de Cardinalidade: restrições de cardinalidade de relacionamentos Pode haver uma cardinalidade específica não representada no modelo Relacionamento alternativo: dados reais não disponíveis no momento adequado Regras de Herança: entidades associadas por generalização/ especialização Restrições para Dados Históricos Regras de qualidade de dados para atributos dependentes do fator tempo Restrições de Timestamp: restrição de tempo associado ao valor de um atributo Restrições de granularidade e de continuidade. Granularidade: mesma período de agrupamento dos dados Continuidade: não pode existir uma lacuna na evolução histórica dos dados C/15 C/16 Restrições para Dados Históricos Restrições de Valores Valores históricos geralmente seguem um padrão Alguns tipos de padrões Direção dos dados (direção permitida) Magnitude (faixa de valores permitidos valor mínimo e valor máximo) Volatilidade (freqüência de mudança permitida) Restrições para Dados Históricos Restrições para eventos históricos Eventos históricos são mais complexos que valores históricos. Dependências entre eventos Condições de eventos C/17 C/18 3

Referências para a Qualidade de Dados C/19 C/20 Information Lifecycle Management for Data Warehousing:Matching Technology to Reality By W.H. Inmon, 2005 C/21 C/22 Modelo de Maturidade de Qualidade CMMI Modelo Integrado de Maturidade de Capacitação 5 níveis de maturidade: inicial, repetível, definido, gerenciado e otimizado CMMI específico p/ DW (Data Warehousing Process Maturity: An Exploratory Study of Factors Influencing User Perceptions, IEEE Transactions on Engineering Management, Sem; Sinha e Ramamurthy ago/2006) 5 níveis de maturidade de data warehouse Modelo de Maturidade de Qualidade IQMM Maturidade de Gerenciamento de Qualidade de Informação (Information Quality Management Maturity: Toward the Inteligent Learning Organization, TDAN.com, Larry English - 2004) 5 níveis de maturidade de qualidade de informação C/23 C/24 4

Exemplo de Mecanismo de Certificação de Dados que Chegam ao DW Fluxograma para a Qualidade de Dados C/25 C/26 Reconhecer o problema Evidência do Problema Freqüentes falhas/interrupções de sistema Mapear Queda Cadeia de na Inform. desempenho X Volume Atrito com clientes Determinação do Problema Avaliar Entrevistas Situação Atualcom clientes e empregados C/27 C/28 Buscar Divulgar Programa suporte de QD da gerência Definir e estabelecer Metadados política de propriedade de dados Atribuir responsabilidades sobre propriedade de dados Avaliar Gerar Situação documento Atual oficializando a política Divulgar programa de QD Mostrar aspectos de negócio e depois aspectos técnicos Treinamento Impacto econômico do nível de QD Dimensões da QD Projeto Técnicas Piloto de melhoria de QD Outros e sua Problemas medição C/29 C/30 5

Mapear a cadeia de informação Identificar estágios de processamento Determinar conectividade entre estágios Mapear cadeia de informação completa Elaborar o Ajuda a identificar oportunidades de melhoria Evidenciar maiores impactos ($) de Medir baixa Melhorias QD Mostrar a redução de custo esperada com a melhoria Scorecard: atividade, impacto, custo C/31 C/32 Avaliar situação atual Escolher locais críticos na cadeia de informação Escolher subconjunto das dimensões Outros da Problemas QD Medir QD atual C/33 Avaliar requisitos Refinar e detalhar requisitos Data Quality Identificar Scorecardrequisitos e responsáveis Identificar pontos de impacto na cadeia de informação C/34 Montar uma equipe Gerente proj., arquiteto sistema, especialistas, eng. regras de software e de Garantia da Qualidade Escolher projeto piloto Escolher onde a resolução do problema terá maior impacto C/35 C/36 6

Escolher ferramentas de trabalho Correção automática de dados Padronização de dados Definir modelo de metadados Tipos de dados e domínios, visões, consultas C/37 C/38 Definir regras de qualidade de dados Identificar domínios de dados Identificar mapeamento Definir regras de QD Tratamento de valores nulos e campos sobrecarregados Gerenciar fornecedores de dados Mostrar requisitos de QD Estabelecer e divulgar métricas a todos Impedir a entrada de dados incorretos C/39 C/40 Executar a melhoria Arquitetar solução: determinar Selecionar locais p/ Softwares integrar mecanismos de validação Integrar e testar regras Mapear Executar Cadeia de correção Inform. estática de Definir forma Regras automática de QD Migrar sistemas de regras p/ ambiente definitivo Medir melhorias percebidas Apresentar evidências de melhorias (nº de erros detectados) C/41 C/42 7

Conclusões Data Explorar Quality Scorecard outros problemas / projetos de QD Apresentar caso de sucesso para abrir novas oportunidades Baixa QD gera perdas de tempo, dinheiro e oportunidades QD não é subjetiva: pode ter requisitos, ser analisada, medida e melhorada QD p/ DW é ainda mais crítica, pois dados são usados p/ decisões estratégicas Organizações precisam gerenciar a qualidade de dados e ajustar processos de monitoração e correção de dados C/43 C/44 8