Checklist de Projeto de Data Warehouse Prof. Dr. Jorge Rady de Almeida Jr. Escola Politécnica da USP F/1 Revisão de Projeto Design Review Após uma área de interesse tenha sido projetada e posta em operação Resultados esperados Recomendações de futura ações Documentação de evolução do projeto Lista de atividades a serem realizadas Resolver problemas de comunicação da equipe Detecção de erros Identificação de Soluções F/2 Revisão de Projeto Design Review Participantes da revisão: Administrador de dados Administrador do banco de dados Programadores Analistas de DSS Outros usuários finais Pessoal de operação Suporte a sistemas Gerência F/3 Revisão de Projeto Design Review Conduzida por Facilitador Não deve ser o gerente ou desenvolvedor do projeto Perspectiva externa - nova visão dos sistema Críticas ao projeto não são recebidas como pessoais Relator F/4 1. Há algum grupo faltando à reunião? 2. Os requisitos do usuário final forma levantados? Até que nível de detalhamento? Usuário final concorda com os requisitos? 3. Quanto do projeto do DW já foi implementado? Quais áreas de interesse? Quantidade de dados? Em byte, registros, trilhas/cilindros? Quanto do processamento? Padrão de crescimento? F/5 F/6 1
4. Quantas áreas de interesse foram identificadas no modelo de dados? Quantas implementadas até o momento? Quantas já plenamente implementadas? Quantas a serem implementadas em curto/médio prazo? 5. Existe algum DW importante fora do ambiente de Caso positivo, qual a possibilidade de conflito/sobreposição? Há planos de migração para esses DW? F/7 F/8 6. Áreas de interesse identificadas foram detalhadas? Chaves? Atributos? 7. Os modelos das áreas da questão 6 são periodicamente revisados? Com que freqüência? Com bons resultados? F/9 8. As BD do ambiente operacional foram identificadas? Fonte de cada atributo? Caso não exista fonte para um atributo, os valores padrão foram identificados? Há mais de uma fonte? F/10 9. Qual a freqüência de realização de cargas para o Forma de identificação de novos dados? Marcas de tempo? Arquivo de log? Alteração do ambiente operacional? Comparação? 10. Que volume de dados está/estará contido no Se o volume de dados for grande, há vários níveis de granularidade? Dados são compactados? Eliminação periódica dos dados? Transferência para armazenamento de massa? F/11 F/12 2
11. À medida que o processamento de extração é efetuado, há dados eliminados do ambiente operacional? 12. Que software é utilizado no ETL? Foi testado? Há gargalos? Suporte técnico? Volume de dados? 13. Que software é usado para carga dos Data Marts? Interface? Monitoramento? 14. Organização física de dados usada no Dados acessados diretamente? Possível criação (fácil e rápida) de índices? F/13 F/14 15. Qual a facilidade para adicionar armazenamento adicional ao Qual a facilidade de reorganização periódica dos dados? 16. O DW tem de ser reestruturado com freqüência? Qual o efeito dessa reestruturação na operação do 17. 18. Quais os níveis de desempenho/ disponibilidade esperados/obtidos para o Padrões de desempenho/disponibilidade? Piores níveis de desempenho/ disponibilidade? F/15 F/16 19. Como os dados do ambiente de DW são indexados (índice primário, secundário, temporário? Overhead para manter os índices? Overhead para a carga inicial dos índices? 20.Quais os volumes de processamento do Períodos de pico? Dia médio 21. Qual é o nível de granularidade dos dados do Alto, baixo, vários níveis? F/17 F/18 3
22.Quais são os critérios para a eliminação de dados do Dados são de fato eliminados ou compactados e arquivados em outro meio? Requisitos legais? E de auditoria? 23.Requisitos de capacidade de processamento? Implementação inicial? Maturidade? 24.Há relacionamentos entre áreas de interesse no Dimensões comuns? Matriz de barramento? F/19 F/20 25.Forma de implementação de estruturas internas do (desempenho) Redundância seletiva? Dados derivados? Fusão de tabelas? 26.Sistema está preparado para recuperações parciais/total? Instruções escritas? 27.28. 29. Qual o nível de preparo para reorganizações do BD/carga de tabelas/índices? Pela operação? Pelo suporte? Pelo DBA Instruções/procedimentos redigidos e testados? Atualizado? F/21 F/22 30.Se houver controvérsias sobre a exatidão de dados do DW, como o conflito será resolvido? Origem dos dados está documentada? 31. Como é o processo de correção de dados no Com que freqüência? 32.Se houver dados públicos (sumários), onde são armazenados? Volume? Freqüência? 33.Quais são os requisitos de segurança para o Como são garantidos? F/23 F/24 4
34.Há requisitos de auditoria? Como são atendidos? 36.É feita a codificação de dados? Qual o overhead? 35.É utilizada compactação dos dados? Overhead da compactação/ descompactação dos dados? Qual economia de armazenamento? 37. 38. 39. Metadados, tabelas auxiliares/ de referência, catálogo de dados são armazenados no ambiente de F/25 F/26 40.São permitidas atualizações no ambiente de Justificativas? 42.Quais atividades do DW são registradas em log? Quem tem acesso aos logs? 41. Qual o período de carga do Push ou Pull do ambiente operacional para o 43.Há transferência de dados de Data Marts para o F/27 F/28 44.Que dados externos vão para o Têm marca especial? Fontes são armazenadas? Freqüência de carga? 45.Há facilidades para auxiliar o usuário de Data Marts para localizar dados no 46.Há intenção de unir o processamento operacional ao DW, na mesma máquina? Ao mesmo tempo? 47.Que quantidade de dados pode refluir do DW para o nível operacional? Volume? Resumos? F/29 F/30 5
48.Há muito processamento repetitivo no Cubos? 49.Como são identificados os Data Marts? Tempo? Localização geográfica? Tipo de Produto? 50.Há índices esparsos? 51. Há índices temporários? Por quanto tempo são mantidos? 52.Qual a documentação para os Data Marts? F/31 F/32 53.Usuário recebe alguma cobrança pelas consultas? 54.O DW é distribuído? 55.Qual o nível de monitoramento do DW Tabela, coluna, linha? 56.Há suporte para classe IV de ODS? Impacto no desempenho do 57.Facilidades/auxílios para os testes do 58.Data Marts são atualizados/carregados com que freqüência? Volume de dados? F/33 F/34 59.84. 85. Há exploration Warehouse? E Mining Warehouse? Que recursos são utilizados? 60.Há cargas muito grandes que ultrapassem janelas de tempo abertas para tal finalidade? Divisão/paralelização? 61. Há relacionamento entre os modelos midlevel? 62.O nível de granularidade é adequado para atender aos diversos níveis de Data Mart? F/35 F/36 6
63.88. 89. O DW é utilizado com Webhouse? Na granularidade mínima? 64.Qual o tempo para que dados passem para meios de armazenamento de massa? 65.80. O Há um CMSM Cross Media Storage Manager para controlar a movimentação dos dados entre meios de armazenamento? 66.Se for um DW global, quais dados são armazenados local e centralizadamente? F/37 F/38 67.Para um DW global, não são transgredidas leis de proteção aos dados? 69.Dados em armazenamentos alternativos podem ser processados independentemente? 68.DW + ERP: o DW está dentro ou fora do ambiente ERP? 70.Qual o modelo de desenvolvimento do (preferência pelo espiral) F/39 F/40 71. Há ferramentas ETL ou apenas processamento manual? 74.Há necessidade de referenciar dados não estruturados? Podem ter sido transferidos/removidos 72.73. Há dados não estruturados/ comunicações coporativas no Edição e organização - identificadores F/41 75.Há preocupação de minimizar o espaço ocupado por dados não estruturados? Por ex., armazenar apenas inicio do documento, ou imediações de palavras chave F/42 7
76.77. 78. 79. O DW é monitorado quanto a seu uso? Por coluna? Linha? Qual o consumo do monitor? Questão da eliminação/transferência de dados 81. Nas consultas há sinalização se os dados estão em meios de armazenamento alternativos? 82.Qual a taxa de crescimento do volume de dados? 83.Modelo dimensional? F/43 F/44 86.Data Marts usam o mesmo servidor do 87.A preocupação com desempenho é muito grande? Aplicação operacional no 90.É permitido acesso web diretamente no F/45 8