Como garantir o sucesso nas iniciativas de Migração de Dados 1
2 Enquadramento
Migração de Dados Requisito habitual no Desenvolvimento Desenvolvimento de Aplicações Consolidação Aplicacional Upgrade M&A - Integração Conversão Legacy Outsourcing 54% 20% 13% 7% 5% 2% 0% 10% 20% 30% 40% 50% 60% Philip Howard Research Director www.bloor-research.com Setembro 2007 3
Os projectos de Migração têm um alta taxa de insucesso On time/on budget 16% Budget overrun 84% 84% dos projectos de migração de dados falham ou excedem o tempo/budget Metade excede o tempo em 3/4 Os budgets são ultrapassados em 2/3 - desvios, em média, de 30% 1/3 destes falham completamente Bloor Research Data Migration in the Global 2000 Setembro 2007 4
Migration is not just about moving the data It s about making data work. Pressupostos Poucos sistemas Formatos Todos os Interfaces específicosdados estão documentadas Dados válidos fonte dos dados disponíveis Realidade Muitos mais sistemas Dados emnecessitamosinterfaces Qualidade formatos dados desconhecidasdos dados fonte desconhecidos que não fraca estão disponíveis 5
Abordagem tradicional Díspares ambientes e processos de desenvolvimento/testes A Migração de Dados é frequentemente encarada como um processo com 4 fases Diferentes ferramentas para cada uma das fases Mainframe / Midrange / ERP / Legacy: diferentes plataformas, cada qual com o seu processo de desenvolvimento e testes Análise Extrair/ Transf. Validação Migração Ferramenta 1 Ferramenta 2 Ferramenta 3 Ferramenta 4 6
7 Abordagem da Informatica aos Processos de Migração
A abordagem da Informatica aos projectos de Migração de Dados Análise Extrair/ Transf. Validação Análise Extrair/ Transf. Validação Migração Validar Migração* Extrair/ Transf. Análise Plataforma end-to-end para migração de dados, permitindo iterações mais rápidas e frequentes 8
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e WebServices 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 9
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e WebServices 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 10
Aceder aos Dados das Fontes/Destinos Desafios Fontes de dados heterogéneas Cada sistema requer a sua equipa de recursos experientes Mainframe, SAP, Siebel, DB2 relacionais, Dados nãoestruturados, etc. Movimentação de Dados distribuídos e remotos Companhias são cada vez mais Globais M&A fusão de empresas; os dados encontram-se dispersos por múltiplas empresas Outsourcing os dados nos sistemas outsourced continuam a ser críticos para a organização Volumes de dados e latência variáveis Conversões (bulk) vs. Interfaces (bi-direccionais, menor latência) 11
Aceder aos Dados das Fontes/Destinos A solução da Informatica Acesso nativo e uniforme às fontes e destinos de dados Acesso Local ou Remoto (inclusive através de firewalls) Sem alterar a lógica do desenvolvimento Encriptação e compressão dos dados Acesso on-demand aos dados Batch Change Data Capture Real Time 12
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e WebServices 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 13
Definição de Data Profiling Análise dos dados para compreender o seu conteúdo, estrutura, qualidade e dependências DB Ficheiro App DB Ficheiro App SAP DB/2 Perfilamento de colunas Perfilamento de dependências Perfilamento de redundâncias 14
15 Perfilamento de dependências/ redundâncias Exemplo de perfilamento Padrões Frequência Valores inválidos Análise de órfãos Perfilamento de colunas
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e Web Services 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 16
Desenvolvimento Processo de Migração: Profiling Conversão Profiling Cleanse ETL Planos de DQ Planos de ETL O Perfilamento dá ao analista o nível de detalhe necessário para este formular as regras de conversão adequadas A lógica dos mapeamentos de conversão são desenvolvidos com base nestas regras A Conversão é a aplicação das regras e lógicas de negócio para resolver os problemas nos dados 17
Desenvolvimento ETQL DQ perfeitamente integrado com processo de ETL 18 ETQL
Desenvolvimento Exemplo de Dados de Nome e Morada As transformações específicas de DQ são um passo natural dentro do processo de integração Normalização de Nomes e Moradas Correcção de Código Postal Input Dout. Dout. Jose Jose MAnuel MAnuel dos dos Santos Santos Silva Silva Santos Santos & & Silva Silva Lisboa, Lisboa, Rua Rua das das Flores, Flores, 3-4D 3-4D 1050 1050 Output Título: Título: Dr. Dr. Nome: Nome: José José Manuel Manuel Apelido: Apelido: Silva Silva Outros Outros nomes: nomes: dos dos Santos Santos Empresa: Empresa: Santos Santos & & Silva, Silva, LDA LDA Morada: Morada: Rua Rua das das Flores, Flores, Nº Nº 3, 3, 4D 4D Localidade: Localidade: Lisboa Lisboa Cód. Cód. Postal: Postal: 1050-049 1050-049 19
Desenvolvimento Exemplo de Dados de Nome e Morada Parsing e Normalização Dout. Jose MAnuel dos Santos Silva, Lisboa, Rua das Flores, 3-4D 1050 Dr. José Manuel dos Santos Silva Rua das Flores Nº 3 4D Lisboa 1050-049 Cleansing e Validação Rua das Flores, Nº 3, 4D, Lisboa é uma morada correcta? 1050 é um código postal válido? 1050-049 Matching e Householding 3 José Manuel Silva serão o mesmo registo? José Manuel Silva e Carla Silva uma família? 20
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e Web Services 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 21
Testes e Validação Qual o suporte da Informatica Possibilita regras de validação baseadas na metadata Estas regras são automaticamente forçadas Segmentos mandatórios vs. opcionais Ocorrências Min/Max entre segmentos pai e filhos Validações ao tipo de dados e tamanho dos campos Validação aquando da análise/desenho vs. descoberta após processo de migração dos dados Aumenta a confiança nos dados a migrar Comparação antes e depois possibilita iterações mais rápidas Perfilar e comparar os dados fonte e destino 22
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e Web Services 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 23
Iteração Porquê uma abordagem iterativa 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação 5. Iteração O estado dos dados e das regras de negócio durante o projecto de migração são dinâmicos As regras de negócio e os dados/metadados sofrem contínuas alterações (mais frequentemente nos sistemas fonte, mas também no sistema destino) durante a fase de análise do projecto Revalidamos todo o processo Disponibilidade parcial dos dados fonte Podemos ter acesso limitado a samples ou sub-conjuntos dos dados 24
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e Web Services 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 25
Execução Desafios desta fase Necessidade de processar grandes volumes de dados Migrar os dados numa janela de tempo limitada As aplicações que suportam o negócio apenas podem ser suspensas durante períodos limitados de tempo Identificar e suportar as dependências entre os dados As interdependências entre as tarefas de migração são complicadas Exemplo: posso carregar todos os dados transaccionais dos Clientes apenas após o carregamento do master de Clientes 26
Execução Benefícios e capacidade da Informatica Elevada performance A performance e optimização da plataforma da Informatica garantem uma vantagem decisiva Optimização através do paralelismo (Partitioning) Suporte a arquitecturas distribuídas (Grid) High Availability Push Down Optimization Capacidade de orquestrar os processos envolvidos na migração Suporta processos complexos e automatizados Suporta interdependências entre os diversos processos Alertas e testes de erros out-of-the-box Possibilidade de integrar com outras ferramentas de scheduling (ex. Control-M) 27
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e Web Services 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 28
Sincronizar Porquê sincronizar? Scope agressivo do projecto de migração Tentativa de rapidamente utilizar a nova aplicação, enquanto se desligam os sistemas antigos Movimentação bi-direcional de dados Os sistemas antigos (legados) são muitas das vezes mantidos em paralelo com a aplicação destino Leva ao aumento das tarefas de migração e número de recursos 29
Sincronizar Benefícios e capacidade da Informatica Reutilização do esforço de conversão batch A lógica é a mesma, diferente latência Movimentação bi-direcional de dados numa plataforma única Sistemas fonte e destino (mainframe, SAP, DBs relacionais) A latência na movimentação dos dados é uma decisão de configuração, não uma decisão de codificação Real-time Change Batch 30
Plataforma da INFORMATICA para Migração de Dados Mainframe e Sistemas Midrange 2. Analisar/ Perfilar 3. Desenvolvimento 4. Testes e Validação XML, Messaging, e Web Services 5. Iteração Aplicações (SAP, Siebel, ), Legacy Systems 1. Aceder às fontes/dados 6. Executar a Migração 7. Dados de Destino Aplicação de Destino DBs relacionais e Flat Files 8. Sincronizar 9. Auditar/Lineage Informatica Data Integration Platform 31
Auditar Desafios do Projecto Visibilidade limitada do projecto global de migração Plano de projecto baseia-se no acompanhamento das tarefas/progresso, não nos dados/processos Ponto de situação disperso por equipas e ferramentas distintas É difícil provar o sucesso do processo de migração Que dados foram migrados? Como foram convertidos? Que erros ocorreram no processo global de migração? 32
Auditoria Linhagem de dados Análise visual de como os dados foram convertidos e migrados Análise end-to-end dos metadados dos mappings/processos de migração Drill in em qualquer elemento para analisar a documentação/descrição, lógica de conversão utilizada ou derivar um where-used report (útil em análises de impacto) 33
Auditoria Linhagem de dados Documentação automática dos fluxos de dados Validar os fluxos de dados, desde a fonte até ao destino Forward lineage Aplicações Backwards lineage Aplicações Bases de Dados Bases de Dados 34 Validar todos os detalhes do campo Perfilamento integrado
35 Takeaways
Takeaways Processo Iterativo Perfilamento Lógica x Desenv. Qualidade Dados Sincronismo Auditoria Única Plataforma Revisão contínua dos dados garantem que aquando da migração não temos surpresas Análise dos dados para compreender o seu conteúdo, estrutura, qualidade e dependências Concentrar na Lógica da Migração e não dificuldades de Desenvolvimento (fontes de dados heterogéneas) Qualidade de Dados, Qualidade de Dados, Qualidade de Dados Avaliar se é necessário assegurar algum processo de replicação de dados Podemos auditar que dados foram migrados e quais as transformações a que foram sujeitos A plataforma de Integração e Qualidade de Dados da Informatica suporta todo o projecto de migração 36
Questões Obrigado Daniel Carvalho Account Manager daniel.carvalho@powerdataib.com 37