Master Data Management Luis Torres 1, Helena Galhardas 2, João Damásio 3. 1) Instituto Superior Técnico, Lisboa, Portugal luis.torres@tagus.ist.utl.pt 2) Instituto Superior Técnico, Lisboa, Portugal helena.galhardas@tagus.ist.utl.pt 3) Link Consulting, Lisboa, Portugal joao.damasio@link.pt Resumo A crescente necessidade das organizações lidarem com múltiplas fontes de informação exacerba a necessidade de novas técnicas e metodologias que facilitem a resolução de problemas como a inconsistência e incoerência dos dados, assim como integração e sincronização das fontes de dados. Neste artigo apresentamos uma arquitectura Master Data Management (MDM) que suporta um repositório com informação fiável acerca da entidade informacional Cliente. Esta arquitectura não se encontra limitada à entidade Cliente, podendo ser utilizadas diferentes entidades tais como Produto, Fornecedor, Empregado. São abordados os principais componentes de um sistema MDM e os processos necessários para a sua integração com os sistemas de uma organização. Palavras chave: Integração de Dados, Limpeza de Dados, Gestão de Informação. 1. Introdução Hoje em dia as organizações lidam com diversa informação que necessita de ser gerida e mantida. Dada a estrutura departamental de muitas organizações, onde cada departamento tem as suas fontes de dados, estas vêm os seus dados dispersos por vários sistemas, levando a inconsistências nos dados. 1.1. Exemplo de motivação Suponhamos uma organização cujo departamento comercial necessita de armazenar informação sobre o comportamento de facturação dos seus clientes de modo a aferir a pontualidade nos pagamentos. O sistema utilizado é um ERP (Enterprise Resource Planning) cuja função é integrar informação oriunda de vários processos de negócio, tais como vendas, marketing, produção, recursos humanos [Laudon et al. 2006].
Consideremos também o departamento de marketing que necessita de informação mais específica sobre clientes onde o sistema utilizado é um CRM (Customer Relationship Management). Este sistema tem como objectivos permitir a gestão dos clientes e melhorar a relação entre estes e a organização. Estes sistemas providenciam informação para coordenar todos os processos de negócio que lidam com clientes no que diz respeito a vendas e campanhas de marketing. Disponibilizam também serviços que permitem aumentar os lucros e a satisfação dos clientes [Laudon et al. 2006]. Estas fontes de dados encontram-se representadas na Figura 1, podendo-se verificar os diferentes esquemas de dados e registos mantidos por cada uma destas fontes. Figura 1- Clientes departamento Comercial (Cliente_COM) e Clientes departamento Marketing (Cliente_MKT) Nesta imagem, é possível perceber que a informação não se encontra consistente em ambas as fontes. De facto, a rua e o código postal referentes à cliente "Ana Reis", na tabela Cliente_COM (à esquerda), têm valores diferentes do campo morada apresentado na tabela Cliente_MKT (à direita). Também é possível observar que existem clientes cuja informação apenas é mantida num dos sistemas. Por exemplo, a informação referente ao cliente "Rui Lima" apenas se encontra localizada no departamento de Marketing. 1.2. Problemática Primeiro, um cliente pode não ser considerado numa situação em que seria relevante que o fosse. Perante a existência de uma campanha de marketing adequada às necessidades do cliente, o cliente "Filipe Dias" não teria conhecimento da campanha por não constar no sistema do departamento de Marketing. Acabaria assim por não aderir a uma campanha que aumentaria a sua satisfação em relação aos serviços da organização. Segundo, a realização de acções com base em informação inconsistente e desactualizada pode provocar prejuízos à organização. Um exemplo que ilustra esta situação é o caso em que a cliente "Maria Fonte" muda a sua morada para "Rua do perfume 3231-123" e comunica esta alteração à organização. A nova morada é registada pelo departamento Comercial. Desconhecendo esta actualização, o departamento de Marketing acaba por enviar campanhas publicitárias para a morada antiga da cliente, desperdiçando recursos. Em terceiro lugar, pode surgir a situação em que um cliente é considerado duplicadamente devido à sua informação se encontrar replicada em ambos os sistemas. Esta situação pode levar a um descontentamento do cliente por ser contactado várias vezes pelo mesmo assunto. Esta situação pode ocorrer com a cliente "Maria Fonte" perante uma campanha efectuada a todos os clientes existentes nos sistemas CRM e ERP.
1.3. Objectivos Este artigo tem como objectivo apresentar uma visão generalizada de uma arquitectura MDM na vertente das arquitecturas, processos e ferramentas MDM. 2. Solução Master Data Management A existência dos problemas mencionados na Secção 1.2 leva à necessidade de um componente que integre os vários sistemas de dados da organização que contêm informação relevante. Este componente deve permitir a definição do esquema de dados integrado (como o representado na Figura 2), controlo da qualidade dos dados (e.g., detecção de duplicados) e mecanismos para disseminação dos dados. Figura 2 - Dados Mestre - Visão Integrada dos Clientes No exemplo de motivação, este componente permite à organização o usufruto de um repositório que contém a informação integrada de todas as fontes referentes a clientes. Ou seja, passa a existir uma visão única que contém dados "verdadeiros" sobre a entidade informacional Cliente [Wise 2008] [Dreibelbis 2008]. Este componente tem o nome de sistema de Master Data Management (MDM). Neste sistema, os dados que resultam da integração de informação existente nas diferentes fontes de dados têm o nome de Dados Mestre (ver Figura 2). Neste artigo, definimos MDM como sendo um componente de software cuja principal funcionalidade é permitir a uma organização criar um ponto único de acesso a todos os dados referentes a uma entidade informacional. Este sistema é responsável por garantir a qualidade dos Dados Mestre e disseminar as alterações efectuadas neste repositório para todas as fontes de dados, passando assim, cada fonte de dados a ter informação fiável e actualizada. Arquitectura MDM Tipicamente, uma arquitectura MDM (ver Figura 3) é constituída por dois componentes principais: (i) Sistemas fonte; (ii) Sistema MDM. Os sistemas fonte são os sistemas previamente existentes na organização que contêm a informação sobre uma entidade informacional de forma dispersa. O MDM é o sistema que visa integrar os dados de forma a criar uma vista única. Este sistema envolve as seguintes quatro componentes: (i) Dados Mestre; (ii) Metadados; (iii) Qualidade de dados e (iv) Integração de dados.
Figura 3- Arquitectura de um sistema MDM Dados Mestre trata-se de um repositório de dados que mantém de forma persistente os Dados Mestre. O componente de Metadados consiste num repositório de dados que mantém informação sobre os dados das fontes de dados e os Dados Mestre, guardando também os mapeamentos de esquemas entre as fontes de dados e os Dados Mestre. A componente de Qualidade de dados é o módulo responsável por efectuar um préprocessamento dos dados de entrada do sistema MDM. Consiste num conjunto de técnicas que permitem resolver problemas existentes nos dados de modo a que estes sejam fiáveis [Batini 2006]. Relativamente à Integração de Dados, trata-se de um componente que recorrendo aos mapeamentos de esquemas visa combinar dados oriundos de diferentes fontes de dados de modo a disponibilizar uma visão unificada dos mesmos [Lenzerini 2002]. 3. Processos A interligação entre o sistema MDM e as fontes de dados é levada a cabo pelos seguintes processos: (i) Carregamento dos dados; (ii) Actualização de dados e (iii) Disseminação de dados (ver Figura 1). O processo de Carregamento dos dados corresponde à fase inicial em que o sistema MDM não contém dados. Este processo é responsável pela extracção de informação, relativa aos atributos relevantes para os Dados Mestre, dos sistemas fonte da organização que representa parcialmente a entidade informacional para a qual se está a desenvolver a solução. Numa fase posterior em que o sistema MDM contém dados, o carregamento integral dos dados dada uma actualização nas fontes é muito dispendioso. Para que tal não ocorra, é necessário um processo que, de forma incremental, seja responsável por identificar as actualizações que
ocorram nas fontes de dados, de modo a que essas mesmas actualizações também sejam realizadas nos Dados Mestre. Este processo designa-se por Actualização de dados. Os dados de entrada do sistema MDM são sujeitos a um processo de integração e a um tratamento que permite aumentar a sua qualidade. Os Dados Mestre contêm os dados verdadeiros de cada instância da entidade informacional. Assim sendo, uma actualização nos Dados Mestre deve implicar a disseminação desta alteração para os diversos sistemas fonte a fim de os manter sincronizados com o sistema MDM. Este processo denomina-se de Disseminação de dados, podendo ser executado em tempo real ou modo batch (e.g., diariamente à 01h00). 4. Ferramentas Existem ferramentas disponíveis no mercado que permitem implementar uma solução MDM numa organização. Ao longo desta secção, serão identificados os critérios principais que permitem avaliar uma ferramenta MDM. Posteriormente, apresentaremos as principais ferramentas e utilizamos os critérios previamente definidos para classificar as mesmas. Por fim, será realizada a comparação entre as ferramentas. 4.1. Critérios de avaliação de ferramentas Após análise dos critérios definidos em [Radcliffe 2008] e considerando as características da arquitectura MDM, definiram-se os cinco seguintes critérios para avaliação de uma ferramenta MDM: Capacidade de modelação dos dados - Uma ferramenta deve ser capaz de modelar correctamente os dados da organização, em particular as relações hierárquicas mais complexas. Associada à correcta modelação, encontra-se o mapeamento do modelo de dados dos sistemas fonte no modelo dos Dados Mestre. Capacidade de gestão de qualidade dos dados - Dada a necessidade inerente à qualidade dos dados para uma solução MDM, a ferramenta deve conter um módulo que trate da qualidade dos dados ou disponibilizar serviços que permitam a integração desta ferramenta com outras de qualidade de dados. Capacidade de integração - Uma ferramenta MDM deve ter boa capacidade de integração para permitir a integração das diversas fontes de dados da organização. Serviços de negócio e funcionalidades de workflow - Uma ferramenta MDM ao disponibilizar serviços e demonstrar-se flexível na criação de novos serviços para interacção com a ferramenta, permite que a integração desta com os sistemas da organização seja transparente e escalável. A existência de serviços de negócio permite à organização inserir a solução MDM numa Arquitectura Orientada a Serviços (SOA), tirando partido das vantagens desta, nomeadamente a flexibilidade e reutilização de serviços [Dreibelbis 2008] [Papazoglou 2003]. Performance, escalabilidade e disponibilidade - É relevante que a ferramenta tenha um desempenho aceitável em termos de tempo de execução, consiga lidar com o constante crescimento de dados no sistema e tenha uma taxa de disponibilidade aceitável de acordo com as necessidades da organização.
4.2. Classificação das principais ferramentas MDM As principais ferramentas MDM em análise nesta secção são a D&B Purisma, DataFlux, InfoSphere, Initiate Systems, Oracle Customer Data Hub, Oracle Universal Customer Master e SAP MDM. Estas ferramentas foram identificadas pela Gartner [Radcliffe 2008] como sendo as principais ferramentas MDM. Além destas, foi também avaliada o Mural, ferramenta open source da SUN Microsystems. A Figura 4 representa um quadro comparativo das ferramentas MDM segundo os critérios definidos na Secção 5.1. Esta tabela indica se determinada ferramenta possui ou não dada característica. Figura 4- Avaliação de ferramentas MDM 4.3. Análise comparativa de ferramentas MDM A análise desta Figura 4 permite averiguar que em termos de modelação de dados, o destaque vai para a ferramenta da Initiate Systems que preenche todos os requisitos. As ferramentas DataFlux, SAP MDM e Mural encontram-se apenas limitadas na modelação de relações hierárquicas entre os dados. Relativamente à qualidade de dados, o DataFlux evidencia-se positivamente pelas suas funcionalidades. Em contrapartida, o Oracle CDH é a ferramenta que se encontra mais limitada, contendo limitações relacionadas com limpeza de dados e detecção de duplicados. O Mural verifica quase todas as funcionalidades, nomeadamente profiling e limpeza de dados, detecção de duplicados e suporte para data steward. A funcionalidade de integração com outras ferramentas de qualidade de dados não foi possível de avaliação.
O componente de integração das ferramentas MDM não se encontra detalhado nem no estudo da Gartner [Radcliffe 2008], nem nos WebSites das ferramentas. A falta de informação dá-se também devido às ferramentas serem comerciais, não existindo documentação específica que permita a análise destes pontos. Sendo estas comerciais, também é impossível efectuar o teste às ferramentas. As ferramentas para as quais se conseguiu maior informação foram a D&B Purisma, Initiate Systems, Oracle CDH e Mural, suportando o Mural a combinação das funcionalidades mais importantes, ou seja integração com fontes legadas e técnicas de integração através de publicação e subscrição. Em termos de Serviços de negócio e workflow, a InfoSphere e o Mural são as ferramentas que disponibilizam serviços para integração da ferramenta numa arquitectura SOA e gestão de processos de negócio. As ferramentas da Oracle contêm limitações em termos de serviços e o SAP MDM a nível de gestão de processos de negócio. Por fim, as ferramentas DataFlux e Oracle foram as únicas para as quais foi possível averiguar a existência de mecanismos de monitorização de desempenho. 5. Conclusão Neste artigo foram descritos os problemas inerentes à utilização de diversas fontes de dados associadas à mesma entidade informacional. Apresentou-se uma possível solução para este tipo de problemas através da utilização de um sistema MDM, apresentando-se a arquitectura típica, os processos necessários para a sua integração com a organização e as principais ferramentas existentes. 6. Referências Batini C. M. Scannapieco, Data Quality: Concepts, Methodologies and Techniques (Data- Centric Systems and Applications), Springer-Verlag New York Inc, 2006. Dreibelbis, A. E. Hechler I. Milman M. Oberhofer P. Van Run e D. Wolfson, Enterprise Master Data Management: An SOA Approach to Managing Core Information, IBM Press, 2008. Laudon, J. K. Laudon, Management Information Systems: Managing the Digital Firm (10th Edition), Prentice Hall, 2006. Lenzerini, M., Data integration: A theoretical perspective, in Proceedings of the twenty-first ACM SIGMOD-SIGACT-SIGART Symposium on Principles of Database Systems (PODS), Nova Iorque, 2002, 233-246. Loshin, A., Master Data Management, Morgan Kaufmann, 2008. Papazoglou, M., Service-oriented computing: Concepts, characteristics and directions, in Proceedings of the Fourth International Conference, 2003, 3-12. Radcliffe, J., Magic Quadrant for Master Data Management for Customer Data, http://mediaproducts.gartner.com/reprints/oracle/article28/article28.html, (27 de Maio de 2009), 2008. Wise, L., The Intrinsic Value of Master Data Management, http://www.informationmanagement.com/news/10001093-1.html, (27 de Maio de 2009), 2008.