Informatica Data Quality (Versão 9.5.1) Guia do Acelerador
Informatica Data Quality Guia do Acelerador Versão 9.5.1 Dezembro 2012 Copyright (c) 2009-2012 Informatica Corporation. Todos os direitos reservados. Este software e a respectiva documentação contêm informações de propriedade da Informatica Corporation. Eles são fornecidos sob um contrato de licença que contém restrições quanto a seu uso e divulgação, e são protegidos por leis de copyright. A engenharia reversa do software é proibida. Não está permitida de forma alguma a reprodução ou a transmissão de qualquer parte deste documento (seja por meio eletrônico, fotocópia, gravação ou quaisquer outros) sem o consentimento prévio da Informatica Corporation. Este Software pode estar protegido por patentes dos EUA e/ou internacionais e outras patentes pendentes. O uso, reprodução ou divulgação do Software pelo Governo dos Estados Unidos estão sujeitos às restrições estipuladas no contrato de licença de software aplicável e como estabelecido em DFARS 227.7202-1(a) e 227.7702-3(a) (1995), DFARS 252.227-7013 (1)(ii) (OCT 1988), FAR 12.212(a) (1995), FAR 52.227-19 ou FAR 52.227-14 (ALT III), conforme aplicável. As informações contidas neste produto ou documentação estão sujeitas a alteração sem aviso prévio. Informe-nos por escrito caso encontre quaisquer problemas neste produto ou documentação. Informatica, Informatica Platform, Informatica Data Services, PowerCenter, PowerCenterRT, PowerCenter Connect, PowerCenter Data Analyzer, PowerExchange, PowerMart, Metadata Manager, Informatica Data Quality, Informatica Data Explorer, Informatica B2B Data Transformation, Informatica B2B Data Exchange Informatica On Demand, Informatica Identity Resolution, Informatica Application Information Lifecycle Management, Informatica Complex Event Processing, Ultra Messaging and Informatica Master Data Management são marcas comerciais ou marcas registradas da Informatica Corporation nos Estados Unidos e em jurisdições pelo mundo. Todos os outros nomes de empresas e produtos podem ser nomes ou marcas comerciais de seus respectivos proprietários. Partes desta documentação e/ou software estão sujeitas a direitos autorais de terceiros, incluindo sem limitação: Copyright DataDirect Technologies. Todos os direitos reservados. Copyright Sun Microsystems. Todos os direitos reservados. Copyright RSA Security Inc. Todos os direitos reservados. Copyright Ordinal Technology Corp. Todos os direitos reservados. Copyright (C) Aandacht c.v. Todos os direitos reservados. Copyright Genivia, Inc. Todos os direitos reservados. Copyright Isomorphic Software. Todos os direitos reservados. Copyright Meta Integration Technology, Inc. Todos os direitos reservados. Copyright Intalio. Todos os direitos reservados. Copyright Oracle. Todos os direitos reservados. Copyright Adobe Systems Incorporated. Todos os direitos reservados. Copyright DataArt, Inc. Todos os direitos reservados. Copyright ComponentSource. Todos os direitos reservados. Copyright Microsoft Corporation. Todos os direitos reservados. Copyright Rogue Wave Software, Inc. Todos os direitos reservados. Copyright Teradata Corporation. Todos os direitos reservados. Copyright Yahoo! Inc. Todos os direitos reservados. Copyright Glyph & Cog, LLC. Todos os direitos reservados. Copyright Thinkmap, Inc. Todos os direitos reservados. Copyright Clearpace Software Limited. Todos os direitos reservados. Copyright Information Builders, Inc. Todos os direitos reservados. Copyright OSS Nokalva, Inc. Todos os direitos reservados. Copyright Edifecs, Inc. Todos os direitos reservados. Copyright Cleo Communications, Inc. Todos os direitos reservados. Copyright International Organization for Standardization 1986. Todos os direitos reservados. Copyright ej-technologies GmbH. Todos os direitos reservados. Copyright Jaspersoft Corporation. Todos os direitos reservados. Copyright é International Business Machines Corporation. Todos os direitos reservados. Copyright yworks GmbH. Todos os direitos reservados. Copyright Lucent Technologies. Todos os direitos reservados. Copyright University of Toronto. Todos os direitos reservados. Copyright Daniel Veillard. Todos os direitos reservados. Copyright Unicode, Inc. Copyright IBM Corp. Todos os direitos reservados. Copyright MicroQuill Software Publishing, Inc. Todos os direitos reservados. Copyright PassMark Software Pty Ltd. Todos os direitos reservados. Copyright LogiXML, Inc. Todos os direitos reservados. Copyright 2003-2010 Lorenzi Davide, todos os direitos reservados. Copyright Red Hat, Inc. Todos os direitos reservados. Copyright The Board of Trustees of the Leland Stanford Junior University. Todos os direitos reservados. Copyright EMC Corporation. Todos os direitos reservados. Copyright Flexera Software. Todos os direitos reservados. Copyright Jinfonet Software. Todos os direitos reservados. Copyright Apple Inc. Todos os direitos reservados. Copyright Telerik Inc. Todos os direitos reservados. Copyright BEA Systems. Todos os direitos reservados. Este produto inclui software desenvolvido pela Apache Software Foundation (http://www.apache.org/) e/ou outro software que está licenciado de acordo com várias versões da Apache License (a "Licença"). Você pode obter uma cópia dessas licenças em http://www.apache.org/licenses/. A menos que isso seja exigido pela lei aplicável ou acordado por escrito, o software distribuído sob estas Licenças é distribuído "COMO ESTÁ", SEM GARANTIAS OU CONDIÇÕES DE QUALQUER TIPO, sejam explícitas ou implícitas. Consulte as Licenças para conhecer as limitações e as permissões que regulam o idioma específico de acordo com as Licenças. Este produto inclui software desenvolvido pela Mozilla (http://www.mozilla.org/), direitos autorais de software de The JBoss Group, LLC; todos os direitos reservados; direitos autorais de software 1999-2006 de Bruno Lowagie e Paulo Soares e outros produtos de software licenciados sob a Licença Pública GNU Lesser General Public License Agreement, que pode ser encontrada em http://www.gnu.org/licenses/lgpl.html. Os materiais são fornecidos gratuitamente pela Informatica, no estado em que se encontram, sem garantia de qualquer tipo, explícita nem implícita, incluindo, mas não limitando-se, as garantias implicadas de comercialização e adequação a um determinado propósito. O produto inclui software ACE(TM) e TAO(TM) com copyright de Douglas C. Schmidt e seu grupo de pesquisa na Washington University, University of California, Irvine e Vanderbilt University, Copyright ( ) 1993-2006, todos os direitos reservados. Este produto inclui o software desenvolvido pelo OpenSSL Project para ser usado no kit de ferramentas OpenSSL (copyright The OpenSSL Project. Todos os direitos reservados) e a redistribuição deste software está sujeita aos termos disponíveis em http://www.openssl.org e http://www.openssl.org/source/license.html. Este produto inclui o software Curl com o Copyright 1996-2007, Daniel Stenberg, <daniel@haxx.se>. Todos os direitos reservados. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://curl.haxx.se/docs/copyright.html. É permitido usar, copiar, modificar e distribuir este software com qualquer objetivo, com ou sem taxa, desde que a nota de direitos autorais acima e esta nota de permissão apareçam em todas as cópias. O produto inclui direitos autorais de software 2001-2005 ( ) MetaStuff, Ltd. Todos os direitos reservados. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://www.dom4j.org/license.html. O produto inclui o copyright de software 2004-2007, The Dojo Foundation. Todos os direitos reservados. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://dojotoolkit.org/license. Este produto inclui o software ICU com o copyright International Business Machines Corporation e outros. Todos os direitos reservados. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://source.icu-project.org/repos/icu/icu/trunk/license.html. Este produto inclui o copyright de software 1996-2006 Per Bothner. Todos os direitos reservados. O direito de usar tais materiais é estabelecido na licença que pode ser encontrada em http://www.gnu.org/software/kawa/software-license.html. Este produto inclui o software OSSP UUID com Copyright 2002 Ralf S. Engelschall, Copyright 2002 e OSSP Project Copyright 2002 Cable & Wireless Deutschland. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://www.opensource.org/licenses/mit-license.php. Este produto inclui software desenvolvido pela Boost (http://www.boost.org/) ou sob a licença de software Boost. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://www.boost.org/license_1_0.txt. Este produto inclui direitos autorais de software 1997-2007 University of Cambridge. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://www.pcre.org/license.txt. Este produto inclui o copyright de software 2007 The Eclipse Foundation. Todos os direitos reservados. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://www.eclipse.org/org/documents/epl-v10.php. Este produto inclui softwares licenciados segundo os termos de http://www.tcl.tk/software/tcltk/license.html, http://www.bosrup.com/web/overlib/?license, http:// www.stlport.org/doc/ license.html, http:// asm.ow2.org/license.html, http://www.cryptix.org/license.txt, http://hsqldb.org/web/hsqllicense.html, http:// httpunit.sourceforge.net/doc/ license.html, http://jung.sourceforge.net/license.txt, http://www.gzip.org/zlib/zlib_license.html, http://www.openldap.org/software/release/ license.html, http://www.libssh2.org, http://slf4j.org/license.html, http://www.sente.ch/software/opensourcelicense.html, http://fusesource.com/downloads/licenseagreements/fuse-message-broker-v-5-3- license-agreement; http://antlr.org/license.html; http://aopalliance.sourceforge.net/; http://www.bouncycastle.org/licence.html; http://www.jgraph.com/jgraphdownload.html; http://www.jcraft.com/jsch/license.txt; http://jotm.objectweb.org/bsd_license.html;. http://www.w3.org/consortium/legal/ 2002/copyright-software-20021231; http://www.slf4j.org/license.html; http://nanoxml.sourceforge.net/orig/copyright.html; http://www.json.org/license.html; http:// forge.ow2.org/projects/javaservice/, http://www.postgresql.org/about/licence.html, http://www.sqlite.org/copyright.html, http://www.tcl.tk/software/tcltk/license.html, http:// www.jaxen.org/faq.html, http://www.jdom.org/docs/faq.html, http://www.slf4j.org/license.html; http://www.iodbc.org/dataspace/iodbc/wiki/iodbc/license; http://
www.keplerproject.org/md5/license.html; http://www.toedter.com/en/jcalendar/license.html; http://www.edankert.com/bounce/index.html; http://www.net-snmp.org/about/ license.html; http://www.openmdx.org/#faq; http://www.php.net/license/3_01.txt; http://srp.stanford.edu/license.txt; http://www.schneier.com/blowfish.html; http:// www.jmock.org/license.html; http://xsom.java.net; http://benalman.com/about/license/; https://github.com/createjs/easeljs/blob/master/src/easeljs/display/bitmap.js; http://www.h2database.com/html/license.html#summary e http://jsoncpp.sourceforge.net/license. Este produto inclui softwares licenciados de acordo com a Licença Acadêmica Livre (http://www.opensource.org/licenses/afl-3.0.php), a Licença de Distribuição e Desenvolvimento Comum (http://www.opensource.org/licenses/cddl1.php), a Licença Pública Comum (http://www.opensource.org/licenses/cpl1.0.php), os Termos Complementares de Licença do Acordo de Licença de Código Binário da Sun, a Licença BSD (http:// www.opensource.org/licenses/bsd-license.php. a Licença MIT (http:// www.opensource.org/licenses/mit-license.php) e a Licença Artística (http://www.opensource.org/licenses/artistic-license-1.0). Este produto inclui copyright do software 2003-2006 Joe WaInes, 2006-2007 XStream Committers. Todos os direitos reservados. Permissões e limitações relativas a este software estão sujeitas aos termos disponíveis em http://xstream.codehaus.org/license.html. Este produto inclui software desenvolvido pelo Indiana University Extreme! Lab. Para obter mais informações, visite http://www.extreme.indiana.edu/. Esse software é protegido pelos números de patentes dos EUA 5,794,246; 6,014,670; 6,016,501; 6,029,178; 6,032,158; 6,035,307; 6,044,374; 6,092,086; 6,208,990; 6,339, 775; 6,640,226; 6,789,096; 6,820,077; 6,823,373; 6,850,947; 6,895,471; 7,117,215; 7,162,643; 7,243,110, 7,254,590; 7,281,001; 7,421,458; 7,496,588; 7,523,121; 7,584, 422; 7676516; 7,720,842; 7,721,270 e 7,774,791, patentes internacionais e outras patentes pendentes. ISENÇÃO DE RESPONSABILIDADE: a Informatica Corporation fornece esta documentação no estado em que se encontra, sem garantia de qualquer tipo, expressa ou implícita, incluindo, mas não limitando-se, as garantias implícitas de não infração, comercialização ou uso para um determinado propósito. A Informatica Corporation não garante que este software ou documentação esteja sem erros. As informações fornecidas neste software ou documentação podem incluir imprecisões técnicas ou erros tipográficos. As informações deste software e documentação estão sujeitas a alterações a qualquer momento sem aviso prévio. AVISOS Este produto da Informatica (o "Software") traz determinados drivers (os "drivers da DataDirect") da DataDirect Technologies, uma empresa da Progress Software Corporation ("DataDirect"), sendo esses sujeitos aos seguintes termos e condições: 1. OS DRIVERS DA DATADIRECT SÃO FORNECIDOS NO ESTADO EM QUE SE ENCONTRAM, SEM GARANTIA DE QUALQUER TIPO, EXPRESSA OU IMPLÍCITA, INCLUINDO, MAS NÃO LIMITANDO-SE, AS GARANTIAS IMPLÍCITAS DE COMERCIALIZAÇÃO, ADEQUAÇÃO A UMA FINALIDADE ESPECÍFICA E NÃO INFRAÇÃO. 2. EM NENHUM CASO, A DATADIRECT OU SEUS FORNECEDORES TERCEIRIZADOS SERÃO RESPONSÁVEIS, EM RELAÇÃO AO CLIENTE FINAL, POR QUAISQUER DANOS DIRETOS, INDIRETOS, INCIDENTAIS, ESPECIAIS, CONSEQUENCIAIS OU DEMAIS QUE POSSAM ADVIR DO USO DE DRIVERS ODBC, SENDO OU NÃO ANTERIORMENTE INFORMADOS DAS POSSIBILIDADES DE TAIS DANOS. ESTAS LIMITAÇÕES SE APLICAM A TODAS AS CAUSAS DE AÇÃO, INCLUINDO, SEM LIMITAÇÕES, QUEBRA DE CONTRATO, QUEBRA DE GARANTIA, NEGLIGÊNCIA, RESPONSABILIDADE RIGOROSA, DETURPAÇÃO E OUTROS ATOS ILÍCITOS. Parte Número: DQ-ACG-95100-0001
Conteúdo Prefácio.... iv Recursos da Informatica.... iv Portal My Support da Informatica.... iv Documentação da Informatica.... iv Site da Informatica.... iv Biblioteca de Recursos da Informatica.... iv Base de Dados de Conhecimento da Informatica.... v Canal de Suporte da Informatica no YouTube.... v Informatica Marketplace.... v Informatica Velocity.... v Suporte Global a Clientes da Informatica.... v Capítulo 1: Introdução aos Aceleradores.... 1 Visão Geral de Aceleradores.... 1 Instalando Aceleradores.... 2 Regras de Acelerador.... 2 Conjuntos de Conteúdo.... 3 Objetos de Dados Demonstrativos.... 3 Mapeamentos Demonstrativos.... 3 Tabelas de Referência.... 4 Marcas.... 4 Capítulo 2: Acelerador Principal.... 5 Visão Geral do Acelerador Principal.... 5 Mapeamentos Demonstrativos Principais.... 5 Regras de Limpeza de Dados de Endereço Principal.... 6 Regras de Limpeza de Dados do Contato Principal.... 6 Regras de Limpeza de Dados Corporativos Principais.... 7 Regras de Limpeza de Dados Gerais Principais.... 7 Regras de Limpeza de Dados de Produto Principal.... 11 Capítulo 3: Acelerador da Austrália/Nova Zelândia.... 12 Visão Geral do Acelerador da Austrália/Nova Zelândia.... 12 Mapeamentos Demonstrativos da Austrália/Nova Zelândia.... 13 Regras de Limpeza de Dados de Endereço.... 13 Regras de Limpeza de Dados de Contato da Austrália/Nova Zelândia.... 14 Regras de Limpeza de Dados Corporativos da Austrália/Nova Zelândia.... 16 Dependências de Limpeza de Dados Gerais da Austrália/Nova Zelândia.... 17 Regras de Eliminação de Duplicação e Correspondência da Austrália/Nova Zelândia.... 17 Capítulo 4: Acelerador do Brasil.... 21 Visão Geral do Acelerador do Brasil.... 21 Mapeamentos Demonstrativos do Brasil.... 21 Sumário i
Regras de Limpeza de Dados de Endereço do Brasil.... 22 Regras de Limpeza de Dados de Contato do Brasil.... 23 Regras de Limpeza de Dados Corporativos do Brasil.... 24 Dependências de Limpeza de Dados Gerais do Brasil.... 24 Regras de Eliminação de Duplicação e Correspondência do Brasil.... 24 Capítulo 5: Acelerador dos Serviços Financeiros.... 27 Visão Geral do Acelerador dos Serviços Financeiros.... 27 Regras de Limpeza de Dados de Contato dos Serviços Financeiros.... 27 Regras de Limpeza de Dados Financeiros dos Serviços Financeiros.... 28 Regras de Limpeza de Dados Gerais dos Serviços Financeiros.... 30 Regras de Eliminação de Duplicação e Correspondência dos Serviços Financeiros.... 31 Capítulo 6: Acelerador da França.... 33 Visão Geral do Acelerador da França.... 33 Mapeamentos Demonstrativos da França.... 33 Regras de Limpeza de Dados de Endereço da França.... 34 Regras de Limpeza de Dados de Contato da França.... 35 Regras de Limpeza de Dados Corporativos da França.... 36 Dependências de Limpeza de Dados Gerais da França.... 36 Regras de Eliminação de Duplicação e Correspondência da França.... 37 Capítulo 7: Acelerador da Alemanha.... 39 Visão Geral do Acelerador da Alemanha.... 39 Mapeamentos Demonstrativos da Alemanha.... 39 Regras de Limpeza de Dados de Endereço da Alemanha.... 40 Regras de Limpeza de Dados de Contato da Alemanha.... 41 Regras de Limpeza de Dados Corporativos da Alemanha.... 42 Dependências de Limpeza de Dados Gerais da Alemanha.... 42 Regras de Eliminação de Duplicação e Correspondência da Alemanha.... 42 Capítulo 8: Acelerador de Portugal.... 45 Visão Geral do Acelerador de Portugal.... 45 Mapeamentos Demonstrativos de Portugal.... 45 Regras de Limpeza de Dados de Endereço.... 46 Regras de Limpeza de Dados de Contato de Portugal.... 47 Regras Limpeza de Dados Corporativos de Portugal.... 47 Dependências de Limpeza de Dados Gerais de Portugal.... 48 Regras de Eliminação de Duplicação e Correspondência de Portugal.... 48 Capítulo 9: Acelerador do Reino Unido.... 51 Visão Geral do Acelerador do Reino Unido.... 51 Mapeamentos Demonstrativos do Reino Unido.... 51 Regras de Limpeza de Dados de Endereço do Reino Unido.... 52 Regras de Limpeza de Dados de Contato do Reino Unido.... 53 Regras de Limpeza de Dados Financeiros do Reino Unido.... 55 Dependências de Limpeza de Dados Gerais do Reino Unido.... 55 ii Sumário
Regras de Eliminação de Duplicação e Correspondência do Reino Unido.... 56 Capítulo 10: Acelerador dos EUA/Canadá.... 59 Visão Geral do Acelerador dos EUA/Canadá.... 59 Mapeamentos Demonstrativos dos EUA/Canadá.... 59 Regras de Limpeza de Dados de Endereço.... 60 Regras de Limpeza de Dados de Contato dos EUA/Canadá.... 61 Regras de Limpeza de Dados Gerais.... 64 Regras de Eliminação de Duplicação e Correspondência dos EUA/Canadá.... 65 Sumário iii
Prefácio O Guia do Acelerador do Informatica Data Quality foi escrito para desenvolvedores de qualidade de dados. Este guia pressupõe que você compreende os conceitos de qualidade de dados, como padronização, análise, rotulagem e validação. Recursos da Informatica Portal My Support da Informatica Como cliente da Informatica, você pode acessar o Portal My Support da Informatica em http://mysupport.informatica.com. O site contém informações sobre produtos, informações sobre grupos de usuários, boletins informativos, acesso ao sistema de gerenciamento de casos de suporte a clientes da Informatica (ATLAS), à Biblioteca de Recursos da Informatica, à Base de Dados de Conhecimento da Informatica, à Documentação de Produtos da Informatica e à comunidade de usuários da Informatica. Documentação da Informatica A equipe de Documentação da Informatica se esforça ao máximo para criar documentações precisas e utilizáveis. Se você tiver dúvidas, comentários ou ideias sobre esta documentação, entre em contato com a equipe de Documentação da Informatica pelo e-mail infa_documentation@informatica.com. Nós usaremos seu feedback para melhorar a documentação. Por favor, avise-nos se pudermos entrar em contato com você em relação aos comentários. A equipe de Documentação atualiza a documentação conforme o necessário. Para obter a documentação mais recente do seu produto, navegue para Documentação do Produto no endereço http://mysupport.informatica.com. Site da Informatica Você pode acessar o site corporativo da Informatica no endereçohttp://www.informatica.com. O site contém informações sobre a Informatica, seu histórico, eventos futuros e escritórios de vendas. Você também vai encontrar informações sobre parceiros e produtos. A área de serviços do site inclui informações importantes sobre suporte técnico, treinamento e educação, bem como serviços de implementação. Biblioteca de Recursos da Informatica Na qualidade de cliente da Informatica, você pode acessar a Biblioteca de Recursos da Informatica no endereço http://mysupport.informatica.com. A Biblioteca de Recursos é uma coletânea de recursos que o ajuda a aprender mais sobre os produtos e recursos da Informatica. Ela inclui artigos e demonstrações interativas que apresentam soluções a problemas comuns, comparam recursos e comportamentos e o orienta na execução de tarefas específicas no mundo real. iv
Base de Dados de Conhecimento da Informatica Na qualidade de cliente da Informatica, você pode acessar a Base de Dados de Conhecimento da Informatica no endereço http://mysupport.informatica.com. Use a Base de Dados de Conhecimento para pesquisar soluções documentadas a problemas técnicos conhecidos sobre produtos da Informatica. Você também pode encontrar respostas a perguntas frequentes, white papers e dicas técnicas. Se você tiver dúvidas, comentários ou ideias sobre a Base de Dados de Conhecimento, entre em contato com a equipe da Base de Dados de Conhecimento da Informatica pelo e-mail KB_Feedback@informatica.com. Canal de Suporte da Informatica no YouTube Você pode acessar o canal de Suporte da Informatica no YouTube http://www.youtube.com/user/infasupport. O canal de Suporte da Informatica no YouTube inclui vídeos sobre soluções que orientam você na execução de tarefas específicas. Em caso de dúvidas, comentários ou ideias sobre o canal de Suporte da Informatica no YouTube, entre em contato com a equipe de Suporte do YouTube por email em supportvideos@informatica.com ou envie um tweet para @INFASupport. Informatica Marketplace O Informatica Marketplace é um fórum em que desenvolvedores e parceiros podem compartilhar soluções para aumentar, ampliar ou aprimorar implementações da integração de dados. Ao tirar proveito de qualquer uma das centenas de soluções disponíveis no Marketplace, você pode melhorar sua produtividade e agilizar o tempo de implementação em seu projeto. Você pode acessar o Informatica Marketplace através do link http://www.informaticamarketplace.com. Informatica Velocity Você pode acessar o Informatica velocity em http://mysupport.informatica.com. Desenvolvido com base na experiência no mundo real de centenas de projetos de gerenciamento de dados, o Informatica Velocity representa o conhecimento coletivo de nossos consultores, que trabalharam com organizações de todo o mundo para planejar, desenvolver, implantar e manter soluções de gerenciamento de dados bem-sucedidas. Se você tiver dúvidas, comentários ou ideias sobre o Informatica Velocity, entre em contato com os Serviços Profissionais da Informatica em ips@informatica.com. Suporte Global a Clientes da Informatica Você pode entrar em contato com o Centro de Suporte a Clientes por telefone ou pelo Suporte Online. O Suporte Online requer um nome de usuário e uma senha. Você pode solicitar um nome de usuário e uma senha no endereço http://mysupport.informatica.com. Prefácio v
Use os números de telefone a seguir para entrar em contato com o Suporte Global a Clientes da Informatica: América do Norte/América do Sul Europa/Oriente Médio/África Ásia/Austrália Ligação Gratuita Brasil 0800 891 0202 México 001 888 209 8853 América do Norte +1 877 463 2435 Ligação Gratuita França 0805 804632 Alemanha 0800 5891281 Itália 800 915 985 Holanda 0800 2300001 Portugal 800 208 360 Espanha 900 813 166 Suíça 0800 463 200 Reino Unido 0800 023 4632 Tarifa Padrão Bélgica +31 30 6022 797 França +33 1 4138 9226 Alemanha +49 1805 702702 Holanda +31 30 6022 797 Reino Unido +44 1628 511445 Ligação Gratuita Austrália 1 800 120 365 Ásia/Pacífico 00 080 00016360 China 400 810 0900 vi Prefácio
C A P Í T U L O 1 Introdução aos Aceleradores Este capítulo inclui os seguintes tópicos: Visão Geral de Aceleradores, 1 Instalando Aceleradores, 2 Regras de Acelerador, 2 Conjuntos de Conteúdo, 3 Objetos de Dados Demonstrativos, 3 Mapeamentos Demonstrativos, 3 Tabelas de Referência, 4 Marcas, 4 Visão Geral de Aceleradores Os aceleradores oferecem soluções para problemas comuns de qualidade de dados em um país, região ou setor. Os aceleradores contêm regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. A Informatica produz os seguintes aceleradores: Acelerador do Informatica Data Quality para Austrália e Nova Zelândia Acelerador do Informatica Data Quality para o Brasil Acelerador do Informatica Data Quality para Serviços Financeiros Acelerador do Informatica Data Quality para a França Acelerador do Informatica Data Quality para a Alemanha Acelerador do Informatica Data Quality para Portugal Acelerador do Informatica Data Quality para o Reino Unido Acelerador do Informatica Data Quality para EUA e Canadá Acelerador Principal do Informatica Data Quality A Informatica fornece o acelerador Principal com o instalador de Conteúdo. O acelerador Principal contém regras de qualidade de dados que você pode usar com dados de várias regiões. A Informatica licencia os seguintes aceleradores. Para cada Acelerador, a Informatica personaliza os objetos de repositório para um país, região ou setor. Por exemplo, o acelerador do Brasil e o acelerador de Portugal contêm uma tabela de referência que lista os CEPs e as cidades. No entanto, o conteúdo dessa tabela de referência é diferente para cada país. 1
Instalando Aceleradores Use o Informatica Developer para importar regras de acelerador, mapeamentos demonstrativos e tabelas de referência para o repositório do Modelo, e para gravar dados da tabela de referência no banco de dados dos dados de referência. Use os arquivos executáveis do instalador de Conteúdo para instalar dados de referência de endereço, preenchimentos de identidade e dados demonstrativos do acelerador. Instale todos os aceleradores no mesmo projeto de repositório para manter as dependências do acelerador. O exemplo de caminho de repositório seguinte usa a string "Informatica_DQ_Content" como um nome de projeto: [Informatica_DQ_Content]\Rules Para obter mais informações sobre a instalação de aceleradores, consulte o Guia de Instalação de Conteúdo do Data Quality. Esse guia contém informações detalhadas sobre a instalação e os pré-requisitos de instalação. Usando Aceleradores no PowerCenter Para usar um acelerador no PowerCenter, primeiro é necessário instalá-lo no Data Quality e depois exportar os mapplets ou mapeamentos da regra para o PowerCenter. Quando você exportar as regras de acelerador do Data Quality para o PowerCenter, verifique se incluiu todas as tabelas de referência, objetos de dados e dependências. Se você exportar regras para o PowerCenter 8.6.1 ou 9.0.1, verifique se o Plug-in de Integração do Data Quality 9.1.0 está ativo na máquina do Data Integration Service que executa os mapeamentos do acelerador. Regras de Acelerador As regras de acelerador contêm operações de qualidade de dados pré-compiladas. Você pode usar regras individualmente ou combinar regras em um mapeamento. As regras de acelerador são instaladas nos seguintes locais do repositório: [Informatica_DQ_Content]\Rules Use as regras do acelerador para executar as seguintes tarefas de qualidade de dados: Validação de Endereço Verifique e corrija os dados de endereço postal. Essa tarefa exige arquivos de dados de referência de endereço. Análise de dados Informações de análise de registros. As regras de análise podem extrair os seguintes tipos de informações: nomes de pessoa, nomes de organização, números de telefone, datas de calendário e números de identificação. Padronização de dados Padroniza a ortografia e o formato dos dados. As regras de padronização podem corrigir nomes de pessoa, nomes de organização, números de telefone, datas de calendário e números de identificação. Análise de duplicação Localiza registros duplicados em um conjunto de dados. As regras de análise de duplicação identificam registros duplicados comparando nomes, números de telefone, datas de calendário, endereços de e-mail e números de identificação. Não é possível usar as regras de análise de duplicação na ferramenta Analyst. 2 Capítulo 1: Introdução aos Aceleradores
Conjuntos de Conteúdo Os aceleradores incluem conjuntos de conteúdo que você pode usar em transformações de Rotulador, Analisador e Padronizador para identificar os valores de dados em operações de qualidade de dados. Os conjuntos de conteúdo incluem conjuntos de caracteres, conjuntos de padrão, expressões regulares e conjuntos de tokens. Conjuntos de Caracteres Os conjuntos de caracteres contêm expressões que identificam caracteres específicos e intervalos de caracteres. Use os conjuntos de caracteres para identificar um caractere específico ou um intervalo de caracteres. Por exemplo, você poderá rotular todos os número de uma coluna que contém números de telefone. Conjuntos de Padrão Um conjunto de padrão contém expressões que identificam padrões de dados na saída de uma operação de rotulagem de token. Use os conjuntos de padrão para analisar a porta de saída de dados em token e para gravar strings de correspondência em uma ou mais portas de saída. Expressões Regulares Em um conjunto de conteúdo, uma expressão regular é uma expressão que você pode usar para identificar uma ou mais strings em dados de entrada. Conjuntos de Tokens Um conjunto de token contém expressões que identificam os tokens. Use os conjuntos de tokens para identificar tokens específicos como parte das operações de rotulagem e análise. Objetos de Dados Demonstrativos Os aceleradores fornecem objetos de dados demonstrativos que você pode usar para explorar a funcionalidade de qualidade de dados. Esses objetos de dados são arquivos de dados separados por vírgula. Os objetos de dados demonstrativos são instalados nos seguintes locais do repositório: [Informatica_DQ_Content]\Rules_Demo Mapeamentos Demonstrativos Os aceleradores fornecem mapeamentos demonstrativos para operações de qualidade de dados, como padronização e análise de duplicação. Você pode usar os mapeamentos demonstrativos como modelos para operações de qualidade de dados. Para mapeamentos que executam a validação de endereço, instale uma chave de licença do Address Doctor e o conjunto de dados de referência. Os mapeamentos demonstrativos são instalados nos seguintes locais do repositório: [Informatica_DQ_Content]\Rules_Demo Conjuntos de Conteúdo 3
Tabelas de Referência Os aceleradores usam tabelas de referência para padronizar dados de origem e gerar informações adicionais associadas aos dados de origem. Cada linha de uma tabela de referência contém um conjunto de valores relacionados, um dos quais é designado como valor válido. As tabelas de referência do acelerador são instaladas nos seguintes locais do repositório: [Informatica_DQ_Content]\Dictionaries Marcas Os objetos dos aceleradores contêm marcas que descrevem as categorias do acelerador, como uma área de negócios, entidade, função e localidade. Você pode pesquisar marcas para localizar todos os objetos do acelerador de uma categoria. A tabela seguinte lista marcas para cada categoria de acelerador: Categoria Marcas Área de Negócios - Companhia - Cliente - Finanças - Geral - Produto Entidade - Endereço - Moeda - Data - E-mail - Sexo - Nome - ID Nacional - Número - Telefone - SSN - Imposto Função - Enriquecer - Rótulo - Correspondência - Análise - Perfil - Padronizar - Validar Localidade - Austrália - Brasil - Canadá - Europa - Grã-bretanha - Nova Zelândia - América do Norte - Portugal - UK - EUA 4 Capítulo 1: Introdução aos Aceleradores
C A P Í T U L O 2 Acelerador Principal Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador Principal, 5 Mapeamentos Demonstrativos Principais, 5 Regras de Limpeza de Dados de Endereço Principal, 6 Regras de Limpeza de Dados do Contato Principal, 6 Regras de Limpeza de Dados Corporativos Principais, 7 Regras de Limpeza de Dados Gerais Principais, 7 Regras de Limpeza de Dados de Produto Principal, 11 Visão Geral do Acelerador Principal O acelerador Principal valida e aprimora os dados usando processos de qualidade de dados especializados e tabelas de referência. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador Principal inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados corporativos Limpeza de dados gerais Limpeza de dados de produto Outros aceleradores têm dependências em regras e mapplets do acelerador Principal. Mapeamentos Demonstrativos Principais Os mapeamentos demonstrativos do acelerador Principal combinam regras do acelerador para demonstrar processos de Qualidade de Dados complexos. Os mapeamentos demonstrativos do acelerador principal são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\Core_Accelerator O acelerador inclui os seguintes mapeamentos demonstrativos: m_customer_data_demo Analisa, padroniza e valida dados dos EUA/Canadá. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data 5
Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_product_demo Demonstra regras que analisam descrições de produto e validam a qualidade dessas descrições usando valores de referência. Você pode usar esse mapeamento como um modelo para a validação da descrições de produto. Esse mapeamento não é uma solução completa. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Regras de Limpeza de Dados de Endereço Principal Use as regras de limpeza de dados de endereço do acelerador Principal para analisar, padronizar e validar dados de endereço. As regras de limpeza de dados de endereço do acelerador principal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de endereço do acelerador Principal: Nome rule_country_name_standardization rule_global_address_validation_discrete rule_global_address_validation_hybrid rule_global_address_validation_multiline Padroniza nomes de países. Essa regra retorna um nome de país e os códigos de país ISO de dois e três caracteres. Valida a capacidade de entrega de endereços globais totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços globais parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços globais de várias linhas. Essa regra exige dados de referência de endereço e uma licença correspondente. Regras de Limpeza de Dados do Contato Principal Use as regras de limpeza de dados de contato do acelerador Principal para analisar e validar dados. As regras de limpeza de dados de endereço principal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing 6 Capítulo 2: Acelerador Principal
A tabela a seguir descreve as regras de limpeza de dados de contato do acelerador Principal: Nome rule_email_parse rule_email_parse_into_mailbox_domain rule_email_validation Analisa endereços de e-mail dos campos de dados. Analisa endereços de e-mail de caixa de correio, domínio e portas de subdomínio. Por exemplo, "info@informatica.com" é analisado da seguinte maneira: - Caixa de correio - "info" - Subdomínio - "informatica" - Domínio - "com" Valida o formato de endereços de e-mail. Essa regra não verifica se os endereços de e-mail estão corretos ou ativos. Essa regra retorna "Válido" ou "Inválido". Regras de Limpeza de Dados Corporativos Principais Use as regras de limpeza de dados corporativos do acelerador Principal para padronizar dados. As regras de limpeza de dados corporativos principais são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Corporate_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados corporativos do acelerador Principal: Nome rule_company_name_standardization Padroniza os nomes de empresa usando valores da tabela de referência. Regras de Limpeza de Dados Gerais Principais Use as regras de limpeza de dados gerais do acelerador Principal para analisar, padronizar e validar dados. As regras de limpeza de dados gerais do acelerador principal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\General_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados gerais do acelerador Principal: Nome mplt_parse_tokens_into_single_field rule_add_leading_zero rule_add_parentheses_at_start_end_oflin e rule_add_plus_to_start_of_line rule_add_space_around_ampersand Analisa palavras de uma string delimitada por espaços. Este mapplet é útil para analisar strings para identificar padrões recorrentes. Adiciona o numeral "0" ao início de uma string. Adiciona símbolos parentéticos no início e no fim de uma string. Adiciona o símbolo de mais no início de uma string. Adiciona um espaço antes e depois que todos os 'e' comerciais em uma string. Regras de Limpeza de Dados Corporativos Principais 7
Nome rule_add_space_around_hyphen rule_add_space_between_number_letter rule_add_spaces_around_period rule_alltrim rule_assign_dq_90_elementinputstatus_d escription rule_assign_dq_90_elementrelevance_d escription rule_assign_dq_90_elementresultstatus_ Description rule_assign_dq_90_geocodingstatus_des cription rule_assign_dq_90_mailability_score_des cription rule_assign_dq_90_match_code_descripti ons rule_classify_language rule_compare_dates rule_completeness rule_completeness_multi_port rule_concatenate_words rule_convert_dq90_match_codes_to_idq _86_Codes Adiciona um espaço antes e depois de todos os traços e hífens em uma string. Adiciona um espaço entre um par de caracteres composto por um numeral e um caractere alfabético. Lendo da esquerda para a direita, esse mapplet adiciona um espaço ao primeiro par de caracteres numeral-alfabético nos dados. Adiciona um espaço antes e depois de todos os períodos de uma string. Remove todos os espaços à esquerda e à direita dos dados de entrada. Atribui uma string de descrição à saída do Status de Entrada do Elemento da Transformação do Validador de Endereço. Atribui uma string de descrição à saída da Relevância do Elemento da transformação do Validador de Endereço. Atribui uma string de descrição à saída do Status do Resultado do Elemento da transformação do Validador de Endereço. Atribui uma string de descrição à saída do Status de Codificação Geográfica da transformação do Validador de Endereço. Atribui uma string de descrição à saída da Pontuação de Capacidade de Envio por Correio da transformação do Validador de Endereço. Atribui uma string de descrição à saída da Pontuação de Código de Correspondência de Endereço da transformação do Validador de Endereço. Classifica uma string como um dos seguintes idiomas: Árabe, holandês, inglês, francês, alemão, italiano, português, russo, espanhol ou turco. A regra usa o conjunto de conteúdo Language_Classifier para identificar os idiomas. Nota: A regra retorna um idioma para cada string que ele analisa. Se uma string pertencer a um idioma que não está definido no conjunto de conteúdo, a regra retornará o idioma que mais se aproxime ao texto da string. Compara duas datas e calcula a diferença entre elas. Esse mapplet fornece informações sobre a diferença de tempo total usando as seguintes unidades de medida: - Horas - Dias - Meses - Anos Cada valor de saída é exclusivo de outros valores. As saídas não podem ser adicionadas para representar a diferença entre os valores de dados. Verifica valores NULL. Verifica várias portas para valores NULL. Concatena dois campos usando um espaço como separador. Converte o Data Quality 9.0 e depois combina os códigos aos códigos de combinação do Data Quality 8.6. 8 Capítulo 2: Acelerador Principal
Nome rule_creditcard_number_validation rule_date_parse rule_date_standardization rule_date_validation rule_isnumeric rule_lowercase rule_luhn_algorithm rule_parse_first_word rule_parse_number_at_end_of_line rule_parse_number_at_start_of_line rule_parse_text_between_parentheses rule_parse_text_in_single_quotes Valida números de cartão de crédito dos cartões de crédito que usam o algoritmo de Luhn. Isso inclui, mas não se limita, aos seguintes cartões de crédito: - American Express - Diners Club Carte Blanche - Diners Club International - Diners Club EUA e Canadá - Discover Card - JCB - Maestro - Master Card - Solo - Switch - Visa - Visa Electron Essa regra retorna "Válido" ou "Inválido". Analisa as datas das strings. Essa regra reconhece datas nos seguintes formatos: - dd/mm/yyyy - mm/dd/yyyy - yyyy/dd/mm Essa regra retorna uma data e também retorna uma string que contém o texto de entrada com a data removida. Padroniza as strings de data. Para as datas de entrada que não são válidas ou não se encaixam ao formato de entrada designado, a regra retornará todos os zeros. Para configurar o formato de saída, edite as variáveis de expressão Output_Date_Format e Delimitador na transformação da Expressão dq_formatdate. Valida strings de data. Para configurar o formato de data que a regra usa para validação, edite a variável de expressão In_Date_Format na transformação da Expressão dq_validatedate. O padrão é "MM/DD/ YYYY". Essa regra retorna "Válido" ou "Inválido". Verifica se a entrada é numérica. Essa regra retorna "True" ou "False". Retorna todos os caracteres alfabéticos em letras minúsculas. Valida uma string numérica usando o algoritmo de Luhn. Essa regra valida strings como números de cartão de crédito. Analisa a primeira palavra de uma string. Analisa um número que ocorre no fim de uma string, lendo da esquerda para a direita. Analisa um número que ocorre no início de uma string, lendo da esquerda para a direita. Analisa strings entre colchetes pelos parênteses da esquerda e direita. Essa regra retorna uma porta para as strings analisadas, e uma porta para o texto de entrada com as strings analisadas removidas. Analisa as strings localizadas entre aspas. Em casos onde a entrada contém vários elementos entre aspas, essa regra analisa o último elemento, lendo da esquerda para a direita. Essa regra retorna uma porta para as strings analisadas, e uma porta para o texto de entrada com as strings analisadas removidas. Regras de Limpeza de Dados Gerais Principais 9
Nome rule_personal_company_identification rule_prepend_zero_to_single_digit rule_remove_apostrophe rule_remove_control_characters rule_remove_extra_spaces rule_remove_hyphen rule_remove_leading_zero rule_remove_limited_punctuation rule_remove_non_numbers rule_remove_parentheses rule_remove_period rule_remove_period_parentheses rule_remove_punctuation rule_remove_punctuation_and_space rule_remove_quotation rule_remove_slashes rule_remove_space rule_replace_ampersand_with_space rule_replace_hyphen_underscore_with_s pace rule_replace_hyphen_with_space rule_replace_limited_punct_with_space rule_replace_non_alphabetic_with_space Analisa nomes de pessoas e de empresa. Essa regra tem as seguintes saídas: - Nome da pessoa - Nome da empresa - Dados que a regra não pode analisar - Categoria de dados, como nome da pessoa ou nome da empresa Insere o numeral "0" para caracteres numéricos únicos. Remove apóstrofes. Essa regra mescla as strings de texto nos dois lados da apóstrofe. Remove os caracteres de controle das strings de texto. Essa regra retorna uma string que contém os caracteres de controle e uma string que contém o texto de entrada com os caracteres de controle removidos. Substitui todos os espaços consecutivos múltiplos por um único espaço e retira os espaços à esquerda e à direita. Remove hífens. Remove uma única instância do caractere numérico "0" do início de uma string. Remove caracteres externos. Caracteres externos incluem barras, barras invertidas, pontos, pontos de exclamação, sublinhados e vários espaços consecutivos. Remove todos os caracteres que não são numéricos. Remove símbolos de parênteses direito e esquerdo. Remove pontos. Remove os seguintes caracteres: - Parênteses esquerdo e direito - Pontos Remove símbolos de pontuação de dados de entrada. Remove todas as pontuação e todos os caracteres de espaço. Remove aspas. Remove barras diagonais e barras invertidas. Remove todos os caracteres de espaço. Substitui "e" comerciais por espaços. Substitui hífens e sublinhados por espaços. Substitui hífens por espaços. Substitui o seguinte caractere de pontuação por um único espaço: traço, barra invertida, ponto, ponto de exclamação e sublinhado. Essa regra também substitui dois, três e quatro espaços consecutivas por um único espaço. Substitui caracteres numerais e de pontuação por um único espaço. 10 Capítulo 2: Acelerador Principal
Nome rule_replace_period_with_space rule_replace_punctuation_with_space rule_replace_slashes_with_space rule_reverse_string_input rule_titlecase rule_translate_diacritic_characters rule_uppercase Substitui pontos por um único espaço. Substitui todas as pontuação por espaços. Substitui barras diagonais e barras invertidas por espaços. Reverte a ordem de caracteres em strings de entrada. Substitui as strings por strings de capitalização de título. Em strings de capitalização de título, a primeira letra de cada palavra fica em maiúscula. Substitui caracteres diacríticos por equivalentes em ASCII. Por exemplo, a regra converte "ã" para "a". Retorna todos os caracteres alfabéticos em letras maiúsculas. Regras de Limpeza de Dados de Produto Principal Use as regras de limpeza de dados de produto Principal para analisar, padronizar e validar endereços de dados. As regras de limpeza de dados de produto principal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Product_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de produto Principal: Nome rule_color_parse rule_parse_quantity_and_uom rule_uom_standardization rule_upc_validation Analisa cores usando uma tabela de referência. Analisa a primeira instância de uma quantidade e unidade de medida (UOM) de uma string, lendo da esquerda para a direita. Essa regra retorna os seguintes dados: - Quantidade - Unidade de medida - Texto de entrada com quantidade e unidade de medida removidos Padroniza uma unidade de medida (UOM). Essa regra retorna valores padronizados e não padronizados para quantidade e UOM. Ela também retorna uma string que contém o texto de entrada com uma UOM padronizada. Valida os códigos de Código de Produto Universal (UPC) e retorna um código UPC padronizado. Regras de Limpeza de Dados de Produto Principal 11
C A P Í T U L O 3 Acelerador da Austrália/Nova Zelândia Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador da Austrália/Nova Zelândia, 12 Mapeamentos Demonstrativos da Austrália/Nova Zelândia, 13 Regras de Limpeza de Dados de Endereço, 13 Regras de Limpeza de Dados de Contato da Austrália/Nova Zelândia, 14 Regras de Limpeza de Dados Corporativos da Austrália/Nova Zelândia, 16 Dependências de Limpeza de Dados Gerais da Austrália/Nova Zelândia, 17 Regras de Eliminação de Duplicação e Correspondência da Austrália/Nova Zelândia, 17 Visão Geral do Acelerador da Austrália/Nova Zelândia O acelerador da Austrália/Nova Zelândia valida e aprimora os dados usando processos de qualidade de dados especializados e tabelas de referência não específicas. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador da Austrália/Nova Zelândia inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados corporativos Limpeza de dados gerais Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais instaladas pelo acelerador Principal. 12
Mapeamentos Demonstrativos da Austrália/Nova Zelândia Os mapeamentos demonstrativos da Austrália/Nova Zelândia combinam regras de acelerador para demonstrar processos de qualidade de dados complexos. Os mapeamentos demonstrativos do acelerador da Austrália/Nova Zelândia são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\AUS_NZL_Accelerator O acelerador inclui os seguintes mapeamentos demonstrativos: m_aus_customer_data_demo Analisa, padroniza e valida dados da Austrália/Nova Zelândia. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_aus_customer_matching_demo Demonstra as regras de padronização e análise que são personalizadas para a correspondência de dados da Austrália/Nova Zelândia. Esse mapeamento analisa as seguintes combinações de dados e gera clusters de correspondência para cada combinação: Dados de nome e endereço da pessoa Nome e número de telefone da pessoa Você pode conectar essas saídas de clusters de correspondência a uma transformação de Associação ou gerar AssociationIDs. Depois você pode conectar uma saída de transformação de Associação a uma transformação de Consolidação para identificar registros mestres. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. Regras de Limpeza de Dados de Endereço Use as regras de limpeza de dados de endereço da Austrália/Nova Zelândia para analisar, padronizar e validar dados. As regras de limpeza de dados de endereço do acelerador da Austrália/Nova Zelândia são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing Mapeamentos Demonstrativos da Austrália/Nova Zelândia 13
A tabela a seguir descreve as regras de limpeza de dados de endereço da Austrália/Nova Zelândia: Nome rule_aus_address_parse_hyb rid rule_aus_address_parse_mult iline rule_aus_address_validation_ Discrete rule_aus_address_validation_ Hybrid rule_aus_address_validation_ Multiline rule_nzl_address_parse_hybr id rule_nzl_address_parse_multi line rule_nzl_address_validation_ Discrete rule_nzl_address_validation_ Hybrid rule_nzl_address_validation_ Multiline Analisa os endereços parcialmente em token da Austrália em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços da Austrália em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços da Austrália. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços da Austrália. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços da Austrália. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Analisa os endereços parcialmente em token da Nova Zelândia em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços da Nova Zelândia em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços da Nova Zelândia. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços da Nova Zelândia. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços da Nova Zelândia. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Regras de Limpeza de Dados de Contato da Austrália/ Nova Zelândia Use as regras de limpeza de dados de contato da Austrália/Nova Zelândia para analisar, padronizar e validar dados. As regras de limpeza de dados de contato do acelerador da Austrália/Nova Zelândia são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de contato da Austrália/Nova Zelândia: Nome rule_aus_driver_licence_num ber_validation rule_aus_gender_assignment Valida números de carteira de habilitação da Austrália usando requisitos de tamanho e padrão. Atribui o sexo de acordo com os nomes da Austrália. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". 14 Capítulo 3: Acelerador da Austrália/Nova Zelândia
Nome rule_aus_given_name_stand ard rule_aus_multi_person_name _Parse rule_aus_personal_name_par sing_fml rule_aus_personal_name_par sing_lfm rule_aus_phone_number_par se rule_aus_phone_number_sta ndardization rule_aus_phone_number_vali dation rule_aus_tax_file_number_p arse rule_aus_tax_file_number_st andardization rule_aus_tax_file_number_v alidation rule_nzl_gender_assignment rule_nzl_given_name_standa rd rule_nzl_ird_number_parse rule_nzl_ird_number_standa rdization rule_nzl_ird_number_validat e Gera determinados nomes com base em nomes australianos. Analisa os nomes do Reino Unido em tokens de nome, como título, nome, nome do meio e sobrenome. Analisa nomes australianos no formato Primeiro-Meio-Último em tokens. Analisa nomes australianos no formato Último-Primeiro-Meio em tokens. Analisa um número de telefone australiano de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Essa regra processa os seguintes símbolos de pontuação: sinal de adição, parênteses e o símbolo de jogo da velha. Antes de executar essa regra, remova todas as outras pontuações, incluindo os espaços duplos. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza os números de telefone australianos para formatos de discagem internacional e local. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Valida o código de área e o tamanho dos números de telefone australianos. Essa regra retorna a região do número de telefone, assim como códigos que indicam se o código de área e o tamanho de um número de telefone são válidos. Analisa os Números de Arquivo de Impostos (TFN) australianos. Padroniza os Números de Arquivo de Impostos (TFN) australianos. Para configurar o formato padronizado, edite a variável de expressão TFN_Format da transformação de Expressão dq_format_tfn. O padrão é "No_Punctuation". Valida os Números de Arquivo de Impostos (TFN) australianos usando um dígito de verificação. Atribui o sexo de acordo com os nomes da Nova Zelândia. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Gera determinados nomes com base em nomes da Nova Zelândia. Analisa strings numéricas de nove dígitos como números do Ministério da Fazenda (IRD) da Nova Zelândia. Padroniza números do Ministério da Fazenda (IRD) da Nova Zelândia. Para configurar o formato padronizado, edite a variável de expressão IRD_Format da transformação de Expressão dq_format_ird. O padrão é "No_Punctuation". Essa regra requer que a entrada seja uma string de nove dígitos. Valida números do Ministério da Fazenda (IRD) da Nova Zelândia usando um dígito de verificação. Regras de Limpeza de Dados de Contato da Austrália/Nova Zelândia 15
Nome rule_nzl_phone_number_pars e rule_nzl_phone_number_stan dardization rule_nzl_phone_number_vali dation rule_prename_assignment rule_salutation_assignment Analisa um número de telefone da Nova Zelândia de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Essa regra processa os seguintes símbolos de pontuação: sinal de adição, parênteses e o símbolo de jogo da velha. Antes de executar essa regra, remova todas as outras pontuações, incluindo os espaços duplos. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza os números de telefone australianos para formatos de discagem internacional e local. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Valida o código de área e o tamanho dos números de telefone da Nova Zelândia. Essa regra retorna a região do número de telefone, assim como códigos que indicam se o código de área e o tamanho de um número de telefone são válidos Gera um título de acordo com o sexo. Você pode alterar a variável de expressão female_ prename de "Sra" para "Sta". Gera saudações formais e casuais a partir de nomes e tokens de nome. Por exemplo, para "Sr. John Smith", a regra gera a saudação formal "Prezado Sr. Smith," e a saudação casual "Prezado John,". É possível alterar o prefixo e a pontuação editando as variáveis na transformação de Expressão dq_generate_salutation. Regras de Limpeza de Dados Corporativos da Austrália/Nova Zelândia Use as regras de limpeza de dados corporativos da Austrália/Nova Zelândia para analisar, padronizar e validar dados. As regras de limpeza de dados corporativos do acelerador da Austrália/Nova Zelândia são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Corporate_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados corporativos da Austrália/Nova Zelândia: Nome rule_aus_business_number_p arse rule_aus_business_number_s tandardize rule_aus_business_number_v alidation rule_aus_company_name_st andardization Analisa strings numéricas de 11 dígitos como Números Comerciais Australianos (ABN). Padroniza os Números Comerciais Australianos (ABN) com um formato padrão (99 999 999 999). Essa regra requer que a entrada seja uma string de 11 dígitos. Valida os Números Comerciais Australianos (ABN) usando um dígito de verificação. Padroniza os nomes de empresa usando valores da tabela de referência australiana. 16 Capítulo 3: Acelerador da Austrália/Nova Zelândia
Dependências de Limpeza de Dados Gerais da Austrália/Nova Zelândia O acelerador da Austrália/Nova Zelândia tem dependências nas regras de limpeza de dados gerais instalados como parte do acelerador Principal. O acelerador da Austrália/Nova Zelândia tem dependências nas seguintes regras de limpeza de dados gerais: rule_assign_dq_90_mailability_score_description rule_assign_dq_90_match_code_descriptions rule_remove_extra_spaces rule_remove_hyphen rule_remove_leading_zero rule_remove_period_parentheses rule_remove_punctuation rule_remove_punctuation_and_space rule_remove_space rule_replace_limited_punct_with_space rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. Regras de Eliminação de Duplicação e Correspondência da Austrália/Nova Zelândia Use as regras de correspondência e eliminação de duplicação da Austrália/Nova Zelândia para analisar, padronizar e validar dados. As regras de correspondência e eliminação de duplicação da Austrália/Nova Zelândia são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication A tabela a seguir descreve as regras de correspondência e eliminação de duplicação da Austrália/Nova Zelândia: Nome mplt_aus_firstname_and_tfn _Match mplt_aus_imo_company_na me_and_address_match mplt_aus_imo_familyname_a nd_address_match Identifica as linhas duplicadas de dados australianos em Números de Arquivo de Impostos (TFN) e nomes. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do TFN. duplicadas de dados australianos baseados em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados australianos baseados em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. Dependências de Limpeza de Dados Gerais da Austrália/Nova Zelândia 17
Nome mplt_aus_imo_individual_na me_and_address_match mplt_aus_imo_personal_nam e_and_data mplt_aus_individual_name_an d_address_match mplt_aus_individual_name_an d_date_match mplt_aus_individual_name_an d_email_match mplt_aus_individual_name_an d_phone_match mplt_aus_individual_name_an d_tfn_match mplt_aus_individual_name_m atch mplt_aus_nzl_company_na me_and_address_match mplt_aus_nzl_familyname_a nd_address_match mplt_company_name_match mplt_nzl_firstname_and_ird _Match mplt_nzl_imo_company_nam e_and_address_match duplicadas de dados australianos baseados em nomes e endereços de pessoas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados australianos baseados em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou TFN. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base nos nomes de pessoa e dados de endereço australianos. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos dois primeiros dígitos do código postal. Identifica linhas duplicadas com base em nomes de pessoa australianos e datas. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de datas. Identifica linhas duplicadas com base em endereços de e-mail e nomes de pessoa australianos. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de endereços de e-mail. Identifica linhas duplicadas com base em nomes de pessoa da Austrália e números de telefone. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de telefone. Identifica as linhas duplicadas de dados australianos em Números de Arquivo de Impostos (TFN) e nomes de pessoas. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do TFN. Identifica linhas duplicadas com base nos nomes da pessoa australianos. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Identifica linhas duplicadas com base no nome da empresa e nos dados de endereço da Austrália/Nova Zelândia. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos dois primeiros caracteres do código Soundex do nome da empresa e dos três primeiros dígitos do código postal. Identifica linhas duplicadas com base no sobrenome e nos dados de endereço da Austrália/Nova Zelândia. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do código postal. Identifica linhas duplicadas com base no nome da empresa. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa. Identifica as linhas duplicadas de dados da Nova Zelândia com base em números do Ministério da Fazenda (IRD) e nomes. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números do IRD. duplicadas de dados da Nova Zelândia baseados em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. 18 Capítulo 3: Acelerador da Austrália/Nova Zelândia
Nome mplt_nzl_imo_familyname_a nd_address_match mplt_nzl_imo_individual_nam e_and_address_match mplt_nzl_imo_personal_nam e_and_data mplt_nzl_individual_name_an d_address_match mplt_nzl_individual_name_an d_date_match mplt_nzl_individual_name_an d_email_match mplt_nzl_individual_name_an d_ird_match mplt_nzl_individual_name_an d_phone_match mplt_nzl_individual_name_ma tch rule_aus_nzl_company_nam e_and_address_matchscore rule_aus_nzl_familyname_a nd_address_matchscore rule_aus_nzl_firstname_and _PID_MatchScore rule_aus_nzl_individual_nam e_and_address_matchscore rule_aus_nzl_individual_nam e_and_pid_matchscore rule_company_name_matchsc ore rule_individual_name_and_dat e_matchscore duplicadas de dados da Nova Zelândia baseados em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados da Nova Zelândia baseados em nomes de pessoa e endereços. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados da Nova Zelândia baseados em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou IRD. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base nos nomes de pessoa e dados de endereço da Nova Zelândia. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos dois primeiros dígitos do código postal. Identifica linhas duplicadas com base em nomes de pessoa da Nova Zelândia e datas. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de datas. Identifica linhas duplicadas com base em endereços de e-mail e nomes de pessoa da Nova Zelândia. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de endereços de e-mail. Identifica linhas duplicadas com base em nomes de pessoa e números do Ministério da Fazenda (IRD) da Nova Zelândia. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números do IRD. Identifica linhas duplicadas com base em nomes de pessoa e números de telefone da Nova Zelândia. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de telefone. Identifica linhas duplicadas com base nos nomes de pessoa da Nova Zelândia. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Gera uma pontuação de correspondência comparando os nomes de empresas e os endereços da Austrália/Nova Zelândia. Gera uma pontuação de correspondência comparando os sobrenomes e os endereços da Austrália/Nova Zelândia. Gera uma pontuação de correspondência comparando os nomes e números de identificação pessoal. Gera uma pontuação de correspondência comparando os nomes de pessoa e os endereços da Austrália/Nova Zelândia. Gera uma pontuação de correspondência comparando os nomes de pessoas e números de identificação pessoal. Gera uma pontuação de correspondência comparando os nomes de empresas. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Regras de Eliminação de Duplicação e Correspondência da Austrália/Nova Zelândia 19
Nome rule_individual_name_and_em ail_matchscore rule_individual_name_and_pho ne_matchscore rule_individual_name_matchsc ore Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de telefone. Gera uma pontuação de correspondência comparando os nomes de pessoas. 20 Capítulo 3: Acelerador da Austrália/Nova Zelândia
C A P Í T U L O 4 Acelerador do Brasil Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador do Brasil, 21 Mapeamentos Demonstrativos do Brasil, 21 Regras de Limpeza de Dados de Endereço do Brasil, 22 Regras de Limpeza de Dados de Contato do Brasil, 23 Regras de Limpeza de Dados Corporativos do Brasil, 24 Dependências de Limpeza de Dados Gerais do Brasil, 24 Regras de Eliminação de Duplicação e Correspondência do Brasil, 24 Visão Geral do Acelerador do Brasil O acelerador do Brasil valida e aprimora os dados brasileiros usando processos de qualidade de dados especializados e tabelas de referência não específicas. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador do Brasil inclui regras que executam as seguintes operações de processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados corporativos Limpeza de dados gerais Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais e dos dados de contato instalados pelo acelerador Principal. Mapeamentos Demonstrativos do Brasil Os mapeamentos demonstrativos do acelerador do Brasil combinam regras para demonstrar processos de Qualidade de Dados complexos. Os mapeamentos demonstrativos do acelerador do Brasil são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\BRA_Accelerator O acelerador inclui os seguintes mapeamentos demonstrativos: 21
m_bra_customer_data_demo Analisa, padroniza e valida dados brasileiros. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_bra_customer_matching_demo Demonstra as regras de padronização e análise exigidas para a correspondência de dados brasileiros. Esse mapeamento analisa as seguintes combinações de dados e gera clusters de correspondência para cada combinação: Dados de nome e endereço da pessoa Nome e número de telefone da pessoa Você pode conectar essas saídas de clusters de correspondência a uma transformação de Associação ou gerar AssociationIDs. Depois você pode conectar uma saída de transformação de Associação a uma transformação de Consolidação para identificar registros mestres. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. Regras de Limpeza de Dados de Endereço do Brasil Use as regras de limpeza de dados corporativos do Brasil para analisar, padronizar e validar dados. As regras de limpeza de dados de endereço do acelerador do Brasil são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de endereço do Brasil: Nome rule_bra_address_parse_hyb rid rule_bra_address_parse_mult iline rule_bra_address_validation_ Discrete rule_bra_address_validation_ Hybrid rule_bra_address_validation_ Multiline Analisa os endereços parcialmente em token brasileiros em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços brasileiros em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços brasileiros. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços brasileiros. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços brasileiros. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. 22 Capítulo 4: Acelerador do Brasil
Regras de Limpeza de Dados de Contato do Brasil Use as regras de limpeza de dados de contato do Brasil para analisar, padronizar e validar dados. As regras de limpeza de dados de contato do acelerador do Brasil são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de contato do Brasil: Nome rule_bra_gender_assignment rule_bra_given_name_stand ard rule_bra_personal_cpf_valid ation rule_bra_personal_name_par se_validate rule_bra_personal_pis_pase P_Validation rule_bra_personal_voter_reg istration_validation rule_bra_phone_number_par se rule_bra_phone_number_sta ndardization rule_bra_phone_validatation rule_bra_prename_assignme nt rule_bra_salutation_assignme nt Atribui o sexo de acordo com o nome. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Gera determinados nomes com base em nomes brasileiros. Valida a verificação de dígitos para os números de Cadastro de Pessoas Físicas (CPF). Analisa os nomes de pessoa brasileiros e valida a ortografia. Essa regra também fornece informações sobre se o nome da pessoa é potencialmente um nome de empresa. Valida os números de previdência social do Brasil. Validar os dígitos de seleção nos números de título de eleitor do Brasil. Analisa um número de telefone brasileiro de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da esquerda para a direita. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza números de telefone brasileiros. A regra retorna o número de telefone nos seguintes formatos: - Padrão - nn nnnn nnnn - Hífens - nn-nnnn-nnnn - Sem Espaços - nnnnnnnnnn Valida o código de área e o tamanho dos números de telefone brasileiros. Essa regra retorna códigos que indicam se o código de área e o comprimento de um número de telefone são válidos. Gera um título de acordo com o sexo. Você pode alterar a variável de expressão female_ prename de "Sra" para "Sta". Gera saudações formais e casuais a partir de nomes e tokens de nome. Por exemplo, para "Sr John Smith", a regra gera a saudação formal "Prezado Sr Smith," e a saudação casual "Prezado John,". É possível alterar o prefixo e a pontuação editando as variáveis na transformação de Expressão dq_generate_salutation. Dependências de Regras de Limpeza de Dados de Contato Principais O acelerador do Brasil depende das regras de limpeza de dados de contato do acelerador Principal a seguir. rule_email_parse_into_mailbox_domain rule_email_validation Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados do Contato Principal na página 6. Regras de Limpeza de Dados de Contato do Brasil 23
Regras de Limpeza de Dados Corporativos do Brasil Use as regras de limpeza de dados corporativos do Brasil para padronizar e validar dados. As regras de limpeza de dados corporativos do Brasil são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Corporate_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados corporativos do Brasil: Nome rule_bra_company_cnpj_val idation rule_bra_company_suffix_sta ndardization Valida os números de Cadastro Nacional da Pessoa Jurídica (CPNJ). Os números de CPNJ identificam as empresas brasileiras. Padroniza os sufixos de empresas brasileiras. Dependências de Limpeza de Dados Gerais do Brasil O acelerador de Brasil tem dependências nas regras de limpeza de dados gerais instalados como parte do acelerador Principal. O acelerador do Brasil tem dependências nas seguintes regras de limpeza de dados gerais: rule_assign_dq_90_mailability_score_description rule_assign_dq_90_match_code_descriptions rule_remove_extra_spaces rule_remove_punctuation rule_replace_limited_punct_with_space rule_titlecase rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. Regras de Eliminação de Duplicação e Correspondência do Brasil Use as regras de correspondência e eliminação de duplicação do Brasil para gerar pontuações de correspondência e identificar linhas duplicadas. As regras de correspondência e eliminação de duplicação do Brasil são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication 24 Capítulo 4: Acelerador do Brasil
A tabela a seguir descreve as regras de correspondência e eliminação de duplicação do Brasil: Nome mplt_bra_company_name_an d_address_match mplt_bra_familyname_and_a ddress_match mplt_bra_firstname_and_cpf _Match mplt_bra_imo_company_na me_and_address_match mplt_bra_imo_familyname_a nd_address_match mplt_bra_imo_individual_na me_and_address_match mplt_bra_imo_personal_nam e_and_data mplt_bra_individual_name_an d_address_match mplt_bra_individual_name_an d_cpf_match mplt_bra_individual_name_an d_date_match mplt_bra_individual_name_an d_email_match mplt_bra_individual_name_an d_phone_match mplt_company_name_match Identifica linhas duplicadas com base no nome da empresa e nos dados de endereço brasileiros. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa e dos três primeiros dígitos do CEP. Identifica linhas duplicadas com base no sobrenome e nos dados de endereço brasileiros. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do código postal. Identifica linhas duplicadas com base em nomes e no número do Cadastro de Pessoas Físicas (CPF). Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir dos números de CPF. duplicadas de dados brasileiros baseados em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados brasileiros baseados em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados brasileiros baseados em nomes e endereços de pessoas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados brasileiros baseados em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou TFN. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base nos nomes de pessoa e dados de endereço brasileiros. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do código postal. Identifica linhas duplicadas com base em nomes de pessoa e no números de Cadastro de Pessoas Físicas (CPF). Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir dos números de CPF. Identifica linhas duplicadas com base em nomes de pessoas brasileiras e dados de data. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de datas. Identifica linhas duplicadas com base em nomes de pessoas brasileiras e endereços de e-mail. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de endereços de e-mail. Identifica linhas duplicadas com base em nomes de pessoas brasileiras e números de telefone. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de telefone. Identifica linhas duplicadas com base no nome da empresa. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa. Regras de Eliminação de Duplicação e Correspondência do Brasil 25
Nome rule_bra_company_name_an d_address_matchscore rule_bra_familyname_and_ad dress_matchscore rule_bra_firstname_and_cpf _MatchScore rule_bra_individual_name_an d_address_matchscore rule_bra_individual_name_an d_cpf_matchscore rule_bra_individual_name_an d_phone_matchscore rule_company_name_matchsc ore rule_individual_name_and_dat e_matchscore rule_individual_name_and_em ail_matchscore Gera uma pontuação de correspondência comparando os nomes de empresa e os dados de endereços brasileiros. Gera uma pontuação de correspondência comparando os sobrenomes e os dados de endereços brasileiros. Gera uma pontuação de correspondência comparando o nome ao número do Cadastro de Pessoas Físicas (CPF). Gera uma pontuação de correspondência comparando os nomes de pessoas e os dados de endereços brasileiros. Gera uma pontuação de correspondência comparando os nomes de pessoas e os dados de endereços brasileiros. Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de telefone. Gera uma pontuação de correspondência comparando os nomes de empresas. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. 26 Capítulo 4: Acelerador do Brasil
C A P Í T U L O 5 Acelerador dos Serviços Financeiros Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador dos Serviços Financeiros, 27 Regras de Limpeza de Dados de Contato dos Serviços Financeiros, 27 Regras de Limpeza de Dados Financeiros dos Serviços Financeiros, 28 Regras de Limpeza de Dados Gerais dos Serviços Financeiros, 30 Regras de Eliminação de Duplicação e Correspondência dos Serviços Financeiros, 31 Visão Geral do Acelerador dos Serviços Financeiros O acelerador dos Serviços Financeiros valida e aprimora os dados usando processos de qualidade de dados especializados e tabelas de referência. Esse acelerador inclui regras e dados de referência. O acelerador dos Serviços Financeiros inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de contato Limpeza de dados financeiros Limpeza de dados gerais Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais do acelerador Principal. Regras de Limpeza de Dados de Contato dos Serviços Financeiros Use as regras de limpeza de dados de contato dos Serviços Financeiros para padronizar os dados de contato. As regras de limpeza de dados de contato do acelerador dos Serviços Financeiros são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing 27
A tabela a seguir descreve a regra de limpeza de dados de contato dos Serviços Financeiros: Nome rule_usa_given_name_standard Gera determinados nomes com base em nomes dos Estados Unidos. Por exemplo, essa regra padroniza o nome "Bob" como o nome "Robert". Regras de Limpeza de Dados Financeiros dos Serviços Financeiros Use as regras de limpeza de dados financeiros dos Serviços Financeiros para analisar, padronizar e validar dados financeiros. As regras de limpeza de dados financeiros dos Serviços Financeiros são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Financial_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados financeiros dos Serviços Financeiros: Nome rule_account_status_validatio n rule_accrual_period_validation rule_age_for_account_validati on rule_beta_coefficient_validatio n rule_bic_swift_code_validat ion rule_can_transit_number_val idation rule_credit_card_expiry_chec k rule_credit_card_security_co de_validation rule_currency_code_country_ Validation rule_currency_code_validatio n rule_cusip_validation rule_delta_validation Valida o status da conta usando valores da tabela de referência. Essa regra requer dados de referência do status da conta. Valida que a data inicial é menor do que a data final. Valida a idade do cliente para o tipo da conta usando valores da tabela de referência. Essa regra usa a tabela de referência age_per_account_infa. Você deve atualizar essa tabela de referência com os seus próprios dados. Verifica se a string do coeficiente Beta é um número. Essa regra retorna se a string é um número positivo, negativo, um zero ou não é um número. Valida um código BIC ou SWIFT por reconhecimento de padrão e validação de código de país. Valida o padrão de um número de trânsito canadense usando transações de fundos eletrônicas e em papel. Valida a data de validade de um cartão de crédito. Essa regra compara a data de validade do cartão de crédito à data do sistema e identifica as datas expiradas. Essa regra aceita uma string de sete caracteres no formato MM/YYYY. Verifica se o código de segurança cartão de crédito é um número inteiro que contém três ou quatro dígitos. Verifica se o código de moeda é válido para o código de países ISO de três caracteres. Valida o código de moeda. Essa regra retorna "Válido" ou "Inválido". Valida o formato e o tamanho do valor do dígito de verificação. Essa regra retorna um status que descreve a validade do valor do dígito de verificação e uma mensagem que explica o status. Verifica se o valor delta é positivo, negativo ou zero. 28 Capítulo 5: Acelerador dos Serviços Financeiros
Nome rule_dividend_yield_validation rule_ead_drawn_balance_vali dation rule_ead_validation rule_eps_validation rule_ex_dividend_date_valida tion rule_gamma_validation rule_gbr_bank_account_pars e rule_gbr_bank_account_vali dation rule_gbr_bank_sort_code_p arse rule_gbr_bank_sort_code_st andardise rule_gbr_bank_sort_code_v alidation rule_interest_rate_within_ran ge rule_isin_code_validation rule_loan_to_value_ratio rule_loss_given_default_valid ation rule_market_cap_validation rule_maturity_date_validation rule_positive_close_price_val ue_validation Verifica se a string de resultado de dividendo é um número maior ou igual a zero. Essa regra retorna se a string é um número positivo, negativo, um zero ou não é um número. Verifica se a quantidade listada em EAD não é menor do que o saldo retirado. Essa regra segue as diretrizes para cálculo de EAD da Autoridade de Serviços Financeiros do Reino Unido. Verifica se a string EAD é um número. Essa regra retorna se a string é um número positivo, negativo, um zero ou não é um número. Verifica se a entrada é um número maior ou igual a zero. Valida se a data ex-dividendo e a data do registro são datas válidas, e se a data do ex-dividendo é antes da data do registro. Essa regra identifica datas com uma diferença de mais de 15 dias como não válidas. Essa regra retorna a diferença em dias entre a data do registro e a data do ex-dividendo. Verifica se a string Gamma é um número. Essa regra retorna se a string é um número positivo, negativo, um zero ou não é um número. Analisa strings numéricas de 8 dígitos como números de contas bancárias do Reino Unido. Valida números de contas bancárias do Reino Unido. Essa regra retorna códigos que indicam se a entrada é numérica e se tem o número correto de dígitos. Analisa strings numéricas de 6 dígitos como códigos de classificação bancária do Reino Unido. Essa regra analisa strings de números nos seguintes formatos: - Números consecutivos (999999) - Números delimitados por um traço (99-99-99) Padroniza um código de classificação bancária do Reino Unido com o formato "NN-NN-NN". Valida o formato e o tamanho dos códigos de classificação bancária do Reino Unido que são padronizados com o formato delimitado por traço (99-99-99). Essa regra retorna uma porta de Status que descreve a validade do código de classificação e uma porta de Nota de Validação que explica o status. Se o prefixo do código de classificação corresponder a uma atribuição conhecida de um banco do Reino Unido, a porta de Nota de Validação incluirá o nome do banco. Verifica se o valor decimal está dentro do intervalo especificado. O intervalo é definido usando as duas portas de variável na transformação de Expressão. Essa regra retorna "True" ou "False". Valida um código ISIN verificando o formato e o dígito de verificação. Calcula o empréstimo conforme o índice de valor, que é o valor do empréstimo dividido pelo valor da propriedade. Verifica se a string é numérica e se é um valor positivo, negativo ou zero. Verifica se a entrada é um número maior ou igual a zero. Valida se a data de vencimento é maior do que a data do sistema. Verifica se a entrada é um número maior do que zero. Regras de Limpeza de Dados Financeiros dos Serviços Financeiros 29
Nome rule_positive_coupon_percent _Validation rule_positive_last_price_valu e_validation rule_positive_open_price_vali dation rule_positive_volume_validatio n rule_price_earnings_ratio_val idation rule_probability_of_default_val idation rule_rating_code_validation rule_rating_date_validation rule_risk_weighted_asset_val idation rule_sedol_validation rule_stock_exchange_validati on rule_usa_routing_number_va lidation rule_volatility_validation Verifica se a entrada é um número maior do que zero. Verifica se a entrada é um número maior do que zero. Verifica se a entrada é um número maior do que zero. Verifica se a entrada é um número maior do que zero. Verifica se o índice de preço-para-receita é um número positivo no intervalo de 0-100. Verifica se há probabilidade do valor padrão ser numérico e indica se ele é um valor positivo, negativo ou zero. Caso positivo, essa regra retornará mensagens de status para os valores nos seguintes intervalos: - < =.1 - >,1 e < =,5 - >,5 e < = 1 - > 1 Verifica se uma classificação pertence à escala de classificação da Standard & Poor's, da Moody's ou a uma lista definida pelo usuário. Verifica se a data de classificação é um ano maior do que a data do sistema. Verifica se um ativo ponderado pelo risco é um número positivo. Valida um código SEDOL verificando o formato e o dígito de verificação. Valida a maioria das bolsas de valores mundiais pelo nome e símbolo. Valida um número de roteamento formatado MICR padrão. Valida o Federal Reserve Bank Associado, a estrutura da entrada e o cálculo da soma de verificação. Verifica se o valor de volatilidade é um número maior ou igual a zero. Regras de Limpeza de Dados Gerais dos Serviços Financeiros Use as regras de limpeza de dados gerais dos Serviços Financeiros para identificar os tipos de informações contidas nos campos de entrada. As regras de limpeza de dados gerais do acelerador dos Serviços Financeiros são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\General _Data_Cleansing 30 Capítulo 5: Acelerador dos Serviços Financeiros
A tabela a seguir descreve as regras de limpeza de dados gerais dos Serviços Financeiros: Nome rule_postive_number_validatio n Verifica se o número é um número maior do que zero. Dependências de Regras de Limpeza de Dados Gerais Principais O acelerador dos Serviços Financeiros depende das seguintes regras de limpeza de dados gerais do acelerador Principal: rule_remove_punctuation rule_remove_punctuation_and_space rule_remove_space rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. Regras de Eliminação de Duplicação e Correspondência dos Serviços Financeiros Use as regras de correspondência e eliminação de duplicação dos Serviços Financeiros para gerar pontuações de correspondência e identificar registros duplicados. As regras de correspondência e eliminação de duplicação dos Serviços Financeiros são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication A tabela a seguir descreve as regras de correspondência e eliminação de duplicação dos Serviços Financeiros: Nome mplt_company_name_and_ad dress_match mplt_company_name_match mplt_familyname_and_addres s_match mplt_individual_name_and_ad dress_match mplt_individual_name_and_da te_match Identifica linhas duplicadas com base no nome da empresa e nos dados de endereço dos Estados Unidos. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa e dos três primeiros dígitos do Código postal. Identifica linhas duplicadas com base no nome da empresa. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa. Identifica linhas duplicadas com base no sobrenome e nos dados de endereço dos Estados Unidos. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do Código postal. Identifica linhas duplicadas com base nos nomes de pessoa e dados de endereço dos EUA. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do Código postal. Identifica linhas duplicadas com base em nomes de pessoas e dados de data. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de datas. Regras de Eliminação de Duplicação e Correspondência dos Serviços Financeiros 31
Nome mplt_individual_name_and_e mail_match mplt_individual_name_and_ph one_match mplt_individual_name_match rule_company_name_and_ad dress_matchscore rule_company_name_matchs core rule_familyname_and_addres s_matchscore rule_individual_name_and_ad dress_matchscore rule_individual_name_and_dat e_matchscore rule_individual_name_and_em ail_matchscore rule_individual_name_and_ph one_matchscore rule_individual_name_matchs core Identifica linhas duplicadas com base em nomes de pessoas e endereços de e- mail. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de endereços de e-mail. Identifica linhas duplicadas com base em nomes de pessoa e números de telefone. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de telefone. Identifica linhas duplicadas com base nos nomes da pessoa. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Gera uma pontuação de correspondência comparando os nomes de empresa e os dados de endereço dos EUA. Gera uma pontuação de correspondência comparando os nomes de empresas. Gera uma pontuação de correspondência comparando os sobrenomes e os dados de endereço dos EUA. Gera uma pontuação de correspondência comparando os nomes de pessoa e os dados de endereço dos EUA. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de telefone. Gera uma pontuação de correspondência comparando os nomes de pessoas. 32 Capítulo 5: Acelerador dos Serviços Financeiros
C A P Í T U L O 6 Acelerador da França Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador da França, 33 Mapeamentos Demonstrativos da França, 33 Regras de Limpeza de Dados de Endereço da França, 34 Regras de Limpeza de Dados de Contato da França, 35 Regras de Limpeza de Dados Corporativos da França, 36 Dependências de Limpeza de Dados Gerais da França, 36 Regras de Eliminação de Duplicação e Correspondência da França, 37 Visão Geral do Acelerador da França O acelerador da França valida e aprimora os dados franceses usando processos de qualidade de dados especializados e tabelas de referência não específicas. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador da França inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados corporativos Limpeza de dados gerais Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais instaladas pelo acelerador Principal. Mapeamentos Demonstrativos da França Os mapeamentos demonstrativos da França combinam regras de acelerador para demonstrar processos de qualidade de dados complexos. Os mapeamentos demonstrativos do acelerador da França são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\FRA_Accelerator O acelerador inclui os seguintes mapeamentos demonstrativos: m_fra_customer_data_demo Analisa, padroniza e valida dados da França. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data 33
Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_fra_customer_matching_demo Demonstra as regras de padronização e análise que são personalizadas para a correspondência de dados da França. Esse mapeamento analisa as seguintes combinações de dados e gera clusters de correspondência para cada combinação: Dados de nome e endereço da pessoa Nome e número de telefone da pessoa Você pode conectar essas saídas de clusters de correspondência a uma transformação de Associação ou gerar AssociationIDs. Depois você pode conectar uma saída de transformação de Associação a uma transformação de Consolidação para identificar registros mestres. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. Regras de Limpeza de Dados de Endereço da França Use as regras de limpeza de dados de endereço da França para analisar, padronizar e validar dados de endereço. As regras de limpeza de dados de endereço do acelerador da França são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de endereço da França: Nome rule_fra_address_parse_hybr id rule_fra_address_parse_multi line rule_fra_address_validation_ Discrete rule_fra_address_validation_ Hybrid rule_fra_address_validation_ Multiline Analisa os endereços parcialmente em token franceses em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços franceses em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços franceses. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços franceses. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços franceses. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. 34 Capítulo 6: Acelerador da França
Regras de Limpeza de Dados de Contato da França Use as regras de limpeza de dados de contato da França para analisar, padronizar e validar dados. As regras de limpeza de dados de contato do acelerador da França são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de contato da França: Nome rule_fra_gender_assignment rule_fra_given_name_standa rd rule_fra_insee_parse rule_fra_insee_standardizati on rule_fra_insee_validation rule_fra_multi_person_name _Parse rule_fra_personal_name_par sing_fml rule_fra_personal_name_par sing_lfm rule_fra_phone_number_par se rule_fra_phone_number_sta ndardize rule_fra_phone_number_vali dation rule_fra_prename_assignmen t rule_fra_salutation_assignme nt Atribui o sexo de acordo com os nomes franceses. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Gera determinados nomes com base em nomes franceses. Analisa o número do French Institut National de la Statistique et des Études Économiques (INSEE) de uma string. Padroniza o número do INSEE francês como uma string de 13 dígitos ou 13 dígitos seguidos de um espaço e da chave de controle de dois dígitos. Valida o número do INSEE baseado no sexo, data e valores do Code Officiel Géographique (COG). Analisa os nomes franceses em tokens de nomes, como título, nome, nome do meio e sobrenome. Analisa nomes franceses no formato Primeiro-Meio-Último em tokens. Analisa nomes franceses no formato Último-Primeiro-Meio em tokens. Analisa um número de telefone francês de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Essa regra processa os seguintes símbolos de pontuação: sinal de adição, parênteses e o símbolo de jogo da velha. Antes de executar essa regra, remova todas as outras pontuações, incluindo os espaços duplos. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza os números de telefone franceses para formatos de discagem internacional e local. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Valida o código de área e o tamanho dos números de telefone franceses. Essa regra retorna a região do número de telefone, assim como códigos que indicam se o código de área e o tamanho de um número de telefone são válidos. Gera um título de acordo com o sexo. Você pode alterar a variável de expressão female_ prename de "Sra" para "Sta". Gera saudações formais e casuais a partir de nomes e tokens de nome. Por exemplo, para "Sr. John Smith", a regra gera a saudação formal "Prezado Sr. Smith," e a saudação casual "Prezado John,". É possível alterar o prefixo e a pontuação editando as variáveis na transformação de Expressão dq_generate_salutation. Regras de Limpeza de Dados de Contato da França 35
Regras de Limpeza de Dados Corporativos da França Use as regras de limpeza de dados corporativos de acelerador da França para padronizar dados. As regras de limpeza de dados corporativos de acelerador da França são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Corporate_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados corporativos de acelerador da França: Nome rule_fra_company_name_standardizatio n rule_fra_siret_number_parse rule_fra_siret_number_standardize rule_fra_siret_number_validation Padroniza os nomes de empresa usando valores da tabela de referência. Analisa um número comercial SIRET francês de uma string. Padroniza um número de 14 dígitos para o formato NNN NNN NNN NNNNN sem considerar o espaçamento ou a pontuação da string. Não há padronização para strings com menos de 14 dígitos. Valida um número SIRET. A regra presume que o número está no formato padrão depois de aplicar a regra rule_fra_siret_number_standardization. Dependências de Limpeza de Dados Gerais da França O acelerador da França tem dependências nas regras de limpeza de dados gerais instalados como parte do acelerador Principal. O acelerador da França tem dependências nas seguintes regras de limpeza de dados gerais: rule_assign_dq_90_mailability_score_description rule_assign_dq_90_match_code_descriptions rule_luhn_algorithm rule_remove_extra_spaces rule_remove_parentheses rule_remove_parentheses rule_remove_punctuation rule_remove_punctuation_and_space rule_replace_limited_punct_with_space rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. 36 Capítulo 6: Acelerador da França
Regras de Eliminação de Duplicação e Correspondência da França Use as regras de correspondência e eliminação de duplicação da França para gerar pontuações de correspondência e identificar registros duplicados. As regras de correspondência e eliminação de duplicação da França são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication A tabela seguintes descreve as regras de correspondência e eliminação de duplicação da França: Nome mplt_company_name_match mplt_fra_company_name_an d_address_match mplt_fra_familyname_and_a ddress_match mplt_fra_firstname_and_ins EE_Match mplt_fra_firstname_surname _DOB_and_Postcode_Match mplt_fra_imo_company_nam e_and_address_match mplt_fra_imo_familyname_a nd_address_match mplt_fra_imo_individual_na me_and_address_match mplt_fra_imo_personal_nam e_and_data mplt_fra_individual_name_an d_date_match mplt_fra_individual_name_an d_email_match Identifica linhas duplicadas com base nos nomes de empresa. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa. duplicadas com base em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando os três primeiros caracteres do código soundex do nome da empresa e os três primeiros dígitos do código postal. duplicadas com base em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando o valor do New York State Information Interchange System (NYSIIS) do nome de família e dos três primeiros dígitos do código postal. duplicadas com base no número do French Institut National de la Statistique et des Études Économiques (INSEE). duplicadas de nomes pessoais, data de nascimento e códigos postais agrupados por código postal. duplicadas com base em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. Identifica linhas duplicadas de sobrenomes e endereços franceses com base nos dois primeiros dígitos do código postal e no sobrenome. duplicadas com base em nomes e endereços da pessoa. duplicadas em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou INSEE. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base em nomes de pessoas e dados de data. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir das datas. Identifica linhas duplicadas com base em nomes de pessoas e endereços de e- mail. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir dos endereços de e-mail. Regras de Eliminação de Duplicação e Correspondência da França 37
Nome mplt_fra_individual_name_an d_insee_match mplt_fra_individual_name_m atch rule_company_name_matchsc ore rule_fra_company_name_an d_address_matchscore rule_fra_familyname_and_ad dress_matchscore rule_fra_firstname_and_ins EE_MatchScore rule_fra_firstname_surname _DOB_and_Postcode_MatchSc ore rule_fra_individual_name_an d_insee_matchscore rule_individual_name_and_dat e_matchscore rule_individual_name_and_em ail_matchscore rule_individual_name_matchsc ore Identifica linhas duplicadas com base em nomes de pessoas e números de INSEE. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir dos números de INSEE. Identifica linhas duplicadas com base nos nomes da pessoa. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Gera uma pontuação de correspondência comparando os nomes de empresas. Gera uma pontuação de correspondência comparando os nomes de empresas e os endereços franceses. Gera uma pontuação de correspondência comparando os sobrenomes e os endereços franceses. Gera uma pontuação de correspondência comparando os nomes e todos os dados da coluna de dados pessoais, como número de telefone, e-mail ou número de INSEE. Gera uma pontuação de correspondência comparando os sobrenomes, as datas de nascimento e os códigos postais. Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de INSEE. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. Gera uma pontuação de correspondência comparando os nomes de pessoas. 38 Capítulo 6: Acelerador da França
C A P Í T U L O 7 Acelerador da Alemanha Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador da Alemanha, 39 Mapeamentos Demonstrativos da Alemanha, 39 Regras de Limpeza de Dados de Endereço da Alemanha, 40 Regras de Limpeza de Dados de Contato da Alemanha, 41 Regras de Limpeza de Dados Corporativos da Alemanha, 42 Dependências de Limpeza de Dados Gerais da Alemanha, 42 Regras de Eliminação de Duplicação e Correspondência da Alemanha, 42 Visão Geral do Acelerador da Alemanha O acelerador da Alemanha valida e aprimora os dados alemãos usando processos de qualidade de dados especializados e tabelas de referência não específicas. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador da Alemanha inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados corporativos Limpeza de dados gerais Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais instaladas pelo acelerador Principal. Mapeamentos Demonstrativos da Alemanha Os mapeamentos demonstrativos da Alemanha combinam regras de acelerador para demonstrar processos de qualidade de dados complexos. Os mapeamentos demonstrativos do acelerador da Alemanha são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\DEU_Accelerator O acelerador inclui os seguintes mapeamentos demonstrativos: m_deu_customer_data_demo Analisa, padroniza e valida dados alemãos. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data 39
Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_deu_customer_matching_demo Demonstra as regras de padronização e análise que são personalizadas para a correspondência de dados da Alemanha. Esse mapeamento analisa as seguintes combinações de dados e gera clusters de correspondência para cada combinação: Dados de nome e endereço da pessoa Nome e número de telefone da pessoa Você pode conectar essas saídas de clusters de correspondência a uma transformação de Associação ou gerar AssociationIDs. Depois você pode conectar uma saída de transformação de Associação a uma transformação de Consolidação para identificar registros mestres. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. Regras de Limpeza de Dados de Endereço da Alemanha Use as regras de limpeza de dados de endereço da Alemanha para analisar, padronizar e validar dados de endereço. As regras de limpeza de dados de endereço do acelerador da Alemanha são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de endereço da Alemanha: Nome rule_deu_address_parse_hyb rid rule_deu_address_parse_mult iline rule_deu_address_validation_ Discrete rule_deu_address_validation_ Hybrid rule_deu_address_validation_ Multiline Analisa os endereços parcialmente em token alemãos em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços alemãos em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços alemãos. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços alemãos. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços alemãos. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. 40 Capítulo 7: Acelerador da Alemanha
Regras de Limpeza de Dados de Contato da Alemanha Use as regras de limpeza de dados de contato da Alemanha para analisar, padronizar e validar dados. As regras de limpeza de dados de contato do acelerador da Alemanha são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de contato da Alemanha: Nome rule_deu_gender_assignment rule_deu_given_name_stand ard rule_deu_multi_person_name _Parse rule_deu_personal_name_par sing_fml rule_deu_personal_name_par sing_lfm rule_deu_phone_number_par se rule_deu_phone_number_sta ndardization rule_deu_phone_number_vali dation rule_deu_prename_assignme nt rule_deu_salutation_assignme nt Atribui o sexo de acordo com os nomes alemãos. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Gera determinados nomes com base em nomes alemãos. Analisa os nomes alemãos em tokens de nome, como título, nome, nome do meio e sobrenome. Analisa nomes alemãos no formato Primeiro-Meio-Último em tokens. Analisa nomes alemãos no formato Último-Primeiro-Meio em tokens. Analisa um número de telefone alemão de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Essa regra processa os seguintes símbolos de pontuação: sinal de adição, parênteses e o símbolo de jogo da velha. Antes de executar essa regra, remova todas as outras pontuações, incluindo os espaços duplos. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza os números de telefone alemãos para formatos de discagem internacional e local. Essa regra reconhece números de telefone que usam zeros à esquerda, códigos de discagem internacional ou extensões que começam com o símbolo de jogo da velha. Valida o código de área e o tamanho dos números de telefone alemãos. Essa regra retorna a região do número de telefone, assim como códigos que indicam se o código de área e o tamanho de um número de telefone são válidos. Gera um título de acordo com o sexo. Você pode alterar a variável de expressão female_ prename de "Sra" para "Sta". Gera saudações formais e casuais a partir de nomes e tokens de nome. Por exemplo, para "Sr. John Smith", a regra gera a saudação formal "Prezado Sr. Smith," e a saudação casual "Prezado John,". É possível alterar o prefixo e a pontuação editando as variáveis na transformação de Expressão dq_generate_salutation. Regras de Limpeza de Dados de Contato da Alemanha 41
Regras de Limpeza de Dados Corporativos da Alemanha Use as regras de limpeza de dados corporativos do acelerador da Alemanha para padronizar dados. As regras de limpeza de dados corporativos do acelerador da Alemanha são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Corporate_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados corporativos do acelerador da Alemanha: Nome rule_deu_company_name_standardizatio n Padroniza os nomes de empresa usando valores da tabela de referência. Dependências de Limpeza de Dados Gerais da Alemanha O acelerador da Alemanha tem dependências nas regras de limpeza de dados gerais instalados como parte do acelerador Principal. O acelerador da Alemanha tem dependências nas seguintes regras de limpeza de dados gerais: rule_assign_dq_90_mailability_score_description rule_assign_dq_90_match_code_descriptions rule_remove_extra_spaces rule_remove_leading_zero rule_remove_period_parentheses rule_remove_punctuation rule_remove_punctuation_and_space rule_remove_space rule_replace_limited_punct_with_space rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. Regras de Eliminação de Duplicação e Correspondência da Alemanha Use as regras de correspondência e eliminação de duplicação da Alemanha para gerar pontuações de correspondência e identificar registros duplicados. As regras de correspondência e eliminação de duplicação da Alemanha são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication 42 Capítulo 7: Acelerador da Alemanha
A tabela a seguir descreve as regras de correspondência e eliminação de duplicação da Alemanha: Nome mplt_company_name_match mplt_deu_company_name_an d_address_match mplt_deu_familyname_and_a ddress_match mplt_deu_firstname_3charss urname_dob_and_postcode_ Match mplt_deu_firstname_and_pid _Match mplt_deu_firstname_surname _2ElementsDOB_and_Postcod e_match mplt_deu_firstname_surname _DOB_and_Postcode_Match mplt_deu_imo_company_na me_and_address_match mplt_deu_imo_familyname_a nd_address_match mplt_deu_imo_individual_na me_and_address_match mplt_deu_imo_personal_nam e_and_data mplt_deu_individual_name_an d_date_match mplt_deu_individual_name_an d_email_match mplt_deu_individual_name_an d_phone_match mplt_deu_individual_name_an d_pid_match Identifica linhas duplicadas com base nos nomes de empresa. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa. duplicadas com base em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando os três primeiros caracteres do código soundex do nome da empresa e os dois primeiros dígitos do código postal. duplicadas com base em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando o valor do New York State Information Interchange System (NYSIIS) do nome de família e dos dois primeiros dígitos do código postal. duplicadas de nomes pessoais, os três primeiros caracteres do nome de família, a data de nascimento e os códigos postais agrupados por código postal. duplicadas de nomes pessoais e IDs pessoais agrupadas por ID pessoal. duplicadas de nomes pessoais, dois elementos da data de nascimento e códigos postais agrupados por código postal. duplicadas de nomes pessoais, data de nascimento e códigos postais agrupados por código postal. duplicadas com base em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. Identifica linhas duplicadas de sobrenomes e endereços agrupados com base nos dois primeiros dígitos do código postal e no sobrenome. duplicadas com base em nomes e endereços da pessoa. duplicadas em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou ID de pessoal. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base em nomes de pessoas e dados de data agrupados por data. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir das datas. Identifica linhas duplicadas com base em nomes de pessoas e endereços de e- mail agrupados por endereços de e-mail. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir dos endereços de e-mail. Identifica linhas duplicadas de nomes pessoais e números de telefone agrupados por número de telefone. Identifica linhas duplicadas com base em nomes de pessoas e IDs pessoais agrupados por ID pessoal. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do ID pessoal. Regras de Eliminação de Duplicação e Correspondência da Alemanha 43
Nome mplt_deu_individual_name_m atch rule_company_name_matchsc ore rule_deu_company_name_an d_address_matchscore rule_deu_familyname_and_ad dress_matchscore rule_deu_firstname_3charss urname_dob_and_postcode_ MatchScore rule_deu_firstname_and_pid _MatchScore rule_deu_firstname_surname _2ElementsDOB_and_Postcod e_matchscore rule_deu_firstname_surname _DOB_and_Postcode_MatchSc ore rule_deu_individual_name_an d_phone_matchscore rule_familyname_and_address _MatchScore rule_individual_name_and_dat e_matchscore rule_individual_name_and_em ail_matchscore rule_individual_name_and_ss N_MatchScore rule_individual_name_matchsc ore Identifica linhas duplicadas com base nos nomes da pessoa. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Gera uma pontuação de correspondência comparando os nomes de empresas. Gera uma pontuação de correspondência comparando os nomes de empresas e os endereços. Gera uma pontuação de correspondência comparando os sobrenomes e os endereços. Gera uma pontuação de correspondência comparando os nomes, os primeiros três carateres do sobrenome, a data de nascimento e os códigos postais. Gera uma pontuação de correspondência comparando os nomes e todos os dados da coluna de dados pessoais, como número de telefone, e-mail ou ID pessoal. Gera uma pontuação de correspondência comparando os nomes pessoais, a data de nascimento e os códigos postais. Nota: Presume-se que o formato de entrada da data de nascimento é DD/MM/ YYYY. Gera uma pontuação de correspondência comparando os sobrenomes, a data de nascimento e os códigos postais. Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de telefone. Gera uma pontuação de correspondência comparando os nomes de família e os endereços. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. Gera uma pontuação de correspondência comparando os nomes e todos os dados da coluna de dados pessoais, como número de telefone, e-mail ou número de SSN. Gera uma pontuação de correspondência comparando os nomes de pessoas. 44 Capítulo 7: Acelerador da Alemanha
C A P Í T U L O 8 Acelerador de Portugal Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador de Portugal, 45 Mapeamentos Demonstrativos de Portugal, 45 Regras de Limpeza de Dados de Endereço, 46 Regras de Limpeza de Dados de Contato de Portugal, 47 Regras Limpeza de Dados Corporativos de Portugal, 47 Dependências de Limpeza de Dados Gerais de Portugal, 48 Regras de Eliminação de Duplicação e Correspondência de Portugal, 48 Visão Geral do Acelerador de Portugal O acelerador de Portugal valida e aprimora os dados portugueses usando processos de qualidade de dados especializados e tabelas de referência específicas da região. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador de Portugal inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados corporativos Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais instaladas pelo acelerador Principal. Mapeamentos Demonstrativos de Portugal Os mapeamentos demonstrativos do acelerador de Portugal combinam regras do acelerador para demonstrar processos de qualidade de dados complexos. Os mapeamentos demonstrativos do acelerador de Portugal são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\PRT_Accelerator O acelerador inclui os seguintes mapeamentos demonstrativos: m_prt_customer_data_demo Analisa, padroniza e valida dados portugueses. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data 45
Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_prt_customer_matching_demo Demonstra as regras de padronização e análise exigidas para a correspondência de dados portugueses. Esse mapeamento analisa as seguintes combinações de dados e gera clusters de correspondência para cada combinação: Dados de nome e endereço da pessoa Nome e número de telefone da pessoa Você pode conectar essas saídas de clusters de correspondência a uma transformação de Associação ou gerar AssociationIDs. Depois você pode conectar uma saída de transformação de Associação a uma transformação de Consolidação para identificar registros mestres. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. Regras de Limpeza de Dados de Endereço Use as regras de limpeza de dados de endereço de Portugal para analisar e validar dados. As regras de limpeza de dados de endereço do acelerador de Portugal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de endereço de Portugal: Nome rule_prt_address_parse_hybr id rule_prt_address_parse_multi line rule_prt_address_validation_ Discrete rule_prt_address_validation_ Hybrid rule_prt_address_validation_ Multiline Analisa os endereços parcialmente em token portugueses em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços portugueses em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços portugueses. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços portugueses. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços portugueses. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. 46 Capítulo 8: Acelerador de Portugal
Regras de Limpeza de Dados de Contato de Portugal Use as regras de limpeza de dados de contato de Portugal para analisar, padronizar e validar dados. As regras de limpeza de dados de contato do acelerador de Portugal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de contato de Portugal: Nome rule_prt_gender_assignment rule_prt_nif_parse rule_prt_nif_standardization rule_prt_nif_validate rule_prt_personal_name_par se_validate rule_prt_phone_number_par se rule_prt_phone_number_sta ndardization rule_prt_prename_assignmen t rule_prt_salutation_assignme nt rule_prt_given_name_standa rd rule_prt_phone_number_vali dation Atribui o sexo de acordo com o nome. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Analisa os números de Número de Identificação Fiscal (NIF) das strings. Essa regra retorna os números de ID e também retorna uma string que contém o texto de entrada com os números de ID removidos. Padroniza os números de Número de Identificação Fiscal (NIF) como strings de nove dígitos. Essa regra remove caracteres alfabéticos, símbolos e espaços. Válida os números de Número de Identificação Fiscal (NIF) usando um algoritmo de dígito de verificação. Essa regra requer que a entrada seja uma string numérica de nove dígitos sem espaços. Analisa nomes de pessoas portugueses e valida a ortografia. Essa regra também fornece informações sobre se o nome da pessoa é potencialmente um nome de empresa. Analisa um número de telefone português de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza os números de telefone portugueses para formatos de discagem internacional e local. Gera um título de acordo com o sexo. Você pode alterar a variável de expressão female_ prename de "Sra" para "Sta". Gera saudações formais e casuais a partir de nomes e tokens de nome. Por exemplo, para "Sr John Smith", a regra gera a saudação formal "Prezado Sr Smith," e a saudação casual "Prezado John,". É possível alterar o prefixo e a pontuação editando as variáveis na transformação de Expressão dq_generate_salutation. Gera determinados nomes com base em nomes portugueses. Valida o código de área e o tamanho dos números de telefone portugueses. Essa regra retorna a região do número de telefone, assim como códigos que indicam se o código de área e o tamanho de um número de telefone são válidos. Regras Limpeza de Dados Corporativos de Portugal Use as regras de limpeza de dados corporativos de Portugal para analisar, padronizar e validar dados. As regras de limpeza de dados corporativos de Portugal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Corporate_Data_Cleansing Regras de Limpeza de Dados de Contato de Portugal 47
A tabela a seguir descreve as regras de limpeza de dados corporativos de Portugal: Nome rule_prt_company_name_sta ndardization rule_prt_nipc_parse rule_prt_nipc_standardise rule_prt_nipc_validate Padroniza os nomes de empresa portugueses usando valores da tabela de referência. Analisa um Número de Identificação de Pessoa Coletiva (NIPC). Essa regra retorna o NIPC e também retorna uma string que contém o texto de entrada com o NIPC removido. Padroniza um Número de Identificação de Pessoa Coletiva (NIPC) como strings de nove dígitos. Essa regra remove caracteres alfabéticos, símbolos e espaços. Válida um Número de Identificação de Pessoa Coletiva (NIPC) usando um algorítmo de dígito de verificação. Essa regra requer que a entrada seja uma string de nove dígitos. Dependências de Limpeza de Dados Gerais de Portugal O acelerador de Portugal tem dependências nas regras de limpeza de dados gerais instalados como parte do acelerador Principal. O acelerador de Portugal tem dependências nas seguintes regras de limpeza de dados gerais: rule_assign_dq_90_elementresultstatus_description rule_assign_dq_90_match_code_descriptions rule_remove_extra_spaces rule_remove_non_numbers rule_remove_punctuation rule_remove_punctuation_and_space rule_replace_limited_punct_with_space rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. Regras de Eliminação de Duplicação e Correspondência de Portugal Use as regras de correspondência e eliminação de duplicação de Portugal para gerar pontuações de correspondência e identificar registros duplicados. As regras de correspondência e eliminação de duplicação de Portugal são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication 48 Capítulo 8: Acelerador de Portugal
A tabela a seguir descreve as regras de correspondência e eliminação de duplicação de Portugal: Nome mplt_company_name_match mplt_prt_company_name_an d_address_match mplt_prt_familyname_and_a ddress_match mplt_prt_firstname_and_nif _BI_Match mplt_prt_imo_company_nam e_and_address_match mplt_prt_imo_familyname_a nd_address_match mplt_prt_imo_individual_na me_and_address_match mplt_prt_imo_personal_nam e_and_data mplt_prt_individual_name_an d_address_match mplt_prt_individual_name_an d_date_match mplt_prt_individual_name_an d_email_match mplt_prt_individual_name_an d_phone_match mplt_prt_individual_name_m atch Identifica linhas duplicadas com base no nome da empresa. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa. Identifica linhas duplicadas com base no nome da empresa e nos dados de endereço portugueses. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa e dos três primeiros dígitos do CEP. Identifica linhas duplicadas com base no sobrenome e nos dados de endereço portugueses. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do código postal. Identifica as linhas duplicadas com base no nome e nos números de identificação pessoal, como o Número de Identificação Fiscal (NIF) e o Bilhete de Identidade (BI). Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir dos números de identificação pessoal. duplicadas de dados portugueses baseados em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados portugueses baseados em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados portugueses baseados em nomes e endereços de pessoas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas de dados portugueses baseados em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou NIF. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base nos nomes de pessoa e dados de endereço portugueses. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do código postal. Identifica linhas duplicadas com base em nomes de pessoa portugueses e dados de data. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de datas. Identifica linhas duplicadas com base em nomes de pessoa portugueses e endereços de e-mail. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de endereços de e-mail. Identifica linhas duplicadas com base em nomes de pessoa portugueses e números de telefone. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de telefone. Identifica linhas duplicadas com base em nomes de pessoa portugueses. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Regras de Eliminação de Duplicação e Correspondência de Portugal 49
Nome rule_company_name_matchsc ore rule_prt_company_name_an d_address_matchscore rule_prt_familyname_and_ad dress_matchscore rule_prt_firstname_and_nif_ BI_MatchScore rule_prt_individual_name_an d_address_matchscore rule_prt_individual_name_an d_date_matchscore rule_prt_individual_name_an d_email_matchscore rule_prt_individual_name_an d_phone_matchscore rule_prt_individual_name_ma tchscore Gera uma pontuação de correspondência comparando os nomes de empresas. Gera uma pontuação de correspondência comparando os nomes de empresa e os dados de endereço portugueses. Gera uma pontuação de correspondência comparando os sobrenomes e os dados de endereço portugueses. Gera uma pontuação de correspondência comparando os dados do nome, Número de Identificação Fiscal (NIF) e números de Bilhete de Identidade (BI). Gera uma pontuação de correspondência comparando os nomes de pessoa e os dados de endereço portugueses. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de telefone. Gera uma pontuação de correspondência comparando os nomes de pessoas. 50 Capítulo 8: Acelerador de Portugal
C A P Í T U L O 9 Acelerador do Reino Unido Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador do Reino Unido, 51 Mapeamentos Demonstrativos do Reino Unido, 51 Regras de Limpeza de Dados de Endereço do Reino Unido, 52 Regras de Limpeza de Dados de Contato do Reino Unido, 53 Regras de Limpeza de Dados Financeiros do Reino Unido, 55 Dependências de Limpeza de Dados Gerais do Reino Unido, 55 Regras de Eliminação de Duplicação e Correspondência do Reino Unido, 56 Visão Geral do Acelerador do Reino Unido O acelerador do Reino Unido valida e aprimora os dados do Reino Unido usando processos de qualidade de dados especializados e tabelas de referência não específicas. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador do Reino Unido inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados financeiros Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais instaladas pelo acelerador Principal. Mapeamentos Demonstrativos do Reino Unido Os mapeamentos demonstrativos do Acelerador do Reino Unido combinam regras de acelerador para demonstrar processos de qualidade de dados complexos. Os mapeamentos demonstrativos do acelerador do Reino Unido são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\GBR_Accelerator O acelerador do Reino Unido inclui os seguintes mapeamentos demonstrativos: m_gbr_customer_data_demo Analisa, padroniza e valida dados usando regras personalizadas para o Reino Unido. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data 51
Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_gbr_customer_matching_demo Demonstra as regras de padronização e análise que são personalizadas para a correspondência de dados do Reino Unido. Esse mapeamento analisa as seguintes combinações de dados e gera clusters de correspondência para cada combinação: Dados de nome e endereço da pessoa Nome e número de telefone da pessoa Você pode conectar essas saídas de clusters de correspondência a uma transformação de Associação ou gerar AssociationIDs. Depois você pode conectar uma saída de transformação de Associação a uma transformação de Consolidação para identificar registros mestres. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. Regras de Limpeza de Dados de Endereço do Reino Unido Use as regras de limpeza de dados de endereço do Reino Unido para analisar, padronizar e validar dados de endereço. As regras de limpeza de dados de endereço do acelerador do Reino Unido são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de endereço do Reino Unido: Nome rule_gbr_address_parse_hyb rid rule_gbr_address_parse_mult iline rule_gbr_address_validation_ Discrete rule_gbr_address_validation_ Hybrid rule_gbr_address_validation_ Multiline rule_gbr_postcode_parse Analisa os endereços parcialmente em token do Reino Unido em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços do Reino Unido em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços do Reino Unido. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços do Reino Unido. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços do Reino Unido. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Analisa os códigos postais do Reino Unido. 52 Capítulo 9: Acelerador do Reino Unido
Nome rule_gbr_postcode_standardi se rule_gbr_postcode_validate Padroniza os códigos postais do Reino Unido. Essa regra exige que a entrada siga formatos predefinidos. A lista a seguir descreve esses formatos usando "A" para representar caracteres alfabéticos e "9" para representar numerais. - A9 9AA - A99 9AA - AA9 9AA - AA99 9AA - A9A 9AA - AA9A 9AA - GIR 0AA A regra não padroniza Entradas que não correspondem a esses padrões. Valida os códigos postais do Reino Unido. Essa regra faz a correspondência de códigos postais padronizados com códigos postais válidos do Reino Unido. Se a regra não encontrar um código postal correspondente, ela verificará se o código postal segue o padrão do Reino Unido. Regras de Limpeza de Dados de Contato do Reino Unido Use as regras de limpeza de dados de contato do Reino Unido para analisar, padronizar e validar dados de contato. As regras de limpeza de dados de contato do acelerador do Reino Unido são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de contato do Reino Unido: Nome rule_gbr_driver_number_par se rule_gbr_driver_number_vali dation rule_gbr_gender_assignment rule_gbr_given_name_stand ard rule_gbr_multi_person_name _Parse rule_gbr_nhs_number_parse rule_gbr_nhs_number_stand ardise Analisa strings que correspondem ao formato de números de motorista do Reino Unido. Valida os números de motorista do Reino Unido usando regras definidas pelo Government Data Standards Catalogue do Reino Unido. Atribui o sexo de acordo com o nome. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Gera determinados nomes com base em nomes do Reino Unido. Analisa os nomes do Reino Unido em tokens de nome, como título, nome, nome do meio e sobrenome. Analisa os números de Serviço de Saúde Nacional (NHS) de uma string. Essa regra retorna o número do NHS e também retorna uma string que contém o texto de entrada com o número do NHS removido. Padroniza o número do Serviço de Saúde Nacional (NHS) com um formato padrão (999 999 9999). Essa regra requer que a entrada seja uma string de dez dígitos. Regras de Limpeza de Dados de Contato do Reino Unido 53
Nome rule_gbr_nhs_number_valid ate rule_gbr_nino_conformity_c heck rule_gbr_nino_parse rule_gbr_nino_standardizati on rule_gbr_nino_validation rule_gbr_passport_number_ MR_Parse rule_gbr_passport_number_p arse rule_gbr_passport_number_v alidation rule_gbr_personal_name_par sing_fml rule_gbr_personal_name_par sing_lfm rule_gbr_phone_number_par se rule_gbr_phone_number_sta ndardisation rule_gbr_phone_number_vali dation Válida os números do Serviço de Saúde Nacional (NHS) usando um algoritmo de dígito de verificação. Essa regra requer que a entrada seja uma string de dez dígitos. Valida o padrão de um Número de Previdência Social (NINO) do Reino Unido. Essa regra não verifica se um NINO está correto ou ativo. Analisa os Números da Previdência Social (NINO) do Reino Unido de uma string. Essa regra retorna o NINO e também retorna uma string que contém o texto de entrada com o NINO removido. Padroniza os Números da Previdência Social (NINO) com os dois formatos mais típicos. Essa regra retorna os seguintes formatos, onde C representa caracteres alfabéticos e N representa numerais: - CC NN NN NN C - CCNNNNNNC Essa regra formata todos os caracteres alfabéticos como maiúsculas. Essa regra requer que a entrada esteja em conformidade com o padrão de um NINO. Valida um Número de Previdência Social (NINO) do Reino Unido. Essa regra não verifica se um NINO está ativo. Analisa os números de passaporte do Reino Unido em formato estendido. O formato estendido é o formato legível por máquina para números de passaporte. Analisa os números de passaporte do Reino Unido que usam o formato especificado pelo Government Data Standards Catalogue. Essa regra analisa todas as strings de nove dígitos. Valida os números de passaporte do Reino Unido que usam o formato especificado pelo Government Data Standards Catalogue. Analisa nomes do Reino Unido no formato Primeiro-Meio-Último em tokens. Analisa nomes do Reino Unido no formato Último-Primeiro-Meio em tokens. Analisa um número de telefone do Reino Unido de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra reconhece números de telefone que usam zeros à esquerda, o código de discagem internacional "+44" e extensões que começam com o símbolo de jogo da velha. Essa regra processa os seguintes símbolos de pontuação: sinal de adição, parênteses e o símbolo de jogo da velha. Antes de executar essa regra, remova todas as outras pontuações, incluindo os espaços duplos. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza os números de telefone do Reino Unido com formatos de discagem internacional e local. Essa regra reconhece números de telefone que usam zeros à esquerda, o código de discagem internacional "+44" e extensões que começam com o símbolo de jogo da velha. Valida o código de área e o tamanho dos números de telefone do Reino Unido. Essa regra retorna a região do número de telefone, assim como códigos que indicam se o código de área e o tamanho de um número de telefone são válidos. 54 Capítulo 9: Acelerador do Reino Unido
Nome rule_prename_assignment rule_salutation_assignment Gera um título de acordo com o sexo. Você pode alterar a variável de expressão female_ prename de "Sra" para "Sta". Gera saudações formais e casuais a partir de nomes e tokens de nome. Por exemplo, para "Sr. John Smith", a regra gera a saudação formal "Prezado Sr. Smith," e a saudação casual "Prezado John,". É possível alterar o prefixo e a pontuação editando as variáveis na transformação de Expressão dq_generate_salutation. Regras de Limpeza de Dados Financeiros do Reino Unido Use as regras de limpeza de dados financeiros do Reino Unido para analisar, padronizar e validar dados de contato. As regras de limpeza de dados financeiros do Reino Unido são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Financial_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados financeiros do Reino Unido: Nome rule_gbr_bank_account_pars e rule_gbr_bank_account_valid ation rule_gbr_bank_sort_code_pa rse rule_gbr_bank_sort_code_va lidation rule_gbr_sort_code_standar dise Analisa strings numéricas de 8 dígitos como números de contas bancárias do Reino Unido. Valida números de contas bancárias do Reino Unido. Essa regra retorna códigos que indicam se a entrada é numérica e se tem o número correto de dígitos. Analisa strings numéricas de 6 dígitos como códigos de classificação bancária do Reino Unido. Essa regra analisa strings de números nos seguintes formatos: - Números consecutivos (999999) - Números delimitados por um traço (99-99-99) Valida o formato e o tamanho dos códigos de classificação bancária do Reino Unido que são padronizados com o formato delimitado por traço (99-99-99). Essa regra retorna uma porta de Status que descreve a validade do código de classificação e uma porta de Nota de Validação que explica o status. Se o prefixo do código de classificação corresponder a uma atribuição conhecida de um banco do Reino Unido, a porta de Nota de Validação incluirá o nome do banco. Padroniza um código de classificação bancária do Reino Unido com o formato "NN-NN-NN". Dependências de Limpeza de Dados Gerais do Reino Unido O acelerador do Reino Unido tem dependências nas regras de limpeza de dados gerais instalados como parte do acelerador Principal. O acelerador do Reino Unido tem dependências nas seguintes regras de limpeza de dados gerais: rule_assign_dq_90_mailability_score_description Regras de Limpeza de Dados Financeiros do Reino Unido 55
rule_assign_dq_90_match_code_descriptions rule_remove_extra_spaces rule_remove_leading_zero rule_remove_period_parentheses rule_remove_punctuation rule_remove_punctuation_and_space rule_remove_space rule_replace_limited_punct_with_space rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. Regras de Eliminação de Duplicação e Correspondência do Reino Unido Use as regras de correspondência e eliminação de duplicação do Reino Unido para gerar pontuações de correspondência e identificar registros duplicados. As regras de correspondência e eliminação de duplicação do Reino Unido são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication A tabela a seguir descreve as regras de correspondência e eliminação de duplicação do Reino Unido: Nome mplt_gbr_company_name_p ostcode_match mplt_gbr_familyname_and_n INO_Match mplt_gbr_familyname_and_p ostcode_match mplt_gbr_firstname_3charss urname_dob_and_postcode_ Match mplt_gbr_firstname_surname _2ElementsDOB_and_Postcod e_match Identifica linhas duplicadas com base no nome da empresa e no código postal. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do código postal. Identifica linhas duplicadas com base no sobrenome e nos dados do Número de Previdência Social. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do Número de Previdência Social. Identifica linhas duplicadas com base no sobrenome e no código postal do Reino Unido. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do código postal. Identifica linhas duplicadas com base nos seguintes dados: - Nome - Os três primeiros caracteres do sobrenome - Data de nascimento - código postal Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do código postal. Identifica linhas duplicadas com base nos seguintes dados: - Nomes de pessoa - Quaisquer dois elementos da data de nascimento, como mês e ano - Código postal do Reino Unido Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do código postal. 56 Capítulo 9: Acelerador do Reino Unido
Nome mplt_gbr_firstname_surname _DOB_and_Postcode_Match mplt_gbr_imo_company_na me_and_address_match mplt_gbr_imo_familyname_a nd_address_match mplt_gbr_imo_individual_na me_and_address_match mplt_gbr_imo_personal_nam e_and_data mplt_gbr_individual_name_an d_date_match mplt_gbr_individual_name_an d_email_match mplt_gbr_individual_name_an d_nino_match mplt_gbr_individual_name_an d_phone_match mplt_gbr_individual_name_an d_postcode_match mplt_gbr_individual_name_m atch rule_gbr_familyname_and_ni NO_MatchScore rule_gbr_familyname_and_p ostcode_matchscore Identifica linhas duplicadas com base nos seguintes dados: - Nomes de pessoa - Data de nascimento - código postal Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir do código postal. duplicadas com base em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas com base em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas com base em nomes e endereços da pessoa. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou NIN. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base em nomes de pessoas do Reino Unido e dados de data. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de datas. Identifica linhas duplicadas com base em nomes de pessoas do Reino Unido e endereços de e-mail. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de endereços de e-mail. Identifica linhas duplicadas com base em nomes de pessoas e Números de Previdência Social (NINO) do Reino Unido. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados do NINO. Identifica linhas duplicadas com base em nomes de pessoa e números de telefone do Reino Unido. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de telefone. Identifica linhas duplicadas com base no nomes de pessoa e no código postal. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. Identifica linhas duplicadas com base nos nomes da pessoa do Reino Unido. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Gera uma pontuação de correspondência comparando os sobrenomes e os Números de Previdência Social (NINO). Gera uma pontuação de correspondência comparando os sobrenomes e os códigos postais do Reino Unido. Regras de Eliminação de Duplicação e Correspondência do Reino Unido 57
Nome rule_gbr_firstname_3charss urname_dob_and_postcode_ MatchScore rule_gbr_firstname_surname _2ElementsDOB_and_Postcod e_matchscore rule_gbr_firstname_surname _DOB_and_Postcode_MatchSc ore rule_gbr_individual_name_an d_nino_matchscore rule_gbr_individual_name_an d_phone_matchscore rule_gbr_individual_name_an d_postcode_matchscore rule_individual_name_and_dat e_matchscore rule_individual_name_matchsc ore rule_gbr_company_name_po stcode_matchscore rule_individual_name_and_em ail_matchscore Gera uma pontuação de correspondência comparando as seguintes informações: - Nome - Os três primeiros caracteres do sobrenome - Data de nascimento - código postal Gera uma pontuação de correspondência comparando as seguintes informações: - Nomes de pessoa - Quaisquer dois elementos da data de nascimento, como mês e ano - Código postal do Reino Unido Gera uma pontuação de correspondência comparando os nomes pessoais, a data de nascimento e os códigos postais. Gera uma pontuação de correspondência comparando os nomes de pessoa e os Números de Previdência Social (NINO). Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de telefone. Gera uma pontuação de correspondência comparando os nomes de pessoa e os códigos postais do Reino Unido. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Gera uma pontuação de correspondência comparando os nomes de pessoas. Gera uma pontuação de correspondência comparando os nomes de empresa e os códigos postais do Reino Unido. Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. 58 Capítulo 9: Acelerador do Reino Unido
C A P Í T U L O 1 0 Acelerador dos EUA/Canadá Este capítulo inclui os seguintes tópicos: Visão Geral do Acelerador dos EUA/Canadá, 59 Mapeamentos Demonstrativos dos EUA/Canadá, 59 Regras de Limpeza de Dados de Endereço, 60 Regras de Limpeza de Dados de Contato dos EUA/Canadá, 61 Regras de Limpeza de Dados Gerais, 64 Regras de Eliminação de Duplicação e Correspondência dos EUA/Canadá, 65 Visão Geral do Acelerador dos EUA/Canadá O acelerador dos EUA/Canadá valida e aprimora os dados usando processos de qualidade de dados especializados e tabelas de referência não específicas. Esse acelerador inclui regras, tabelas de referência, mapeamentos e objetos de dados demonstrativos. O acelerador dos EUA/Canadá inclui regras que executam os seguintes processos de qualidade de dados: Limpeza de dados de endereço Limpeza de dados de contato Limpeza de dados gerais Correspondência e eliminação de duplicação Esse acelerador depende das regras de limpeza de dados gerais instaladas pelo acelerador Principal. Mapeamentos Demonstrativos dos EUA/Canadá Os mapeamentos demonstrativos do Acelerador dos EUA/Canadá combinam regras de acelerador para demonstrar processos de qualidade de dados complexos. Os mapeamentos demonstrativos do acelerador dos EUA/Canadá são instalados no seguinte local do repositório: [Informatica_DQ_Content]\Rules_Demo\US_Canada_Accelerator O acelerador dos EUA/Canadá inclui os seguintes mapeamentos demonstrativos: m_customer_matching_us_demo Demonstra as regras de padronização e análise exigidas para a correspondência de dados dos EUA. 59
Esse mapeamento analisa as seguintes combinações de dados e gera clusters de correspondência para cada combinação: Dados de nome e endereço da pessoa Nome e número de telefone da pessoa Você pode conectar essas saídas de clusters de correspondências a uma transformação de Associação ou gerar AssociationIDs. Depois você pode conectar uma saída de transformação de Associação a uma transformação de Consolidação para identificar registros mestres. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. m_customer_data_us_demo Analisa, padroniza e valida dados dos EUA/Canadá. Os objetos de dados referenciados nesse mapeamento usam o seguinte caminho: <ServerInstallDir>\services\DQContent\INFA_Content\demos\source_data Talvez você precise modificar esse caminho para corresponder à configuração do sistema. Para executar a validação de endereço, também é necessário instalar uma chave de licença do Address Doctor e o conjunto de dados de referência. Regras de Limpeza de Dados de Endereço Use as regras de limpeza de dados de endereço dos EUA/Canadá para analisar, padronizar e validar dados de endereço. As regras de limpeza de dados de endereço do acelerador dos EUA/Canadá são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Address_Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados de endereço dos EUA/Canadá: Nome rule_can_address_parse_hyb rid rule_can_address_parse_mult iline rule_can_address_validation_ Discrete rule_can_address_validation_ Hybrid rule_can_address_validation_ Multiline rule_can_postcode_validation Analisa os endereços parcialmente em token canadenses em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços canadenses em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços canadenses. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços canadenses. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços canadenses. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida códigos postais canadenses. Essa regra retorna "Válido" ou "Inválido". 60 Capítulo 10: Acelerador dos EUA/Canadá
Nome rule_can_province_validation rule_country_identification rule_country_name_standardiz ation rule_usa_address_parse_hyb rid rule_usa_address_parse_mult iline rule_usa_address_validation_ Discrete rule_usa_address_validation_ Hybrid rule_usa_address_validation_ Multiline rule_usa_county_validation rule_usa_state_validation rule_usa_zipcode_validation Valida nomes de províncias canadenses. Essa regra retorna "Válido" ou "Inválido". Identifica nomes de países dentro de campos de entrada. Essa regra também pode usar as informações de cidade, estado, província e código postal para identificar endereços dos EUA/Canadá. Essa regra retorna um nome de país e os códigos de país ISO de dois e três caracteres. Padroniza nomes de países. Essa regra retorna um nome de país e os códigos de país ISO de dois e três caracteres. Analisa os endereços parcialmente em token dos EUA em tokens. Essa regra não valida a capacidade de entrega do endereço. Analisa os endereços dos EUA em várias linhas em tokens. Essa regra não valida a capacidade de entrega do endereço. Valida a capacidade de entrega de endereços dos EUA. Use essa regra se os dados do endereço de entrada estiverem totalmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços dos EUA. Use essa regra se os dados do endereço de entrada estiverem parcialmente em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida a capacidade de entrega de endereços dos EUA. Use essa regra se os dados de endereço de entrada não estiverem em token. Essa regra exige dados de referência de endereço e uma licença correspondente. Valida nomes de municípios dos EUA. Essa regra compara os dados de entrada contra os nomes de município em todos os estados. Essa regra retorna "Válido" ou "Inválido". Valida nomes de estados dos EUA. Essa regra retorna "Válido" ou "Inválido". Valida códigos postais dos EUA de cinco dígitos. Essa regra retorna "Válido" ou "Inválido". Regras de Limpeza de Dados de Contato dos EUA/ Canadá Use as regras de limpeza de dados de contato dos EUA/Canadá para analisar, padronizar e validar os dados de contato. As regras de limpeza de dados de contato do acelerador dos EUA/Canadá são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Contact_Data_Cleansing Regras de Limpeza de Dados de Contato dos EUA/Canadá 61
A tabela a seguir descreve as regras de limpeza de dados de contato dos EUA/Canadá: Nome rule_can_gender_assignment rule_can_given_name_stand ard rule_can_multi_person_name _Parse rule_can_personal_name_par se_and_standardize_fml rule_can_personal_name_par se_and_standardize_lfm rule_can_personal_name_par sing_fml rule_can_personal_name_par sing_lfm rule_can_phone_number_par se rule_can_phone_number_sta ndardization rule_can_phone_number_vali dation rule_can_sin_parse rule_can_sin_standardization rule_can_sin_validation rule_prename_assignment Atribui o sexo de acordo com o nome. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Gera determinados nomes com base em nomes canadenses. Por exemplo, essa regra padroniza o nome "Bob" como o nome "Robert". Analisa os nomes em tokens de nome, como título, nome, nome do meio e sobrenome. Analisa e padroniza nomes canadenses no formato Primeiro-Meio-Último. Essa regra analisa nomes em tokens e padroniza os tokens: Essa regra retorna tokens padronizados e um sobrenome criado para esses tokens. A regra também retorna dados inferidos do nome de entrada, como sexo, saudação formal e casual. Analisa e padroniza nomes canadenses no formato Último-Meio-Primeiro. Essa regra analisa nomes em tokens e padroniza os tokens: Essa regra retorna tokens padronizados e um sobrenome criado para esses tokens. A regra também retorna dados inferidos do nome de entrada, como sexo, saudação formal e casual. Analisa nomes canadenses no formato Primeiro-Meio-Último em tokens. Analisa nomes canadenses no formato Último-Primeiro-Meio em tokens. Analisa um número de telefone canadense de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza números de telefone canadenses. A regra retorna o número de telefone nos seguintes formatos: - Padrão - (nnn) nnn-nnnn - Hífens - nnn-nnn-nnnn - Sem Espaços - nnnnnnnnnn Valida o código de área e o tamanho dos números de telefone canadenses. Essa regra retorna códigos que indicam o tipo e a validade do número de telefone. Tipos de descrição de categorias, como "0800". Analisa um Números da Previdência Social (SIN) canadense de uma string. Essa regra retorna o SIN e também retorna uma string que contém o texto de entrada com o SIN removido. Padroniza os Números da Previdência Social (SIN) canadenses. Essa regra pode ter os seguintes formatos de saída: - Sem Pontuação - nnnnnnnnn - Espaço - nnn nnn nnn - Traço - nnn-nnn-nnn Para alterar o formato, edite variável de expressão SIN_format na transformação de Expressão dq_format_sin. O padrão é "No_Punctuation". Valida o Números da Previdência Social (SIN) canadense. Essa regra usa o algoritmo de Luhn para verificar se um SIN é válido ou não. Essa regra retorna "Válido" ou "Inválido". Gera um título de acordo com o sexo. Você pode alterar a variável de expressão female_ prename de "Sra" para "Sta". 62 Capítulo 10: Acelerador dos EUA/Canadá
Nome rule_salutation_assignment rule_usa_gender_assignment rule_usa_given_name_stand ard rule_usa_multi_person_name _Parse rule_usa_personal_name_par se_and_standardize_fml rule_usa_personal_name_par se_and_standardize_lfm rule_usa_personal_name_par sing_fml rule_usa_personal_name_par sing_lfm rule_usa_phone_number_par se rule_usa_phone_number_sta ndardization rule_usa_phone_number_vali dation rule_usa_ssn_standardizatio n Gera saudações formais e casuais a partir de nomes e tokens de nome. Por exemplo, para "Sr. John Smith", a regra gera a saudação formal "Prezado Sr. Smith," e a saudação casual "Prezado John,". É possível alterar o prefixo e a pontuação editando as variáveis na transformação de Expressão dq_generate_salutation. Atribui o sexo de acordo com o nome. Por exemplo, essa regra atribui a "John Smith" o sexo "M" de masculino. Essa regra retorna "M" ou "F". Gera determinados nomes com base em nomes dos Estados Unidos. Por exemplo, essa regra padroniza o nome "Bob" como o nome "Robert". Analisa os nomes em tokens de nome, como título, nome, nome do meio e sobrenome. Analisa e padroniza nomes canadenses no formato Primeiro-Meio-Último. Essa regra analisa nomes em tokens e padroniza os tokens: Essa regra retorna tokens padronizados e um sobrenome criado para esses tokens. A regra também retorna dados inferidos do nome de entrada, como sexo, saudação formal e casual. Analisa e padroniza nomes dos Estados Unidos no formato Último-Meio-Primeiro. Essa regra analisa nomes em tokens e padroniza os tokens: Essa regra retorna tokens padronizados e um sobrenome criado para esses tokens. A regra também retorna dados inferidos do nome de entrada, como sexo, saudação formal e casual. Analisa nomes canadenses no formato Primeiro-Meio-Último em tokens. Analisa nomes canadenses no formato Último-Primeiro-Meio em tokens. Analisa um número de telefone dos Estados Unidos de uma string. Essa regra analisa o primeiro número de telefone dos dados, lendo da direita para a esquerda. Essa regra retorna um número de telefone e também retorna uma string que contém o texto de entrada com o número de telefone removido. Padroniza números de telefone dos Estados Unidos. A regra retorna o número de telefone nos seguintes formatos: - Padrão - (nnn) nnn-nnnn - Hífens - nnn-nnn-nnnn - Sem Espaços - nnnnnnnnnn Valida o código de área e o tamanho dos números de telefone dos Estados Unidos. Essa regra retorna códigos que indicam se o código de área e o comprimento de um número de telefone são válidos. Padroniza Números de Previdência Social (SSN) dos Estados Unidos. Essa regra pode ter os seguintes formatos de saída: - Sem Pontuação - nnnnnnnnn - Espaço - nnn nnn nnn - Traço - nnn-nnn-nnn Para alterar o formato, edite a variável de expressão SSN_format na transformação de Expressão dq_ssn_format. O padrão é "No_Punctuation". Regras de Limpeza de Dados de Contato dos EUA/Canadá 63
Nome rule_usa_ssn_validation rule_usa_ssn_validation_post _June2011 Valida os Números de Previdência Social dos Estados Unidos. A regra valida cada Número da Previdência Social (SSN) com relação ao tamanho, valores numéricos e valores mínimos e máximos nas seções de Área, Grupo e Número de Série. A seção Área abrange os primeiros três dígitos do SSN e a seção Grupo abrange o quarto e o quinto dígitos. A seção Número de Série abrange os quatro dígitos finais. Se o SSN tiver sido emitido antes de junho 2011, a regra também verificará se o valor da área e o valor do Grupo são uma combinação válida. A regra não verifica se o SSN é um número emitido. A regra retorna "Válido" ou "Inválido". Valida os Números de Previdência Social dos Estados Unidos. A regra valida cada Número da Previdência Social (SSN) com relação ao tamanho, valores numéricos e valores mínimos e máximos nas seções de Área, Grupo e Número de Série. A seção Área abrange os primeiros três dígitos do SSN e a seção Grupo abrange o quarto e o quinto dígitos. A seção Número de Série abrange os quatro dígitos finais. A regra não verifica se o valor de Área e o valor de Grupo são uma combinação válida. A regra não verifica se o SSN é um número emitido. A regra retorna "Válido" ou "Inválido". Regras de Limpeza de Dados Gerais Use as regras de limpeza de dados de contato dos EUA/Canadá para identificar o tipo de informações contido nos campos de entrada. As regras de limpeza de dados gerais do acelerador dos EUA/Canadá são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\General _Data_Cleansing A tabela a seguir descreve as regras de limpeza de dados gerais dos EUA/Canadá: Nome rule_can_field_identification rule_usa_field_identification Identifica o tipo de informações contidas em um campo de entrada. Essa regra pode identificar nomes, IDs Pessoais, nomes de empresa, datas e dados de endereço canadenses. Essa regra retorna um rótulo que descreve o tipo de dados de entrada. Identifica o tipo de informações contidas em um campo de entrada. Essa regra pode identificar nomes, IDs Pessoais, nomes de empresa, datas e dados de endereço dos Estados Unidos. Essa regra retorna um rótulo que descreve o tipo de dados de entrada. Dependências de Regras de Limpeza de Dados Gerais Principais O acelerador dos EUA/Canadá depende das regras de limpeza de dados gerais do acelerador Principal a seguir. rule_assign_dq_90_mailability_score_description rule_assign_dq_90_match_code_descriptions rule_date_validation rule_remove_extra_spaces rule_remove_punctuation rule_replace_limited_punct_with_space 64 Capítulo 10: Acelerador dos EUA/Canadá
rule_uppercase Para obter mais informações sobre essas regras, consulte Regras de Limpeza de Dados Gerais Principais na página 7. Regras de Eliminação de Duplicação e Correspondência dos EUA/Canadá Use as regras de correspondência e eliminação de duplicação para gerar pontuações de correspondência e identificar registros duplicados. As regras de correspondência e eliminação de duplicação de EUA/Canadá são instaladas no seguinte local do repositório: [Informatica_DQ_Content]\Rules\Matching_Deduplication A tabela a seguir descreve as regras de correspondência e eliminação de duplicação de EUA/Canadá: Nome mplt_can_imo_company_na me_and_address_match mplt_can_imo_familyname_a nd_address_match mplt_can_imo_individual_na me_and_address_match mplt_can_imo_personal_nam e_and_data mplt_company_name_and_ad dress_match mplt_company_name_match mplt_familyname_and_addres s_match mplt_firstname_and_ssn_mat ch duplicadas com base em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas com base em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas com base em nomes e endereços da pessoa. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou SIN. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Identifica linhas duplicadas com base no nome da empresa e nos dados de endereço dos Estados Unidos. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa e dos três primeiros dígitos do CEP. Identifica linhas duplicadas com base no nome da empresa. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros caracteres do código Soundex do nome da empresa. Identifica linhas duplicadas com base no sobrenome e nos dados de endereço dos Estados Unidos. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do CEP. Identifica as linhas duplicadas com base em números de Previdência Social dos EUA e nomes. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de Previdência Social. Regras de Eliminação de Duplicação e Correspondência dos EUA/Canadá 65
Nome mplt_individual_name_and_ad dress_match mplt_individual_name_and_dat e_match mplt_individual_name_and_em ail_match mplt_individual_name_and_ph one_match mplt_individual_name_and_ss N_Match mplt_individual_name_match mplt_usa_address_match mplt_usa_imo_company_na me_and_address_match mplt_usa_imo_familyname_a nd_address_match mplt_usa_imo_individual_na me_and_address_match mplt_usa_imo_personal_nam e_and_data rule_company_name_and_add ress_matchscore rule_company_name_matchsc ore rule_familyname_and_address _MatchScore rule_firstname_and_ssn_matc hscore Identifica linhas duplicadas com base nos nomes de pessoa e dados de endereço dos EUA. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir do código NYSIIS do sobrenome e dos três primeiros dígitos do CEP. Identifica linhas duplicadas com base em nomes de pessoas e dados de data. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de datas. Identifica linhas duplicadas com base em nomes de pessoas e endereços de e- mail. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de endereços de e-mail. Identifica linhas duplicadas com base em nomes de pessoa e números de telefone. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de telefone. Identifica as linhas duplicadas com base em nomes de pessoas e números de Previdência Social dos EUA. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de números de Previdência Social. Identifica linhas duplicadas com base nos nomes da pessoa. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos NYSIIS para sobrenomes. Identifica linhas duplicadas com base nos dados de endereço dos Estados Unidos. Esse mapplet faz a correspondência de linhas usando chaves de grupo geradas a partir dos três primeiros dígitos do CEP. duplicadas com base em nomes e endereços de empresas. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas com base em nomes e endereços de família. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas com base em nomes e endereços da pessoa. Esse mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de códigos postais. duplicadas em nomes de pessoas e dados pessoais. Os campos da coluna de dados pessoais devem conter um único tipo de dados, como o número de telefone, e-mail ou SSN. Este mapplet faz a correspondência de linhas usando as chaves de grupo geradas a partir de dados pessoais. Gera uma pontuação de correspondência comparando os nomes de empresa e os dados de endereço dos EUA. Gera uma pontuação de correspondência comparando os nomes de empresas. Gera uma pontuação de correspondência comparando os sobrenomes e os dados de endereço dos EUA. Gera uma pontuação de correspondência comparando os nomes e os dados de endereço dos EUA. 66 Capítulo 10: Acelerador dos EUA/Canadá
Nome rule_individual_name_and_add ress_matchscore rule_individual_name_and_dat e_matchscore rule_individual_name_and_em ail_matchscore rule_individual_name_and_pho ne_matchscore rule_individual_name_and_ss N_MatchScore rule_individual_name_matchsc ore rule_usa_address_matchscor e Gera uma pontuação de correspondência comparando os nomes de pessoa e os dados de endereço dos EUA. Gera uma pontuação de correspondência comparando os nomes de pessoas e as datas. Gera uma pontuação de correspondência comparando os nomes de pessoas e os endereços de e-mail. Gera uma pontuação de correspondência comparando os nomes de pessoas e os números de telefone. Gera uma pontuação de correspondência comparando os nomes de pessoa, os números de Previdência Social e os dados de identificação. Gera uma pontuação de correspondência comparando os nomes de pessoas. Gera uma pontuação de correspondência comparando os dados de endereço dos EUA. Regras de Eliminação de Duplicação e Correspondência dos EUA/Canadá 67