Pipelines ETL. Aplicação de conceitos de DW para a construção de pipelines de extração, transformação e carregamento de dados.

Documentos relacionados
Data Warehousing Visão Geral do Processo

Cleverson A. Fargiani

Business Intelligence :

Data Warehouse Processos e Arquitetura

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

PROPOSTA DE UMA ARQUITETURA PARA CONSTRUÇÃO DE UM DATA WAREHOUSE PARA GESTÃO DA SAÚDE PÚBLICA DE UM MUNICÍPIO DO VALE DO ITAJAÍ

COMITÊ DE TECNOLOGIA DA. INFORMAÇÃO E COMUNICAÇÃO (CoTIC) Serviço de Correio Eletrônico: Política de Uso. Versão 1.0

Contexto do BI (Business Intelligence) para uma EFPC. Palestrantes: Luzimar Azevedo Lucas Leal

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Sérgio Luisir Díscola Junior

Ferramentas de Gestão

Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Curso Data warehouse e Business Intelligence

Parametrização do Banco de Dados PROGRESS Base de Dados Origem

AULA 1 INTRODUÇÃO A BANCO DE DADOS E VISÃO GERAL DO SQL CONCEITUANDO BANCO DE DADOS MODELO RELACIONAL

Resultados 3T12. 8 de novembro de 2012

Aplicação de Data Warehousing no Cadastro de Ficha Limpa do TSE

SIG-ISS Manual de integração do WebService para NFS-e

O SPED foi instituído pelo Decreto nº 6.022/2007 com o conceito de modernização da sistemática do cumprimento das obrigações acessórias, transmitidas

Community Builder Construção de Redes Sociais em Joomla. Marcio Junior Vieira ambientelivre.com.br

A melhor plataforma aberta para redes sociais. Gustavo Caldeira Consultor em arquitetura de sistemas e web social caldeira.santos@gmail.

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP.

O que é um banco de dados? Banco de Dados. Banco de dados

OWL-S Composer. MATE15 - Tópicos Especiais em Banco de Dados III. 17 de Julho de Marco Antonio Almeida 1 e Daniela Barreiro Claro 2

Arquitetura de Aplicações J2EE. Jorge Fernandes Outubro de 2003

A nuvem como plataforma para a. Internet das Coisas (IoT) e inovação. em modelos de negócio

Plano de Trabalho Docente Ensino Técnico

Capítulo 2 Data Warehousing

Técnicas de Business Intelligence na Análise de Dados de Produção. Rafael Deitos

Nota prévia... XXI 1. PHP, Apache Server e MySQL... 1

CLOUD COMPUTING NAS EMPRESAS: NUVEM PÚBLICA OU NUVEM PRIVADA? nubeliu.com

BPMN - Business Process Modeling Notation Uma Notação para a Modelagem de Processos. Renata Guanaes

Sistema de Controle de Estoque

SUMÁRIO 1. INTRODUÇÃO O QUE É DATA WAREHOUSE? O QUE DATA WAREHOUSE NÃO É IMPORTANTE SABER SOBRE DATA WAREHOUSE

Integração de Dados e ETL

dok.news 11/2015

Plataformas de BI Qual é a mais adequada para o meu negócio?

Seminário Sistema de Informação de Custos na Administração Pública

Uma abordagem utilizando Business Intelligence para apoiar o processo de tomada de decisão na gestão da evolução de serviços web 1

Uma Ferramenta Web para BI focada no Gestor de Informação

Sistemas de Informação (SI) Orientações para as Atividades Práticas Supervisionadas 3º/ e 4º semestres de 2010

Boas Práticas em Sistemas Web muito além do HTML...

CEP São Vicente do Sul RS Brasil. {maicon.amarante,

Curso Data warehouse e Business Intelligence Fundamentos, Metodologia e Arquitetura

Prof. Daniela Barreiro Claro

Banco de Dados I. Prof. Edson Thizon

PERFIL CORPORATIVO CTIS

Soluções de Inteligência de Negócio e Mercado

DATA WAREHOUSE. Introdução

Política de Privacidade

Padrões para o ambiente DW-PBH

Faculdade Integrada do Ceará FIC Graduação em Redes de Computadores

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Business Intelligence e ferramentas de suporte

Computação em Nuvens IaaS com Openstack. Eng. Marcelo Rocha de Sá FLISOL - Belém - Pará 25 de abril 2015

Projeto de Desenvolvimento de Software

Compartilhe. Desmistificando o BI Conceitos, estruturas e principais ferramentas

Criando uma plataforma mundial para engajamento de usuários para a Copa do Mundo 2014 na nuvem da Google

WEBINAR EXCLUSIVO BUSINESS INTELLIGENCE NAS NUVENS

DESMISTIFICANDO O CONCEITO DE ETL

Especialização por Verticais

Gerenciamento de Incidentes - ITIL. Prof. Rafael Marciano

Uma Breve Introdução. Andréa Bordin

OBJETIVO GERAL DA DISCIPLINA

SAP Insurance Insurance Analyzer. Giovanni Menegat Arquiteto de Soluções - Insurance

Checklist de Projeto de Data Warehouse

BANCO DE DADOS. Vinícius Pádua

IBM WebSphere DataStage

Título da Apresentação

Minicurso Computação em Nuvem Prática: AWS

Percio Alexandre de Oliveira Prof. Maurício Capobianco Lopes - Orientador

CLOUD COMPUTING PEDRO MORHY BORGES LEAL. MAC Organização de Computadores Prof. Alfredo Goldman 7 de dezembro de 2010

Comércio Eletrônico AULA 09. Sistemas para Internet. Professora Ms Karen Reis

Aplicando Técnicas de Business Intelligence sobre dados de desempenho Acadêmico: Um estudo de caso

OCEL001 Comércio Eletrônico Módulo 9_3: OpenShift

Instituto de Pesquisas Energéticas e Nucleares, IPEN CNEN/SP. Biblioteca Terezine Arantes Ferraz

Tecnologias aplicadas à Inteligência Empresarial e Inteligência Competitiva e o Brasil?

C o n t a b i l i d a d e C o n t a s a P a g a r C o n t a s a R e c e b e r O r ç a m e n t o

PENTAHO. História e Apresentação

Experiência em Processo de Teste Iterativo e Automatizado para Data Warehouse

Programação para Web HTML - Parte 2

w3f ArqNFe GESTÃO E ARMAZENAMENTO DE DOCUMENTOS XML

MBA Analytics em Big Data

UNIVERSIDADE POSITIVO ESPECIALIZAÇÃO EM BUSINESS INTELLIGENCE IMPLEMENTAÇÃO BI OPEN SOURCE

CEP São Vicente do Sul RS Brasil. {maicon.amarante,

Título da Apresentação

Sistema Integrado de Gerenciamento do ISS SIG-ISS. Manual de integração do WebService para NFS-e

Alternativas para Governança de processos do Cadastro de Clientes e Fornecedores

Desenvolvimento de Software

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

Business Intelligence Conceitos, Metodologia de Desenvolvimento e Exemplos de BI

Sistemas de Apoio à Inteligência do Negócio

Ferramentas de Tomada de Decisão

AMAZON WEB SERVICES - AWS A INFRAESTRUTURA DE NUVEM GERENCIADA

3.2. Bibliotecas. Biblioteca Professor Antônio Rodolpho Assenço, campus Asa Sul: Os espaços estão distribuídos da seguinte forma:

Modelos de Negócios para Serviços de Cidadania Digital. Campinas, 26 de março de 2009

Transcrição:

Pipelines ETL Aplicação de conceitos de DW para a construção de pipelines de extração, transformação e carregamento de dados Carlos Baqueta

Contextualização

Contextualização Quem sou eu? (momento filosófico) Estudante de Ciências de Computação (último semestre, uhuuul); Estagiário em Business Intelligence, atuando principalmente como Engenheiro de Dados, na Arquivei. Quem é a Arquivei? Empresa que atua no mercado B2B e tem como principal produto o Arquivei. O que é o Arquivei? É um serviço de gestão de documentos fiscais (NFe, CTe, <sopa_de_letrinhas>...).

Qual era o problema?

Qual era o problema? Os gerentes e sócios desejavam ter uma visão de alguns indicadores de desempenho, do inglês, Key Performance Indicators - KPIs), tais como: Logins Leads Criação de Contas Churns Receita etc Solução: criação do DW da empresa (EDW)

Solução 1: Kimball + AWS

O que é Amazon Web Services (AWS)? AWS oferece serviços de infraestrutura de TI

Solução 1: Kimball + AWS Principais características da primeira solução: Modelagem dimensional Literatura base Esquema estrela The Data Warehouse Toolkit, Kimball and Ross. 3 edição. Réplica/S3 --(E)--> stg1 --(T)--> stg2 --(L)--> Redshift Arquitetura do pipeline ETL stg: staging area. Local de armazenamento temporário de dados no pipeline ETL.

Solução 1: Kimball + AWS Exemplo do esquema estrela para o evento de processo de negócio login user_dim date_dim login_fact account_dim Factless table: tabela de fatos sem medida numérica O usuário u de uma conta c faz login no sistema numa data d

Solução 1: Kimball + AWS Arquitetura da solução:

Solução 1: Kimball + AWS - Desafios Um dos principais desafios no processo de ETL é a identificação de instâncias advindas de diferentes provedores de informação. Ex.: Considere que temos a tabela de dimensão user_dim no banco de dados analítico e que seus dados advêm de 2 provedores: Provedor 1 Provedor 2 id name cpf email user_id name cpf email 1 Anna x y........................ 54 Anna x y Como saber que esses 2 registros referem-se a mesma instância?

Solução 1: Kimball + AWS - Desafios Segundo problema: como identificar as instâncias dentro do DW? Ex.: Considere que temos a tabela de dimensão user_dim no banco de dados analítico e que seus dados advêm apenas da tabela user de um provedor de informação Podemos utilizar como id da tabela user_dim o mesmo id da tabela user?

Solução 1: Kimball + AWS - Implementação Detalhes sobre a implementação da primeira solução: Linguagem de programação Bibliotecas úteis Orquestração de tarefas Python3.4 petl, psycopg2 Airflow (https://airflow.incubator.apache.org/)

Solução 1: Kimball + AWS - Desvantagens da solução Gerenciamento da infraestrutura; Gerenciamento de dockers; Gerenciamento do Airflow (gerenciador de tarefas); Demora na implementação dos pipelines (Também por falta de experiência)

Solução 2: Google Cloud Platform + Apache Beam

O que é Google Cloud Platform (GCP)? Plataforma que provê acesso a infraestrutura, análise de dados e aprendizado de máquina da Google.

Solução 2: Google Cloud Platform (GCP) + Apache Beam Principais componentes da seção Big Data de serviços da GCP: Pub/Sub serviço de mensagem a partir do qual aplicações independentes podem enviar e receber mensagens. Conceito de topic e subscription. Dataflow BigQuery serviço de processamento de dados que oferece suporte tanto a execução de pipelines batch quanto stream. Completamente gerenciado pelo Google. EDW que possibilita a análises de dados em larga escala com alto desempenho.

O que é Apache Beam? Apache Beam é um projeto open source que provê um modelo unificado para a definição de pipelines de processamento de dados em paralelo tanto para a execução em batch quanto para a execução em stream Uma vez definido o pipeline utilizando Beam SDKs é possível submetê-lo como um job para ser executado no Google Dataflow fonte: https://beam.apache.org/get-started/beam-overview/

Solução 2: Google Cloud Platform (GCP) + Apache Beam Arquitetura da solução: Read messages from Pub/Sub Process messages Insert the data into BigQuery

Solução 2: Google Cloud Platform (GCP) + Apache Beam PInput -> PTransform -> PCollection -> -> POutput

Perguntas?

Obrigado!