Governança e Big Data Celso Poderoso cpoderoso@microstrategy.com
Celso Poderoso Formação Acadêmica: Economista Especialista em Sistemas de Informação Mestre em Tecnologia (Grid Computing/Cloud Computing) Livros Publicados: Guias de Referência: Oracle PL/SQL 8i, 9i e 10g Livro: SQL Curso Prático Atividades Profissionais: Professor e Coordenador de pós-graduação na FIAP Diretor de Serviços para América Latina na MicroStrategy
Falhas em Projetos com Big Data Falta de apoio e liderança dos executivos Lideranças departamentais são menos propensas ao sucesso Falta de uma Arquitetura adequada Ferramentas de Big Data para solucionar problemas de Big Data Ausência de Governança Corporativa e de Dados Agilidade, segurança e qualidade Falta de Cultura de Dados na Organização Todos os colaboradores conscientes da importância do dado
Eco Sistema de Big Data
O que é Big Data? Conceitos e Fundamentos
Big Data Definição "Big Data" é um dado cuja escala, distribuição, diversidade e/ou atualidade exigem o uso de novas arquiteturas técnicas e análises para permitir insights para agregar novas fontes de valor do negócio. Requer novas arquiteturas de dados (caixas de areia analíticas); Novas ferramentas; Novos métodos analíticos; Integração de múltiplas habilidades: Cientista de Dados. EMC, 2012
IoT Definição: Rede de objetos físicos que contém tecnologia embutida para comunicar, sentir ou interagir com seus estados internos ou ambiente externo. Gartner. Convergência: Social e mobile: interações Cloud: infra para entrega e distribuição Antecedentes: Computação Ubíqua, pervasiva, ambiente
Big Data Impacto em TI
Por que Big Data? Negócios
A Evolução da Análise de Dados Falta de Liderança e Apoio Executivo
Tomada de Decisão Dados Experiência Sentimento
More Structured Estrutura dos Dados Corporativos Structured Dados que possuem um tipo, formato e estrutura definida Exemplo: Dados transacionais e OLAP Semi- Structured Arquivo de dados textuais padronizados que permite realizar buscas Exemplo: XML Quasi Structured Dados textuais com formatos parcialmente passíveis de formatação com esforço, ferramentas e tempo. Exemplo: Clickstream Unstructured Dados que não possuem estrutura e normalmente são armazenados em formatos diferentes Exemplo: documentos texto, PDF, imagens e vídeos Fonte: EMC, 2012 - Adaptado
Onde Estão os Dados Ilhas de Dados Spreadmarts Data Marts isolados Data Warehouses Dados para tomada de decisão centralizados Analytic Sandbox Ativos de Dados recuperados por diversos analistas e tecnologias Planilhas e BDs para uso departamental (limitado) Extração dependente do analista Suporta relatórios e BI, depende da estruturação prévia das necessidades Dependente do analista, TI e DBA para criação de relatórios e dashboards Tempo para gerar novas análises é grande Permite análises complexas (processamento in-db ) Trabalha com o dado e depois cria métricas, relatórios e dashboards estruturados Analyst-owned ao invés de TI- DBA owned Fonte: EMC, 2012 - Adaptado
Business Intelligence Tech Descritivo Diagnóstico Preditivo Prescritivo O que aconteceu? Por que aconteceu? O que irá acontecer? O que deveria acontecer? Funções analíticas Matemáticas, OLAP & Financeiras, Operadores & Estatísticas Modelos descritivos Agrupamento & Associação, Análises de fatores Modelos preditivos Regressão & Série Temporal, Previsão & Classificação Otimização Simulação de Programação Linear Fonte: MicroStrategy, 2016
Data Mining Fonte: MicroStrategy, 2016
Business Intelligence & Analytics Tipos: Decisão: apoio aos gestores* Descritivo: insight de dados históricos* Preditivo: estatística e machine learning Prescritivo: simulação e recomendações (decisões) Descritivo Dados Inquisitivo Insights Preditivo Prescritivo
Solução Visão Corporativa dos Dados Single Version of the Truth Soluções departamentais estão longe de ser a solução Usuário com Poder de Análise Data Discovery & Self-Service BI Executivos de alto escalão engajados no processo
Arquitetura de Big Data Falta de Arquitetura Adequada
Processamento Armazenamento Integração Big Data
Arquitetura de Big Data Integração e Governança Ferramentas de Gestão Segurança Operações Ciclo de Vida & Governança Dataflow Acesso aos Dados - Armazenamento Batch (MapReduce/Spark) Script SQL NoSQL Busca In-Memory Administração Autenticação Auditoria Proteção Dados Provisionamento, Gestão e Monitoramento Zookeper Cloudbreak Agendamento Sqoop Flume Kafka Spark Streaming Gestão do Dado YARN x Mesos HDFS Oozie
Banco de Dados NoSQL
All Together Workflow Aquisição e Ingestão Gestão de Metadados Catálogo Preparação e Limpeza Hadoop Data Wrangling / Blending / Curation Acesso
Grandes Questões de Arquitetura Forma de Entrega Cloud x On-Premises Características para serviços Enterprise-class Segue padrão Apache ou agrega serviços adicionais? Segurança e Proteção Autenticação, Controle baseado em regras, políticas de segurança, etc. Suporte
Solução Arquitetura adequada para problemas de Big Data Pessoas preparadas para usar Arquitetura
A Governança de Dados e Big Data Ausência de Governança Corporativa e de Dados
Pilares da Governança de Dados Dados Centralizados e Integrados Metadados Privacidade e Segurança Data Quality
Maturidade Fonte: TDWi, 2014
Usuários Analistas TI Tomada Decisão Analytics Infraestrutura Transacional BI Analytics DW Framework Big Data Pessoas Processos Tecnologia 29
Solução Políticas claras para Uso do Dados Corporativo Processos claros para os pilares da Governança Cultura Organizacional voltada aos Dados Agilidade, Segurança e qualidade de dados Visão Corporativa dos Dados Liberdade para Usuário criar as Análises Responsabilidade de TI em garantir confiabilidade Soluções departamentais estão longe de ser a solução
Celso Poderoso Facebook http://www.facebook.com/governancadados LinkedIn http://br.linkedin.com/in/cpoderoso/ Big Data Brazil Governança de Dados - BR Blog http://corporate.canaltech.com.br/autor/celso-poderoso/ Twitter @cpoderoso E-mail cpoderoso@microstrategy.com cpoderoso@fiap.com.br cpoderoso@gmail.com