Big Data e Análise de Dados: Tendências e Aplicações em Projetos. Marcus Borba. Apresentação

Documentos relacionados

MBA Analytics em Big Data

BIG DATA Armazenamento e Gerenciamento de grandes volumes de dados

CIDADE PARTICIPATIVA O GOVERNO FORA DA CAIXA

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

Big Data: Uma revolução a favor dos negócios

A Plataforma para uma Nova Era. Copyright 2013 EMC Corporation. Todos os direitos reservados.

BIG DATA INTRODUÇÃO. Humberto Sandmann

Introdução ao GED Simone de Abreu

E esse tal de Big Data?

Detecção e investigação de ameaças avançadas. INFRAESTRUTURA

Eficiência em TI e Criação de Valor. Anderson Itaborahy Diretoria de Tecnologia do Banco do Brasil

INTEGRE Diversas fontes de informações em uma interface intuitiva que exibe exatamente o que você precisa

Cross-Channel Marketing Platform. Aproximando marcas e consumidores em tempo real.

Forneça a próxima onda de inovações empresariais com o Open Network Environment

INTERNET HOST CONNECTOR

Projeto de Monitoração e Melhoria Contínua com Six-Sigma, IoT e Big Data

Ciência dos Dados. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13

Seguros em um mundo conectado. As novas gerações e as novas formas de negócio

Transformando a Industria de Telecomunicações com IBM Analytics. Fábio Lima

Inteligência de Dados

A Nova Interface do Data Discovery no MicroStrategy 10. Anderson Santos, Sales Engineer Brazil 11/08/2015

Oportunidades de Patrocínio. cloudstackday. 12/02/2015 São Paulo. Auditório István Jancsó Universidade de São Paulo

As Novas Tecnologias de Dados, Inteligência Competitiva e Preditiva

Big Data Networking. Felipe Santos e Lucas Teixeira

GRADUAÇÃO E PÓS-GRADUAÇÃO APRESENTAÇÃO E GRADE CURRICULAR DOS CURSOS

A Grande Importância da Mineração de Dados nas Organizações

Enabling the New Style of IT. Marcelo Nunes Sales Director, Enterprise and Public Sector Printing and Personal Systems

A computação na nuvem é um novo modelo de computação que permite ao usuário final acessar uma grande quantidade de aplicações e serviços em qualquer

APRESENTAÇÃO COMERCIAL.

Tendências na adoção de Big Data & Analytics: Inovação em tempo real para empresas que precisam de transformação

Plataformas de BI Qual é a mais adequada para o meu negócio?

Estratégia da VMware: O modelo corporativo definido por software e o desafio de simplificar a TI. Anderson Ferreira Bruno Amaral 22 Ago 2014

É CLOUD. É ON-DEMAND.

IBM BusinessConnect Social & Mobile Cadência 28/03

Noções de. Microsoft SQL Server. Microsoft SQL Server

WHITEPAPER. Guia de compra para câmeras IP: tudo o que você precisa saber antes de adquirir a sua solução digital

Gestão de TI. Aula 10 - Prof. Bruno Moreno 30/06/2011

Formação: o Bacharel em Sistemas de Informações (SI); o MBA em Tecnologia da Informação e Comunicação (TIC).

Boas Práticas em Sistemas Web muito além do HTML...

CRM. Customer Relationship Management

Inovação Social Com Big Data. Marcelo Sales CTO HDS América Latina

Nenhum dado deixado para trás: +20 novas fontes de dados com a nova preparação de dados no MicroStrategy 10

Thalita Moraes PPGI Novembro 2007

Sistemas IBM Flex & PureFlex

BIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES

Convergência TIC e Projetos TIC

INFORMAÇÕES ADICIONAIS

7 tendências de tecnologia

Prof. Marcelo Machado Cunha

Interatividade aliada a Análise de Negócios

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Da conformidade regulatória ao compromisso

Uma estrutura (framework) para o Business Intelligence (BI)

Com as mudanças tecnológicas e acirramento da competitivadade, Advanced Analytics tornou-se uma prioridade para as áreas de negócio

Mídias sociais como apoio aos negócios B2C

Projeto Pedagógico do Bacharelado em Ciência da Computação. Comissão de Curso e NDE do BCC

Cinco principais qualidades dos melhores professores de Escolas de Negócios

Agregando valor com Business Service Innovation

Introdução à Computação

Sistemas de Informação

Detecção e investigação de ameaças avançadas. VISÃO GERAL

O que é o Virto ERP? Onde sua empresa quer chegar? Apresentação. Modelo de funcionamento

Prof. JUBRAN. Aula 1 - Conceitos Básicos de Sistemas de Informação

!!!!!!!!!!!! 2014! T +39 (11)

3 0 ENCONTRO DE USUÁRIOS DE BI

Universo Online S.A 1

RESUMO DA SOLUÇÃO CA ERwin Modeling. Como eu posso gerenciar a complexidade dos dados e aumentar a agilidade dos negócios?

Apresenta. SofStore o mais novo aliado no gerenciamento do seu negócio

Wilson Moraes Góes. Novatec

Anexo I Formulário para Proposta

Tema: Big Data, Analytics...a Tecnologia a Favor do RH Palestrante: Alberto Roitman

Alta performance: a base para os nossos clientes, a base para o seu futuro.

Resultados da Pesquisa

GERENCIAMENTO DO CONHECIMENTO NA EMPRESA DIGITAL

Artur Petean Bove Júnior Tecnologia SJC

Como melhorar a tomada de decisão. slide 1

Introdução a Computação nas Nuvens

Conhecendo os usuários de um Sistema de Banco de Dados

A tecnologia revoluciona a Distribuição e os Canais Digitais

Análise e Projeto de Sistemas. Engenharia de Software. Análise e Projeto de Sistemas. Contextualização. Perspectiva Histórica. A Evolução do Software

Adapte. Envolva. Capacite.

Fornecendo Inteligência, para todo o mundo, a mais de 20 anos.

Administração de Sistemas de Informação Gerenciais

Sistemas de Informações Gerenciais

Por dentro do mercado de médio porte: Uma perspectiva para 2011

O futuro da educação já começou

Projeto Demoiselle. Para perguntas e respostas, utilizem a lista de discussões de usuários da comunidade: demoiselle-users@lists.sourceforge.

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

A consolidação de servidores traz uma séria de vantagens, como por exemplo:

CENTRO UNIVERSITÁRIO ESTÁCIO RADIAL DE SÃO PAULO SÍNTESE DO PROJETO PEDAGÓGICO DE CURSO 1

Universidade Federal de Goiás Ciências da Computação Sistemas Operacionais 2

Especificação Suplementar

Transcrição:

Big Data e Análise de Dados: Tendências e Aplicações em Projetos Marcus Borba 1 Apresentação Marcus Borba CTO - Spark Strategic Business Solution. 30 anos de experiência em tecnologia da informação.. 14 anos de experiência no Brasil e exterior nas áreas: BI, Big Data e Analytics.. Participo ativamente da comunidade de BI/BigData/Analytics, através de grupos, listas de discussão, sites, blogs e redes sociais, sendo citado em várias listas: - The 23 Most Influential Business Intelligence Blogs - BI Software Insight (09/2014) Top Big Data Executives and Experts to Follow on Twitter - CEO World Magazine (05/2014) 10 Big Data Pros To Follow On Twitter - Information Week (04/2014) Top Site in the Business Intelligence Category Alltop (Desde 2009) 2

Agenda Introdução O que é Big Data Os Desafios do Big Data Big Data Arquitetura e Tecnologia Ciência de Dados Casos de Uso 3 Introdução A Informação é o petróleo do século 21, e o analytics é o motor de combustão Peter Sondergaard SVP - Gartner 4

Volume de Informação Desde o início da civilização até 2003, a humanidade gerou cinco exabytes de dados. Agora vamos produzir cinco exabytes a cada dois dias... e o ritmo está acelerando. Eric Schmidt, Executive Chairman Google 5 Volume de Informação 90% dos dados existentes hoje foram gerados nos últimos dois anos Fonte: IBM 6

Big Data Por que Big Data é tão importante? 7 O que é Big Data O conceito de Big Data foi criado baseado no fato de que o imenso volume de dados gerados a cada dia excede a capacidade das tecnologias atuais de os tratarem adequadamente. 8

O que é Big Data Big Data é o conjunto de soluções tecnológicas capaz de lidar com dados digitais em volume, variedade e velocidade nunca vistos antes. O Big Data permite analisar qualquer tipo de informação digital em tempo real, tornando-se fundamental para a tomada de decisões. 9 Os 5 Vs do Big Data Volume Velocidade Variedade Veracidade Valor 10

Volume A quantidade de dados produzidos no mundo de hoje aumenta exponencialmente. Ferramentas de Big Data utilizam sistemas distribuídos de modo que podemos armazenar e analisar os dados entre bancos de dados que estão espalhados em qualquer lugar do mundo. Transações por segundo (TPS) em Terabytes (TB) Armazenamento por dia ou ano em PetaBytes (PB) ou Exabytes (EB) Diversos Data Centers Diversos Data Hubs 11 Velocidade Com o aumento dos dados vem o aumento da velocidade, número e periodicidade das operações com o seu negócio. Processamento e Visualização de Dados em Tempo Real ou QUASE Tempo Real Transmissão de Dados Transmissão de Vídeo Consultas e resultados em segundos ou milisegundos 12

Variedade Diferentes tipos de dados, com formatos diferentes. Dados estruturados (RDBMS, DW) Dados semi-estruturados (arquivos de log, csv, etc) Dados não estruturados (imagens, livros, videos, audio, textos, informações publicadas em redes sociais como Twitter e Facebook) 13 Veracidade Com muitas formas de dados, a confiabilidade, qualidade e precisão dos dados ficam menos controláveis. Precisamos ter certeza que os dados são autênticos e fazem sentido. (por exemplo, posts no Twitter com hashtags, linguagem coloquial, erros de digitação e abreviações, além da precisão do conteúdo). 14

Valor Informação é poder, informação é patrimônio. A combinação Volume + Velocidade + Variedade+ Veracidade será inviável se o resultado não trouxer benefícios que compensem o investimento e também agreguem valor ao negócio. 15 Big Data Previsão de Mercado Fonte: Wikibon 16

Internet das Coisas (Internet of Things - IoT) Este cenário está longe de deixar de ser crescente. Basta imaginar que diversos dispositivos em nossas casas - TVs, geladeiras, lavadoras de roupa, cafeteiras, etc deverão estar conectados à internet em um futuro próximo. 17 Internet das Coisas - IoT Segundo o Gartner, a Internet das Coisas atualmente está no topo das tecnologias emergentes. Gartner: Hype Cycle for Emerging Technologies (Agosto/2014) 18

Os Desafios do Big Data O Big Data obriga as empresas a pensarem em três desafios estratégicos e operacionais: - Estratégia da Informação - Análise dos Dados - Gestão da Informação Corporativa 19 Os Desafios do Big Data Estratégia da Informação: A empresa precisa aproveitar o poder dos ativos da informação. O Big Data está levando as empresas a encontrar novas maneiras de alavancar fontes de informação para impulsionar o crescimento. 20

Os Desafios do Big Data Análise dos dados: A empresa precisa ter mais insights de suas análises de Big Data. A empresa precisa prever futuros comportamentos dos clientes, tendências e resultados. 21 Os Desafios do Big Data Gestão da Informação Corporativa: A informação está em toda parte, e continua crescendo. As empresas precisam gerenciar o acesso às crescentes necessidades de informação de gestão e direcionar a inovação no processamento rápido das informações. 22

Os Desafios do Big Data Fonte: Tiffani Crawford 23 Big Data: 3 perguntas importantes Armazenar: Você pode capturar e armazenar os dados? Processo: Você pode limpar, enriquecer e analisar os dados? Acesso: Você pode recuperar, pesquisar, integrar e visualizar os dados? 24

Business Intelligence: Fluxo de Dados Tradicional 25 Big Data: Fluxo de Dados 26

O Big Data não vai substituir o Data Warehouse, eles são complementares. Neste novo ambiente, o Data Warehouse pode continuar com sua carga de trabalho padrão, utilizando dados de sistemas legados operacionais e armazenamento de dados históricos para fornecimento tradicional de inteligência de negócios e os resultados de análise. 27 Big Data - Arquitetura 28

Banco de Dados NOSQL Os banco de dados NoSQL (Not Only SQL) fornecem um mecanismo para armazenamento e recuperação de dados que utiliza modelos de consistência mais flexíveis do que os bancos de dados relacionais tradicionais. 29 Hadoop O Hadoop é uma plataforma de código aberto (open source) desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. O projeto é mantido pela Apache Foundation, contando com a colaboração de várias grandes empresas, como Google, Facebook, Yahoo e IBM. 30

Hadoop: Armazena e Processa em uma única Plataforma Modelo Padrão Compute (RDBMS, EDW) Data Storage (SAN, NAS) Modelo Hadoop Compute (CPU) Storage (Disk) Memory z z Network Expensive, Special purpose, Reliable Servers Expensive Licensed Software Hard to scale Network is a bottleneck Only handles relational data Difficult to add new fields & data types Commodity Unreliable Servers Hybrid Open Source Software Scales out forever No bottlenecks Easy to ingest any data Agile data access Expensive & Unattainable Affordable & Attainable $30,000+ per TB $300-$1,000 per TB Fonte: Cloudera 31 Hadoop "Acreditamos que, em um futuro próximo, o Hadoop será o software mais amplamente utilizado em Data Centers." Brian Krzanich CEO, Intel 32

Programação em Big Data Python R Pig Latin Hive MapReduce MATLAB SAS SQL Java C/C++ 33 Python Python é uma linguagem open-source poderosa e flexível, fácil de aprender, fácil de usar, e tem bibliotecas poderosas para manipulação e análise de dados. Python suporta múltiplos paradigmas de programação, incluindo, programação orientada a objetos, imperativa e funcional. 34

MapReduce MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo. O MapReduce foi criado pelo Google, onde foi utilizado para regerar completamente o índice (Google Index) da World Wide Web. A contribuição fundamental do framework MapReduce é a escalabilidade e tolerância a falhas alcançada para uma variedade de aplicações através da otimização do mecanismo de execução. 35 Hive O Hive é uma ferramenta "SQL-like" que permite que aplicações de BI convencionais executem consultas em um cluster Hadoop. O Hive foi desenvolvido originalmente pelo Facebook (atualmente é de código aberto), e é uma abstração de alto nível da estrutura do Hadoop, que permite a qualquer pessoa fazer consultas em dados armazenados em um cluster Hadoop como se eles estivessem manipulando uma base de dados relacional. O Hive amplia o alcance do Hadoop, tornando-o mais familiar para os usuários de BI. 36

PIG PIG é outra linguagem que tenta trazer o Hadoop para mais perto das realidades de desenvolvedores e usuários de negócios. Ao contrário do Hive, o PIG consiste em uma linguagem "Perl-like" que permite a execução de consultas sobre os dados armazenados em um cluster Hadoop. O PIG foi desenvolvido pelo Yahoo, e assim como o Hive, também foi feito totalmente open source. 37 Linguagem R R é uma linguagem de programação de software livre e um ambiente de software para computação estatística e gráficos. A linguagem R é utilizada por estatísticos e por quem trabalha com mineração de dados (Data Mining) para o desenvolvimento de softwares estatísticos e análise de dados. 38

Flume O Flume tem uma arquitetura simples e flexível, baseado em streaming de fluxos de dados. Ele usa um modelo de dados extensível simples que permite a utilização de aplicações analíticas online. 39 O fluxo do Big Data - Estágios - Coletar - Armazenar - Transformar e Analisar - Modelar e Relacionar - Prever, Recomendar e Visualizar 40

Visualização dos Dados Uma Visualização de dados eficaz permite que as pessoas analisem rapidamente grandes quantidades de dados para identificar possíveis correlações, tendências, desvios, padrões e condições de negócios. 41 Big Data Níveis de Maturidade do Big Data Fonte: 42

Big Data - Maturidade de Adoção 43 Big Data Analytics - Plataformas 44

Cientista de dados Cientista de Dados: A profissão mais sexy do Século 21! 45 Cientista de dados O cientista de dados é um profissional com uma base sólida em ciência da computação e aplicativos, modelagem, estatísticas, análises e matemática. O que diferencia o cientista de dados é uma forte visão de negócios, juntamente com a capacidade de comunicar os resultados para os clientes e líderes de TI de uma forma que pode influenciar a forma como uma empresa aborda um desafio de negócios. 46

Cientista de dados As empresas estão procurando um cientista de dados ou um unicórnio? 47 Cientista de dados Como resolver o problema da escassez de cientista de dados no mercado de trabalho? 48

Cientista de dados As empresas desenvolvedoras de ferramentas de Big Data estão customizando soluções para implementar Big Data de forma mais prática e objetiva. 49 Ciência de dados Mineração de Dados Aprendizado de Máquina (Machine Learning) Inteligência Artificial Recuperação de Informações Análises Estatísticas 50

Big Data - Preocupações Privacidade Ética Plataformas 51 Big Data - Projeto Comece com um conjunto de dados bem definido. Os dados estão disponíveis? As perguntas para análise são as mais interessantes? Como é que vamos adicionar novos tipos de dados? Como é que iremos adicionar novas análises? 52

Big Data - Projeto Usar modelos, Provas de Conceito (POC) e pilotos para minimizar o risco e explorar as opções de modo mais fácil Trabalho em paralelo, sobrepondo as fases e explorando a eficiência de escala Construir para reutilização e redistribuição Agregação de código e maturidade de codificação Ambientes (piloto, controle de qualidade, teste, préprodução, produção) 53 Big Data - Projeto Novas tecnologias geram novos conhecimentos: Transferência de conhecimento Formação e coaching Documentação de design, implementação e suporte Desenvolvimento de base de conhecimento Padrões de Codificação Melhores práticas Bibliotecas de código Frameworks, ferramentas e scripts reutilizáveis 54

Casos de Uso - Logística 55 Detecção de Fraude 56

Vendas - Varejo 57 Otimização do BI/DW 58

Conclusão Big Data não é apenas tecnologia, é análise e utilização de dados em tempo real para tomada de decisões. Informação sem execução não traz nenhum valor ao negócio. 59 Obrigado! Marcus Borba marcus.borba@sparkbs.com.br www.linkedin.com/in/marcusborba @MarcusBorba 60