Big Data e Análise de Dados: Tendências e Aplicações em Projetos Marcus Borba 1 Apresentação Marcus Borba CTO - Spark Strategic Business Solution. 30 anos de experiência em tecnologia da informação.. 14 anos de experiência no Brasil e exterior nas áreas: BI, Big Data e Analytics.. Participo ativamente da comunidade de BI/BigData/Analytics, através de grupos, listas de discussão, sites, blogs e redes sociais, sendo citado em várias listas: - The 23 Most Influential Business Intelligence Blogs - BI Software Insight (09/2014) Top Big Data Executives and Experts to Follow on Twitter - CEO World Magazine (05/2014) 10 Big Data Pros To Follow On Twitter - Information Week (04/2014) Top Site in the Business Intelligence Category Alltop (Desde 2009) 2
Agenda Introdução O que é Big Data Os Desafios do Big Data Big Data Arquitetura e Tecnologia Ciência de Dados Casos de Uso 3 Introdução A Informação é o petróleo do século 21, e o analytics é o motor de combustão Peter Sondergaard SVP - Gartner 4
Volume de Informação Desde o início da civilização até 2003, a humanidade gerou cinco exabytes de dados. Agora vamos produzir cinco exabytes a cada dois dias... e o ritmo está acelerando. Eric Schmidt, Executive Chairman Google 5 Volume de Informação 90% dos dados existentes hoje foram gerados nos últimos dois anos Fonte: IBM 6
Big Data Por que Big Data é tão importante? 7 O que é Big Data O conceito de Big Data foi criado baseado no fato de que o imenso volume de dados gerados a cada dia excede a capacidade das tecnologias atuais de os tratarem adequadamente. 8
O que é Big Data Big Data é o conjunto de soluções tecnológicas capaz de lidar com dados digitais em volume, variedade e velocidade nunca vistos antes. O Big Data permite analisar qualquer tipo de informação digital em tempo real, tornando-se fundamental para a tomada de decisões. 9 Os 5 Vs do Big Data Volume Velocidade Variedade Veracidade Valor 10
Volume A quantidade de dados produzidos no mundo de hoje aumenta exponencialmente. Ferramentas de Big Data utilizam sistemas distribuídos de modo que podemos armazenar e analisar os dados entre bancos de dados que estão espalhados em qualquer lugar do mundo. Transações por segundo (TPS) em Terabytes (TB) Armazenamento por dia ou ano em PetaBytes (PB) ou Exabytes (EB) Diversos Data Centers Diversos Data Hubs 11 Velocidade Com o aumento dos dados vem o aumento da velocidade, número e periodicidade das operações com o seu negócio. Processamento e Visualização de Dados em Tempo Real ou QUASE Tempo Real Transmissão de Dados Transmissão de Vídeo Consultas e resultados em segundos ou milisegundos 12
Variedade Diferentes tipos de dados, com formatos diferentes. Dados estruturados (RDBMS, DW) Dados semi-estruturados (arquivos de log, csv, etc) Dados não estruturados (imagens, livros, videos, audio, textos, informações publicadas em redes sociais como Twitter e Facebook) 13 Veracidade Com muitas formas de dados, a confiabilidade, qualidade e precisão dos dados ficam menos controláveis. Precisamos ter certeza que os dados são autênticos e fazem sentido. (por exemplo, posts no Twitter com hashtags, linguagem coloquial, erros de digitação e abreviações, além da precisão do conteúdo). 14
Valor Informação é poder, informação é patrimônio. A combinação Volume + Velocidade + Variedade+ Veracidade será inviável se o resultado não trouxer benefícios que compensem o investimento e também agreguem valor ao negócio. 15 Big Data Previsão de Mercado Fonte: Wikibon 16
Internet das Coisas (Internet of Things - IoT) Este cenário está longe de deixar de ser crescente. Basta imaginar que diversos dispositivos em nossas casas - TVs, geladeiras, lavadoras de roupa, cafeteiras, etc deverão estar conectados à internet em um futuro próximo. 17 Internet das Coisas - IoT Segundo o Gartner, a Internet das Coisas atualmente está no topo das tecnologias emergentes. Gartner: Hype Cycle for Emerging Technologies (Agosto/2014) 18
Os Desafios do Big Data O Big Data obriga as empresas a pensarem em três desafios estratégicos e operacionais: - Estratégia da Informação - Análise dos Dados - Gestão da Informação Corporativa 19 Os Desafios do Big Data Estratégia da Informação: A empresa precisa aproveitar o poder dos ativos da informação. O Big Data está levando as empresas a encontrar novas maneiras de alavancar fontes de informação para impulsionar o crescimento. 20
Os Desafios do Big Data Análise dos dados: A empresa precisa ter mais insights de suas análises de Big Data. A empresa precisa prever futuros comportamentos dos clientes, tendências e resultados. 21 Os Desafios do Big Data Gestão da Informação Corporativa: A informação está em toda parte, e continua crescendo. As empresas precisam gerenciar o acesso às crescentes necessidades de informação de gestão e direcionar a inovação no processamento rápido das informações. 22
Os Desafios do Big Data Fonte: Tiffani Crawford 23 Big Data: 3 perguntas importantes Armazenar: Você pode capturar e armazenar os dados? Processo: Você pode limpar, enriquecer e analisar os dados? Acesso: Você pode recuperar, pesquisar, integrar e visualizar os dados? 24
Business Intelligence: Fluxo de Dados Tradicional 25 Big Data: Fluxo de Dados 26
O Big Data não vai substituir o Data Warehouse, eles são complementares. Neste novo ambiente, o Data Warehouse pode continuar com sua carga de trabalho padrão, utilizando dados de sistemas legados operacionais e armazenamento de dados históricos para fornecimento tradicional de inteligência de negócios e os resultados de análise. 27 Big Data - Arquitetura 28
Banco de Dados NOSQL Os banco de dados NoSQL (Not Only SQL) fornecem um mecanismo para armazenamento e recuperação de dados que utiliza modelos de consistência mais flexíveis do que os bancos de dados relacionais tradicionais. 29 Hadoop O Hadoop é uma plataforma de código aberto (open source) desenvolvida especialmente para processamento e análise de grandes volumes de dados, sejam eles estruturados ou não estruturados. O projeto é mantido pela Apache Foundation, contando com a colaboração de várias grandes empresas, como Google, Facebook, Yahoo e IBM. 30
Hadoop: Armazena e Processa em uma única Plataforma Modelo Padrão Compute (RDBMS, EDW) Data Storage (SAN, NAS) Modelo Hadoop Compute (CPU) Storage (Disk) Memory z z Network Expensive, Special purpose, Reliable Servers Expensive Licensed Software Hard to scale Network is a bottleneck Only handles relational data Difficult to add new fields & data types Commodity Unreliable Servers Hybrid Open Source Software Scales out forever No bottlenecks Easy to ingest any data Agile data access Expensive & Unattainable Affordable & Attainable $30,000+ per TB $300-$1,000 per TB Fonte: Cloudera 31 Hadoop "Acreditamos que, em um futuro próximo, o Hadoop será o software mais amplamente utilizado em Data Centers." Brian Krzanich CEO, Intel 32
Programação em Big Data Python R Pig Latin Hive MapReduce MATLAB SAS SQL Java C/C++ 33 Python Python é uma linguagem open-source poderosa e flexível, fácil de aprender, fácil de usar, e tem bibliotecas poderosas para manipulação e análise de dados. Python suporta múltiplos paradigmas de programação, incluindo, programação orientada a objetos, imperativa e funcional. 34
MapReduce MapReduce é um modelo de programação para o processamento de grandes conjuntos de dados com um algoritmo distribuído paralelo. O MapReduce foi criado pelo Google, onde foi utilizado para regerar completamente o índice (Google Index) da World Wide Web. A contribuição fundamental do framework MapReduce é a escalabilidade e tolerância a falhas alcançada para uma variedade de aplicações através da otimização do mecanismo de execução. 35 Hive O Hive é uma ferramenta "SQL-like" que permite que aplicações de BI convencionais executem consultas em um cluster Hadoop. O Hive foi desenvolvido originalmente pelo Facebook (atualmente é de código aberto), e é uma abstração de alto nível da estrutura do Hadoop, que permite a qualquer pessoa fazer consultas em dados armazenados em um cluster Hadoop como se eles estivessem manipulando uma base de dados relacional. O Hive amplia o alcance do Hadoop, tornando-o mais familiar para os usuários de BI. 36
PIG PIG é outra linguagem que tenta trazer o Hadoop para mais perto das realidades de desenvolvedores e usuários de negócios. Ao contrário do Hive, o PIG consiste em uma linguagem "Perl-like" que permite a execução de consultas sobre os dados armazenados em um cluster Hadoop. O PIG foi desenvolvido pelo Yahoo, e assim como o Hive, também foi feito totalmente open source. 37 Linguagem R R é uma linguagem de programação de software livre e um ambiente de software para computação estatística e gráficos. A linguagem R é utilizada por estatísticos e por quem trabalha com mineração de dados (Data Mining) para o desenvolvimento de softwares estatísticos e análise de dados. 38
Flume O Flume tem uma arquitetura simples e flexível, baseado em streaming de fluxos de dados. Ele usa um modelo de dados extensível simples que permite a utilização de aplicações analíticas online. 39 O fluxo do Big Data - Estágios - Coletar - Armazenar - Transformar e Analisar - Modelar e Relacionar - Prever, Recomendar e Visualizar 40
Visualização dos Dados Uma Visualização de dados eficaz permite que as pessoas analisem rapidamente grandes quantidades de dados para identificar possíveis correlações, tendências, desvios, padrões e condições de negócios. 41 Big Data Níveis de Maturidade do Big Data Fonte: 42
Big Data - Maturidade de Adoção 43 Big Data Analytics - Plataformas 44
Cientista de dados Cientista de Dados: A profissão mais sexy do Século 21! 45 Cientista de dados O cientista de dados é um profissional com uma base sólida em ciência da computação e aplicativos, modelagem, estatísticas, análises e matemática. O que diferencia o cientista de dados é uma forte visão de negócios, juntamente com a capacidade de comunicar os resultados para os clientes e líderes de TI de uma forma que pode influenciar a forma como uma empresa aborda um desafio de negócios. 46
Cientista de dados As empresas estão procurando um cientista de dados ou um unicórnio? 47 Cientista de dados Como resolver o problema da escassez de cientista de dados no mercado de trabalho? 48
Cientista de dados As empresas desenvolvedoras de ferramentas de Big Data estão customizando soluções para implementar Big Data de forma mais prática e objetiva. 49 Ciência de dados Mineração de Dados Aprendizado de Máquina (Machine Learning) Inteligência Artificial Recuperação de Informações Análises Estatísticas 50
Big Data - Preocupações Privacidade Ética Plataformas 51 Big Data - Projeto Comece com um conjunto de dados bem definido. Os dados estão disponíveis? As perguntas para análise são as mais interessantes? Como é que vamos adicionar novos tipos de dados? Como é que iremos adicionar novas análises? 52
Big Data - Projeto Usar modelos, Provas de Conceito (POC) e pilotos para minimizar o risco e explorar as opções de modo mais fácil Trabalho em paralelo, sobrepondo as fases e explorando a eficiência de escala Construir para reutilização e redistribuição Agregação de código e maturidade de codificação Ambientes (piloto, controle de qualidade, teste, préprodução, produção) 53 Big Data - Projeto Novas tecnologias geram novos conhecimentos: Transferência de conhecimento Formação e coaching Documentação de design, implementação e suporte Desenvolvimento de base de conhecimento Padrões de Codificação Melhores práticas Bibliotecas de código Frameworks, ferramentas e scripts reutilizáveis 54
Casos de Uso - Logística 55 Detecção de Fraude 56
Vendas - Varejo 57 Otimização do BI/DW 58
Conclusão Big Data não é apenas tecnologia, é análise e utilização de dados em tempo real para tomada de decisões. Informação sem execução não traz nenhum valor ao negócio. 59 Obrigado! Marcus Borba marcus.borba@sparkbs.com.br www.linkedin.com/in/marcusborba @MarcusBorba 60