Big Data. O que é Big Data! Como surgiu isso! Para que serve?!

Documentos relacionados
Big Data Open Source com Hadoop

BIG DATA. Jorge Rady de Almeida Jr. Escola Politécnica da U SP

Informática Parte 10 Prof. Márcio Hunecke

Informática Parte 11 Prof. Márcio Hunecke

BUSINESS INTELLIGENCE E DATA WAREHOUSE. Big Data Conceitos, Técnicas, Ferramentas e Arquitetura. tutorpro.com.br cetax.com.br

Bruno Antunes da Silva UFSCar - Sorocaba

Benjamin Bengfort Jenny Kim

AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP

A NOVA EXPERIÊNCIA ANALÍTICA

CASSANDRA: BANCO DE DADOS NÃO RELACIONAL DE ALTO DESEMPENHO

Sergio Adriano Blum Data Scientists

PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA

Introdução. O que é um Banco de Dados (BD)?

MBA ANALYTICS EM BIG DATA

BCD29008 Banco de dados

Big Data. A Nova Onda

informação enviada (ex. Facebook) ou que a rede social utilize essa informação para sugerir locais de interesse próximos ao usuário (ex. Foursquare).

SOLUÇÃO HADOOP COM EMC ISILON E CLOUDERA ENTERPRISE

COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações

Prof. Daniela Barreiro Claro

CARACTERÍSTICAS Interface intuitiva. Em pouco tempo você está ambientado com o software;

BCD29008 Banco de dados

5 Infraestrutura de TI

Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho.

Introdução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)

Curso online de Fundamentos em Android. Plano de Estudo

Organização de Computadores I

Introdução a Computação em Nuvem

BD e Cloud Gerenciamento de. Dados na Nuvem

QUESTIONÁRIO SOBRE HADOOP LEITURA DO MATERIAL FORNECIDO ALUNO/GRUPO ;

UNIVERSIDADE PRESBITERIANA MACKENZIE

UM POUCO DO NOSSO TRABALHO. Performance, Otimização e Analytics

Introdução a Big Data. Juciander L. Moreira Wallace Brito

APLICAÇÕES DE BIG DATA COM SPARK E PYTHON

Avaliação de desempenho e dependabilidade de processamento de dados em larga escala com Hadoop

Desenvolvedor Android: Avançado. Plano de Estudo

STD29006 Sistemas Distribuídos

O CMS JOOMLA! UM GUIA PARA INICIANTES

Prof. Daniela Barreiro Claro

Gravação em nuvem de câmeras e DVRs

Aula 02. Conceitos relacionados à informática. Prof.: Roitier Campos Gonçalves

As Redes Sociais e a Sociedade da Informação: Pokémon GO como Case

Histórias de Dados. Big Data 2018

Informática I. Aula /09/2006 1

Prof. Claudio SIBC, TI e SGBD PRINCÍPIOS DE SISTEMAS DE INFORMAÇÃO

NoSQL Apache Cassandra para DBAs. Conceitos básicos que todo DBA deve conhecer sobre Apache Cassandra.

Bancos de Dados NoSQL PROF.: DR. LUÍS CARLOS COSTA FONSECA

Backup e Restauração Banco de Dados. Evandro Deliberal

TCE Informática Dados Estruturados e Não-Estruturados Prof. Marcelo Ribeiro

Professor: Lau Cheuk Lung

COMO BIG DATA E BUSINESS ANALYTICS PODEM MUDAR O RUMO DO SEU NEGÓCIO

Governança e Big Data. Celso Poderoso

Sistemas de Apoio a Decisão

Sistemas Distribuídos Aula 8

Sistema Gestor de Bancos de Dados (SGBD)

INTRODUÇÃO A PROGRAMAÇÃO PARA WEB

Introdução à Informática

Introdução a Computação em Nuvem

Programação para Dispositivos Móveis

Introdução à Computação para Engenharia MAC2166 Prof. Dr. Paulo Miranda IME-USP. Aula 1 Introdução à Computação

#pragma LeadBot. Um Bot* inteligente em sua homepage conectado ao Dynamics 365

O que é preciso para ser Cientista de Dados?

Cassandra no Desenvolvimento de Aplicações para serviços Móveis. por J.P. Eiti Kimura

Sistemas Distribuídos

Fundamentos de Informática Introdução aos Conceitos Básicos

USO DE CANAIS DIGITAIS NA VENDA DE IMÓVEIS TECNOLOGIAS QUE IRÃO TRANSFORMAR A INTERMEDIAÇÃO IMOBILIÁRIA NOS PRÓXIMOS ANOS SERGIO LANGER

Entendendo o Big Data

Apache Hadoop É hoje que vai instalar o seu primeiro cluster?

Replicando dados para o Kafka com o Oracle GoldenGate DBA Brasil 4.0 #DB4BRASIL

FUNDAMENTOS DE ARQUITETURAS DE COMPUTADORES SISTEMAS DE COMPUTAÇÃO. Cristina Boeres

Transcrição:

Big Data O que é Big Data! Como surgiu isso! Para que serve?!

Da teoria a prática:! 1! Dá mesmo para! fazer algo prático! com o! Big Data?!

Como tudo! começou?!! Qual o! Problema?!

PERCEBEU:! Informações NÃO CABIAM em um ÚNICO SERVIDOR;! Servidores quebram eventualmente (Lei de Murphy);! Não existiam mecanismos que pudessem armazenar informações nãoestruturadas ou estruturadas de forma horizontal.!

PERCEBEU:! Informações NÃO CABIAM em um ÚNICO SERVIDOR;! Servidores quebram eventualmente (Lei de Murphy);! Não existiam mecanismos que pudessem armazenar informações nãoestruturadas ou estruturadas de forma horizontal.! NECESSITAVA:! Gravar grandes volumes de dados não-estruturados (páginas HTML);! Processar essas páginas para buscar os links e o PageRank dessas páginas de acordo com as citações dos links;! Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.!

PERCEBEU:! Informações NÃO CABIAM em um ÚNICO SERVIDOR;! Servidores quebram eventualmente (Lei de Murphy);! Não existiam mecanismos que pudessem armazenar informações nãoestruturadas ou estruturadas de forma horizontal.! NECESSITAVA:! Gravar grandes volumes de dados não-estruturados (páginas HTML);! Processar essas páginas para buscar os links e o PageRank dessas páginas de acordo com as citações dos links;! Criar um mecanismo de busca que utilizasse regras de busca textual (TF-IDF) mas que, ao mesmo tempo, aceitasse uma espécie de score boosting nas páginas com maior PageRank.! CRIOU / FEZ:! GFS - Google File System: sistema de arquivo distribuído entre vários servidores que dividia os arquivos em blocos e, posteriormente, gravava cada bloco repetido em 3 máquinas diferentes para diminuir a chance de perda de dados;! MapReduce: criou um framework que facilitava aos desenvolvedores extrair informações de dados armazenados no GFS - Google File System, de forma paralelizada para aumentar a velocidade.! Em 2003 e 2004 os Engenheiros do Google publicaram artigos sobre o GFS e sobre o MapReduce.!

CONCORRÊNCIA:! Em 2005, o Yahoo! Enfrentava forte concorrência e resolve criar o próprio mecanismo de busca.! Desenvolve projetos Open Source como o Nutch, um crawler que lê, armazena e indexa páginas na web.! Se depara com o mesmo problema do Google: SERVIDORES QUEBRAM!.! Solução?! Escrever um novo sistema baseado nos artigos publicados pelos engenheiros do Google.! É criado o HADOOP Distributed File System, ou HDFS (HDFS + MapReduce)! Para fazer o projeto crescer e melhorar rapidamente, o projeto é publicado com uma licença Open Source da Fundação Apache.! Surge também um Banco de Dados NoSQL batizado de HBase inspirado em outro projeto do Google, o BigTable.!

TRANSFORMAÇÕES!

Custo de Armazenagem 1980: Apple $14.000.000 por TB US$ por TB 2010: Barracuda, $70 por TB 1970 hoje TRANSFORMAÇÕES!

Custo de Armazenagem Custo de CPU US$ por TB 1980: Apple $14.000.000 por TB 2010: Barracuda, $70 por TB US$ por GFLOPS 1961: IBM 1620, $1,1Bilhão 2009: AMD Radeon, $0,59 1970 hoje 1960 hoje TRANSFORMAÇÕES!

Custo de Armazenagem Custo de CPU US$ por TB 1980: Apple $14.000.000 por TB 2010: Barracuda, $70 por TB US$ por GFLOPS 1961: IBM 1620, $1,1Bilhão 2009: AMD Radeon, $0,59 1970 hoje 1960 hoje TRANSFORMAÇÕES! Custo de Banda US$ por Mbps 1998: $1.200 por Mbps 2010: $5 por Mbps 1998 hoje

Custo de Armazenagem Custo de CPU US$ por TB 1980: Apple $14.000.000 por TB 2010: Barracuda, $70 por TB US$ por GFLOPS 1961: IBM 1620, $1,1Bilhão 2009: AMD Radeon, $0,59 1970 hoje 1960 hoje TRANSFORMAÇÕES! Custo de Banda Computadores na Internet US$ por Mbps 1998: $1.200 por Mbps No. Computadores 2010: $5 por Mbps ARPAnet no. 1 na UCLA 2010: 1Bilhão 1998 hoje 1969 hoje

EM 2015 FORAM 18 BILHÕES DE DISPOSITIVOS CONECTADOS EM 2020 SERÃO 80 BILHÕES DE DISPOSITIVOS CONECTADOS

Mas o que é Big Data?!

Terrabytes! Registros! Transações! Volume! Arquivos!

Batch! Near Time! Real Time! Velocidade! Streams!

Estruturados! Não-Estruturados! Semi-Estruturados! Variedade! Todo tipo de dado!

Volume! Velocidade! Transações! + Interação! + Observação! + Real time! + Análise (graph data)! + Reação (feedback loop)! =! Big Data! Variedade! Veracidade! Valor para a EMPRESA!

Como transformar 2 de modo eficaz, eficiente e confiável, dados relevantes! em informações úteis?!

B.I.! Volume! VALOR! Velocidade! Veracidade! B.A.! E. Variedade! T. L.!

Precisamos 3 as obrigatoriamente! de sistemas sofisticados para trabalhar! informações?!

É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! Usada também para processamento semântico;! Escala horizontalmente para Petabytes de dados;! Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce!

É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! Usada também para processamento semântico;! Escala horizontalmente para Petabytes de dados;! Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce! É um framework desenvolvido originalmente em 2007 pelo! FACEBOOK, e agora pertence a APACHE; Base de Dados não! relacional para grandes volumes de dados, aceita os comandos SQL.!

É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! Usada também para processamento semântico;! Escala horizontalmente para Petabytes de dados;! Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce! É um framework desenvolvido originalmente em 2007 pelo! FACEBOOK, e agora pertence a APACHE; Base de Dados não! relacional para grandes volumes de dados, aceita os comandos SQL.! É um Banco de Dados Distribuído altamente escalável, com arquitetura! do Dynamo da Amazon e modelo de dados BigTable Google!

É a Plataforma de Software JAVA mais utilizada no mercado atualmente (open source); Possui conectores com grandes ferramentas de BI e Analytics;! Usada também para processamento semântico;! Escala horizontalmente para Petabytes de dados;! Cria novas necessidades de administração e novos perfis de desenvolvedores ambientados no MapReduce! É um framework desenvolvido originalmente em 2007 pelo! FACEBOOK, e agora pertence a APACHE; Base de Dados não! relacional para grandes volumes de dados, aceita os comandos SQL.! É um Banco de Dados Distribuído altamente escalável, com arquitetura! do Dynamo da Amazon e modelo de dados BigTable Google! PIG: É uma Plataforma Alto-Nível para criação de programas de! MapReduce com Hadoop!

Resultados concretos 4 de uso dessa grande massa de dados?

(*) Gartner/2013!

Obama: Eleições EUA! CASES E CLIENTES! 5Como a NSA consegue espionar milhões de pessoas nos EUA?! A Agência de Segurança Nacional americana montou um gigantesco esquema para bisbilhotar as comunicações nos Estados Unidos e em outros países com vários projetos de Big Data.!

Case: Veja como a UNESCO utilizando Big Data esta ajudando São Paulo e os esportes.! Levantamento dos 350 Centros Esportivos de São Paulo;! Atribuição de Raio de 1km ao redor do Centro Esportivo;! Apresentação de todas as Escolas, Academias, Universidades, Teatros, Empresas, etc dentro da área! do raio de atuação;! Relatório no detalhe de todas as informações das empresas de interesse.! Case: Veja como a Telebras uma empresa pública/privada tem utilizado o Business Analytics e os! conceitos de Big Data da iopera para utilizar todo o potencial de consumo de sua infraestrutura! de rede; onde investir e instalar novas redes para que tipo de público; como utilizar os leads! altamente qualificados e enviar por meio dos SmartPhones da força de vendas.! Case: Veja como a Unilever utilizando Big Data e Business Analytics consegue melhorar seu sell-out.! Entendimento do mercado atual (Market Size);! Identificação do ICP perfil ideal de cliente para a Unilever;! Geração de leads com o perfil ICP Unilever Food Solutions;! Distribuição e positivação em tempo real;! Integração com BI e visibilidade em tempo real.! Case: Como a Ceratti conseguiu dobrar suas vendas (aumento em 115%) num ano difícil como foi 2015.! Utilizando Big Data e a iopera, com a geração de leads qualificados a Ceratti superou a crise e! continua crescendo através de sua força de vendas direta e indireta através de seus distribuidores.! Case: Geração de Leads Qualificados usando Big Data para a Thomson Reuters empresa com resultados! globais de U$ 12,6 Bilhões em 2014 potencializar ainda mais seus resultados através das soluções! da iopera.! Case: Como a Telefonica conseguiu em 10 meses utilizando o BIG DATA da iopera aumentar em 23 Milhões! suas vendas. Vendendo onde consegue entregar em até 24 horas, e fazendo UpSell nos Grupos! Econômicos onde já possui ao menos um cliente.!

Criou uma série de data products baseados em Hadoop como:! People you may know (2 pessoas)! Year in review email (1 pessoa, 1 mês)! Network updates (1 pessoa, 3 meses)! Skills and Endorsements (2 pessoas)! LinkedIn: Hadoop pode capacitar pequenos times a construir grandes projetos.! Mais de 10 data products de:! Busca (vagas, CVs, Empresas etc)! Recomendação por e-mail! Recomendação no site! Geração de conteúdo! Mais de 4 milhões de currículos! Utiliza Solr para os seus aplicativos de busca.! Recomendação de notícias! Recomendação de notícias personalizada para usuários ou de acordo com os artigos! Utiliza Hadoop, Mahout e Solr! Mais de 100 Gb por dia de log processados! Um dos maiores sites do Brasil em termos de audiência! Cliente Semantix de Big Data!

Real-Time Big Data Analytics:! Arquitetura MapReduce não é suficiente por não ser real-time! Utilizou soluções que armazenam dados em memória para exibir informações sobre opções curtir! Coloca 80% dos dados em memória (de 100 a 1000x mais rápida);! Coloca o código onde estão os dados! Armazena os dados persistentes após serem processados em bancos como MySQL, HBase e Cassandra! O grande segredo da Amazon: recomendações! Recomendações por e-mail! Recomendações no momento da compra! Compras casadas! Análise do comportamento dos usuários! Análise da cadeia de suprimentos e de que features colocará em cada carro! Comportamento dos usuários! Comportamento de compra! Integração com smartphones nos veículos! Carros melhores com dados analisados! Natural Language Processing para analisar comentários e sugestões de usuários!

www.iopera.com.br É isso o que fazemos na iopera Ajudamos os principais agentes de transformação das empresas a serem mais eficientes no processo de decisão!. Muito Obrigado!