Entendendo o Big Data

Documentos relacionados
Big Data. A Nova Onda

BUSINESS INTELLIGENCE E DATA WAREHOUSE. Big Data Conceitos, Técnicas, Ferramentas e Arquitetura. tutorpro.com.br cetax.com.br

Evandro Deliberal Aula 01

BIG DATA: UMA INTRODUÇÃO. Prof. Ronaldo R. Goldschmidt

Big Data Open Source com Hadoop

Big Data. O que é Big Data! Como surgiu isso! Para que serve?!

Seminário apresentado em 29/06/2017 Disciplina: Sistemas Distribuídos Professora: Noemi Rodriguez Aluno: Ricardo Dias

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Data Warehouse e Business Intelligence; Laboratório Professor: Fernando Zaidan

Informática Parte 10 Prof. Márcio Hunecke

BIG DATA PODEMOS DIZER QUE SÃO DADOS GRANDES?

BIG DATA. Jorge Rady de Almeida Jr. Escola Politécnica da U SP

Histórias de Dados. Big Data 2018

Prof. Daniela Barreiro Claro

SGBDs NoSQL Modelos e Sistemas de Colunas e Grafos. Aluno: Jorge Dias Disciplina: IN940

BCD29008 Banco de dados

BCD29008 Banco de dados

Governança e Big Data. Celso Poderoso

Bancos de Dados NoSQL PROF.: DR. LUÍS CARLOS COSTA FONSECA

Informática Parte 11 Prof. Márcio Hunecke

Bancos de Dados NoSQL

Prof. Daniela Barreiro Claro

CASSANDRA: BANCO DE DADOS NÃO RELACIONAL DE ALTO DESEMPENHO

CURTA DURAÇÃO ANÁLISE DE BIG DATA. CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof. Dr. Adolpho Pimazoni Canton Prof.ª Drª Alessandra de Ávila Montini

Universidade Vila Velha. Iago Binow, Lorran Pegoretti, Luiz Marcon e Pedro Malta

Vantagens do Backup Corporativo

COMO BIG DATA E BUSINESS ANALYTICS PODEM MUDAR O RUMO DO SEU NEGÓCIO

Banco de Dados Data Mining Data Warehouse Big Data

Estratégias de Integração com Cloud

Big Data. Transformando a gestão de dados a favor do negócio. Estevão Lazanha

Introdução a Big Data. Juciander L. Moreira Wallace Brito

Cassandra no Desenvolvimento de Aplicações para serviços Móveis. por J.P. Eiti Kimura

Bruno Antunes da Silva UFSCar - Sorocaba

São Paulo. August,

NoSQL. Cintia Freitas de Moura. BCC 441 Banco de Dados II / 2014

Introdução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)

Bancos de dados NOSQL (Not Only SQL)

Gartner Quadrante Mágico para Ferramentas de BI e Analytics. João G. Gutheil Outubro/2016

Ferramenta para suporte à tomada de decisões Ayrton Silva

Introdução. O que é um Banco de Dados (BD)?

UNIVERSIDADE PRESBITERIANA MACKENZIE

Marcio Victorino. Análise de Informações TCU - TI

Arquitetura de núcleo distribuído utilizando o sistema de switch central Z9000. Uma Nota Técnica da Dell

Designing Data Intensive Applications

Para entender essas ligações foram criadas várias tecnologias capazes de fazer a correlação em meio a um grande volume de dados.

São Paulo. August,

PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA

O guia do comprador inteligente para flash

Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho.

O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2

Transformação Digital

UMA REVISÃO SISTEMÁTICA SOBRE BIG DATA

Fundamentos de Mineração de Dados

Sergio Adriano Blum Data Scientists

Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL

WESLLEY MOURA. Como o Bigdata está transformando as arquiteturas corporativas e aumentando o poder de decisão das empresas

A NOVA EXPERIÊNCIA ANALÍTICA

BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM. Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP.

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

ARMAZENAMENTO E PROCESSAMENTO DE BANCOS DE DADOS RELACIONAIS

Sistema Gestor de Bancos de Dados (SGBD)

MBA ANALYTICS EM BIG DATA

Gestão da Informação e Ciclo de Vida Big Data. Karina Moura

Pesquisa sobre Melhores Práticas em Marketing e Vendas

Uso do BIG DATA & Analytics para melhorar a qualidade das operações

Disciplina Gestão da Informação e do Conhecimento (ACA603)

Sistemas de Apoio a Decisão

E N AT O M O L I N A T O T H

BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM. Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP.

Pentaho IoT Analytics Open Source Trilha IoT

informação enviada (ex. Facebook) ou que a rede social utilize essa informação para sugerir locais de interesse próximos ao usuário (ex. Foursquare).

Escalabilidade, as modas e (No)SQL. Fernando Ike

Informática Parte 5 Prof. Márcio Hunecke

Designing Data Intensive Applications

Apis Rest Autoescaláveis

SGBD NoSQL. Débora Souza in940

Plataforma de Ciência de Dados. aplicada à Saúde. Pesquisador em Saúde Pública

Azure Cognitive Services Sentimental Analysis X Power BI

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Sistemas de Gerenciamento de Dados na Nuvem. Carmem Satie Hara Universidade Federal do Paraná

A evolução da plataforma Fluig. Em 2000 começamos nossos investimentos

Armazenamento Distribuído de Dados Seguros para Efeito de Sistemas de Identificação Civil

L s. e f. i u. F s. i e

O que é o PostgreSQL?

#pragma LeadBot. Um Bot* inteligente em sua homepage conectado ao Dynamics 365

Utilização de Banco de Dados NoSql em Ambientes Corporativos

O que é preciso para ser Cientista de Dados?

Bancos de Dados Orientados a Grafos. Mateus Lana e Thiago Santana

Abordando os desafios do Big Data. Justificativa do curso. Objetivo Geral. Benefícios do Programa

Banco de Dados. Banco de Dados

A INTERNET DAS COISAS RODA EM LINUX

SOLUÇÃO HADOOP COM EMC ISILON E CLOUDERA ENTERPRISE

Líder em Soluções para Prevenção de Perdas

4º Congresso Científico da Semana Tecnológica - IFSP 2013, copyright by IFSP de outubro de 2013, Bragança Paulista, SP, Brasil

SGBD NoSQL 1. Dácio Alves Florêncio

Introdução ao Data Mining (Mineração de Dados)

Sumário Executivo. Fevereiro 18 2

PrIntCloud. Disciplina: Procedência de Dados e Data Warehousing. Aluna: Shermila Guerra Santa Cruz. 16/04/13

COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações

UNIVERSIDADE FEEVALE ANDERSON BUENO TRINDADE CONVERSÃO DE UM DIAGRAMA E-R PARA UMA BASE DE DADOS MONGODB (NOSQL)

Transcrição:

Entendendo o Big Data Gerência de Arquitetura Corporativa Arquitetura De Dados Fernanda Farinelli

Você já parou para pensar nos dados que geramos a cada instante? SCM

Quantidade de Dados por dia Processa 30 bilhões de mensagens. Processa mais de 2 Tb de dados. Processa mais de 20 Pb de dados. 2 Bilhões de visualizações. 480 horas de novos vídeos. Coleta mais de 2,5 petabytes a cada hora, derivados das transações efetuadas por seus clientes

Pense bem... Entre o começo da computação e 2003, foram produzidos aproximadamente 5 exabytes de informação. Agora são criados cerca de 5 exabytes a cada 2 dias. 1 EB (exabyte) equivale 1.000.000.000.000.000.000 Bytes "Every day, we create 2.5 quintillion bytes of data so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data." Cited from IBM.com

Competição Time futebol Classificaçã o Arena Uniforme Patrocínio Localização Adversário Torcedor Notícias Campeonato Mineiro Títulos Corrida Presidencial 2014 Governo Arquitetura Portfólio

Exemplo real Primeira campanha de Barack Obama à presidência dos Estados Unidos, em 2008, o uso das redes sociais foi a peça-chave da disputa. Para a reeleição, a equipe de Obama usou a tecnologia de BIG DATA na conquista de votos. Montou um gigantesco BD, com detalhes de cada eleitor e de como as pessoas reagiam a diferentes abordagens. Tais informações orientaram voluntários, indicaram as melhores formas de arrecadar fundos e apontaram quem poderia ser convencido a apoiar a reeleição do presidente.

Desmitificando o Big Data O que Big Data não é? Não é um produto de hardware... Não é um software de prateleira ou customizado... Não é uma metodologia... Mas então, o que é Big Data?

Características que envolvem Big Data Valor O ROI de um projeto de Big Data Variedade Dados em formato estruturados e não estruturados. Veracidade Os dados devem ser confiáveis, autênticos e apresentar qualidade Volume Grande quantidade de dados são geradas a cada instante nas diversas mídias e SI. Velocidade Processamento de dados em tempo hábil, até em tempo real.

Origem do termo Big Data Nasceu no início da década de 1990, na NASA, para descrever grandes conjuntos de dados complexos que desafiam os limites computacionais tradicionais de captura, processamento, análise e armazenamento informacional. Big data is high-volume, high-velocity and high-variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making. (Gartner) Big data é grande volume, alta velocidade e alta variedade dos ativos de informação que exigem, formas inovadoras de baixo custo de processamento de informação para uma melhor percepção e tomada de decisão.

... Data contains non obvious information that firms can discover to improve business outcomes.. Big Data is the frontier of a firm s ability to store, process, and access (SPA) all the data it needs to operate effectively, make decisions, reduce risks, and serve customers. Cited Mike Gualtieri Forrester Blog post. Dados contém informações não óbvias que as empresas podem descobrir para melhorar os resultados do negócio. Big Data é a fronteira da capacidade de uma empresa para armazenar, processar e acessar todos os dados de que necessita para funcionar eficazmente, tomar decisões, reduzir os riscos e servir os clientes.

Finalmente... Big Data é a habilidade de capturar, armazenar e processar grandes quantidades de dados de diferentes fontes, em busca de correlações entre eles buscando vantagem competitiva.

Tais informações, permitiu a Target enviar cupons programados para cada estágios da gravidez. Descobriu que uma jovem esta grávida antes mesmo do pai dela: Mulheres grávidas compravam grandes quantidades de loção sem perfume por volta do início do segundo trimestre. Nas primeiras 20 semanas, as mulheres grávidas compravam suplementos como cálcio, magnésio e zinco. Identificou cerca de 25 produtos que, quando analisados em conjunto, lhe permitiu atribuir a cada cliente uma " previsão gravidez.

Ford Motors No projeto do primeiro modelo subcompacto na sua nova plataforma mundial unificada, a empresa teve que decidir quais detalhes dos modelos ela manteria comum em todas as regiões. Um destes detalhes foi a seta que pisca três vezes, antes só existente nos carros Ford da Europa. Como a Ford chegou a este item? Após vasculhar sites, fóruns de proprietários, usar algoritmos para garimpar as informações dos internautas, a Ford averiguou que a seta era considerada um diferencial dos carros com sua marca. Como resultado, a seta que pisca três vezes foi introduzida no novo Fiesta em 2010 e agora está disponível na maioria dos modelos.

Em 2008 começou a estourar no mundo a pandemia de influenza H1N1. Os dados de como e onde o vírus se alastrava eram desatualizados pois ele incubava por duas semanas antes do paciente procurar ajuda, quando o caso é registrado nos órgãos competentes, que por sua vez demoram mais ainda para agregar os dados às estatísticas. O CDC americano (ministério da saúde) precisava saber muito antes onde seria o próximo foco de infecção. Quem matou a charada? Quando uma pessoa começa a sentir qualquer sintoma, ela busca informação. E quais termos ela pesquisa? Não sabemos e não importa. Os cientistas cruzaram milhões de pesquisas feitas semanas antes do H1N1 ser detectado em uma região pelos dados oficiais e comparando as com as pesquisas que estão sendo feitas agora, conseguiram descobrir as correlações e criar um gráfico que prevê, em tempo real, como o H1N1 está se espalhando. O método se mostrou mais de 90% eficiente. Hoje esse serviço está disponível a todos gratuitamente e mostra não apenas a influenza, mas também outras doenças.

Calcula o percentual de arremessos para um jogador ou equipe ajustando para o valor de lances livres e lançamentos de três pontos.

ecnologias que sustentam o Big Data Tecnologias que proporcionam: Qualidade de Dados. (Veracidade) Ferramentas de Profiling de dados (perfil de dados) Ferramentas de Análises estatísticas Ferramentas de Limpeza de dados Ferramentas de Integração de dados Armazenamento de Dados estruturados e não estruturados. (grandes volumes, escaláveis). (Volume, Variedade) ECM, SGBDR, SGBD NoSQL, Armazenamento Cloud. Análise de dados (grandes volumes e tempo hábil). (Volume, Velocidade) Analytics, Mineração de dados, Processamento de Eventos Complexos, Ferramentas para Streaming, Análises preditivas, etc.

Gatilho da tecnologia Pico das expectativas infladas Vale da Desilusão Inclinação do Esclarecimento Platô da Produtividade

Banco de Dados NoSQL NoSQL (Not only SQL). Os SGBD tradicionais não lidam bem com às necessidades do domínio do problema de Big Data, como por exemplo: execução de consultas com baixa latência; tratamento de grandes volumes de dados; escalabilidade elástica horizontal; suporte a modelos flexíveis de armazenamento de dados; suporte simples a replicação e distribuição dos dados. Em contraste com a política de controles de transação do tipo ACID utilizam a abordagem denominada BASE (Basically Available, Soft state, Eventually consistent). Esta abordagem envolve a eventual propagação de atualizações e a não garantia de consistência nas leituras. Empresas que utilizam: IBM, Twitter, Facebook, Google e Yahoo!

Banco de Dados NoSQL Baseado em Coluna (Column Stores): Hbase, Cassandra, Hypertable, Amazon SimpleDB; Baseado emdocumentos (Document Stores): MongoDB, CouchDB; Baseado em Grafos (Graph-Based Stores): Infinite Graph, HyperGraphDB, OpenLink Virtuoso; Baseado em Chave-Valor (Key-Value Stores): Dynamo, Azure Table Storage, TIBCO Active Spaces.

Apache Hadoop É framework para o processamento de grandes quantidades de dados em aglomerados e grades computacionais. É considerado atualmente uma das melhores ferramentas para processamento de alta demanda de dados. Disponibiliza mecanismos como replicação de dados, armazenamento de metadados e informações de processamento Escalabilidade. Descreve suas operações apenas por meio das funções de mapeamento (Map) e de junção (Reduce).

Fornecedores de Tecnologias

Toda manifestação é bem vinda!

Gerência de Arquitetura Corporativa Arquitetura De Dados Fernanda Farinelli fernanda.farinelli@prodemge.gov.br Obrigada