BIG DATA. SIRLON DINIZ DE CARVALHO DR sirlondiniz@gmail.com

Documentos relacionados
Big Data: Uma revolução a favor dos negócios

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

MBA Analytics em Big Data

DATA WAREHOUSE. Introdução

Prof. Daniela Barreiro Claro

O que a Gestão da Informação pode fazer pela sua empresa na era da Informação Extrema

Universidade Federal de Goiás Ciências da Computação Sistemas Operacionais 2

Plataformas de BI Qual é a mais adequada para o meu negócio?

Interatividade aliada a Análise de Negócios

Módulo 4. Construindo uma solução OLAP

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Banco de Dados - Senado

Chapter 3. Análise de Negócios e Visualização de Dados

Banco de Dados I. Introdução. Fabricio Breve

Gerenciamento de Dados e Gestão do Conhecimento

Desenvolvimento Profissional e Pessoal!

Hoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

FATEC Cruzeiro José da Silva. Ferramenta CRM como estratégia de negócios

Seguros em um mundo conectado. As novas gerações e as novas formas de negócio

Curso Data warehouse e Business Intelligence

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Inteligência Empresarial. BI Business Intelligence. Business Intelligence 22/2/2011. Prof. Luiz A. Nascimento

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Pequenas e Médias Empresas no Canadá. Pequenos Negócios Conceito e Principais instituições de Apoio aos Pequenos Negócios

3 0 ENCONTRO DE USUÁRIOS DE BI

Engenharia de software 2011A. Trabalho sobre

4o ENCONTRO DE USUÁRIOS DE BI

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br


Módulo 4: Gerenciamento de Dados

ASSUNTO DO MATERIAL DIDÁTICO: SISTEMAS DE INFORMAÇÃO E AS DECISÕES GERENCIAIS NA ERA DA INTERNET

Formação: o Bacharel em Sistemas de Informações (SI); o MBA em Tecnologia da Informação e Comunicação (TIC).

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Banco de Dados I. Quantidade de informação gerada em um dia. Aula milhões de clientes ativos; Mais de 42 terabytes de dados; Salários na área

MBA Inteligência Competitiva Com ênfase em BI/CPM. Metadados

Prof. Daniela Barreiro Claro

ASSUNTO DA APOSTILA: SISTEMAS DE INFORMAÇÃO E AS DECISÕES GERENCIAIS NA ERA DA INTERNET

Tecnologia da Informação. Prof. Odilon Zappe Jr

Fornecendo Inteligência, para todo o mundo, a mais de 20 anos.

CENTRO UNIVERSITÁRIO ESTÁCIO RADIAL DE SÃO PAULO SÍNTESE DO PROJETO PEDAGÓGICO DE CURSO 1

Disciplina de Banco de Dados Introdução

05/06/2012. Banco de Dados. Gerenciamento de Arquivos. Gerenciamento de Arquivos Sistema Gerenciador de Banco de Dados Modelos de Dados

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

Bancos de dados NOSQL (Not Only SQL)

Computação em Nuvem. Alunos: Allan e Clayton

Prof. Daniel Gondim. Sistemas de Informações

Fundamentos de Sistemas de Informação Sistemas de Informação

Soluções de Output LRS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

COMUNICAÇÃO NA ERA DO BIG DATA

Curso Data warehouse e Business Intelligence Fundamentos, Metodologia e Arquitetura

Pollyanna Gonçalves. Seminário da disciplina Banco de Dados II

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

CIDADE PARTICIPATIVA O GOVERNO FORA DA CAIXA

PARANÁ GOVERNO DO ESTADO

Planejamento Estratégico de TI. Prof.: Fernando Ascani

O Big Data em microfinanças: Como os bancos de dados ajudam na tomada de decisão e uma melhor compreensão do comportamento dos clientes

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

INTERNET HOST CONNECTOR

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

GRADUAÇÃO E PÓS-GRADUAÇÃO APRESENTAÇÃO E GRADE CURRICULAR DOS CURSOS

Prof. Daniela Barreiro Claro

Bases de Dados Relacional/Objeto e NoSQL. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática

Tópicos Avançados Business Intelligence. Banco de Dados Prof. Otacílio José Pereira. Unidade 10 Tópicos Avançados Business Inteligence.

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Departamento de Engenharia. ENG 1090 Introdução à Engenharia de Produção

BIG DATA Armazenamento e Gerenciamento de grandes volumes de dados

APRESENTAÇÃO. Sua melhor opção em desenvolvimento de sites! Mais de 200 clientes em todo o Brasil. Totalmente compatível com Mobile

Solução Integrada para Gestão e Operação Empresarial - ERP

CURSO DE GRADUAÇÃO PRESENCIAL SISTEMAS DE INFORMAÇÃO

BIG DATA INTRODUÇÃO. Humberto Sandmann

Quanto. custa. não. fazer?


Engª de Produção Prof.: Jesiel Brito. Sistemas Integrados de Produção ERP. Enterprise Resources Planning

Preparando sua empresa para o forecasting:

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 3 O QUE É PLANEJAMENTO DE VENDAS E OPERAÇÕES?

Aula 03 Teoria Geral dos Sistemas: Dados x Informação x Conhecimento

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

Observatório da Web: Uma Plataforma para Monitoramento de Eventos em Tempo Real. Gisele L. Pappa Outubro/2013

Planejamento Estratégico de TI. Prof.: Fernando Ascani

TI em Números Como identificar e mostrar o real valor da TI

Thalita Moraes PPGI Novembro 2007

Banco do Brasil S.A. Consulta ao Mercado - RFP - Request for Proposa Aquisição de Ferramenta de Gestão de Limites Dúvida de Fornecedor

Fábrica de Software 29/04/2015

Microsoft Innovation Center

BRAlarmExpert. Software para Gerenciamento de Alarmes. BENEFÍCIOS obtidos com a utilização do BRAlarmExpert:

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)?

SISTEMA DE GESTÃO DE PESSOAS SEBRAE/TO UNIDADE: GESTÃO ESTRATÉGICA PROCESSO: TECNOLOGIA DA INFORMAÇÃO

Número de pessoas com acesso à internet passa de 120 milhões

Distribuidor de Mobilidade GUIA OUTSOURCING

Transcrição:

BIG DATA SIRLON DINIZ DE CARVALHO DR sirlondiniz@gmail.com 1

Sirlon Diniz de Carvalho, MSc. Tem experiência de mercado nas áreas de Sistemas de Informação, Engenharia da Computação, Administração por Processos e Gestão da Qualidade, com ênfase em Mapeamento de Processos, Inteligência nos Negócios (Business Intelligence - BI) e Teleinformática. Atuação como analista de sistemas e consultor independente para diversas empresas, principalmente nos temas: Análise e Desenvolvimento, Sistemas Tutores Inteligentes, Segurança da Informação, Infraestrutura e Redes de Computadores. Certificado Six Sigma - Lean Green Belt e Lean Black Belt - liderou e participou de vários projetos Six Sigma. Com os conhecimentos obtidos em Administração por Processos, já atuou em vários projetos na área de tecnologia, melhoria da qualidade em empresa do ramo educacional, entre outros. Atua na área acadêmica há mais de 14 anos como docente na graduação e pós-graduação, além de ter exercido atividades de gestão de cursos de graduação e pós-graduação. Atualmente é servidor público federal do Instituto Federal de Goiás. 2

BIBLIOGRAFIA Mayer-Schönberger, Viktor; Kenneth, Cukier. Big Data: como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. Rio de Janeiro: Elsevier, 2013. Mahrt, M.; Scharkow, M. (2013) The Value of Big Data in Digital Media Research. Journal of Broadcasting & Electronic Media, 57(1), 20-33. Manyika J, Chui M, Brown B, Bughin J, Dobbs R, Roxburgh C, Byers AH (2011) Big data: the next frontier for innovation, competition, and productivity. McKinsey Global Institute. Disponível em http:// www.mckinsey.com/insights/mgi/research/technology_and_innovation/ big_data_ the_next_frontier_for_innovation. Acesso em 2014-09-01. Inmon, W. H., Como Construir o Data Warehouse, Campus, 1997. Barbieri, Carlos. BI Business Intelligence Modelagem & Tecnologia. Rio de Janeiro: Editora Axel Books, 2001. Serra, L., A Essência do Business Intelligence, Berkeley Brasil, 2002. Kimball, Ross. "The Data Warehouse Toolkit: The Complete Guide to Dimensional Modeling (Second Edition)", Wiley, 2002. 3

Dos Sistemas Transacionais ao Big Data Sistemas Transacionais e sua estrutura de Dados; C o n c e i t o d e B a n c o s d e D a d o s Relacionais; Dos Dados Transacionais ao Data Warehouse (DW); Além dos Dados Transacionais e do DW: e-mails, informações de tráfego de rede, redes sociais etc.; O Big Data e a Business Intelligence; O agora em Big Data: aplicações e estudos de Casos; A imprecisão dos dados (confusão): ênfase no todo e não no detalhe. Big Data: Volume, Variedade, Velocidade e Valor Os V s do Big Data Aceitando a Confusão: estudos de caso; A causalidade: sem saber o porquê, apenas o quê ; Conteúdo da apresentação A Dataficação: quantificação, tabulação e análise; Além dos dados estruturados: o valor dos dados não estruturados; Valor dos dados: análise de custo e benefício; Dados: reutilização, recombinação, expansão e depreciação; A cadeia de valor do Big Data: Informação, Especialista de Dados, Pessoas e Empresas com mente Big Data; Riscos do Big Data: Privacidade e Punições preditivas; Big Data e normas de regulação. Projetos de Big Data Ferramentas de Big Data; Dados não estruturados e o NOSQL; Projeto de Big Data: ganham os pequenos ou os grandes; 4

Tipos de Aplicações: Sistemas Transacionais/Operacionais USlizado para aplicações operacionais Aplicações crí6cas OLTP Execução do negócio Sistemas de controle de estoque Sistemas bancários Sistemas Financeiros Operações de manipulação de dados (insert, update, delete), normalmente on- line e em nível detalhado. Sistemas de controle de vendas de mercadorias etc. 5

Banco de Dados Transacionais Como armazenar dados Textos Sistemas de Gerenciamento de Arquivos Planilhas eletrônicas Sistemas de Gerenciamento de Bancos de Dados o SGBD Relacional o SGBD Orientado a Objetos etc. 6

Modelagem dos dados de aplicações transacionais Para armazenar é necessário modelar ou projetar o BD Normalização Porque normalizar 1ª, 2ª, 3ª e 4ª FN Exemplo de normalização Exercício modelagem 7

Modelagem dos dados de aplicações transacionais 8

Empresa informaszada: novas demandas Novas Demandas de T.I. Relatórios gerenciais: clientes por bairro, estado civil etc. Análise complexa questões impossíveis de se prever Mais demandas para o departamento de T.I. Case supermercado produtos por grupo Mas resumo não contradiz normalização? Ambiente de negócio em mudança constante Dados heterogêneos e inconsistentes 9

Problemas com a modelagem transacional Alto volume de dados e necessidade de resposta rápida Dados são voláteis: clientes mudam, casam, estudam etc. Enfim: Os modelos de dados tradicionais acabam sendo muito complexos e di3ceis de ser entendidos pelo usuário. Além disso, Joins de múl;plas tabelas, frequentemente grandes, são demorados e consomem muitos recursos do sistema. 10

Dúvidas e quessonamentos surgem Conhecemos o negócio? Entendemos o processo, mas somos incapazes de analisar situações mais complexas Valor da Tecnologia versus valor da Informação O que está sendo feito com a memória da organização Relatórios não atendem à Gerência Como resolver esse problema? 11

Com Aplicações de Tomada de Decisão USlizadas para análise do negócio Sistemas de Apoio à Decisão - SAD Exige conhecimento do negócio Vital para desenvolvimento de estratégias Extraem informações necessárias para a tomada de decisão, u6lizando consultas complexas sobre grandes volumes de dados (por exemplo, determinar a taxa de crescimento do faturamento nos úl6mos 5 anos) Podem usar sistemas transacionais como fontes de dados 12

BI Conceito Business Intelligence (BI) Refere- se à coleta, organização, análise, compar;lhamento e monitoramento de informações para suporte à gestão de negócios. Contempla: Data Warehouse (DW) Data Mining (DM) Customer Rela6onship Management(CRM) OLAP 13

Nascimento do Data Warehouse (DW) Data Warehouse é um conjunto de dados: orientados a um assunto integrados não- voláteis variáveis com o tempo usado no apoio a decisões gerenciais William H. Inmon Pai do Data Warehousing 14

Data Warehouse: texto para leitura CaracterísScas de um DW Orientado a assuntos: vendas de produtos a diferentes 6pos de clientes, atendimentos e diagnós6cos de pacientes, rendimento de estudantes. Integrado: diferentes nomenclaturas, formatos e estruturas das fontes de dados precisam ser acomodadas em um único esquema para prover uma visão unificada e consistente da informação. Não volásl: os dados de uma data warehouse não são modificados como em sistemas transacionais (exceto para correções), mas somente carregados e acessados para leituras, com atualizações apenas periódicas. 15

Comparação entre dados transacionais e DW Operacionais Orientados à aplicação Precisão Instantânea Atualizáveis Voláteis Dispersos em aplicações Acesso frequente Acesso a quantidade reduzida Data Warehouse Orientados a assuntos Snapshots Somente para leitura Históricos Integrados no DW Acesso esporádico Acesso a grande volume 80 70 60 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 10 Transacional DW 16

O Data Warehouse Afinal, o que é o DW? Um novo modelo de Dados Uma nova estrutura de armazenamento Infraestrutura diferente Acesso diferenciado Grandes quan6dades de dados 17

E nos departamentos: Data Mart Data Mart Subconjunto dos dados corpora6vos Informações específicas para um grupo de usuários Esquemas não normalizados Data Warehouse Corporativo Data Mart de Marketing Data Mart de Finanças Data Mart de Vendas 18

Data Mart - Aplicação Aplicações de Data Mart Uso departamental Locais remotos (filiais, lojas etc.) Acesso externo (fornecedores, clientes etc.) Estals6ca/Mineração (segmentação de mercado, previsão orçamentária, gerenciamento de campanhas etc.) 19

Problemas com Origens dos Dados Problemas com Sistemas Legados Modelagem inexistente Programadores não pertencem mais à equipe Sistemas proprietários não possibilitam acesso Domínio de tecnologia obsoleta: cobol, adabas etc. Dados dependentes da aplicação: dincil dissociar Equipe transacional não coesa com B.I. 20

Conceito de ETL: Extração Desafio da Extração Ø Ø Somente a extração dos dados leva cerca de 60% das horas de desenvolvimento de um DW (KIMBALL, 1998 apud ABREU, 2007). A maior parte do esforço exigido no desenvolvimento de um DW é consumido neste momento e não é incomum que oitenta por cento de todo esforço seja empregado no processo de ETL, (INMON, 1997 apud ABREU, 2007) Ø A extração é afetada pelo ambiente 21

Dados Externos Dados Externos referem- se a dados essenciais para a tomada de decisão, mas que não fazem parte dos dados originados dos sistemas transacionais. Exemplos de Dados Externos: cotação de moeda estrangeira, situações de catástrofe, cenário de mercado etc. Fonte de Dados Externos: revistas especializadas, jornais, índices governamentais etc. 22

Os Metadados: Conceito Essencialmente Metadados refere- se a um dicionário de dados, ou seja, dados que mantém informações sobre outros dados Para cada atributo no DW, há uma entrada no dicionário Dados são consultados e atualizados com base nos metadados Permite conhecer e entender a estrutura dos dados Em BD transacional a semân6ca está na aplicação 23

OLAP: Online analyscal processing Tipos de Ferramentas MOLAP: Mul6dimensional OLAP ROLAP: Rela6onal OLAP HOLAP: Hybrid OLAP DOLAP: Desktop OLAP 24

Ferramentas OLAP Dados Operaciona is Warehouse Data Mart Ferramentas OLAP Dados Externos Cuidados com soluções integradas DW e OLAP 25

Ferramentas Mineração de Dados Matemática Estatística Heurística Inteligência Artificial Diferenças entre - OLAP - Data Mining Machine Learning Business Application Data Mining 26

Nova Fonte de Recursos para a empresa Questões é6cas A Informação como a6vo da empresa: novo conceito Possibilidade de vendas de informação E as novas fontes de informação? Para onde vamos? Big Data? 27

O Big Data Agora Definição Existem várias, mas segundo Mayer- Schönberger, Big data se refere a trabalhos em grande escala que não podem ser feitos em escala menor, para extrair novas ideias e criar novas formas de valor de maneiras que alterem os mercados, as organizações, a relação entre os cidadãos e governos etc. Origem do nome Big Data Ciências como astronomia e genômica 28

O Big Data Agora Caso H1N1 CDCs (Centro de Controle de Prevenção de Doenças): ü Dependia de resultado de exames e informações do médicos ü Cenário defasado em 01 ou 02 semanas Google: ü usou dados de 50 milhões de termos de busca comuns (histórico de 2003 a 2008) ü 450 milhões de modelos matemá6cos ü Combinação de 45 termos, num modelo matermá6co ü Encontrou correlação entre previsão e números oficiais ü Em tempo real ü Sem teste de saliva, sem atraso 29

O Big Data Agora Caso Forecast (Oren Etzioni) Passagens antecipadas com preço maior? Como saber se comprar antecipadamente é melhor? Coletou 12000 preços em 41 dias Criou uma startup Passou para 200 bilhões de registros Vendeu para Microsow por US$ 110 milhões Qual a matéria- prima do negócio? Revolução nos dados, não nas máquinas! 30

O Big Data Agora Caso Sloan Digital Sky Survey Início no ano 2000 (Novo México) Em 2 semanas o telescópio coletou mais dados que em toda a história da astronomia Em 2010 eram 140 terabytes Uma sucessora, a Large Synop6c Survey Telescope (Chile), prevista para 2016: coletará isso em 5 dias 31

O Big Data Agora Projeto Genoma Humano Criado em 1990 nos EUA, com previsão para 15 anos 2003: cien6stas precisaram de uma década para sequenciar 3 bilhões de pares- base Hoje: faz- se em um único dia 32

O Big Data Agora Empresas de Internet Google: processa 24 petabyte/dia Facebook ü Recebe mais de 10 milhões de fotos/hora ü Cur6r e comentar: 3 bilhões/dia ü Trilha digital é construída Youtube ü 800 milhões de usuários ü > 1 hora de vídeo criada por segundo Twi}er (2012): 400 milhões/dia 33

O Big Data Agora Quanto há de informação? Existem vários estudos Mar6n Hilbert, da Annenberg School for Communica6on and Journalism, CA, EUA, apresentou um ü Considerando Livros, imagens, e- mails, fotografias, música, vídeo (analógico e digital), videogames, ligações telefônicas, cartas e sistemas de navegação para carros, além de televisão e rádio ü Resultado: em 2007 es6mou- se 300 hexabytes (um bilhão de GB) O suficiente para ü Se impresso, cobrir os EUA com 52 camadas ü Em CD- ROMs empilhados: 5 pilhas até a lua 34

O Big Data Agora Big Data Inteligência Ar6ficial? Aprendizado de máquina? Ensinar um computador a pensar? Na verdade está mais para aplicação de matemá;ca a enormes quan;dades de dados visando prever probabilidades! 35

A imprecisão dos Dados Usar todos os dados (N1=1Tudo) Amplia a visão, o que não era possível antes Fontes diversificadas Dados normalizados e não normalizados SQL já não é suficiente Não se pode abrir mão das conquistas Há ferramentas que resolvem o problema? Como fica o especialista? O conhecimento do negócio é relevante? E os sistemas legados? 36

Os 'Vs' do Big Data 3 ou 5 Vs Volume: grande, crescimento exponencial e às vezes subu6lizados Velocidade: tratamento dos dados (obtenção, gravação, atualização etc.) deve ser rápido - muitas vezes em tempo real Variedade: diversidade de informações (Estruturados - Bancos de Dados, DWs, Não Estruturados - documentos, imagens, áudios, vídeos etc.) 37

Os 'Vs' do Big Data 3 ou 5 Vs Veracidade: dados confiáveis, garan6r o máximo possível a consistência dos dados? Valor: os resultados devem trazer benencios significa6vos e que compensem o inves6mento? 38

A confusão (inexasdão) dos Dados N1=1Tudo è Usar todos os dados disponíveis Há custos Aumento da quan6dade leva à inexa6dão Soluções com menor volume permi6a tratar outliers Buscou- se tratá- los como problemas Em big data é necessário aprender a conviver com inexa6dão Pra6camente impossível tratá- los como em amostragens Historicamente o homem evoluiu ao medir (precisão) Em big data imprecisão (confusão) é visto de forma posi6va Como entender melhor tudo isso? 39

A confusão (inexasdão) dos Dados Case vinhedo Medir a temperatura com um único sensor o Tem que ser preciso o Não permite confusão Medir a temperatura com um sensor a cada 100 parreiras o Pode- se usar sensores mais baratos (não tendenciosos) o Alguns podem apresentar confusão o Mas a soma é mais abrangente o Mudar de uma medida por minuto para 10 ou 100/segundo o Volume versus perda 40

A confusão (inexasdão) dos Dados Então em big data Dados não totalmente incorretos 2 + 2 = 3,9 pode? Pretere- se um pouco da precisão em favor de uma tendência Big data é mais probabilís6co que exato Case algoritmos de xadrez o Poucas modificações o Regras conhecidas o Como melhoraram o Jogadas finais: 6 peças mapeados o N1=todo para: mais de 1 TB 41

A confusão (inexasdão) dos Dados Case linguagem natural Análise grama6cal MS Word (2000): Michele Banko e Eric Brill buscavam melhorar o resultado Melhorar os algoritmos ou aumentar dados? 1 milhão de palavras é comum (corpus texto) 10 milhões, 100 milhões, 1 bilhão? O mais simples com 500 mil saiu de 75% para 95% acerto Google em 2006 usava 1 trilhão Em 2012: 60 idiomas, 14 por voz Algoritmo pouco inteligente: modelos simples Modelos simples com muitos dados são melhores que modelos mais elaborados com menos dados, disse Peter Norvig 42

A confusão (inexasdão) dos Dados Mais sobre confusão Existe porque a tecnologia não é perfeita Dep. Americano de Estals6cas Trabalhistas faz índice de preço ao consumidor (Federal Reserve usa para cálculo inflação) o Custo: US$ 250 milhões/ano o Dados organizados, mas defasados em função do tempo o Crise 2008 não foi prevista com tanta precisão Alberto Cavallo e Roberto Rigobon(MIT): alterna6va confusa o 500 mil preços da Internet + big data: previu deflação 2 meses antes que o governo (2008) o MIT originou a PriceStats: bancos e outros usam o The Economist usa: não confia completamente nos cálculos de alguns países (Argen6na, p.e.) The image cannot be displayed. Your computer may not have enough memory to open the image, or the image may have been corrupted. Restart your computer, and then open the file again. If the red x still appears, you may have to delete the image and then insert it again. 43

Aceitando a causalidade Mais sobre confusão Flickr: 6 bilhões de imagens e 75 milhões de usuários (2011) o usou big data para rotular imagens Maior escala: exato perde importância o Ícone do Twi}er ou Cur6r do Face o Gmail condensa minutos, horas, dias etc. o Flexibilidade para BDs tradicionais (campos diferentes) SQL não é suficiente: surge NOSQL Google criou MapReduce: modelo de programação (framework) Hadoop: rival Open Source Projeto Apache em Java (Distribuído) o Visa usou para segmentar 70 milhões transações o Reduziu de um mês para 13 minutos 44

A causalidade Sem saber o porquê apenas o quê Ser humano sente a necessidade de entender a causa Crí6cas a modelos caixas pretas Importância para modelos simbólicos e estals6cos Questões filosóficas sobre causalidade (é tudo causal?) Daniel Kahneman professor de psicologia de Princeton e ganhador do Nobel de Economia de 2002 Ser humano: 2 6pos de raciocínio (rápido ou reflexivo) Rápido para sobrevivência no passado Implica em ver causalidades inexistentes É cultural mas o paradigma é um problema em big data Correlação é fácil, causalidade é dincil 45

Dataficação QuanSficação, Tabulação e Análise Case Ma}hew Fontaine Maury o Oficial da Marinha americana (1839) o Big data à moda an6ga: carta náu6ca Case Shigeomi Koshimizu o Ins6tuto Avançado de Tecnologia (Japão) o Forma que a pessoa se senta é quan6ficada e tabulada o Resultado: código digital único com até 98% de acerto o Pode- se aplicar em segurança, cansaço etc. 46

Dataficação QuanSficação, Tabulação e Análise Dado: origem do grego e pode significar fato Dataficar: coleta de dados e disposição em formato quan6ficado de modo que possa ser tabulado e analisado Números Romanos versus arábicos Itália no século XIV: balanço e origem da contabilidade Dataficação de imagem de texto do Google Geoprocessamento: dataficação de um lugar (la6tude/longitude) GPS teve origem em 1978 e aberto para uso não militar em 1980 Dataficação dos smartphones: o Publicidade direcionada o Biometria Gráfico social 47

Além dos dados estruturados O valor dos dados não estruturados Digitalização versus dataficação Luis Von Ahn (2000) criou Captcha: problemas com spambots Yahoo implementou Captcha (Teste Completamente Automa6zado para Separar Computadores e Humanos) E o ReCaptcha, o que tem de diferente? Movimento e cliques de mouse Conteúdo do Twi}er: entender sen6mentos e manifestações Conteúdo do face: entender preferências de imagens, sons, vídeos etc. Quando as palavras se tornam dados: literatura e estals6ca Custo de armazenagem jus6fica manutenção dos dados 48

Além dos dados estruturados NOSQL Criado por Carlo Strozzi em 1998: BD relacional código aberto mas sem SQL Dis6nto do modelo relacional: o termo norel ficaria melhor Ressurgiu em 2009: Rackspace evento sobre BD Open Source e Distribuídos Termo se refere a diferentes sistemas de BDs não estruturados Buscam performance superior e de alta escalabilidade Facilidade para distribuição horizontal: mais dados mais servidores Todas informações agrupadas no mesmo registro Mais tolerantes a erros Ideal para BDs Transacionais? 49

Valor dos Dados Análise Custo e Benetcio Logís6ca abastecimento carro elétrico: problema para empresa e motoristas IBM e big data: previsão local abastecimento e construção postos Mas os carros já não possuem computador de bordo? Apenas parte dos dados coletados são usados Empresas inovadoras procuram valor oculto nos dados Na era big data custo e benencio pode estar na reu6lização básica, fusão de Bancos de Dados ou novas descobertas Muitos dados se perdem ou são subu6lizados O valor está no que é possível extrair Valor dos dados é a soma das possibilidades 50

Extraindo o máximo dos Dados ReuSlização e recombinação Reu6lização: dados de uso primário u6lizados para outros fins o Dados das buscas: corretor ortográfico o Amazon extraiu preferência de usuários da AOL o Reconhecimento de voz: Google versus Nuance o SWIFT: prever PIB a par6r de transferências internacionais o Operadora de Celular: dados de localização anônimos Recombinação: combinar fontes de dados diferentes Uso de Celular e Câncer (Dinamarca): 3,8 milhões de dados Zillow (Ramo imobiliário): informações de imóveis + preços + mapas para prever valores 51

Extraindo o máximo dos Dados Expansão e depreciação Expansão: dados adequados a vários usos o Câmeras: segurança e fluxo de clientes o Street View: fotos, dados de GPS (autopiloto), nomes de redes WiFi (especula- se que até dados) dois pelo preço de um Depreciação: perda de u6lidade com o tempo o Desafio de separar dados úteis ou manter todos o NSA mantem dados do maior número possível Uso exaus6vo dos dados Case corretor: Yahoo pensou, Google agiu (veio de graça) Treinamento de voz: aprendizado recursivo Gostamos de aprender com bancos de dados enormes e barulhentos funcionário Google 52

Cadeia de Valor do Big Data Informação Dados da empresa auxiliam na definição do seu valor contábil Bancos e a Terceirização de cartões: qual o custo? Mastercard analisa 65 bilhões de transações de 1,5 bilhão de clientes em 210 países e até vende informações É Capaz de descobrir: encher tanque 16h, gastar de US$ 35,00 a US$ 50,00 na próxima hora (em mercearia ou restaurante) Sensores sem fio em ônibus público para prever quebras o Diminuiu o custo em até 10% o Possibilitou a subs6tuição de uma peça com 450 mil Km (antes era com 320 ou 400 mil): economia de mais de US$ 1 mil/veículo Origem da informação é irrelevante: mídia e dados 53

Cadeia de Valor do Big Data Especialista de Dados Ganha bem, trabalha duro e entrega o diamante para o dono Ideias e habilidades são acessórios: o valor recai sobre os dados Valor migrou: conhecimento è ideia è dados Morte do especialista? Pioneiros tem origem externa ao seu domínio: especialista em análise de dados, IA, matemá6ca, estals6ca etc. Piada Microsow: a qualidade das traduções aumenta sempre que um linguista deixa a equipe Grupo Google é capaz de traduzir para idiomas que não dominam 54

Cadeia de Valor do Big Data Pessoas e Empresas com mente Big Data Novo perfil: menos especialista, mais generalista Setor de videogames fatura mais/ano que Hollywood/mundo Usam big data para entender o jogador (vendas de itens) Intermediários que agrupam e vendem dados Big data pouco ú6l para empresas de porte médio: vantagens de escala para grandes e custo e inovação para pequenas Big data obriga médias a se tornarem grandes ou pequenas Veem oportunidades antes dos outros: mesmo sem dados Cria6vo e observador: não se limita ao que é exequível, mas ao que é possível Em expansão e com muitas oportunidades 55

Riscos do Big Data Privacidade e Punições PrediSvas Dados podem se tornar instrumento de opressão Como saber de obje6vos que sequer existem Case Street View: casa ofuscada Consen6mento individual, opção de exclusão e anonimização perderam eficiência Aplica6vos de smartphones: solicitam autorização à localização NSA em Fort Williams: inves6mento de US$ 1,2 bilhões Coleta dados o tempo todo, do maior número possível São capazes de inves6gar assim que iden6ficam o suspeito Comportamento de compra pode iden6ficar uma pessoa 56

Riscos do Big Data Privacidade e Punições PrediSvas Cases de Anonimato quebrado o Buscas AOL e pesquisa do New York Time o Prêmio Ne lix disponibilizou 100 milhões de registros de 500 mil usuários e US$ 1 milhão a quem melhorasse recomendações: resultado, iden6ficaram clientes o Ne lix e Pesquisadores da Universidade do Texas: classificação 6 filmes obscuros (de 500 mais vistos) - possível iden6ficar cliente com 84% precisão (de posse da data da classificação, sobe para 99%) Memphis, no Tennessee: big data aplicado na diminuição de crimes, prevendo ações (Blue CRUSH) Pode- se punir predi6vamente? 57

Big Data: Normas e Regulação Regulação Área nova, ainda não há regulação específica Como inves6gar? Quem é capaz? Algoritmistas, a nova profissão? o Algoritmistas externos e internos Governos também devem ser regulados? Big data altera autocontrole da sociedade? Para onde vamos? 58

Ferramentas Big Data Ferramentas de Big Data Há ferramenta ou solução específica para Big Data? Big Data: estruturas de indexação de dados e de visualização Estrutura de indexação de dados o Agrupa dados estruturados e não estruturados o É somente a composição dos dados (isso lembra algo?) Componente de visualização de dados: um ou vários o IBM Cognos, QlikView, SAP Business Objects, Datameer, splunk, Oragle Business Intelligence entre outros (lembra algo também?) 59

Ferramentas Big Data Ferramentas de Big Data Simplificando o NOSQL (Not Only SQL) Estruturados Não Estruturados 60

Ferramentas Big Data NOSQL versus BD Relacional NOSQL é não relacional (não estruturado) NOSQL possui sua linguagem de consulta Relembrando conceito dos BDs relacionais O que se ganha com o NOSQL É aplicável a todos os casos? Transacional tem propriedades ACID (Atomicity, Consistency, Isola6on, Durability) Relacional: indispensável onde há necessidade de precisão e consistência de referências Solução: u6lizar NOSQL conjuntamente com um relacional 61

Ferramentas Big Data Consultas SQL em uma tabela SELECT Lista_atributos FROM Tabela WHERE Condição Exemplos de consultas com funções de agregação SELECT COUNT(*) FROM CLIENTE SELECT COUNT(*) FROM CLIENTE WHERE sexo= feminino SELECT nome FROM CLIENTE WHERE codigo not in (SELECT codigo FROM FONE) SELECT nome, salario FROM CLIENTE WHERE salario > (SELECT avg(salario) FROM CLIENTE WHERE SEXO= MASCULINO ) 62

Ferramentas Big Data Tipos de armazenamento NOSQL Key/Value Store é o mais comum (uma chave, um valor), suporta mais carga, muita escalabilidade o Ferramentas: Berkeley DB, Tokyo Cabinet, Kyoto Cabinet, Project Voldermort, MemcacheDB, SimpleBD, Redis, Riak, entre outros Wide Columns Store tem inspiração no BigTable (Google), suporta várias linhas, colunas e até subcolunas o Ferramentas: Hbase (Apache), Cassandra entre outros Document Store baseados em documentos XML e JSON o Ferramentas: MongoDB, CouchDB (Apache) entre outros 63

Ferramentas Big Data Tipos de armazenamento NOSQL Graph Store é mais complexo pois guarda objetos o Ferramentas: Neo4J, InfoGrid e HyperGraphDB Column Oriented Store são bancos de dados relacionais com caracterís6cas NOSQL. Dados armazenados em colunas o Ferramentas: MonetDB, LucidDB, Infobright e Ingres/Vectorwise Cases: SimpleDB é u6lizado pela Amazon Hbase é ligado ao Hadoop MongoDB é u6lizado por: Disney, MTV Networks entre outros 64

Ferramentas Big Data Exemplos de NOSQL no MongoDB MongoDB: orientado a documentos, escalável, livre de esquema, de alto desempenho e código aberto escrito em C++ Dados dispostos em coleções - estrutura JSON (JavaScript Object Nota6on). Exemplo: pessoa{ name: Marcos Paulo, nick: Marquinhos, age: 30, phone: {mobile: 99998888, residencial:444433333}} Registros flexíveis: quando for necessário, altere Ideal para leituras de grandes volumes não estruturados Exemplos de consultas: 65

Projeto de Big Data Por onde começar Planejamento estratégico da empresa Definição do escopo do projeto e demais artefatos No desenvolvimento: o Base de dados interna transacionais o Base de dados informacionais o Flat files imprescindíveis para o negócio o Dados externos acessíveis o Dados que precisam ser adquiridos o Dados de máquina relevantes para o negócio o Ferramentas de indexação de dados o Ferramentas de visualização de dados 66

BIG DATA SIRLON DINIZ DE CARVALHO DR sirlondiniz@gmail.com 67