Conceito de Big Data
O que são Dados? A palavra Dados é o plural de Datum em Latin que significava Dar", ou seja "algo dado". Dados como um conceito abstrato pode ser explicado como o mais baixo nível de abstração a partir do qual as informações e, em seguida, o conhecimento são derivados. Informações em forma bruta ou desorganizada (como letras, números ou símbolos) que se referem ou representam, condições, idéias ou objetos. Os Dados são ilimitados e presentes em todo o universo. Computadores: símbolos ou sinais que são inseridos, armazenados, e processados por um computador, para gerar uma saída de informações utilizáveis. Energy Telecom - November 10th 2014 pág. 3
Tipos de dados Dados Relacionais (Tabelas / Transação / Legacy Data) Texto de Dados (Web) Semi-estruturados de dados (XML) Gráfico de Dados de Redes Sociais, semanticweb (RDF) Data Streaming - Você só pode digitalizar os dados uma vez
Definição de Big Data Big data é um enorme volume de dados estruturados e não estruturados. O volume é tão grande que é impossível processar com técnicas de banco de dados e software tradicionais. Big data é o termo utilizado para uma coleção de conjuntos de dados tão grande e complexo que se torna impossível processar usando ferramentas de gerenciamento de banco de dados ou aplicações de processamento de dados tradicionais. Big data são dados cuja escala, diversidade e complexidade exigem novas arquiteturas, técnicas, algoritmos e análises para gerenciá-los e extrair valor e conhecimento oculto deles.
Onde está o Big Data? Walmart lida com mais de 1 milhão de transações de clientes a cada hora. Facebook processa 40 bilhões de fotos a partir de sua base de usuários. Decodificação do genoma humano originalmente levou 10 anos para processar; Agora isto pode ser conseguido em uma semana. Google processava 20 PB por dia em 2008 Facebook tem 2,5 PB de dados de usuários + 15TB / dia em 2009 ebay tem 6,5 PB de dados do usuário + 50 TB / dia
Características do Big Data Big Data se estende por três dimensões básicas: VOLUME Petabytes por dia/semana VARIEDADE Dados não estruturados, web logs, áudio vídeo, imagens VELOCIDADE Captura em tempo real
Volume VOLUME DE DADOS Aumento de 44x entre 2009 e 2020 O volume de dados está crescendo exponencialmente De 0,8 zettabytes para 35zb
Variedade Vários formatos, tipos e estruturas Texto, imagens, áudio, vídeo, sequências, séries temporais, dados de mídia social, matrizes multi-dimensão, numéricos, entre outros. Dados estáticos versus fluxo de dados Uma única aplicação pode estar gerando / coletando muitos tipos de dados
Velocidade Dados é começar gerado rápido e precisam ser processadas rapidamente Análise de dados online Decisões tardias perdem oportunidades EXEMPLOS E-Promoções: Com base na sua localização atual, o seu histórico de compras, o que você gosta, enviar promoções agora para uma loja perto de você. Monitoramento em Saúde: sensores de monitoramento de suas atividades corporais. As medições anormais exigem reação imediata.
Evolução do conceito de Big Data Fonte: Teradata, inc.
+ 1 V VOLUME VELOCIDADE VARIEDADE VERACIDADE Dados em repouso Terabytes a Exabytes de dados existentes para processamento. Dados em movimento Streaming Milisecundos para secundos de resposta Dados em várias formas Estruturado, não estruturado, texto, multimídia Dados duvidosos Dados incertos devido a inconsistências, ambiguidade, latência, etc.
Quem está Gerando Big Data? Redes de Mídias Sociais (Todos nós geramos dados) Instrumentos Científicos (coletando todos os tipos de dados) Dispositivos Móveis (Rastrando todos os objetos o tempo todo) Redes de sensors de tecnologia (Medindo todos os tipos de dados)
Dados Mudam Constantemente Instrumentalização Consumerização Experimentação Tudo que pode ser medido será medido. Funcionários e clientes esperam mais interações pessoais, mas não ao custo de sua privacidade. AS companhias mais inovadoras adotam a experimentação e agilidade.
Implantação de Big Data Tecnologias de DBMS Paralelas Proposto no final dos anos oitenta Amadurecido ao longo das últimas duas décadas Indústria Multi-bilionária: Motores DBMS proprietários como solução de Data Warehousing para grandes empresas Map Reduce Google foi o pioneiro Yahoo! popularizou (Hadoop)
Comparação MapReduce Tecnologias de DBMS Paralelas Modelo de programação de dados paralelo Uma associação entre paralelo e distribuído Implantação para clusters de Mercado (commodity) Popularizado pelo Hadoop (Open Source) Usado peloyahoo!, Facebook, Amazon, e a lista cresce Popularmente usado nas últimas duas décadas Projetos de Pesquisa: Gamma, Grace, Comercial: Indústria Multi-billionária mas acessível a poucos privilegiados Modelo de dados relacional Indexação Interface SQL familiar Otimização de consulta avançada
Vantagens do Map Reduce Paralelização automática: Dependendo do tamanho da RAW de dados de entrada instancia múltiplas tarefas MAP Da mesma forma, dependendo do número de intermediário <chave, valor> de partições instancia múltiplas tarefas REDUCE Em tempo de execução: Particionamento de dados Agendamento de tarefas Manuseio de erros de máquina Gestão da comunicação inter-máquina Completamente transparente para o programador, usuário final e analista
O que o Hadoop armazena?
Por que Hadoop? Big Data analytics e o projeto Apache Hadoop Open Source estão emergindo rapidamente como a solução preferida para resolver problemas de negócios e tecnologia relacionados a tendências atuais que perturbam o modelo tradicional de gerenciamento e processamento de dados. Significando dizer que a atual demanda por informações com alto valor estratégico e a velocidade com a qual estes dados precisam ser disponibilizados, não podem ser entregues por tecnologias tradicionais.
Adoção do Hadoop pela indústria
O que é Hadoop? É um Sistema distribuído, tolerante a falhas e altamente escalável para processamento e armazenamento de dados O Hadoop possui dois principais componentes: Hadoop Distributed File System (HDFS). Auto recuperável, grande capacidade de armazenamento de dados em clusters. Resiliente, redundante, otimizado para tratamento de grandes arquivos. Map Reduce. Processamento distribuído e tolerante a falhas. Módulo programável para processamento de conjuntos de dados. Mapeia entradas para saídas e reduz a saída de multiplos Mappers para 1 (uma ou algumas respostas). Opera com dados estruturados ou não estruturados Possui um extenso eco sistema de aplicações.
Desafios para o Big Data A integração do Big Data é multidisciplinar Menos de 10% do mundo Big Data é genuinamente relacional Significa que a integração de dados no real, desarrumado e complexo mundo de Big Data, banco de dados e web semantica usam métodos multi-disciplinares e multitecnologias. Extratificação de dados abertos Mapeamento, Classificação, Visualização, Correspondencia de chaves Demonstrar o valor da semantica: deixe a integração de dados direcionar a correta tecnologia de DBMS Grandes volumes de dados heterogêneos, como em links de dados
Desafios para o Big Data A automatização de pesquisas altera a definição do conhecimento Objetividade e precisão das informações Grande volume de dados não garante dados melhores Nem todos os dados são equivalents Só porque o dado é acessível não significa que seja ético O acesso limitado ao Big Data cria novas divisas digitais
Quem está coletando o Big Data Web Browsers Search Engines
Quem está coletando o Big Data Tablets, Celulares & Apps iphones (Apple O/S) Apple ipads Samsung, HTC. Nokia, Motorola (Android O/S) Samsung Galaxy Blackberry (BlackBerry O/S) Amazon Kindle Fire
Qual a finalidade dos dados coletados? Companhias de cartões de crédito vão aprimorar seus produtos e ofertas baseados no comportamento de consumo das pessoas. Companhias de Cartões de Crédito What data are they getting? Notas de Restaturantes Contas em Supermercados Contas em hotéis Passagens aéreas
Por que coletar estes dados? Mercado Alvo Enviar catálogos exatamente com a mercadoria que você normalmente compra. Sugerir medicamentos que correspondem precisamente seu histórico médico. Oferecer os canais de televisão específicos no seu pacote, em vez de esperar que você solicite. Enviar anúncios personalizados de acordo com o seu perfil nesses canais. Informação Específica Saber o que você precise antes de você baseado em seus hábitos de consumo. Notificar você que sua habilitação está prestes a expirer ou sobre recargas em cartões ou celulares.
Conclusão Big Data e Big Data Analytics não são apenas para grandes empresas Big Data não se trata de apenas construer bancos de dados gigantes Mover o processamento para a fonte dos dados traz muitos ganhos Escolha o cenário de Big Data mais apropriado Um cenário completo de dados com conjuntos de dados inteiros podem ser devidamente tratados e fatorados em processamento analítico, com tecnologias de processamento de banco de dados inmemory ou tecnologia de grid. Para situações em que o uso conjunto de dados não é tecnicamente viável ou acrescenta pouco valor, um cenário de dados segmentados pode usar analytics e ferramentas de gerenciamento para determiner o dado correto a ser alimentado em modelos analíticos.
Conclusão Big data não é apenas sobre ajudar uma organização a ser mais bem sucedida Mas para o mercado tornar suas operações de negócios mais eficazes. Analytics de alta performance foi concebido para apoiar iniciativas de Big Data com bancos de dados in-memory, e opções de computação em grid. As organizações podem se beneficiar da computação em nuvem, onde a análise de grandes volumes de dados são entregues como um serviço e recursos de TI podem ser ajustados rapidamente para atender às demandas de negócios. O modelo On Demand prove aos clientes a opção de impulsionar as analyses de big data para eliminar ou reduzir o tempo, o capital investido e custos com manutenção associados a infraestruturas on-premises.
Soluções em Big Data Enterprise Data Hub
Enterprise Data Hub - Cloudera Construindo uma Estratégia de Dados Com Hadoop e o Enterprise Data Hub Energy Telecom - November 10th 2014 pág. 3
Estratégia de Dados Dados podem ser um ativo estratégico poderoso apenas se... dados a alcançar sua visão de negócios.
Dados Mudam Constantemente Instrumentação Consumerização Experimentação Tudo que pode ser medido poderá ser mensurado. Funcionários e clientes esperam mais interações pessoais, mas não ao custo de sua privacidade. As empresas mais inovadoras adotam a experimentação e agilidade.
Arquiteturas tradicionais estão sob pressão Visão Limitada Usuários avançados lutam com os dados. Muitos usuário não possuem os dados que precisam. Acesso Dados Business Analytics Operational Applications Custom Applications Conformidade e privacidade Databases Mais dados, mais usuários e mais ferramentas geram complexidade. Necessidade de equilibrar a agilidade dos negócios com segurança e governança. Sistemas Dados Limitados Não é eficiente para manter os dados existentes, muito menos lidar com novas fontes de dados. Longo tempo para transformar dados em analises nos sistemas existentes. Origem Dados Existing Data New Data
Cloudera Enterprise powered by Apache Hadoop Processar Descobrir Modelar Entregar Flexibilidade de implantação Segurança e Administração Armazenamento ilimitado On-Premises Equipamentos Software Núvem pública Núvem Privada Núvem Híbrida Um novo tipo de plataforma de dados. Um lugar para dados ilimitados Unificado, multi-framework para acesso a dados Somente com Cloudera: Desempenho líder Sistemas empresariais e gerenciamento de dados Fundamentalmente seguro Código aberto, padrão aberto
Mais Valor de Mais Dados Para Mais Usuários, em menor tempo. Unlock Value from Data From analytics for some, to insights for all. Acesso Dados Business Analytics Operational Applications Custom Applications Gestão de Conformidade Do risco devido aos regulamentos e preocupações com a privacidade do cliente, até confiar em uma plataforma segura e compatível. Sistemas Databases Enterprise Data Hub Process Discover Model Serve Security and Administration Unlimited Storage Guarde dados ilimitados A partir de pontos de vista diferentes e limitados, para acessar informações ilimitadas. Origem Dados Existing Data New Data
Uma Plataforma, Muitos Workloads Process Ingest Sqoop, Flume Transform MapReduce, Hive, Pig, Spark Discover Analytic Database Impala Search Solr Security and Administration Model Machine Learning SAS, R, Spark, Mahout YARN, Cloudera Manager, Cloudera Navigator Unlimited Storage HDFS, HBase Serve NoSQL Database HBase Streaming Spark Streaming Batch, Interativo, e Tempo-Real. Liderando desempenho e usabilidade em uma plataforma. Análise de cargas de trabalho end-to-end Acesse mais dados Trabalhe os dados de novas formas Capacite mais usuários
Administração fácil do Hadoop Cloudera Manager Foco na solução, não no cluster, com a única ferramenta de administração do Hadoop completa e com zero-downtime. Características únicas: Configuração unificada, gerenciamento e monitoramento para todos os serviços Instalação e upgrades on-line Conexão direta com o Suporte da Cloudera Extensibilidade a terceiros
Hadoop da Núvem Cloudera Director A primeira solução portátil e selfservice para intalação e gerenciamento do Hadoop na núvem. Características únicas: Gerenciamento dinâmico do ciclo de vida do cluster Cloud blueprints Visibilidade de saúde multi-cluster Relatórios de utilização para modelos de cobrança
Big Data Com Governança de Dados Cloudera Navigator Minimize riscos e mantenha a conformidade com a única solução de governança de dados end-to-end nativa para Apache Hadoop. Características únicas: Auditoria Lineage (trilha de auditoria) Metadata Tagging and Descoberta Gestão do ciclo de vida
Equilíbrio entre Segurança e Privacidade com agilidade nos negócios 1. Perimeter Standards-based Authentication Process Discover Model Serve 2. Access Unified Role-based Authorization Security and Administration 3. Visibility Auditing & Governance Unlimited Storage 4. Data Encryption & Key Management Cloudera é o líder em segurança para Hadoop. Características únicas: Unificado e compreensível Segurança no core Sem impacto de performance Projetada em conjunto com a Intel Conformidade Única distribuição auditada e aprovada pelo CPI
Código Aberto e Padrão Aberto Vendor Support Component (Founder) Cloudera Pivotal MapR Amazon IBM Hortonworks Impala (Cloudera) Spark (UC Berkeley) Hue (Cloudera) Sentry (Cloudera) Flume (Cloudera) Parquet (Cloudera/Twitter) Sqoop (Cloudera) Padrões abertos são tão importantes quanto código aberto. Por que isso é importante? Valor sustentável Portabilidade entre fornecedores Compatibilidade do Eco sistema Falcon (Hortonworks) Knox (Hortonworks) Tez (Hortonworks) Ranger (Hortonworks) ORCfile (Hortonworks) Todo projeto em CDH é um Padrão Aberto.
O Mais Completo Eco Sistema Applications Operational Tools Mais de 1.200 parceiros Assegurar a compatibilidade com os investimentos existentes, baixas barreiras de competências, e ajuda a maximizar o valor de seus dados. Data Systems Enterprise Data Hub Process Discover Model Serve Security and Administration Unlimited Storage System Integration Infrastructure
A Jornada para a estratégia de dados Eficiência Operational Novos Valores de Negócios Otimize sua arquitetura. IT Descubra valor nos dados. Analistas e cientistas de dados Capacite usuários. Todos Process Discover Model Serve Security and Administration Unlimited Storage
Casos de Sucesso Otimize Descubra Capacite RelayHealth agiliza os pagamentos aos prestadores de serviços de saúde com o processamento de dados mais rápido, melhorando seu fluxo de caixa e atendendo a conformidade HIPAA. Premier analisa 41.000 milhões dólares em gastos com saúde, mais os dados relacionados, recomendações que ajudam provedores a obter melhores produtos a custos mais baixos de produção. Opower proporciona uma visão de 360 graus para os padrões de uso de energia e comparações domésticas semelhantes para ajudar os consumidores a economizar energia.
Por que Cloudera? Enterprise-Grade Hadoop Desempenho diferenciado, segurança, gestão e governança. Expertise Ninguém conhece melhor o Hadoop do que a Cloudera. Enablement Suporte, serviços de treinamento, e profissionais habilitados a entregar sucesso. Ecosystem Cloudera garante que o Hadoop funcione com as plataformas, ferramentas e integradores de sua confiança. Sustainable Innovation Nosso modelo de open source híbrido oferece os benefícios de open source e que uma empresa exige, ao mesmo tempo que nos permite investir no futuro para os nossos clientes.
Ultrapassar Barreiras de Big Data com Cloudera Ganhe habilidades Construa um business case Integre com o Eco Sistema YP convocou a Universidade Cloudera para conduzir a capacitação do usuário em toda a empresa e maximizar o valor do seu investimento no Hadoop. Ohospital Infantil de Atlanta implementou Hadoop com menos de US $ 1.000, e aprendeu a melhorar a gestão da dor em bebês prematuros e reduziu atendimentos de emergência relacionadas à asma. A área de marketing da Experian oferece em tempo real, visão de 360 graus do cliente com um ambiente de Big Data integrado que processa dados 50 vezes mais rápido do que antes.
Qual é a sua estratégia de dados?
Obrigado!
Soluções em Big Data Enterprise Data Hub
Enterprise Data Hub - Cloudera Construindo uma Estratégia de Dados Com Hadoop e o Enterprise Data Hub Energy Telecom - November 10th 2014 pág. 3
Estratégia de Dados Dados podem ser um ativo estratégico poderoso apenas se... dados a alcançar sua visão de negócios.
Dados Mudam Constantemente Instrumentação Consumerização Experimentação Tudo que pode ser medido poderá ser mensurado. Funcionários e clientes esperam mais interações pessoais, mas não ao custo de sua privacidade. As empresas mais inovadoras adotam a experimentação e agilidade.
Arquiteturas tradicionais estão sob pressão Visão Limitada Usuários avançados lutam com os dados. Muitos usuário não possuem os dados que precisam. Acesso Dados Business Analytics Operational Applications Custom Applications Conformidade e privacidade Databases Mais dados, mais usuários e mais ferramentas geram complexidade. Necessidade de equilibrar a agilidade dos negócios com segurança e governança. Sistemas Dados Limitados Não é eficiente para manter os dados existentes, muito menos lidar com novas fontes de dados. Longo tempo para transformar dados em analises nos sistemas existentes. Origem Dados Existing Data New Data
Cloudera Enterprise powered by Apache Hadoop Processar Descobrir Modelar Entregar Flexibilidade de implantação Segurança e Administração Armazenamento ilimitado On-Premises Equipamentos Software Núvem pública Núvem Privada Núvem Híbrida Um novo tipo de plataforma de dados. Um lugar para dados ilimitados Unificado, multi-framework para acesso a dados Somente com Cloudera: Desempenho líder Sistemas empresariais e gerenciamento de dados Fundamentalmente seguro Código aberto, padrão aberto
Mais Valor de Mais Dados Para Mais Usuários, em menor tempo. Unlock Value from Data From analytics for some, to insights for all. Acesso Dados Business Analytics Operational Applications Custom Applications Gestão de Conformidade Do risco devido aos regulamentos e preocupações com a privacidade do cliente, até confiar em uma plataforma segura e compatível. Sistemas Databases Enterprise Data Hub Process Discover Model Serve Security and Administration Unlimited Storage Guarde dados ilimitados A partir de pontos de vista diferentes e limitados, para acessar informações ilimitadas. Origem Dados Existing Data New Data
Uma Plataforma, Muitos Workloads Process Ingest Sqoop, Flume Transform MapReduce, Hive, Pig, Spark Discover Analytic Database Impala Search Solr Security and Administration Model Machine Learning SAS, R, Spark, Mahout YARN, Cloudera Manager, Cloudera Navigator Unlimited Storage HDFS, HBase Serve NoSQL Database HBase Streaming Spark Streaming Batch, Interativo, e Tempo-Real. Liderando desempenho e usabilidade em uma plataforma. Análise de cargas de trabalho end-to-end Acesse mais dados Trabalhe os dados de novas formas Capacite mais usuários
Administração fácil do Hadoop Cloudera Manager Foco na solução, não no cluster, com a única ferramenta de administração do Hadoop completa e com zero-downtime. Características únicas: Configuração unificada, gerenciamento e monitoramento para todos os serviços Instalação e upgrades on-line Conexão direta com o Suporte da Cloudera Extensibilidade a terceiros
Hadoop da Núvem Cloudera Director A primeira solução portátil e selfservice para intalação e gerenciamento do Hadoop na núvem. Características únicas: Gerenciamento dinâmico do ciclo de vida do cluster Cloud blueprints Visibilidade de saúde multi-cluster Relatórios de utilização para modelos de cobrança
Big Data Com Governança de Dados Cloudera Navigator Minimize riscos e mantenha a conformidade com a única solução de governança de dados end-to-end nativa para Apache Hadoop. Características únicas: Auditoria Lineage (trilha de auditoria) Metadata Tagging and Descoberta Gestão do ciclo de vida
Equilíbrio entre Segurança e Privacidade com agilidade nos negócios 1. Perimeter Standards-based Authentication Process Discover Model Serve 2. Access Unified Role-based Authorization Security and Administration 3. Visibility Auditing & Governance Unlimited Storage 4. Data Encryption & Key Management Cloudera é o líder em segurança para Hadoop. Características únicas: Unificado e compreensível Segurança no core Sem impacto de performance Projetada em conjunto com a Intel Conformidade Única distribuição auditada e aprovada pelo CPI
Código Aberto e Padrão Aberto Vendor Support Component (Founder) Cloudera Pivotal MapR Amazon IBM Hortonworks Impala (Cloudera) Spark (UC Berkeley) Hue (Cloudera) Sentry (Cloudera) Flume (Cloudera) Parquet (Cloudera/Twitter) Sqoop (Cloudera) Padrões abertos são tão importantes quanto código aberto. Por que isso é importante? Valor sustentável Portabilidade entre fornecedores Compatibilidade do Eco sistema Falcon (Hortonworks) Knox (Hortonworks) Tez (Hortonworks) Ranger (Hortonworks) ORCfile (Hortonworks) Todo projeto em CDH é um Padrão Aberto.
O Mais Completo Eco Sistema Applications Operational Tools Mais de 1.200 parceiros Assegurar a compatibilidade com os investimentos existentes, baixas barreiras de competências, e ajuda a maximizar o valor de seus dados. Data Systems Enterprise Data Hub Process Discover Model Serve Security and Administration Unlimited Storage System Integration Infrastructure
A Jornada para a estratégia de dados Eficiência Operational Novos Valores de Negócios Otimize sua arquitetura. IT Descubra valor nos dados. Analistas e cientistas de dados Capacite usuários. Todos Process Discover Model Serve Security and Administration Unlimited Storage
Casos de Sucesso Otimize Descubra Capacite RelayHealth agiliza os pagamentos aos prestadores de serviços de saúde com o processamento de dados mais rápido, melhorando seu fluxo de caixa e atendendo a conformidade HIPAA. Premier analisa 41.000 milhões dólares em gastos com saúde, mais os dados relacionados, recomendações que ajudam provedores a obter melhores produtos a custos mais baixos de produção. Opower proporciona uma visão de 360 graus para os padrões de uso de energia e comparações domésticas semelhantes para ajudar os consumidores a economizar energia.
Por que Cloudera? Enterprise-Grade Hadoop Desempenho diferenciado, segurança, gestão e governança. Expertise Ninguém conhece melhor o Hadoop do que a Cloudera. Enablement Suporte, serviços de treinamento, e profissionais habilitados a entregar sucesso. Ecosystem Cloudera garante que o Hadoop funcione com as plataformas, ferramentas e integradores de sua confiança. Sustainable Innovation Nosso modelo de open source híbrido oferece os benefícios de open source e que uma empresa exige, ao mesmo tempo que nos permite investir no futuro para os nossos clientes.
Ultrapassar Barreiras de Big Data com Cloudera Ganhe habilidades Construa um business case Integre com o Eco Sistema YP convocou a Universidade Cloudera para conduzir a capacitação do usuário em toda a empresa e maximizar o valor do seu investimento no Hadoop. Ohospital Infantil de Atlanta implementou Hadoop com menos de US $ 1.000, e aprendeu a melhorar a gestão da dor em bebês prematuros e reduziu atendimentos de emergência relacionadas à asma. A área de marketing da Experian oferece em tempo real, visão de 360 graus do cliente com um ambiente de Big Data integrado que processa dados 50 vezes mais rápido do que antes.
Qual é a sua estratégia de dados?
Obrigado!