Big Data e Inovação
Sergio Adriano Blum Data Scientists Instrutor Gerente de Projetos Consultor MBA Gestão Estratégia de Empresas pela Unisinos Bacharel em Administração de Empresas com Ênfase em Análise de Sistemas pela PUCRS 53 Certificação Oficial da Microsoft Mais de 7500 alunos treinados
Big Data Visão geral sobre Big Data, 3Vs Estruturas de utilização de Big Data Gartner Magic Quadrant Agenda Big Data Landscape, Market share Onde se faz Big Data DataWarehouse Tradicional X Modern DataWarehouse Cases de Sucesso File Storing and Processing Nfe Data Lake Análise Preditiva e Machine Learning Risco de Crédito Financeiro Machine Learning Data Visualization Tracking de Caminhões PowerBI Próximos Passos
O que é Big Data? Volume Quantidade de Dados processáveis Velocidade Tempo hábil para movimentar processar dados 3V Variedade Diferentes tipos de dados www.gartner.com
O que é Big Data? Mobile Devices Microphones Readers/Scanners Science facilities Programs/ Software Social Media Cameras Volume Quantidade de Dados processáveis 3V Um compuador pessoal possuia cerca de 10 GB de dados em 2000. Hoje, o Facebook informa gerar cerca de 500 terabytes de dados, todo dia (Comercial Tendence) A Boeing informa que o 737 vai gerar cerca de 240 terabytes de dados em uma única viagem (IoT Internet das Coisas) Smatphones e sensores embutidos em objetivos de uso diário irão gerar, em breve, bilhões de dados, constantemente atualizáveis, alimentando um ambiente com informações cruciais para o negócio, como localidade e formato de uso. www.gartner.com
O que é Big Data?
O que é Big Data? Volume Quantidade de Dados processáveis 3V Velocidade Tempo hábil para movimentar e processar dados Cliques na Intenet e Impressão de Anúncios em Páginas capturam uma enormidade de comportamentos dos consumidos a cada segundo. Atualizações de dados de Bolsas de Valores distribuem dados por devices ao redor do mundo, em tempo real Máquinas se comunicam com outras máquinas através de protocolos não estruturados, de forma síncrona Sensores e aparelhos de medição geram grande quantidaded de logs em tempo real Jogos na internet suportam milhões de usuários concorrentes, cada qual consumindo e produzindo dados Placas de carros e rostos de pessoas são fotografadas e processadas em tempo real
O que é Big Data? Volume Quantidade de Dados processáveis 3V Velocidade Tempo hábil para movimentar processar dados Variedade Diferentes tipos de dados Big Data não consome apenas números, datas e palavras. Estamos falando também de Dados Geoespaciais, Dados em 3D, Áudio, Vídeo, Textos Desestruturados, incluindo arquivos de log e mídia social Bancos de Dados tradicionais foram desenhados para trabalhar com um volume pequeno de dados, poucas atualizações e predições, mas sempre com Dados Estruturados Análises em Big Data incluem diferentes tipos de dados
A estrutura de Big Data Estruturado Maioria das origens de dados Semi-estruturado Muitas origens de Big Data Desestruturado Video e audio Users Application Systems Large and growing files (Big data files) Sensors
Garner Magic Quadrant for Operational Database Management System for Data Management Solutions for Analytics www.gartner.com
Garner Magic Quadrant for Data Science Platform for Business Intelligence and Analytics Platform www.gartner.com
Muito bonito, mas... Vamos reduzir nosso olhar a 3 áreas que certamente abrirão seus olhos para uma Nova Oportunidade File Storing and Processing Modern Data Warehouse Data Lake Hadoop Spark Análise Preditiva e Machine Learning R e Python Machine Learning Stream Analytics Data Visualization PowerBI
File Storing and Processing Modern Data Warehouse Data Lake Hadoop Spark Azure HDInsight serviço de nuvem Apache Spark e Hadoop para a empresa Oferece Spark, Hive, Map Reduce, HBase, Storm, Kafka e R-Server Cada uma dessas tecnologias de Big Data, assim como aplicativos são facilmente implantáveis e gerenciados como clusters, com segurança e monitoramento de nível empresarial Data Lake Store um data lake ilimitado que impulsiona a análise de Big Data Massivamente escalonável e criado para o padrão aberto do HDFS. Sem limites para o tamanho dos dados e com a habilidade para executar análises massivamente paralelas
Data Warehouse - Traditional Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Data Management Platform for Analytics Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Case para Data Lake Toda Nota Fiscal gerada apartir de 2017 contem um QRCode associado Apesar da Receita Federal deter todos as NF em formato digital, não possível que um cidadão comum acesse a massa de dados Através de um Aplicativo de Celular, todo usuário pode ler seus QRCodes e enviar para armazenamento em Data Lake Apesar de sua serventia individual ser limitada, as possibilidade de análises é grande: Variação de preços por território geográfico Variação de preço por período Previsão de alteração de preços no mercado Avisos de Melhor Compra para os usuários Mapeamento de produtos em posição geográfica para concorrentes Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Análise Preditiva e Machine Learning Algoritmos são organizados de forma a gerar predições sobre dados históricos. R e Python são ferramentas comuns utilizadas para análise de dados em Machine Learning R e Python Machine Learning Stream Analytics
Case para Machine Learning Detecção de anomalias: Risco de Crédito Empresa de empréstimos financeiros envia massa de dados de seus Clientes e Negócios para um Data Lake, juntamente com o histórico de fraudes, então estes são analisados através de algoritmos de Machine Learning. Para cada novo empréstimo, os dados do cliente e do negócio são confrontados com o aprendizado da máquina, a qual informa a probabilidade deste negócio ser uma Fraude Informações do Cliente Machine Learning Probabilidade de Fraude Informações do Empréstimo Aprendizado Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Case para Stream Analytics Detecção de Tendência: Evasão escolar em EAD Faculdade com EAD registra todos os clicks em seu portal de EAD e cruza essas informações contra histórico de evasão. Baseado no comportamento dos alunos que evadiram no passado, consegue-se prever nas primeiras semanas o aluno que abandonará o curso antes do final do semestre Aluno interage no Portal EAD Stream Analytics Machine Learning Probabilidade de Evasão Portal EAD envia cada Click para o Stream Analytics Aprendizado Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Case para Stream Analytics Detecção de Tendência: Site de Ecommerce Site de Ecommerce envia cada click no portal para o Stream Analytics, o qual analisa a informação e baseado no histórico de Machine Learning, alterna as promoções e destaques no Site, aumentando a efetividade de compra dos usuários Usuário interage no Site do ECommerce Site envia os dados para o Stream Analytics Stream Analytics Machine Learning Alterna Promoções no Site Aprendizado Enterprise_Data_Warehouses_and_BI_in_the_Age_of_Cloud_Computing_and_big_Data_EN_US.pdf
Data Visualization PowerBI Como analisar o dados em ambientes desse porte? Consumo de dados em Big Data Análise de todos os dados, quaisquer dados Análise em Nuvem
Case de Sucesso para Data Visialization Data Visualization PowerBI Empresa de transporte rodoviário monitora em tempo real o comportamento de seus caminhões, compreendendo quando há alteração de rota ou mudanças bruscas no comportamento
Qual o caminho, por onde seguir? Data Scientist: Profissão em destaque que surgiu devido ao ambiente de Big Data Mas eu não tenho uma grande quantidade de Dados! Essas tecnologias consegue manipular grandes quantidade de informação, porém, o importante é resultado, não o meio Gostaria de iniciar um projeto em Big Data Não queira iniciar um projeto de Big Data, porém, imagine o que esses novas possibilidades podem trazer ao seu negócio. Inicie, sim, um projeto inovador sobre seus dados Business Intelligece É baseado em alguns Softwares Objetiva disponibilizar um Software com efeito visual Possui um fim planejado e certo A resultado é preditiva Os dados estão disponíveis O resultado final são gráficos para a tomada de decisão Dados domésticos vs Data Scientist É baseado em Técnicas Objetiva prover Informação e Insights para o negócio O fim é determinado durante o trabalho O resultado não é previsível Os dados devem ser minerados O resultado final é a decisão a ser tomada Big Data
Tecnologias Envolvidas Business Intelligence Data Insight BigData SQL NoSQL Microsoft SQL Server R language Microsoft Azure Data Factory Stream Insight Machine Learning HD Insight BigData Tools Hadoop HBase MapReduce PolyBase Business Intelligence Tools PowerBI Microstrategy QlikView Excel/Access
Sergio Adriano Blum sergio@whitecube.com.br www.whitecube.com.br www.facebook.com/whitecubeweb Big Data e Inovação Obrigado! Pergunta?