Big Data Open Source com Hadoop Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br Realização:
Marcio Junior Vieira 14 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. Fundador da Ambiente Livre.
Ecosistema Ambiente Livre
Colaborações
Big Data - Muito se fala...
Big Data É um novo conceito se consolidando. Grande armazenamento de dados e maior velocidade
Os 4 V's Velocidade, Volume, Variedade e Valor
Volume Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(yb). Geralmente dados não estruturados. Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.
Velocidade Processamento de Dados Armazenamento Analise de Dados
Variedade Dados semi-estruturados Dados não estruturados Diferentes fontes Diferentes formatos
Valor Tomada de Decisão Benefícios Objetivo do Negócio.
O momento é agora
Onde podemos utilizar Big Data??
Sistema de Recomendação WWW em geral
Redes Sociais
Analise de Risco Crédito Seguros Mercado Financeiro
Dados Espaciais Clima Imagens Trafego Monitoramento
Big Data X BI Big Data e uma evolução do BI, devem caminhar juntos Data Warehouses são necessários para armazenar dados estruturados Previsão: BI Casos específicos Big Data Analise geral
Profissionais Novo profissional: Cientista de Dados
Competências do Cientista de dados Fonte http://www.datascientist.com.br/artigo.aspx?id=competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes
De onde?
Ferramentas de Big Data
Hadoop O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. Filesystem Distribuido. Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) Utiliza-se de Hardware Comum ( Commodity cluster computing ) Framework para computação distribuída infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )
Motivações Atuais Grande quantidade ( massiva ) de dados Dados não cabem em uma máquina Demoram muito para processar de forma serial Máquinas individuais falham Computação nas nuvens Escalabilidade de aplicações Computação sob demanda
A origem do Nome Segundo Doug Cutting, criador do Hadoop O nome que meu filho deu a um elefante amarelo de pelúcia. Curto, relativamente fácil de soletrar e pronunciar, sem sentido, e não usado em outro lugar: esses são os meus critérios de nomeação
Ecosistema
O que é HDFS Hadoop Filesystem Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.
Características do HDFS Inspirado em GFS Projetado para trabalhar com arquivos muito grandes e grandes volumes Executado em hardware comum Streaming de acesso a dados Replicação e localidade
HDFS Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.
Fonte:http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html
HDFS - Replicação Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas
MapReduce É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes
Programação Distribuída
MapReduce Você especifica o map (...) e reduce (...) funções map = (lista (k, v) -> lista (k, v)) reduce = (k, lista (v) -> k, v) O Framework faz o resto Dividir os dados Execute vários mappers sobre as divisões Embaralhar os dados para os redutores Execute vários redutores Guarde os resultados finais
MapReduce Map Reduce
Modos de Operação Standalone ( Local ) Pseudo-distributed Fully-distributed
Outros componentes PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.executado no HDFS e grupos MapReduce. Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados. Hbase Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias).
Outros componentes ZooKeeper Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. Sqoop Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes
Distribuições Hadoop Open Source Apache Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce - Microsoft HDInsight (beta)
Possibilidades de Uso DataWareHouse Business Intelligence Aplicações analíticas Mídias Sociais Sugestão de Compras Analise preditiva Compras Coletivas Recomendações
Modelo tradicional de Uso
Empresa Usando Hadoop Amazon Joost Facebook Last.fm Google New York Times IBM PowerSet Yahoo Veoh Linkedin Twitter Ebay
Hadoop no Brasil
Contatos e-mail: marcio @ ambientelivre.com.br http://twitter.com/ambientelivre @ambientelivre @marciojvieira Blog blogs.ambientelivre.com.br/marcio Facebook/ambientelivre
Convite Pentaho Day 17 de Maio SP FTSL - 18 e 19 de Setembro Software Freedom Day 20 de Setembro.