Big Data Open Source com Hadoop

Tamanho: px

Começar a partir da página:

Download "Big Data Open Source com Hadoop"

Joana Angelim Sousa
9 Há anos
Visualizações:

1 Big Data Open Source com Hadoop Palestrante: Marcio Junior Vieira Realização:

2 Marcio Junior Vieira 14 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. Fundador da Ambiente Livre.

3 Ecosistema Ambiente Livre

4 Colaborações

5 Big Data - Muito se fala...

7 Big Data É um novo conceito se consolidando. Grande armazenamento de dados e maior velocidade

8 Os 4 V's Velocidade, Volume, Variedade e Valor

9 Volume Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(yb). Geralmente dados não estruturados. Um Zettabyte corresponde a (10²¹) ou (2 elevado a 70) Bytes.

10 Velocidade Processamento de Dados Armazenamento Analise de Dados

11 Variedade Dados semi-estruturados Dados não estruturados Diferentes fontes Diferentes formatos

12 Valor Tomada de Decisão Benefícios Objetivo do Negócio.

13 O momento é agora

14 Onde podemos utilizar Big Data??

15 Sistema de Recomendação WWW em geral

16 Redes Sociais

17 Analise de Risco Crédito Seguros Mercado Financeiro

18 Dados Espaciais Clima Imagens Trafego Monitoramento

19 Big Data X BI Big Data e uma evolução do BI, devem caminhar juntos Data Warehouses são necessários para armazenar dados estruturados Previsão: BI Casos específicos Big Data Analise geral

20 Profissionais Novo profissional: Cientista de Dados

21 Competências do Cientista de dados Fonte

22 De onde?

23 Ferramentas de Big Data

24 Hadoop O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. Filesystem Distribuido. Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) Utiliza-se de Hardware Comum ( Commodity cluster computing ) Framework para computação distribuída infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )

25 Motivações Atuais Grande quantidade ( massiva ) de dados Dados não cabem em uma máquina Demoram muito para processar de forma serial Máquinas individuais falham Computação nas nuvens Escalabilidade de aplicações Computação sob demanda

26 A origem do Nome Segundo Doug Cutting, criador do Hadoop O nome que meu filho deu a um elefante amarelo de pelúcia. Curto, relativamente fácil de soletrar e pronunciar, sem sentido, e não usado em outro lugar: esses são os meus critérios de nomeação

27 Ecosistema

28 O que é HDFS Hadoop Filesystem Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.

29 Características do HDFS Inspirado em GFS Projetado para trabalhar com arquivos muito grandes e grandes volumes Executado em hardware comum Streaming de acesso a dados Replicação e localidade

30 HDFS Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.

31 Fonte:

32 HDFS - Replicação Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas

33 MapReduce É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes

34 Programação Distribuída

35 MapReduce Você especifica o map (...) e reduce (...) funções map = (lista (k, v) -> lista (k, v)) reduce = (k, lista (v) -> k, v) O Framework faz o resto Dividir os dados Execute vários mappers sobre as divisões Embaralhar os dados para os redutores Execute vários redutores Guarde os resultados finais

36 MapReduce Map Reduce

37 Modos de Operação Standalone ( Local ) Pseudo-distributed Fully-distributed

38 Outros componentes PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.executado no HDFS e grupos MapReduce. Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados. Hbase Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias).

39 Outros componentes ZooKeeper Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. Sqoop Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes

40 Distribuições Hadoop Open Source Apache Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce - Microsoft HDInsight (beta)

41 Possibilidades de Uso DataWareHouse Business Intelligence Aplicações analíticas Mídias Sociais Sugestão de Compras Analise preditiva Compras Coletivas Recomendações

42 Modelo tradicional de Uso

43 Empresa Usando Hadoop Amazon Joost Facebook Last.fm Google New York Times IBM PowerSet Yahoo Veoh Linkedin Twitter Ebay

44 Hadoop no Brasil

45 Contatos Blog blogs.ambientelivre.com.br/marcio Facebook/ambientelivre

46 Convite Pentaho Day 17 de Maio SP FTSL - 18 e 19 de Setembro Software Freedom Day 20 de Setembro.

Documentos relacionados

Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho.

Open Source Data Science Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho. Palestrante: Marcio Junior Vieira CEO e Data Scientist na Ambiente Livre [email protected]