Big Data Open Source com Hadoop

Documentos relacionados
Elaborando uma plataforma de Big Data & Analytics 100% Open Source com apoio do Pentaho.

PostgreSQL em um Ambiente Híbrido de Big Data Analytics. Palestrante: Marcio Junior Vieira

Bruno Antunes da Silva UFSCar - Sorocaba

Informática Parte 10 Prof. Márcio Hunecke

AVALIAÇÃO DE DESEMPENHO DE PROCESSAMENTO DISTRIBUÍDO EM LARGA ESCALA COM HADOOP

Informática Parte 11 Prof. Márcio Hunecke

BUSINESS INTELLIGENCE E DATA WAREHOUSE. Big Data Conceitos, Técnicas, Ferramentas e Arquitetura. tutorpro.com.br cetax.com.br

PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA

Benjamin Bengfort Jenny Kim

MBA ANALYTICS EM BIG DATA

Big Data. O que é Big Data! Como surgiu isso! Para que serve?!

BIG DATA. Jorge Rady de Almeida Jr. Escola Politécnica da U SP

QUESTIONÁRIO SOBRE HADOOP LEITURA DO MATERIAL FORNECIDO ALUNO/GRUPO ;

Solisc 2010 Uma Introdução ao Pentaho BI Open Source

A NOVA EXPERIÊNCIA ANALÍTICA

Community Builder Construção de Redes Sociais em Joomla. Marcio Junior Vieira ambientelivre.com.br

COMPUTAÇÃO EM NUVEM E PROCESSAMENTO MASSIVO DE DADOS Conceitos, tecnologias e aplicações

Solisc 2010 Gerenciamento de Projetos com dotproject

UNIVERSIDADE PRESBITERIANA MACKENZIE

Governança e Big Data. Celso Poderoso

Big Data. A Nova Onda

Avaliação de desempenho e dependabilidade de processamento de dados em larga escala com Hadoop

Sergio Adriano Blum Data Scientists

Introdução a Big Data. Juciander L. Moreira Wallace Brito

EMPREENDEDORISMO COM SOFTWARE LIVRE E SOFTWARE ABERTO.

BD e Cloud Gerenciamento de. Dados na Nuvem

Apache Spark I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA

Negócios em FLOSS 1ª etapa do Circuito Curitibano de Software Livre

O que é preciso para ser Cientista de Dados?

Como criar seu ecossistema de dados com o Tableau no AWS

SOLUÇÃO HADOOP COM EMC ISILON E CLOUDERA ENTERPRISE

CASSANDRA: BANCO DE DADOS NÃO RELACIONAL DE ALTO DESEMPENHO

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Técnicas de Big Data e Projeção de Medidas de Risco para de Negociação em Alta Frequência

APLICAÇÕES DE BIG DATA COM SPARK E PYTHON

Administração de Serviços de Redes. Introdução a Clusters. Prof. Dayvidson Bezerra Contato:

Sistemas de Apoio a Decisão

COMPUTAÇÃO PARALELA E DISTRIBUÍDA

Framework para Deduplicação de Dados com Apache Spark

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução à Informática

HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO

Pentaho Community Edition

Big Data para Executivos e Profissionais de Mercado

Como analisar um Big Data com a Tecnologia Hadoop: Aplicação no Mercado Financeiro

Informática Parte 5 Prof. Márcio Hunecke

UNIVERSIDADE DO SUL DE SANTA CATARINA GABRIEL BENJAMIM DA SILVA

ESPECIALIZAÇÃO A DISTÂNCIA EM. Ciência de Dados e Big Data Aplicada à Administração Tributária. Área de conhecimento: Tecnologia da Informação

Introdução a Computação em Nuvem

Ementa. Workshop de Internet das Coisas: do Conceito à Realidade

Introdução a Computação em Nuvem

Hadoop - HDFS. Universidade Federal de Goiás Ciência da Computação

Treinamento em Apache Spark com Scala - Fundamental

Apache Hadoop É hoje que vai instalar o seu primeiro cluster?

Desenvolvimento de Software no Contexto Big Data

software as a service (saas) e service-oriented architecture (soa)

BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM. Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP.

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Desenvolvimento de Software no Contexto Big Data

Tecnologias da Informação TI /2 Material de apoio ler bibliografia recomendada (Stair)

NÍVEL SUPERIOR NÍVEL SUPERIOR

SISTEMAS OPERACIONAIS

Apache Hadoop. Conceitos teóricos e práticos, evolução e novas possibilidades. Daniel Cordeiro

Transcrição:

Big Data Open Source com Hadoop Palestrante: Marcio Junior Vieira marcio@ambientelivre.com.br Realização:

Marcio Junior Vieira 14 anos de experiência em informática, vivência em desenvolvimento e análise de sistemas de Gestão empresarial. Trabalhando com Software Livre desde 2000 com serviços de consultoria e treinamento. Graduado em Tecnologia em Informática(2004) e pós-graduado em Software Livre(2005) ambos pela UFPR. Palestrante em diversos Congressos relacionados a Software Livre tais como: CONISLI, SOLISC, FISL, LATINOWARE, SFD, JDBR, Campus Party, Pentaho Day. Fundador da Ambiente Livre.

Ecosistema Ambiente Livre

Colaborações

Big Data - Muito se fala...

Big Data É um novo conceito se consolidando. Grande armazenamento de dados e maior velocidade

Os 4 V's Velocidade, Volume, Variedade e Valor

Volume Modelos de Persistência da ordem de Petabytes, zetabytes ou yottabyte(yb). Geralmente dados não estruturados. Um Zettabyte corresponde a 1.000.000.000.000.000.000.000 (10²¹) ou 1180591620717411303424 (2 elevado a 70) Bytes.

Velocidade Processamento de Dados Armazenamento Analise de Dados

Variedade Dados semi-estruturados Dados não estruturados Diferentes fontes Diferentes formatos

Valor Tomada de Decisão Benefícios Objetivo do Negócio.

O momento é agora

Onde podemos utilizar Big Data??

Sistema de Recomendação WWW em geral

Redes Sociais

Analise de Risco Crédito Seguros Mercado Financeiro

Dados Espaciais Clima Imagens Trafego Monitoramento

Big Data X BI Big Data e uma evolução do BI, devem caminhar juntos Data Warehouses são necessários para armazenar dados estruturados Previsão: BI Casos específicos Big Data Analise geral

Profissionais Novo profissional: Cientista de Dados

Competências do Cientista de dados Fonte http://www.datascientist.com.br/artigo.aspx?id=competencia_de_um_cientista_de_dados_um_breve_exemplo_de_uma_analise_de_redes

De onde?

Ferramentas de Big Data

Hadoop O Apache Hadoop é um projeto de software open-source escrito em Java. Escalável, confiável e com processamento distribuído. Filesystem Distribuido. Inspirado Originalmente pelo GFS e MapReduce da Google ( Modelo de programação MapReduce) Utiliza-se de Hardware Comum ( Commodity cluster computing ) Framework para computação distribuída infraestrutura confiável capaz de lidar com falhas ( hardware, software, rede )

Motivações Atuais Grande quantidade ( massiva ) de dados Dados não cabem em uma máquina Demoram muito para processar de forma serial Máquinas individuais falham Computação nas nuvens Escalabilidade de aplicações Computação sob demanda

A origem do Nome Segundo Doug Cutting, criador do Hadoop O nome que meu filho deu a um elefante amarelo de pelúcia. Curto, relativamente fácil de soletrar e pronunciar, sem sentido, e não usado em outro lugar: esses são os meus critérios de nomeação

Ecosistema

O que é HDFS Hadoop Filesystem Um sistema de arquivos distribuído que funciona em grandes aglomerados de máquinas de commodities.

Características do HDFS Inspirado em GFS Projetado para trabalhar com arquivos muito grandes e grandes volumes Executado em hardware comum Streaming de acesso a dados Replicação e localidade

HDFS Projetado para escalar a petabytes de armazenamento, e correr em cima dos sistemas de arquivos do sistema operacional subjacente.

Fonte:http://hadoop.apache.org/docs/r1.2.1/hdfs_design.html

HDFS - Replicação Dados de entrada é copiado para HDFS é dividido em blocos e cada blocos de dados é replicado para várias máquinas

MapReduce É um modelo de programação desenhado para processar grandes volumes de dados em paralelo, dividindo o trabalho em um conjunto de tarefas independentes

Programação Distribuída

MapReduce Você especifica o map (...) e reduce (...) funções map = (lista (k, v) -> lista (k, v)) reduce = (k, lista (v) -> k, v) O Framework faz o resto Dividir os dados Execute vários mappers sobre as divisões Embaralhar os dados para os redutores Execute vários redutores Guarde os resultados finais

MapReduce Map Reduce

Modos de Operação Standalone ( Local ) Pseudo-distributed Fully-distributed

Outros componentes PIG - linguagem de fluxo de dados e ambiente de execução para explorar grandes conjuntos de dados.executado no HDFS e grupos MapReduce. Hive - Armazém de dados (datawarehouse) distribuídos. Gerencia os dados armazenados no HDFS e fornece uma linguagem de consulta baseada em SQL para consultar os dados. Hbase Banco de dados orientada por colunas distribuída. HBase usa o HDFS por sua subjacente de armazenamento e suporta os cálculos de estilo lote usando MapReduce e ponto consultas (leituras aleatórias).

Outros componentes ZooKeeper Serviço de coordenação altamente disponível e distribuído. Fornece funções de bloqueios distribuídos que podem ser usados para a construção de aplicações distribuídas. Sqoop Ferramenta para a movimentação eficiente de dados entre bancos de dados relacionais e HDFS. Mahout - Aprendizagem de máquina escalável, de fácil uso comercial para a construção de aplicativos inteligentes

Distribuições Hadoop Open Source Apache Comercial Open Source - Cloudera - HortoWorks - MapR - AWS MapReduce - Microsoft HDInsight (beta)

Possibilidades de Uso DataWareHouse Business Intelligence Aplicações analíticas Mídias Sociais Sugestão de Compras Analise preditiva Compras Coletivas Recomendações

Modelo tradicional de Uso

Empresa Usando Hadoop Amazon Joost Facebook Last.fm Google New York Times IBM PowerSet Yahoo Veoh Linkedin Twitter Ebay

Hadoop no Brasil

Contatos e-mail: marcio @ ambientelivre.com.br http://twitter.com/ambientelivre @ambientelivre @marciojvieira Blog blogs.ambientelivre.com.br/marcio Facebook/ambientelivre

Convite Pentaho Day 17 de Maio SP FTSL - 18 e 19 de Setembro Software Freedom Day 20 de Setembro.