Alta performance no processamento de Big Data com Spark e Lambda Expressions. Claudio Fabio
|
|
- Adelina Aragão Paixão
- 8 Há anos
- Visualizações:
Transcrição
1 Alta performance no processamento de Big Data com Spark e Lambda Expressions Claudio Fabio
2 Cláudio Seidi Bacharel em Ciência da Computação - IME/USP Java desde 1998 Arquiteto de Sistemas desde 2001 Certificado Cloudera Atualmente na área de BI da Telefonica/VIVO
3 Fabio Velloso Consultor da Summa Technologies Co-Fundador e Diretor SouJava Bacharel em Ciência da Computação - UFSCar Professor de Arquitetura Orientada a Serviços - UFSCar Projetos com Java desde 1996 Ü Atualmente trabalhando em projetos de Integração, Big Data e Cloud Computing Y Palestrante em JavaOne, Abaporu, TDC, JustJava, Dia de Java, Café Brasil, Campus Party
4 Agenda Contexto Spark Aplicações API Arquiteturas
5 F Big Data - Um Minuto na Internet em horas 4.19 milhões 67 mil 600 mil 450 de conteúdo de buscas uploads de fotos logins uploads enviados 80 mil produtos vendidos 433 mil tweets downloads 3,4 mil uploads de s SectionName Fonte:
6 big data
7 Hadoop Framework open source em Java para processar um grande volume de dados em cluster de hardware commodity
8 F Hadoop Responsável por distribuir e armazenar dados no cluster Responsável pelo Processamento dos dados
9 Hadoop MAP Reduce MAP Worker all 1 for 1 reduce Worker Java for all Java 1 Dados de Entrada MAP Worker Dados de Intermediários reduce Worker Dados de saída Hadoop for all all 1 MAP Worker Hello World Java for 1 Hadoop 1 Hello 1 Java 1 World 1 reduce Worker Hadoop 1 Hello 1 Java 2 World 1 all 2 for 2 Batch
10 Hadoop / Map Reduce MapReduce possibilitou e difundiu o conceito de Big Data analítics Não é eficiente para analises mais complexas e multi-stage: Iterative Machine Learning & graph processing (não map/reduce) Iterative ad-hoc queries & Iterative algorithms Streaming processing
11 Doug Cutting e Spark It s easy to program, and it uses memory more efficiently, as not all intermediate data goes to disk. Over time, fewer projects will use MapReduce, and more will use Spark But it doesn t make MapReduce obsolete overnight
12 SPARK Fast and general engine for large-scale data processing Criado para Machine Learning Distribuído e Data Mining Abstração de alto nível API s em Java, Python e Scala e shell iterativo Mais rápido que Hadoop até 100 vezes?
13 Camadas Aplicações RDD based tables RDD Streams RDD Based Matrices RDD Based Graphs Spark Engine Spark SQL Spark Streaming (real time processing) MLlib (Machine Learning) GraphX (Graph Processing) Java Python Scala e API s Spark Core Resource Management Storage Spark Core Spark Libs
14 Camadas e HFDS Aplicações RDD based tables RDD Streams RDD Based Matrices RDD Based Graphs Spark Engine Spark SQL Spark Streaming (real time processing) MLlib (Machine Learning) GraphX (Graph Processing) Java Python Scala e API s Spark Core YARN HDFS Spark Core Spark Libs Resource/Cluster Manager Storage
15 Camadas Aplicações RDD based tables RDD Streams RDD Based Matrices RDD Based Graphs Spark Engine Spark SQL Spark Streaming (real time processing) MLlib (Machine Learning) GraphX (Graph Processing) Java Python Scala e API s Spark Core Standalone, YARN, Mesos HDFS, Lustre, EC2/S3 Spark Core Spark Libs Resource/Cluster Manager Storage
16 Camadas e conceitos Driver Program SparkContext Cluster Manager Standalone, YARN ou MESOS Worker Node Worker Node Worker Node Worker Node Executor Cache Executor Cache Executor Cache Executor Cache Task Task Task Task Task Task Task Task
17 RDD - Resilient Distributed dataset Unidade básica de dado no Spark Abstração de memória distribuída Coleção de registros para leitura Se particionado é executado em vários nós do cluster Não é replicado, é reconstruído em caso de falha
18 RDD sparqsql.txt RDD Seamlessly mix SQL queries with Spark programs. Spark SQL lets you query structured data as a distributed dataset (RDD) in Spark, with integrated APIs in Python, Scala and Java. This tight integration makes it easy to run SQL queries alongside complex analytic algorithms. Seamlessly mix SQL queries with Spark programs. Spark SQL lets you query structured data as a distributed dataset (RDD) in Spark, with integrated APIs in Python, Scala and Java. This tight integration makes it easy to run SQL queries alongside complex analytic algorithms.
19 RDD Criado através de leitura de um dataset externo Criado através coleções de objetos (List ou Set)
20 Operações RDD Transformações Ações Retorna um novo RDD filter map Retornam valores first count mappedrdd inputrdd map log => data, bytes trafegados [23/Mar/2014:15:08: ], filter log => codret == 304 RDD Seamlessly mix SQL queries with Spark programs. Spark SQL lets you query structured data as a distributed dataset (RDD) in Spark, with integrated APIs in Python, Scala and Java. This tight integration makes it easy to run SQL queries alongside complex analytic algorithms. count filteredrdd # de palavras
21 Operações RDD Transformações map(func), filter(func), flatmap(func), mappartitions(func), mappartitionswithindex(func), sample(withreplacement, fraction, seed), union(otherdataset), intersection(otherdataset), distinct([numtasks])), groupbykey([numtasks]), reducebykey(func, [numtasks]), aggregatebykey(zerovalue), (seqop, combop, [numtasks]), join(otherdataset, [numtasks]), sortbykey([ascending], [numtasks]), cogroup(otherdataset, [numtasks]), cartesian(otherdataset), pipe(command, [envvars]), coalesce(numpartitions), repartition(numpartitions), repartitionandsortwithinpartitions(partitioner)
22 Operações RDD Ações reduce(func), collect(), count(), first(), take(n), takesample(withreplacement, num, [seed]), takeordered(n, [ordering]), saveastextfile(path), *saveassequencefile(path), *saveasobjectfile(path), countbykey(), foreach(func) * (Java e Scala)
23 Spark e java 7 SectionName
24 Lambda Expressions Funções anônimas ou closures Características de programação funcional () -> Programação concorrente e event-driven (ou reactive") Código mais conciso, claro e elegante SectionName
25 Lambda Expressions Uma expressão Lambda é composta de três partes Argument List Arrow Token Body (int x, int y) -> x+y () -> (x, y) -> x+y x -> x*10 (name) -> { System.out.println( Olá + name); } Processamento de coleções SectionName
26 Spark e Lambda Expressions Java 7 Java 8 e Lambda Expression SectionName
27 Spark e Lambda Expressions SectionName
28 Spark e Lambda Expressions scala> val arqtxt = sc.textfile( teste.txt") Shell scala> val palavras = arqtxt.flatmap(line => line.split( \\W")) scala> val contapalavras = palavras.countbyvalue() JaVA
29 SPARK - Alta Performance Processamento em memória e cache de dados Carga e processamento respeitando localidade Micro batch architecture e Stream Directed Acyclic Graph (DAG) engine
30 RDD - Lineage graph textfile() Clientes filter _.(isativo) Clientes Ativos Clientes JOIN Cliente Produto textfile() Produtos JOIN Cliente Consumo Campanha Adequação save() Produtos FILTER Consumo > Franquia Consumo Mensal textfile() Consumo Mensal fillter Consumo 2015 Jan_MAIO REDUCE BY KEY Média Consumo
31 DAG Clientes Clientes Ativos Cliente Produto filter _.(isativo) Produtos Cliente Consumo CampanhA Adequação estágio 1 JOIN save() Consumo Mensal filter Consumo 2015 Jan_MAIO Média Consumo FILTER Consumo > Franquia JOIN estágio 2 REDUCE BY KEY estágio 3
32 \ Mineração de dados Atividade com o objetivo de obter conhecimento Algoritmos de Machine Learning Reconhecimento de Padrões Estatística SectionName
33 Machine Learning Definição Formal - Tom Mitchell (1998) Dizemos que um programa de computador está aprendendo quando: de uma experiência E, a respeito de uma tarefa T e com uma medida de desempenho P, se o seu desempenho em T, medido em P, melhora com a experiência E. T (Tarefa) - fazer gol T E (experiência) - chutar a bola P (Desempenho) - número de gols marcados P E SectionName
34 Machine Learning 29/Maio/2015 SectionName
35 Machine Learning 29/Maio/2015 SectionName
36 Machine Learning Não é ficção Vários serviços/produtos são baseados nesta tecnologia. Facebook: Detecção e Reconhecimento de Faces É capaz de reconhecer até o rosto de um japonês SectionName Amazon: Recomendação de Livros (Collaborative Filter)
37 Machine Learning Supervisionado Não Supervisionado SectionName Fonte:
38 Machine Learning Necessidade de alta performance Dado é acessado iterativamente Spark mais indicado Dados em memória Baixa latência
39 Sistema de recomendação Sistema de Recomendação Ideal Desafios da Vida Real Grande Volume de Dados Único jeito de adivinhar o gosto do cliente X Escalabilidade Diversidade de Clientes e gostos Ataques Shilling attacks
40 Sistema de recomendação Filtro Colaborativo
41 Sistema de recomendação Filtro Colaborativo Usuários similares Recomendação Tipos de Sistema de Recomendação Executado para todos os usuários e a cada nova informação Baseado no Usuário Baseado em Itens
42 Machine learning Por que Spark é indicado para Machine Learning? Logistic regression in Hadoop and Spark SectionName
43 Machine Learning HDFS Read HDFS Write HDFS Read HDFS Write 1 a Iteração 2 a Iteração Input HDFS Read 1 a Iteração 2 a Iteração Input Spark mais performático a cada iteração
44 Machine learning
45 MLLIB Algoritmos e estruturas para Machine Learning Classificação, Collaborative Filtering, Clustering SectionName
46 mllib E MAHOUT SectionName
47 MLLIB Conjunto ainda incompleto de algoritmos SectionName
48 mllib Algoritmos em implementação Redes Neurais SectionName
49 Spark StreAming Receivers batches of input data Micro-batch architecture Streaming em pequenos batches de dados Processar com funções como map, reduce, join
50 Spark StreAm DStream ou discretized stream DStream data from time 0 to 1 data from time 1 to 2 data from time 2 to 3 data from time 3 to 4 Abstração de stream contínuo de dados tempo Sequência de RDDs Intervalo de criação configurável a partir de 500ms log lines DStream fraudes DStream data from time 0 to 1 data from time 0 to 1 data from time 1 to 2 data from time 1 to 2 data from time 2 to 3 data from time 2 to 3 data from time 3 to 4 data from time 3 to 4 Filter detectar fraudes
51 Spark StreAm
52 Spark SQL Módulo para trabalhar com dados estruturados e não estruturados SQL, JDBC e ODBC JSON, Hive, Bancos relacionais via JDBC, Parquet, HDFS, S3 Avro, CSV, ElasticSearch e Cassandra SQLContext e HiveContext DataFrame
53 Spark SQL - DataFrame Coleção de dados distribuídos e organizados em colunas com nomes DataFrame é análogo a uma tabela de um banco relacional. Pode ser construído a partir de arquivos, tabelas e RDDs DataFrame { RDD Cliente Cliente Schema Nome Endereço Telefone Nome Endereço Telefone Cliente Nome Endereço Telefone
54 Spark SQL JDBC
55 Spark SQL
56 Spark e NoSQL Acesso a dados carregados no HDFS Spark SQL Streaming MLib Spark Core GraphX Java Scala Python YARN HDFS NoSQL Conectores Fonte:
57 Spark e NoSQL
58 Arquitetura integrada Fonte de Dados Dados agregados baixa latência Aplicações Online Data Mining e Aplicações Batch Raw Data e Dados Históricos SectionName
59 Arquitetura integrada Dados agregados baixa latência ArduinO Aplicações Online Raspberry Pi Data Mining e Aplicações Batch Intel Galileo RFID SectionName Raw Data e Dados Históricos
60 Conclusão Spark para algoritmos iterativos Usado em conjunto com Hadoop e HDFS Batch em Hadoop Spark Stream, Spark SQL e Spark Graphx SectionName Lambda para código mais conciso
61 Perguntas??
62 Obrigado Claudio Fabio
HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO
HadoopDB Edson Ie Serviço Federal de Processamento de Dados - SERPRO Motivação Grandes massas de dados precisam ser processadas em clusters: 1 nó: 100TB@59MB/s = 23 dias Cluster com 1000 nós 33 min!!!
Leia maisTecnologias para Gerenciamento de Dados na Era do Big Data
Tecnologias para Gerenciamento de Dados na Era do Big Data Victor Teixeira de Almeida 1,2 Vitor Alcântara Batista 1 1 PETROBRAS 2 Universidade Federal Fluminense (UFF) Importante A Petrobras não é responsável
Leia maisApache Spark I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA
Apache Spark CARLOS EDUARDO MART INS RELVAS I NTRODUÇÃO À C OMPUTAÇÃO PARALELA E D ISTRIBUÍDA Apache Hadoop Mudou a forma de armazenamento e processamento de dados em um cluster de computadores, trazendo
Leia maishttp://blogging.avnet.com/weblog/cioinsights/tag/big-data/ Storm Processamento e análise real time para Big Data 7/24/12 Fabio Velloso
http://blogging.avnet.com/weblog/cioinsights/tag/big-data/ Storm Processamento e análise real time para Big Data Fabio Velloso Fabio Velloso Bio Bacharel em Ciência da Computação - UFSCar MBA FGV Desenvolvedor
Leia maisSão Paulo. Maio/2015
São Paulo Maio/2015 Padrões de Arquitetura para Big Data Hélio Silva Sr. Big Data Analytics Consultant Professional Services AWS Summit São Paulo Maio/2015 Henrique Souza Especialista de Cloud e Big Data
Leia maisMBA Analytics em Big Data
MBA Analytics em Big Data Inscrições Abertas Início das Aulas: 04/06/2015 Dias e horários das aulas: Segunda-Feira 19h00 às 23h00 Semanal Sexta-Feira 19h00 às 23h00 Semanal Carga horária: 600 Horas Duração:
Leia maisAPLICAÇÕES DE BIG DATA COM SPARK E PYTHON
CURTA DURAÇÃO APLICAÇÕES DE BIG DATA COM SPARK E PYTHON CARGA HORÁRIA: 48 horas DURAÇÃO: 3 meses COORDENAÇÃO: Prof. Dr. Adolpho Pimazoni Canton Prof.ª Dr.ª Alessandra de Ávila Montini APRESENTAÇÃO O crescente
Leia maisPERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan
PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan Alfredo Fernandes / José Fernandes 6. Avaliação Nesta secção é apresentada as avaliações
Leia maisTreinamento em Apache Spark com Scala - Fundamental
Treinamento em Apache Spark com Scala - Fundamental O treinamento fundamental em Apache Spark prepara profissionais para o mercado de trabalho com Spark e Programação em Scala. Seu conteúdo programático
Leia maisUniversidade Federal de Goiás Ciências da Computação Sistemas Operacionais 2
Universidade Federal de Goiás Ciências da Computação Sistemas Operacionais 2 MongoDB Diego Fraga - 083746 Gabriel Henrique - 083771 Lauro Henrique - 074259 O que é MongoDB? - MongoDB é uma ferramenta de
Leia maisE N AT O M O L I N A T O T H
no:sql Not only SQL Renato Molina Toth ww.renatomolina.in R E N AT O M O L I N A T O T H O que é? O que é? Não é uma nova tecnologia, é uma nova abordagem Propõe um modelo alternativo de banco de dados
Leia maisProcessamento de dados em "tempo real"
Processamento de dados em "tempo real" com Apache Spark Structured Stream Eiti Kimura QConSP19 Eiti Kimura IT Coordinator and Software Architect at Movile Msc. in Electrical Engineering Apache Cassandra
Leia maisNoções de. Microsoft SQL Server. Microsoft SQL Server
Noções de 1 Considerações Iniciais Basicamente existem dois tipos de usuários do SQL Server: Implementadores Administradores 2 1 Implementadores Utilizam o SQL Server para criar e alterar base de dados
Leia maisIntrodução aos Bancos de Dados Não-Relacionais. Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador)
Introdução aos Bancos de Dados Não-Relacionais Mauricio De Diana (mestrando) Marco Aurélio Gerosa (orientador) Conteúdo Histórico de BDs não-relacionais na Web 4 Categorias de bancos NoSQL Exemplos de
Leia maisArquiteturas Java Pragmá1cas para usar Big Data na Nuvem. Fabiane Bizinella Nardon (@fabianenardon) Fernando Babadopulos (@babadopulos)
Arquiteturas Java Pragmá1cas para usar Big Data na Nuvem Fabiane Bizinella Nardon (@fabianenardon) Fernando Babadopulos (@babadopulos) Nós e Big Data BigDataTailTargetDataScienceMachineLearningHiveHadoopCrunchMongoDBRedisAWS
Leia maisProf. Daniela Barreiro Claro
Prof. Daniela Barreiro Claro Volume de dados muito grande Principais problemas em relação aos SGBD Relacionais é conciliar o tipo de modelo com a demanda da escalabilidade. Exemplo -Facebook Um crescimento
Leia maisBIG DATA INTRODUÇÃO. Humberto Sandmann humberto.sandmann@gmail.com
BIG DATA INTRODUÇÃO Humberto Sandmann humberto.sandmann@gmail.com Apresentação Humberto Sandmann humberto.sandmann@gmail.com Possui graduação em Ciências da Computação pelo Centro Universitário da Faculdade
Leia maisTempo de Resposta em Sub-Segundos com o novo MicroStrategy 10 In-Memory Analytics. Anderson Santos, Sales Engineer Brazil
Tempo de Resposta em Sub-Segundos com o novo MicroStrategy 10 In-Memory Analytics Anderson Santos, Sales Engineer Brazil Alta Performance não é mais Desejável em uma Aplicação Analítica Expectativa dos
Leia maisGrandes volumes de dados pertenciam ao domínio das aplicações científicas até há 15 anos atrás.
Grandes volumes de dados pertenciam ao domínio das aplicações científicas até há 15 anos atrás. Com o crescimento exponencial das aplicações Web o volume de dados que é produzido e processado tornou-se
Leia maisHoje é inegável que a sobrevivência das organizações depende de dados precisos e atualizados.
BANCO DE DADOS Universidade do Estado de Santa Catarina Centro de Ciências Tecnológicas Departamento de Ciência da Computação Prof. Alexandre Veloso de Matos alexandre.matos@udesc.br INTRODUÇÃO Hoje é
Leia maisBig Data e Hadoop A nova fronteira para inovação
Big Data e Hadoop A nova fronteira para inovação Fabio Velloso Fabio Velloso Bio Bacharel em Ciência da Computação - UFSCar MBA - FGV Programador Java desde 1996 Fundador do SouJava Gerente de Arquitetura
Leia maisUma Breve Introdução. Andréa Bordin
Uma Breve Introdução Andréa Bordin O que significa? NoSQL é um termo genérico que define bancos de dados não-relacionais. A tecnologia NoSQL foi iniciada por companhias líderes da Internet - incluindo
Leia maisBIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES
BIG DATA: UTILIZANDO A INTERNET PARA TOMADA DE DECISÕES Alex Travagin Chatalov¹, Ricardo Ribeiro Rufino ¹ ¹Universidade Paranaense (Unipar) Paranavaí PR Brasil alex_tr1992@hotmail.com ricardo@unipar.br
Leia maisProgramação de Computadores III
Programação de Computadores III Introdução a Linguagens de Programação Professor Leandro Augusto Frata Fernandes laffernandes@ic.uff.br Material disponível em http://www.ic.uff.br/~laffernandes/teaching/2013.1/tcc-00.157
Leia maisA Nova Interface do Data Discovery no MicroStrategy 10. Anderson Santos, Sales Engineer Brazil 11/08/2015
A Nova Interface do Data Discovery no MicroStrategy 10 Anderson Santos, Sales Engineer Brazil 11/08/2015 Empresas participantes do MicroStrategy 10 Beta Test Pela primeira vez na história, MicroStrategy
Leia maisInteroperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL
Minicurso: Interoperabilidade entre Bancos de Dados Relacionais e Bancos de Dados NoSQL Geomar A. Schreiner Ronaldo S. Mello Departamento de Informática e Estatística (INE) Programa de Pós-Graduação em
Leia maisBoas Práticas em Sistemas Web muito além do HTML...
Boas Práticas em Sistemas Web muito além do HTML... Adriano C. Machado Pereira (adrianoc@dcc.ufmg.br) De que Web estamos falando? De que Web estamos falando? A Web foi concebida para ser uma biblioteca
Leia maisSOFTWARE INFORMAÇÕES GERAIS
SOFTWARE INFORMAÇÕES GERAIS O software EmiteCT-e, desenvolvido pela DF-e Tecnologia LTDA, é o produto destinado às empresas que emitem conhecimento de transporte eletrônico e processos relacionados. Operando
Leia maisAN IN-DEPTH STUDY OF MAP REDUCE IN CLOUD ENVIRONMENT. Sistemas Distribuídos e Tolerância a Falhas Nuno Garcia m6284, Tiago Carvalho m6294
AN IN-DEPTH STUDY OF MAP REDUCE IN CLOUD ENVIRONMENT Sistemas Distribuídos e Tolerância a Falhas Nuno Garcia m6284, Tiago Carvalho m6294 Sobre o paper Novia Nurain, Hasan Sarwar, Md.Pervez Sajjad United
Leia maisArquiteturas escaláveis utilizando ferramentas Shared Nothing. Victor Canô
Arquiteturas escaláveis utilizando ferramentas Shared Nothing Victor Canô Victor Canô - Founder / CTO @ Cazamba - Founder @ Troz.io /victoracano Conteúdo O que esperamos de uma aplicação? Cloud, benefícios
Leia maiswww.en-sof.com.br SOLUÇÕES PARA CONTINUIDADE DO NEGÓCIO
SOLUÇÕES PARA CONTINUIDADE DO NEGÓCIO 1 Soluções Oracle Voltadas à Continuidade dos Negócios Luciano Inácio de Melo Oracle Database Administrator Certified Oracle Instructor Bacharel em Ciências da Computação
Leia maisFerramenta de apoio a gerência de configuração de software. Aluno: Rodrigo Furlaneto Orientador: Everaldo Artur Grahl
Ferramenta de apoio a gerência de configuração de software Aluno: Rodrigo Furlaneto Orientador: Everaldo Artur Grahl Roteiro de apresentação Introdução Objetivos Fundamentação Teórica Gerência de Configuração
Leia maisMinicurso Computação em Nuvem Prática: Openstack
Grupo de Pesquisa em Software e Hardware Livre André Rover de Campos Membro Colméia andreroverc@gmail.com Joinville Minicurso Computação em Nuvem Prática: Openstack Roteiro Definições Virtualização Data
Leia maisHaddop, MapReduce e Spark
Haddop, MapReduce e Spark Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Conceitos Básicos 2. MapReduce 3. Spark 4. Transformações Básicas 5. Ações Básicas 1 Conceitos Básicos Hadoop
Leia maisCom as mudanças tecnológicas e acirramento da competitivadade, Advanced Analytics tornou-se uma prioridade para as áreas de negócio
Agenda Contexto Advanced Analytics Qlik Portfolio e Advanced Analytics Teradata + Qlik + Keyrus Business Case Qlik Sense Arquitetura Técnica Qlik Sense Integração Qlik Sense & Teradata Aster Com as mudanças
Leia maisEngenharia de software 2011A. Trabalho sobre
Engenharia de software 2011A Trabalho sobre NOSQL Not only SQL NoSQL Not only SQL GRUPO - 9 Cléverton Heming Jardel Palagi Jonatam Gebing Marcos Wassem NOSQL O Termo NoSQL, foi utilizado pela primeira
Leia maisProf. Daniela Barreiro Claro
Prof. Daniela Barreiro Claro Volume de dados muito grande Principais problemas em relacao aos SGBD Relacionais é conciliar o tipo de modelo com a demanda da escalabilidade. Exemplo -Facebook Um crescimento
Leia maisSISTEMA GERENCIADOR DE BANCO DE DADOS
BANCO DE DADOS Universidade do Estado de Santa Catarina Centro de Ciências Tecnológicas Departamento de Ciência da Computação Prof. Alexandre Veloso de Matos alexandre.matos@udesc.br SISTEMA GERENCIADOR
Leia maisCopyright 2012 EMC Corporation. Todos os direitos reservados.
1 A INFRAESTRUTURA DO FUTURO, HOJE Integrando Greenplum DCA e SAS para permitir estudos analíticos em big data Rafael Aielo Technology Consultant 2 O que é Greenplum? Adquirida pela EMC em julho de 2010
Leia maisNeo4j Aprendendo conceitos por trás do Neo4j. Sem SQL? Apresentação. Por que grafos, por que agora? Por que grafos, por que agora?
Neo4j Aprendendo conceitos por trás do Neo4j Universidade Federal do Paraná - UFPR Programa de Pós-Graduação em Informática - PPGInf Oficina de Banco de Dados - CI829 Profa: Dra. Carmem Hara Aluno: Walmir
Leia maisThe Eucalyptus Open-source Cloud-computing System
The Eucalyptus Open-source Cloud-computing System O sistema Open Source de nuvens computacionais Eucalyptus Daniel Nurmi, Rich Wolski, Chris Grzegorczyk, Graziano Obertelli, Sunil Soman, Lamia Youseff,
Leia maisProf. Marcos Ribeiro Quinet de Andrade Universidade Federal Fluminense - UFF Pólo Universitário de Rio das Ostras - PURO
Conceitos básicos e serviços do Sistema Operacional Prof. Marcos Ribeiro Quinet de Andrade Universidade Federal Fluminense - UFF Pólo Universitário de Rio das Ostras - PURO Tipos de serviço do S.O. O S.O.
Leia maisFábio Giordani. Técnico em Processamento de Dados Adm. Análise de Sistemas. Outros cursos. Coordenador Projetos e Consultoria em Infraestrutura
Fábio Giordani Técnico em Processamento de Dados Adm. Análise de Sistemas Cobol Developer (Caracter mode ;-) DBA (Oracle 7.1...) Developer (GUI) Java Outros cursos Coordenador Projetos e Consultoria em
Leia maisIntrodução à Ciência da Computação
Faculdade de Ciências e Tecnologia Departamento de Matemática e Computação Bacharelado em Ciência da Computação Introdução à Ciência da Computação Aula 05 Rogério Eduardo Garcia (rogerio@fct.unesp.br)
Leia maisData Mining: Conceitos e Técnicas
Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:
Leia maisCiência dos Dados. bruno.domingues@intel.com. Preparado por Intel Corporation Bruno Domingues Principal Architect. segunda-feira, 5 de agosto de 13
Ciência dos Dados Preparado por Intel Corporation Bruno Domingues Principal Architect bruno.domingues@intel.com Homem na Lua Software Data: 1969 64kb, 2kb, RAM, Fortran Tem que funcionar! Apolo XI Velocidade:
Leia maisPÓS-GRADUAÇÃO ANÁLISE DE BIG DATA
PÓS-GRADUAÇÃO ANÁLISE DE BIG DATA OBJETIVOS Este curso tem como objetivo principal apresentar de forma clara, objetiva e com aplicações reais como as metodologias de Big Data, Inteligência Artificial e
Leia maisBancos de Dados em Clouds
Bancos de Dados em Clouds Bancos de Dados em Clouds Erik Williams Zirke Osta Rafael Brundo Uriarte Agenda Introdução; Fundamentos; Estudo comparativo das Ferramentas; Conclusões e Trabalhos Futuros. Agenda
Leia maisUFRJ IM - DCC. Sistemas Operacionais I. Unidade I Introdução. 11/02/2014 Prof. Valeria M. Bastos
UFRJ IM - DCC Sistemas Operacionais I Unidade I Introdução 11/02/2014 Prof. Valeria M. Bastos 1 ORGANIZAÇÃO DA UNIDADE Introdução Conceituação de SO Funções Básicas Breve Histórico Tipos de SO Fundamentos
Leia maisProjeto: Camada Independente de Dispositivo
Projeto: Camada Independente de Dispositivo Introdução Esse documento tem como finalidade demonstrar como será implementada a Camada Independente de Software. Estrutura A camada independente de software
Leia maisBases de Dados Relacional/Objeto e NoSQL. Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática
Bases de Dados Relacional/Objeto e NoSQL Cristina C. Vieira Departamento de Engenharia Eletrónica e Informática SGBDs Principais tarefas Gerir grandes volumes de dados Suportar acessos eficientes Garantir
Leia maisPython Funções. Introdução à Programação SI1
Python Funções Introdução à Programação SI1 Conteúdo Funções Conceitos Objetivos Modularização Exemplos Exercícios 2 Funções O que são? Qual a função de uma função? 3 Imagine o código 4 Imagine o código
Leia maisTreinamento. DBA Oracle 11g. Duração: 120 horas
Treinamento DBA Oracle 11g Duração: 120 horas Neste curso no primeiro módulo (Introdução ao Oracle 11g SQL e PL_SQL) é oferecido um curso introdutório à tecnologia do banco de dados Oracle 11g. Também
Leia maisGerência de Redes. Arquitetura de Gerenciamento. filipe.raulino@ifrn.edu.br
Gerência de Redes Arquitetura de Gerenciamento filipe.raulino@ifrn.edu.br Sistema de Gerência Conjunto de ferramentas integradas para o monitoramento e controle. Possui uma interface única e que traz informações
Leia maisGerenciador de Log Documento Visão. Versão 2.0
Gerenciador de Log Documento Visão Versão 2.0 Histórico de Revisões Data Versão Descrição Autor 29/05/2014 1.0 Objetivo, descrição, problema. Melina, Kárita, Rodrigo 29/05/2014 1.5 Produto. Melina 30/05/2014
Leia maisArquitetura de Banco de Dados
Arquitetura de Banco de Dados Daniela Barreiro Claro MAT A60 DCC/IM/UFBA Arquitetura de Banco de dados Final de 1972, ANSI/X3/SPARC estabeleceram o relatório final do STUDY GROUP Objetivos do Study Group
Leia maisDado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:
MC536 Introdução Sumário Conceitos preliminares Funcionalidades Características principais Usuários Vantagens do uso de BDs Tendências mais recentes em SGBDs Algumas desvantagens Modelos de dados Classificação
Leia maisPersistência e Banco de Dados em Jogos Digitais
Persistência e Banco de Dados em Jogos Digitais Prof. Marcos Francisco Pereira da Silva Especialista em Engenharia de Software Jogos Digitais - Computação Gráfica 1 Agenda Vantagens de usar a abordagem
Leia maisMBA ANALYTICS EM BIG DATA
MBA ANALYTICS EM BIG DATA OBJETIVOS Este curso tem como objetivo principal apresentar de forma clara, objetiva e com aplicações reais como as metodologias de Big Data, Inteligência Artificial e Computação
Leia maisCapítulo 4. MARIE (Machine Architecture Really Intuitive and Easy)
Capítulo 4 João Lourenço Joao.Lourenco@di.fct.unl.pt Faculdade de Ciências e Tecnologia Universidade Nova de Lisboa 2007-2008 MARIE (Machine Architecture Really Intuitive and Easy) Adaptado dos transparentes
Leia maisBenjamin Bengfort Jenny Kim
Benjamin Bengfort Jenny Kim Novatec Authorized Portuguese translation of the English edition of Data Analytics with Hadoop, ISBN 9781491913703 2016 Benjamin Bengfort, Jenny Kim. This translation is published
Leia maisTRINITY Project Microsoft Research Asia
TRINITY Project Microsoft Research Asia Universidade Federal do Paraná Curitiba, 17 de setembro de 2013 Desafios da era Big Data BIG DATA e seus 3 V s: Variedade: Dados complexos e semanticamente ricos
Leia maisRedes de Computadores
Redes de Computadores Redes de Computadores Redes de Computadores 2 1 Máquinas e processos podem ser identificados por endereços (hierárquicos ou não) conforme visto, como IP, IP+NroPorta, No uso por usuários
Leia maisHadoop - HDFS. Universidade Federal de Goiás Ciência da Computação
Hadoop - HDFS Universidade Federal de Goiás Ciência da Computação O que é Hadoop? Um framework para lidar com aplicações distribuídas que fazem uso massivo de dados Originalmente construído para a distribuição
Leia maisTACTIUM ecrm Guia de Funcionalidades
TACTIUM ecrm Guia de Funcionalidades 1 Interagir com seus clientes por variados meios de contato, criando uma visão unificada do relacionamento e reduzindo custos. Essa é a missão do TACTIUM ecrm. As soluções
Leia maisProf. Daniela Barreiro Claro
Prof. Daniela Barreiro Claro São dados que não podem ser processados ou analisados usando as ferramentas tradicionais Empresas acessando muitas informações mas não sabem como tirar proveito Normalmente
Leia maisSAS DATA MANAGEMENT FORUM. Copyright 2014, SAS Institute Inc. All rights reserved.
SAS DATA MANAGEMENT FORUM SAS DATA MANAGEMENT FORUM PLATAFORMA SAS DATA MANAGEMENT RAFAEL AIELO GERENTE DE SOLUÇÕES SAS BRASIL In God we trust, all others must bring data. - W. Edwards Deming SAS DATA
Leia maisSISTEMAS DISTRIBUIDOS
1 2 Caracterização de Sistemas Distribuídos: Os sistemas distribuídos estão em toda parte. A Internet permite que usuários de todo o mundo acessem seus serviços onde quer que possam estar. Cada organização
Leia maisRoteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido
Arquitetura Roteiro Arquitetura Tipos de Arquitetura Centralizado Descentralizado Hibrido Questionário 2 Arquitetura Figura 1: Planta baixa de uma casa 3 Arquitetura Engenharia de Software A arquitetura
Leia maisBig Data Definição, Desafios e Análise de dados Seminário da disciplina IN940 - Banco de Dados
Big Data Definição, Desafios e Análise de dados Seminário da disciplina IN940 - Banco de Dados Aluno: Victor Santos Professor: Ana Carolina Fernando Fonseca AGENDA 1 - O que é Big Data? 2 - Impactos do
Leia maisBanco de Dados. Maurício Edgar Stivanello
Banco de Dados Maurício Edgar Stivanello Agenda Conceitos Básicos SGBD Projeto de Banco de Dados SQL Ferramentas Exemplo Dado e Informação Dado Fato do mundo real que está registrado e possui um significado
Leia maisUma Proposta de Framework de Comparação de Provedores de Computação em Nuvem
Uma Proposta de Framework de Comparação de Provedores de Computação em Nuvem Igor G. Haugg Bolsista PIBITI/CNPq Orientador: Dr. Rafael Z. Frantz Área de Pesquisa Integração de Aplicações Empresariais Computação
Leia maisLINGUAGEM DE BANCO DE DADOS
LINGUAGEM DE BANCO DE DADOS Gabriela Trevisan Bacharel em Sistemas de Informação Universidade Federal do Rio Grande Pós-Graduanda Formação Pedagógica de Professores (FAQI) Conceito de BD Um banco de dados
Leia maisUFRJ IM - DCC. Sistemas Operacionais I
UFRJ IM - DCC Sistemas Operacionais I Unidade I 18/9/2009 Prof. Antonio Carlos Gay Thomé Prof. Aux. Simone Markenson Pech 1 ORGANIZAÇÃO DA UNIDADE Conceituação de SO Funções Básicas Breve Histórico Tipos
Leia maisSISTEMA DE WORKFLOW PARA MODELAGEM E EXECUÇÃO DE PROCESSOS DE SOFTWARE. Aluno: Roberto Reinert Orientador: Everaldo A. Grahl
SISTEMA DE WORKFLOW PARA MODELAGEM E EXECUÇÃO DE PROCESSOS DE SOFTWARE Aluno: Roberto Reinert Orientador: Everaldo A. Grahl Roteiro de apresentação Introdução Objetivos Fundamentação Teórica Workflow Processo
Leia maisMegastore: Solução para as crescentes exigências dos serviços na nuvem. Katharina C. Garcia 317144
Megastore: Solução para as crescentes exigências dos serviços na nuvem Katharina C. Garcia 317144 Agenda Problema e Solução Replicação e Paxos Arquitetura Particionamento Modelo de dados Algoritmos Tratamentos
Leia maisNoSQL como suporte à análise de dados nãonormalizados. volume
NoSQL como suporte à análise de dados nãonormalizados e de grande volume Joel Alexandre Orientador: Professor Luís Cavique Motivação Grande quantidade de registos Tudo é registado Internet of things tudo
Leia maisAnálise de Big Data Streams
Análise de Big Data Streams Identificando e tratando fluxo Hadoop Marcelo Vaz Netto Nilson Moraes Filho 14/07/14 Propósito do Artigo Original Programming Your Network at Run-time for Big Data Applications
Leia maisProjeto de Sistemas Distribuídos. Prof. Andrêza Leite andreza.lba@gmail.com
Projeto de Sistemas Distribuídos Prof. Andrêza Leite andreza.lba@gmail.com Agenda Introdução Exemplos de Sistemas Distribuídos Compartilhamento de Recursos e a Web Principais Desafios para a Implementação
Leia maisGeo Big Data - criar mapas incríveis com milhões de pontos pode ser simples
21/10/2014 gogeo High Performance Maps Platform www.gogeo.io Vagner Sacramento Quem somos? Head Vagner Sacramento - Ph.D in Computer Science - Experienced in Distributed Algorithms - Experienced in Distributed
Leia maisWeather Search System
Weather Search System PROJECTO DE COMPUTAÇÃO EM NUVEM RELATÓRIO Grupo 2 Gonçalo Carito - Nº57701 Bernardo Simões - Nº63503 Guilherme Vale - Nº64029 Índice Weather Search System...1 1. A Solução Implementada...3
Leia maisFundamentos de Banco de Dados
Fundamentos de Banco de Dados SISTEMAS BASEADOS NO PROCESSAMENTO DE ARQUIVOS Sistema A Funcionário Pagamento Cargo Sistema B Funcionário Projeto SISTEMAS GERENCIADORES DE BANCO DE DADOS (SGBD) Sistema
Leia maisAcademia de Especialização BIG DATA SPECIALIST
Academia de Especialização BIG DATA SPECIALIST Formato do curso: Presencial e Live Training Preço: desde 251,88 Nível: Avançado Duração: 159 horas Este programa prepara profissionais com competências e
Leia maisAgenda. Intro Migrando de relatório para uma solução de BI Under the Hood Operação e Lições aprendidas
Agenda Intro Migrando de relatório para uma solução de BI Under the Hood Operação e Lições aprendidas FALAR da SAMBA FALAR da SAMBA HACKWEEKS Reporting & Analytics No Início - Report Fornecer informações
Leia maisSoftware de segurança em redes para monitoração de pacotes em uma conexão TCP/IP
Software de segurança em redes para monitoração de pacotes em uma conexão TCP/IP Paulo Fernando da Silva psilva@senior.com.br Sérgio Stringari stringari@furbbr Resumo. Este artigo apresenta a especificação
Leia maisRastreando fluxos para detecção de eventos em redes
Rastreando fluxos para detecção de eventos em redes GTER - Grupo de Trabalho de Engenharia e Operação de Redes 27ª Reunião 19 de junho de 2009 Jorge Luiz Corrêa André Proto ACME! Computer Security Research
Leia maisMONICA - Portal de Monitoração dos algoritmos de Controle Avançado do Refino na Petrobras
MONICA - Portal de Monitoração dos algoritmos de Controle Avançado do Refino na Petrobras Presented by Eduardo Henrique Prange Altamir Neves Gomes Copyright 2014-15 OSIsoft, LLC. Introdução Histórico;
Leia maisMicroserviços: flexibilidade e agilidade a que preço?
Microserviços: flexibilidade e agilidade a que preço? Summa Technologies www.summa.com.br Einar Saukas Fabio Velloso @fabiovelloso 2005, Summa Technologies, Inc. 1 Einar Saukas Principal Consultant - Summa
Leia maisSistemas Distribuídos
Cassandra - Particionamento de Dados Sistemas Distribuídos Douglas Macedo Hugo Lourenço Sumário Introdução Conceito Anel Multíplos Data center Fatores envolvidos Arquitetura do Sistema Módulo de Particionamento
Leia maisDELEGAÇÃO REGIONAL DO ALENTEJO CENTRO DE FORMAÇÃO PROFISSIONAL DE ÉVORA REFLEXÃO 3
REFLEXÃO 3 Módulos 0771, 0773, 0774 e 0775 1/5 18-02-2013 Esta reflexão tem como objectivo partilhar e dar a conhecer o que aprendi nos módulos 0771 - Conexões de rede, 0773 - Rede local - instalação,
Leia maisProcessamento de Dados Massivos (Big-Data) com Spark. Vinícius Dias Orientador: Dorgival Guedes
Processamento de Dados Massivos (Big-Data) com Spark Vinícius Dias Orientador: Dorgival Guedes Vivemos em um mundo de dados 2 De que volume de dados estamos falando? Domo Data Never Sleeps 3.0 3 Mas não
Leia maisCriando Frameworks Inteligentes com PHP. Uma abordagem prática: vantagens, aplicações e procedimentos.
Criando Frameworks Inteligentes com PHP Uma abordagem prática: vantagens, aplicações e procedimentos. Apresentação Equipes ao redor do mundo utilizam diferentes padrões de projeto, de acordo com suas necessidades
Leia maisPrincipais Comandos SQL Usados no MySql
Principais Comandos SQL Usados no MySql O que é um SGBD? Um Sistema Gerenciador de Banco de Dados (como no Brasil) ou Sistema Gestor de Base de Dados (SGBD) é o conjunto de programas de computador (softwares)
Leia maisAnexo I Formulário para Proposta
PLATAFORMA CGI.br Solicitação de Propostas SP Anexo I Formulário para Proposta Data: 05/07/2013 Versão: 1.1 Plataforma CGI.br Solicitação de Propostas - SP Anexo I Formulário para Proposta 1. Estrutura
Leia maisTI, Big Data e Recrutamento & Seleção
Objetivo TI, e Recrutamento & Seleção Fabrício J. Barth Mostrar o impacto da tecnologia da informação (TI) e do Big Data no processo de recrutamento & seleção (R&S). 2 Sumário O processo de R&S sem suporte
Leia maisRecursos para uma Governança de
HP Operation Analytics e HP Cloud -Helion, Recursos para uma Governança de Excelência! André Chamoun andre.chamoun@hp.com HP Helion Marcus Couto marcus.couto@hp.com HP Operations Analytics Patrocínio Diamante
Leia maisFramework para Deduplicação de Dados com Apache Spark
Framework para Deduplicação de Dados com Apache Spark César Magrin - magrin@inf.ufpr.br Disciplina: Metodologia Científica - CI860 Professor: Alexandre Direne Sumário 1. Qualidade de Dados 2. Deduplicação
Leia maisIntrodução. Sistemas Operacionais
FATEC SENAC Introdução à Sistemas Operacionais Rodrigo W. Fonseca Sumário Definição de um S.O. Características de um S.O. História (evolução dos S.O.s) Estruturas de S.O.s Tipos de Sistemas Operacionais
Leia maisMigrando seu site para o Azure utilizando
Migrando seu site para o Azure utilizando Plataforma como serviço. DEV210 Migrando seu site para o Azure utilizando Plataforma como serviço. Quem é o palestrante? Vinícius Souza Evangelista Técnico @vbs_br
Leia mais