Big Data Networking. Felipe Santos e Lucas Teixeira



Documentos relacionados
MÓDULO 8 ARQUITETURA DOS SISTEMAS DE BANCO DE DADOS

Roteamento e Comutação

Solução de Dashboard. Monitorização e Alarmistica IT (Networking e Sistemas) ALL IN ONE SOLUTION SCALABILITY TECHNICAL SUPPORT

Prof. Samuel Henrique Bucke Brito

Sistemas Distribuídos

BEMATECH LOJA LIVE. Requerimento de Infra-instrutura (utilizando Data center Bematech)

Paralelismo. Computadores de alto-desempenho são utilizados em diversas áreas:

BIG DATA INTRODUÇÃO. Humberto Sandmann

Multiprocessamento. Multiprocessadores com memória distribuída (multicomputador)

Convergência TIC e Projetos TIC

SISTEMAS DE INFORMAÇÃO. Prof. José Carlos Vaz Baseado em LAUDON, K. & LAUDON, J. Sistemas de Informação Gerenciais. Pearson, 2004 (5a. ed.).

Um Driver NDIS Para Interceptação de Datagramas IP

Arquitetura dos Sistemas de Informação Distribuídos

On Scalability of Software-Defined Networking

Sistemas Operacionais. Patrícia Megumi Matsumoto Luciana Maria Gregolin Dias

Sistema Operacional Correção - Exercício de Revisão

SOLUÇÕES PARA CONTINUIDADE DO NEGÓCIO

Introdução ao Modelos de Duas Camadas Cliente Servidor

Sistemas Distribuídos. Introdução

Márcio Leandro Moraes Rodrigues. Frame Relay

REDES DE COMPUTADORES

Soluções de Gestão de Clientes e Impressão Universal

Guia de Especificação. Vijeo Citect

Fundamentos de Redes de Computadores. Elementos de Redes Locais

ATIVIDADES PRÁTICAS SUPERVISIONADAS

Tecnologia PCI express. Introdução. Tecnologia PCI Express

Projeto de Monitoração e Melhoria Contínua com Six-Sigma, IoT e Big Data

Sistemas Distribuídos (DCC/UFRJ)

Otimização de banda utilizando IPANEMA. Matheus Simões Martins. Curso de Especialização em Redes e Segurança de Sistemas

Gerência de Redes. Introdução.

Roteiro. Arquitetura. Tipos de Arquitetura. Questionário. Centralizado Descentralizado Hibrido

Servidor, Proxy e Firewall. Professor Victor Sotero

Equipamentos de Redes. Professor Leonardo Larback

Tópicos em Sistemas Distribuídos. Modelos de Comunicação

Tópicos Especiais em Redes de Telecomunicações

Prof. Samuel Henrique Bucke Brito

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

Governança de TI UNICAMP 13/10/2014. Edson Roberto Gaseta

Sistemas de Informação I

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Profs. Deja e Andrei

PREGÃO N o 008/2013 PROPOSTA COMERCIAL

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

RAID. Redundant Array of Independent Drives. Conjunto Redundante de Discos Independentes

BIG DATA E ESTRATÉGIA. 19 de junho de Universidade Federal do Rio de Janeiro. Redes de Computadores I. Adriana, Evandro e Fernanda.

Equipamentos de rede. Repetidores. Repetidores. Prof. Leandro Pykosz

Capítulo 9. Gerenciamento de rede

Prof. Marcelo Machado Cunha

Incident Management. Gerenciamento de Incidentes.

Sistemas Operacionais. Prof. M.Sc. Sérgio Teixeira. Aula 02 - Estrutura dos Sistemas Operacionais. Cursos de Computação

Gerência de Redes NOC

Segurança e Computação em Nuvem

Capítulo 11: NAT para IPv4

William Stallings Arquitetura e Organização de Computadores 8 a Edição

Documento de Arquitetura

Sistemas Operacionais Carlos Eduardo Portela Serra de Castro

Thalita Moraes PPGI Novembro 2007

Detecção e investigação de ameaças avançadas. INFRAESTRUTURA

Sistemas Distribuídos

O que é Gerenciamento de Redes de Computadores? A gerência de redes de computadores consiste no desenvolvimento, integração e coordenação do

Estudo e implementação de redundância em serviços da rede do IME

Pesquisa sobre Provedores de Serviços Internet no Brasil. São Paulo, 30 de novembro de 2011

É CLOUD. É ON-DEMAND.

Uma Proposta de Framework de Comparação de Provedores de Computação em Nuvem

Sistemas Operacionais Gerência de Dispositivos

Exame de Fundamentos da ITIL

PROJETO E IMPLANTAÇÃO DE INTRANETS

Figura 1 Taxas de transmissão entre as redes

Aplicativo Cliente/Servidor multicamadas para controle de uma rede de lojas via web utilizando Java

Load Balance Benefícios e vantagens dessa funcionalidade.

Comunicando através da rede

Sistemas Operacionais Introdução. Professora: Michelle Nery

Pollyanna Gonçalves. Seminário da disciplina Banco de Dados II

GT-VOIP Relatório I.9: Avaliação do Ambiente Sphericall da Marconi. Setembro de 2002

FIREWALL. Prof. Fabio de Jesus Souza. Professor Fabio Souza

Gerência de Segurança

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

Itinerários de Ônibus Relatório Final

Gerência e Administração de Redes

Centro Tecnológico de Eletroeletrônica César Rodrigues. Atividade Avaliativa

Aula 03 Regras de Segmentação e Switches

DELL POWERVAULT SÉRIE MD ARMAZENAMENTO DE DADOS MODULAR ARMAZENAMENTO DE DADOS DELL POWERVAULT SÉRIE MD

LAN Design. LAN Switching and Wireless Capítulo 1. Version Cisco Systems, Inc. All rights reserved. Cisco Public 1

Considerações no Projeto de Sistemas Cliente/Servidor

18/05/2014. Problemas atuais com o IPv4

*Os usuários devem possuir um CMA ou um Resource Manager registrado de modo a ativar as capacidades de geração de relatórios.

Projeto de Sistemas I

Gerenciamento de redes

Como medir a velocidade da Internet?

Fernando Albuquerque - fernando@cic.unb.br REDES LAN - WAN. Fernando Albuquerque (061) fernando@cic.unb.br

TECNOLOGIA WEB INTERNET PROTOCOLOS

REDE DE COMPUTADORES TECNOLOGIA ETHERNET

Prof. Wilton O. Ferreira Universidade Federal Rural de Pernambuco UFRPE 1º Semestre / 2012

Transcrição:

Big Data Networking Felipe Santos e Lucas Teixeira

Roteiro Big Data O que é? Motivação Aplicações Modelagem de comunicação para Big Data Problemas comuns Considerações de design Tecnologias Multipath Demonstração

Big Data - O que é? Big data é o termo usado para data sets tão grandes que técnicas de análise e processamento de dados convencionais se tornam inadequadas. Com o advento do aumento de uso de tecnologias, podemos encontrar big data em quase todas as áreas de conhecimento.

Big Data - Características Volume: Quanto mais dados, mais potencial e valor o data set terá. Variedade: O tipo do conteúdo junto a dados que auxiliam a análise dos dados Velocidade: A velocidade em que a informação ou dados estão sendo gerados

Big Data - Características Variabilidade: Inconsistência que pode ocorrer nos dados, tornando a análise mais difícil. Variabilidade Variedade! Veracidade: A qualidade dos dados obtidos, que pode variar bastante. Complexidade: Gerenciamento dos dados pode ser complexo: correlacionar dados.

Big Data - Aplicações As aplicações em big data se espalham, como dito por virtualmente todas as áreas de conhecimento onde ocorrem coleta de dados com auxílio de alguma tecnologia ou dispositivo.

Big Data - Aplicações Antes de citar as aplicações, alguns fatos: 4.4 zetabytes de informação no mundo A cada minuto: 2.5 milhões de shares no Facebook 300.000 tweets 200 milhões de e-mails 48h de video em upload no YouTube

Big Data - Aplicações Governos Censos, dados de tráfico, serviços de inteligência Ciência LHC produz 25 petabytes de dados por ano Pesquisas em genética: Projeto Genoma Indústria de Tecnologia Processamentos de transações Internet of Things (IoT)

Mas como lidar com essa imensidão de dados?

Big Data - Arquitetura de Sistema Métodos de computação centralizadas não são eficientes para lidar com o volume de dados, tanto em questão de processamento quanto de armazenamento. Solução: sistemas distribuidos.

Big Data - Arquitetura de Sistema Quando se lida com grandes quantidades de dados, o sistema deve possuir certas características: Resiliência de rede Soluções para problemas de congestionamento da rede Consistência é mais importante que latência Escalabilidade Particionamento de rede

Big Data - Resiliência Acesso à rede é uma prioridade No entanto, falhas sempre ocorrem O sistema deve considerar fontes diversas de falhas e ser desenhado de forma a contornar as falhas e continuar ativo Exemplo: Multipath

Big Data - Congestionamento Grande volume de dados -> congestionamento -> perda de pacotes -> retransmissão de dados Sistemas que lidam com big data devem ser projetados de forma a lidar com grandes cargas de transferência Solução: alta diversidade de caminhos de modo a mitigar o congestionamento. (Fibre Channel + Multipath)

Big Data - Consistência > Latência Sistemas de big data tendem a ser altamente síncronos: tarefas em paralelo Discrepância de performace entre nós pode gerar falhas Consistência entre as máquinas se torna importante O sistema não é sensível a latência, no entanto: tempo de execução na escala de minutos

Big Data - Escalabilidade A quantidade de dados gerados no mundo tende a aumentar de modo exponencial A questão é: como escalar seu sistema? Adicionar máquinas físicas Data warehouse Localidade pode ser um problema Re-projetar o sistema Este ponto é menos sobre escala absoluta e mais sobre o caminho para uma solução suficentemente escalável

Big Data - Particionamento de Rede Particionar a rede é importante para direcionar o tráfico de dados. Impede que a carga de trabalho gerada pelo tráfego impacte em outras tarefas do sistema.

Multipath Definição: múltiplos caminhos para acesso a um dispositivo de armazenamento Conceito: um dispositivo virtual lida trata o acesso a um dispositivo real por diversos caminhos.

Diagrama multipath

Multipath - por quê? Tolerância a falhas Balanceamento de carga Ganho de performance

Multipath - contexto Alguns discos/controladoras possuem duas portas.

Exemplo: Fibre Channel

Multipath - funcionamento O dispositivo virtual trata os pedidos de I/O para o dispositivo real Recebe pedido de I/O (read/write) Escalona o pedido (entre os caminhos, segundo política de roteamento: round-robin, prioridade, etc) Despacha o pedido (para um caminho disponível) ou falha/enfilera (não há caminhos disponíveis) Espera que a operação termine Responde o pedido de I/O

Multipath - funcionamento Kernel Utiliza device-mappers para mapear dispositivos reais em dispositivos reais Dispositivo virtual: /dev/mapper/mpath* Dispositivo(s) real(is): /dev/sd* (um dispositivo por caminho; muitos dipositivos por mapa)

Demonstração A demonstração utilizando QEMU cobrirá: Linha de comando do QEMU para simulação de multipath Descoberta de caminhos e configuração dos mapas Remoção de caminho e adição I/O em dispositivo single-path vs multipath

Perguntas?