Big Data e Nuvens Computacionais



Documentos relacionados
Boas Práticas em Sistemas Web muito além do HTML...

Computação em Nuvem & OpenStack

Computação em Nuvem. (Cloud Computing) Pesquisa & Desenvolvimento

As Novas Tecnologias de Dados, Inteligência Competitiva e Preditiva

O surgimento da Bioinformática Banco de Dados Biológicos

Cloud Computing. Edy Hayashida

Agenda CLOUD COMPUTING I

INF Introdução a Interação Humano-Computador (IHC)

Anotação de Genomas. Fabiana G. S. Pinto

SISTEMAS DISTRIBUÍDOS

CONCEITOS E APLICAÇÕES DA COMPUTAÇÃO EM NUVEM

Faculdade Integrada do Ceará FIC Graduação em Redes de Computadores

Segurança da Informação

Como montar o quebra-cabeças do backup? Ricardo Costa e Bruno Lobo Backup, Recovery & Archiving Solutions

Aula 02: Conceitos Fundamentais

A Cloud Computing Architecture for Large Scale Video Data Processing

Windows Azure. Uma plataforma para Cloud Computing. I Innovation Day Curitiba Waldemir Cambiucci Arquiteto de Soluções Microsoft Brasil

Computação em Grid e em Nuvem

OCEL001 Comércio Eletrônico Módulo 9_2: Nuvens Computacionais. Prof. Charles Christian Miers.

Introdução a Computação nas Nuvens

TRINITY Project Microsoft Research Asia

Uma arquitetura de Cloud Computing para análise de Big Data proveniente da Internet of Things

Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro V

MBA Analytics em Big Data

Desafios e Oportunidades de Pesquisa na Área de HPC Cloud

AN IN-DEPTH STUDY OF MAP REDUCE IN CLOUD ENVIRONMENT. Sistemas Distribuídos e Tolerância a Falhas Nuno Garcia m6284, Tiago Carvalho m6294

A tecnologia revoluciona a Distribuição e os Canais Digitais

Patrício Domingues Dep. Eng. Informática ESTG Instituto Politécnico de Leiria Leiria, Maio

23/05/12. Computação em Nuvem. Computação em nuvem: gerenciamento de dados. Computação em Nuvem - Características principais

Geo Big Data - criar mapas incríveis com milhões de pontos pode ser simples

A computação na nuvem é um novo modelo de computação que permite ao usuário final acessar uma grande quantidade de aplicações e serviços em qualquer

Cloud Computing. O modelo no cenário Geoespacial. Technology Session Latin America Geospatial Forum August 2012 Rio de Janeiro

BIG DATA INTRODUÇÃO. Humberto Sandmann

Bancos de Dados em Clouds

Análise comparativa sobre bases de dados para armazenamento e consulta de dados não estruturados no formato JSON.

Computação em Nuvem. Alunos: Allan e Clayton

Conceito de Big Data

IMPA. Junho/2012

AS TIC E A SAÚDE NO PORTUGAL DE HOJE

HadoopDB. Edson Ie Serviço Federal de Processamento de Dados - SERPRO

PERFORMANCE EVALUATION OF A MONGODB AND HADOOP PLATFORM FOR SCIENTIFIC DATA ANALYSIS M.Govindaraju and L. Ramakrishnan

Plataforma de Serviços Azure. Lucas A. Romão

Administração e Desenvolvimento de Soluções em TI

Grid Computing: Processamento de Alto Desempenho em Rede

Uma revisão sistemática sobre data center como serviço Proposta de Trabalho de Graduação. Aluno: Antônio Victor Palmeira Leite de Lima

Sucesu RS A Tecnologia a Favor da Inovação. Serviços de Cloud Computing para operações de missão crítica

11ª Edição. BEM VINDOS Welcome

O USO DA NUVEM PELOS GOVERNOS AS OFERTAS DO MERCADO

The Eucalyptus Open-source Cloud-computing System

Bioinformática. Trabalho prático enunciado complementar. Notas complementares ao 1º enunciado

Laboratório de Mídias Sociais

Genômica. O que chamou mais atenção no filme?

A BRASIL ROTÁRIO FRENTE ÀS MÍDIAS ELETRÔNICAS. Carlos Jerônimo da Silva Gueiros

Desenvolvendo aplicações

Os sistemas de vigilância e alerta em saúde: um contributo para a adaptação às alterações climáticas

Startups e Computação em Nuvem: A Combinação Perfeita

MASSACHUSETTS INSTITUTE OF TECHNOLOGY Sloan School of Management

Sistemas de Gerência de Bancos de Dados. - Módulo 3 - Sistemas de Armazenamento de Alto Desempenho

Arquitetura e Sistema de Monitoramento para

Computação Aplicada. Internet Parte 2. Professor Emanuel Ferreira Coutinho Aula 10

1 Copyright 2012, Oracle and/or its affiliates. All rights reserved.

Computaçã. ção Em Nuvem com Software Livre. Institutional Presentation Janeiro of SERPRO. Apresentador: Marcos Mazoni

Using Big Data to build decision support tools in

Instituto de Educação Tecnológica Pós-graduação Gestão em Tecnologia da Informação - Turma nº 25 08/04/2015. Computação em Nuvem

Arquitetura dos Sistemas de Informação Distribuídos

Private Cloud for Governement

A evolução dos periódicos brasileiros e o acesso aberto

Fundamentos de Sistemas de Informação Hardware: Dispositivos de Entrada, Processamento e Saída

Introdução à genética quantitativa usando os recursos do R

UMA PROPOSTA PARA COMPARAÇÃO DE PROVEDORES DE COMPUTAÇÃO EM NUVEM DESDE UMA PERSPECTIVA DE INTEGRAÇÃO DE APLICAÇÕES 1

Dispositivos de Armazenamento em massa. José Roberto B. Gimenez

FIT's Software Laboratory conducts research, development and innovation projects in software and information systems, focusing on applying new

Tema: Big Data, Analytics...a Tecnologia a Favor do RH Palestrante: Alberto Roitman

10/07/2013. Camadas. Principais Aplicações da Internet. Camada de Aplicação. World Wide Web. World Wide Web NOÇÕES DE REDE: CAMADA DE APLICAÇÃO

Gerência de Redes NOC


Desenvolvimento de uma Rede de Distribuição de Arquivos. Development of a File Distribution Network

Avaliação do Uso de Xen em Ambientes de Computação de Alto Desempenho

Planejamento Estratégico de TI. Felipe Pontes

Big Data Definição, Desafios e Análise de dados Seminário da disciplina IN940 - Banco de Dados

Capítulo Sistemas de Memória Memória Virtual. Ch7b 1

Prof. Samuel Henrique Bucke Brito

Inovação Social Com Big Data. Marcelo Sales CTO HDS América Latina

CloudNet: dynamic pooling of cloud resources by live WAN migration of virtual machines

CASO DE SUCESSO. Processando Grandes Metas. A Microware atendeu nossas expectativas MICROWARE

Aula 01 Introdução ao Gerenciamento de Redes

1

Tendências na adoção de Big Data & Analytics: Inovação em tempo real para empresas que precisam de transformação

Panorama de Aplicações de Alto Desempenho em Nuvem

Introdução do Jornalismo Móvel

Os Desafios de Mobile, Cloud, GIS e Big Data nas Organizações. Leandro M. Rodriguez General Manager, Latin America - Esri

Projeto de Monitoração e Melhoria Contínua com Six-Sigma, IoT e Big Data

Computação nas Nuvens

DESEMPENHO DE REDES. Fundamentos de desempenho e otimização de redes. Prof. Ulisses Cotta Cavalca <ulisses.cotta@gmail.com>

Transcrição:

Big Data e Nuvens Computacionais Aplicações em Saúde Pública Fabrício Alves Barbosa da Silva Programa de Computação Científica Programa de Biologia Computacional e Sistemas Fundação Oswaldo Cruz - FIOCRUZ IASIS 2014

Sumário Big Data e o fenômeno de Inundação de Dados (Data Deluge) Big Data na saúde pública Big Data e Nuvens Computacionais Perspectivas Futuras

Big Data Uma definição Big data is a term used to describe information assemblages that make conventional data, or database, processing problematic due to any combination of their size (volume), frequency of update (velocity), or diversity (variety) Hay SI, George DB, Moyes CL, Brownstein JS (2013) Big Data Opportunities for Global Infectious Disease Surveillance. PLoS Med 10(4): e1001413. doi:10.1371/journal.pmed.1001413

The Data Deluge In the last five years, more scientific data has been generated than in the entire history of mankind. You can imagine what s going to happen in the next five. Winston Hide, associate professor of bioinformatics at Harvard School of Public Health. The promise of big data. HSPH News, Spring/Summer 2012

Exemple: Genbank http://www.ncbi.nlm.nih.gov/genbank/statistics Accessed on Oct 22, 2013

Evolução do Seq. DNA Stein, L. D. (2010). The case for cloud computing in genome informatics. Genome Biol, 11(5), 207.

Alguns fatos interessantes... O custo do sequenciamento do genoma humano diminuiu de US$ 1 milhão em 2007 para aprox. US$1 mil in 2012 O DNA humano tem 3 bilhões de pb ~ 100 GB de dados brutos NCI s million genomes initiative: 1 milhão de TB, ou 1000 petabyte, ou 1 Exabyte Driscoll, A. O., Daugelaite, J., & Sleator, R. D. (2013). Big data, Hadoop and cloud computing in genomics. Journal of biomedical informatics.

O gargalo de processamento Software Number of Cores Start Finish Processing Time File sizes Flash 24 9/12/13 22:48 9/12/13 22:48 0:00:53 2 files: 237 Mb and 238 Mb Velveth 1 9/12/13 22:50 9/12/13 22:52 0:01:39 3 files: 100 Mb, 166 Mb and 165 Mb Velvetg 1 9/12/13 22:54 9/12/13 22:59 0:04:53 2 files: 250 Mb and 75 Mb Mira 24 9/12/13 23:11 9/12/13 23:32 0:21:21 2 files: 69 Mb and 6 Mb Glimmer3 1 9/12/13 23:40 9/12/13 23:40 0:00:40 2 files: 6 Mb and 1.4 Mb Blastx 24 9/12/13 23:46 9/13/13 9:23 9:36:15 Against RefSeq (17.411.217 enries) Pipeline processed @ Computational and Systems Biology Lab, Bioinformatics Platform, Instituto Oswaldo Cruz, FIOCRUZ Input Data size: 500MB

NGS: Muito mais dados.. 12 10 8 6 Coluna 1 Coluna 2 Coluna 3 4 2 0 Linha 1 Linha 2 Linha 3 Linha 4

E agora?

Big Data na Saúde Pública

Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento

The Global Public Health Intelligence Network (GPHIN) Sistema de alerta antecipado baseado na Internet (1997) Relatórios preliminares, não confirmados, de importância de saúde pública (por exemplo, surtos de doenças, bioterrorismo) em tempo-real, 24 horas por dia, 7 dias por semana Monitoramento de fontes de mídia global em seis idiomas Árabe, chinês, inglês, francês, russo e espanhol

Google Tendências da Gripe ILI percentages estimated by our model (black) and provided by the CDC (red) in the mid-atlantic region, showing data available at four points in the 2007-2008 influenza season. J Ginsberg et al. Detecting influenza epidemics using search engine query data. Nature 457, 1012-1014 (19 February 2009) doi:10.1038/nature07634

Google Tendências da Gripe http://www.google.org/flutrends/intl/pt_br/ - Acessado em 07/02/2014

Google Tendências da Dengue A comparison of the model-fitted and official case counts dengue epidemic curves in each country. Chan EH, Sahai V, Conrad C, Brownstein JS (2011) Using Web Search Query Data to Monitor Dengue Epidemics: A New Model for Neglected Tropical Disease Surveillance. PLoS Negl Trop Dis 5(5): e1206. doi:10.1371/journal.pntd.0001206

Twitter Monitorando a Gripe Signorini A, Segre AM, Polgreen PM (2011) The Use of Twitter to Track Levels of Disease Activity and Public Concern in the U.S. during the Influenza A H1N1 Pandemic. PLoS ONE 6(5): e19467. doi:10.1371/journal.pone.0019467

Twitter Monitorando a Gripe Signorini A, Segre AM, Polgreen PM (2011) The Use of Twitter to Track Levels of Disease Activity and Public Concern in the U.S. during the Influenza A H1N1 Pandemic. PLoS ONE 6(5): e19467. doi:10.1371/journal.pone.0019467

When Google Got Flu Wrong Nature 494, 155 156 (14 February 2013) doi:10.1038/494155a

Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento

Farmacovigilância Em (White et al., 2013) logs de busca são usados para investigar a relação de hiperglicemia com o uso conjunto de paroxetina e pravastatina 82 milhões de buscas, 6 milhões de usuários, durante 2010 Relação com hiperglicemia confirmada após a pesquisa White R W et al (2013). Web-scale pharmacovigilance: listening to signals from the crowd. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-001482

Farmacovigilância Combinando Dados Em (Harpaz et al., 2013) AERS (Adverse Event Reporting System) e EHR (Electronic Health Records) são combinados para identificar uma nova associação entre rasburicase e pancreatite aguda 4 milhões de AERS (Adverse Event Reporting System), 1.2 milhão de EHR Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930

Farmacovigilância Combinando Dados Foco da pesquisa em três reações adversas: Pancreatite aguda Rabdomiólise Síndrome do QT Longo (QT Prolongation) Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930

Farmacovigilância Combinando Dados Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930

Farmacovigilância Combinando Dados O sistema combinado indicou uma associação entre rasburicase e um nível elevado de enzimas pancreáticas Esta associação não era evidente se considerarmos apenas dados AERS, devido ao seu pequeno número Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930

Farmacovigilância Combinando Dados Uma associação causal entre rasburicase e pancreatite era então desconhecida ( falso positivo, segundo os autores) Evidências de possível associação rasburicase + pancreatite aguda Duas fontes de dados (AERS, EHR) Descrição de caso na literatura (Bauters et al. 2011) Avaliação dos EHR por dois especialistas do NYPH Desafio (readministração de rasburicase) Bauters, T., Mondelaers, V., Robays, H., De Wilde, H., Benoit, Y., & De Moerloose, B. (2011). Methemoglobinemia and hemolytic anemia after rasburicase administration in a child with leukemia. International journal of clinical pharmacy, 33(1), 58-60.

Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento

Predicting Spatial Disease Risk Hay SI, George DB, Moyes CL, Brownstein JS (2013) Big Data Opportunities for Global Infectious Disease Surveillance. PLoS Med 10(4): e1001413. doi:10.1371/journal.pmed.1001413

Mapeamento de doenças transmissíveis Mapeamento da distribuição geográfica de doenças transmissíveis é fundamental para programas de saúde pública De 355 doenças transmissíveis analisadas em (Hay et al., 2013), 174 tem um justificativa forte pra o mapeamento Das 174, apenas 7 foram mapeadas de forma completa Hay SI, Battle KB, Pigott DM, Smith DL, Moyes CL, et al. (2013) Global mapping of infectious disease. Philos Trans R Soc Lond B 368: 20120250. doi: 10.1098/rstb.2012.0250.

Mapeamento de doenças transmissíveis Mapeamento de doenças transmissíveis em tempo-real Integração de mapas estáticos de risco com relatórios de ocorrência atualizados continuamente Integração de diversos tipos de dados heterogêneos

Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento

Cancer Diagnóstico e Tratamento Cancer genomics simultaneous study of multiple types of genetic alterations (Chin et al., 2011) Vários projetos voltados para a caracterização das mutações somáticas (substituições, inserções, deleções, etc.) em todos os tipos de câncer Projetos mais significativos TCGA The Cancer Genome Atlas (EUA) ICGC International Cancer Genome Consortium Chin, L., Andersen, J.N., Futreal, P.A. (2011) Cancer genomics: from discovery science to personalized medicine. Nature Medicine. 17(3): 297-303.

International Cancer Genome Consortium

Cancer Diagnóstico e Tratamento Tecnologias de sequenciamento de nova geração permitem que o sequenciamento completo de genomas seja viável em termos de custo e tempo A caraterização em larga escala do genoma envolve a geração e interpretação de dados em uma escala sem precedentes Análises integradas de genomas associados ao câncer irão gerar hipóteses que precisarão de validação experimental (Chin et al. 2011) Objetivo final: medicina personalizada/de precisão Chin, L., Hahn, W.C., Getz, G., Meyerson, M. (2011) Making sense of cancer genomic data. Genes and Development. 25(6): 534-555.

From Science to Personalized Medicine (Chin et al. 2011) Establishing the reference cancer genome Making sense of the cancer genome Bioinformatics analysis of complex cancer genomic data Functional annotation of the cancer genome Establishing a clinical path hypothesis Elucidating the mechanism of action Chin, L., Andersen, J.N., Futreal, P.A. (2011) Cancer genomics: from discovery science to personalized medicine. Nature Medicine. 17(3): 297-303.

Big Data e Nuvens Computacionais

Cloud Computing: uma definição Cloud computing is a model for enabling convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction NIST Available at http://www.nist.gov/itl/cloud/upload/cloud-def-v15.pdf

Computação em Nuvem: Flexibilidade Vantagens Tecnologia de virtualização Escalabilidade Grande número de nós com velocidade local Acessibilidade Mesmo pequenos laboratórios podem se beneficiar da nuvem

Escalabilidade: Exemplo Schadt, E. E., Linderman, M. D., Sorenson, J., Lee, L., & Nolan, G. P. (2011). Cloud and heterogeneous computing solutions exist today for the emerging big data problems in biology. Nature Reviews Genetics, 12(3), 224-224.

Computação em Nuvem: Desafios Limites de largura de banda Grandes volumes de dados precisam ser transferidos para a nuvem Questões de segurança/privacidade Controle limitado sobre armazenamento e processamento remotos Expertise Adaptação de novas aplicações para a nuvem requer conhecimentos técnicos

Computação em Nuvem: Desafios Limites de largura de banda: exemplo A base de dados do genoma humano Africano (130GB) leva 2220 minutos (~ 37 horas) de tempo de transferência para uma taxa de upload de 1 MB/s Processar este base usando Crossbow leva cerca de 126 minutos usando 64 nós da nuvem da Amazon (c1.xlarge-8 núcleos) Issa, S. A., Kienzler, R., El-Kalioby, M., Tonellato, P. J., Wall, D., Bruggmann, R., & Abouelhoda, M. (2013). Streaming Support for Data Intensive Cloud-Based Sequence Analysis. BioMed research international,2013.

MapReduce MapReduce/Hadoop MapReduce: Ambiente de processamento distribuído inventado pelo Google para processar grandes volumes de dados Dados e cálculos estão espalhados ao longo de milhares de computadores, processando petabytes de dados cada dia Hadoop é a principal implementação de código aberto

MapReduce MapReduce/Hadoop: Vantagens Escalável, eficiente, confiável Fácil de programar Executado em computadores comuns (commodity) MapReduce/Hadoop: Desafios Reprojetar, reimplementar aplicações

Crossbow Cloud Computing em Genômica Pipeline escalável para requenciamento de genomas completos sobre Haddop CloudBurst Mapeamento de leituras curtas sobre Hadoop Myrna Cálculo de expressão diferencial gênica em grandes bases de RNA-seq sobre Hadoop

Contrail Cloud Computing em Genômica Montagem De novo de grandes genomas sobre Hadoop CloudBlast BLAST escalável sobre Hadoop Quake Detecção e correção de erros em leituras de sequências de DNA sobre Hadoop

Cloud Computing em Genômica Mais exemplos de apps. baseadas em Hadoop: CloudAligner BlastReduce CloudBrush GATK Nephele BlueSNP Etc

Crossbow: Hadoop Streaming Langmead, B., Schatz, M. C., Lin, J., Pop, M., & Salzberg, S. L. (2009). Searching for SNPs with cloud computing. Genome Biol, 10(11), R134.

Crossbow: Hadoop Streaming 1. Map (Bowtie): leituras de sequenciamento são mapeadas para o genoma de referência em paralelo. 2. Shuffle: os alinhamentos de seqüência são agregados de modo que todos os alinhamentos no mesmo cromossoma ou locus são agrupados e ordenados por posição. 3. Reduce/Scan (SOAPsnp): os alinhamentos ordenados são checados para identificar SNPs (polimorfismo de nucleotídeo único) dentro de cada região.

Mas...nosso grupo não tem especialistas em nuvens computacionais...eu ainda posso usar a nuvem para processar meus dados?

Galaxy Cloudman

Cloudgene Schönherr, S. et al. (2012). Cloudgene: A graphical execution platform for MapReduce programs on private and public clouds. BMC bioinformatics, 13(1), 200.

Perspectivas Futuras

Perspectivas Futuras Além do Hadoop/Mapreduce Adoção de novos esquemas de paralelismo para processamento de dados genômicos na nuvem. Armazenamento escalável de dados Alta disponibilidade/suporte à Replicação Trabalho preliminar no HBase pela Intel

Perspectivas Futuras Problemas de privacidade Parallel Homomorphic Processing Primeiro esquema completamente homomórfico apresentado em 2009 Colaboração com a UFRJ Processamento de dados clínicos na nuvem?

Perspectivas Futuras Problemas de transferência de dados Avanços Recentes Globus Online (GridFTP) www.globus.org Sobrepor transferência de dados e processamento (streaming-based) Biotorrents

Perspectivas Futuras Langille, M. G., & Eisen, J. A. (2010). BioTorrents: a file sharing service for scientific data. PLoS One, 5(4), e10071.

Obrigado!!! Perguntas? fabs@fiocruz.br Agradecimentos: Alberto Davila, Rodrigo Jardim, Nelson Kotowski (FIOCRUZ)