Big Data e Nuvens Computacionais Aplicações em Saúde Pública Fabrício Alves Barbosa da Silva Programa de Computação Científica Programa de Biologia Computacional e Sistemas Fundação Oswaldo Cruz - FIOCRUZ IASIS 2014
Sumário Big Data e o fenômeno de Inundação de Dados (Data Deluge) Big Data na saúde pública Big Data e Nuvens Computacionais Perspectivas Futuras
Big Data Uma definição Big data is a term used to describe information assemblages that make conventional data, or database, processing problematic due to any combination of their size (volume), frequency of update (velocity), or diversity (variety) Hay SI, George DB, Moyes CL, Brownstein JS (2013) Big Data Opportunities for Global Infectious Disease Surveillance. PLoS Med 10(4): e1001413. doi:10.1371/journal.pmed.1001413
The Data Deluge In the last five years, more scientific data has been generated than in the entire history of mankind. You can imagine what s going to happen in the next five. Winston Hide, associate professor of bioinformatics at Harvard School of Public Health. The promise of big data. HSPH News, Spring/Summer 2012
Exemple: Genbank http://www.ncbi.nlm.nih.gov/genbank/statistics Accessed on Oct 22, 2013
Evolução do Seq. DNA Stein, L. D. (2010). The case for cloud computing in genome informatics. Genome Biol, 11(5), 207.
Alguns fatos interessantes... O custo do sequenciamento do genoma humano diminuiu de US$ 1 milhão em 2007 para aprox. US$1 mil in 2012 O DNA humano tem 3 bilhões de pb ~ 100 GB de dados brutos NCI s million genomes initiative: 1 milhão de TB, ou 1000 petabyte, ou 1 Exabyte Driscoll, A. O., Daugelaite, J., & Sleator, R. D. (2013). Big data, Hadoop and cloud computing in genomics. Journal of biomedical informatics.
O gargalo de processamento Software Number of Cores Start Finish Processing Time File sizes Flash 24 9/12/13 22:48 9/12/13 22:48 0:00:53 2 files: 237 Mb and 238 Mb Velveth 1 9/12/13 22:50 9/12/13 22:52 0:01:39 3 files: 100 Mb, 166 Mb and 165 Mb Velvetg 1 9/12/13 22:54 9/12/13 22:59 0:04:53 2 files: 250 Mb and 75 Mb Mira 24 9/12/13 23:11 9/12/13 23:32 0:21:21 2 files: 69 Mb and 6 Mb Glimmer3 1 9/12/13 23:40 9/12/13 23:40 0:00:40 2 files: 6 Mb and 1.4 Mb Blastx 24 9/12/13 23:46 9/13/13 9:23 9:36:15 Against RefSeq (17.411.217 enries) Pipeline processed @ Computational and Systems Biology Lab, Bioinformatics Platform, Instituto Oswaldo Cruz, FIOCRUZ Input Data size: 500MB
NGS: Muito mais dados.. 12 10 8 6 Coluna 1 Coluna 2 Coluna 3 4 2 0 Linha 1 Linha 2 Linha 3 Linha 4
E agora?
Big Data na Saúde Pública
Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento
The Global Public Health Intelligence Network (GPHIN) Sistema de alerta antecipado baseado na Internet (1997) Relatórios preliminares, não confirmados, de importância de saúde pública (por exemplo, surtos de doenças, bioterrorismo) em tempo-real, 24 horas por dia, 7 dias por semana Monitoramento de fontes de mídia global em seis idiomas Árabe, chinês, inglês, francês, russo e espanhol
Google Tendências da Gripe ILI percentages estimated by our model (black) and provided by the CDC (red) in the mid-atlantic region, showing data available at four points in the 2007-2008 influenza season. J Ginsberg et al. Detecting influenza epidemics using search engine query data. Nature 457, 1012-1014 (19 February 2009) doi:10.1038/nature07634
Google Tendências da Gripe http://www.google.org/flutrends/intl/pt_br/ - Acessado em 07/02/2014
Google Tendências da Dengue A comparison of the model-fitted and official case counts dengue epidemic curves in each country. Chan EH, Sahai V, Conrad C, Brownstein JS (2011) Using Web Search Query Data to Monitor Dengue Epidemics: A New Model for Neglected Tropical Disease Surveillance. PLoS Negl Trop Dis 5(5): e1206. doi:10.1371/journal.pntd.0001206
Twitter Monitorando a Gripe Signorini A, Segre AM, Polgreen PM (2011) The Use of Twitter to Track Levels of Disease Activity and Public Concern in the U.S. during the Influenza A H1N1 Pandemic. PLoS ONE 6(5): e19467. doi:10.1371/journal.pone.0019467
Twitter Monitorando a Gripe Signorini A, Segre AM, Polgreen PM (2011) The Use of Twitter to Track Levels of Disease Activity and Public Concern in the U.S. during the Influenza A H1N1 Pandemic. PLoS ONE 6(5): e19467. doi:10.1371/journal.pone.0019467
When Google Got Flu Wrong Nature 494, 155 156 (14 February 2013) doi:10.1038/494155a
Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento
Farmacovigilância Em (White et al., 2013) logs de busca são usados para investigar a relação de hiperglicemia com o uso conjunto de paroxetina e pravastatina 82 milhões de buscas, 6 milhões de usuários, durante 2010 Relação com hiperglicemia confirmada após a pesquisa White R W et al (2013). Web-scale pharmacovigilance: listening to signals from the crowd. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-001482
Farmacovigilância Combinando Dados Em (Harpaz et al., 2013) AERS (Adverse Event Reporting System) e EHR (Electronic Health Records) são combinados para identificar uma nova associação entre rasburicase e pancreatite aguda 4 milhões de AERS (Adverse Event Reporting System), 1.2 milhão de EHR Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930
Farmacovigilância Combinando Dados Foco da pesquisa em três reações adversas: Pancreatite aguda Rabdomiólise Síndrome do QT Longo (QT Prolongation) Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930
Farmacovigilância Combinando Dados Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930
Farmacovigilância Combinando Dados O sistema combinado indicou uma associação entre rasburicase e um nível elevado de enzimas pancreáticas Esta associação não era evidente se considerarmos apenas dados AERS, devido ao seu pequeno número Harpaz R et al. Combing signals from spontaneous reports and electronic health records for detection of adverse drug reactions. J Am Med Inform Assoc doi:10.1136/amiajnl-2012-000930
Farmacovigilância Combinando Dados Uma associação causal entre rasburicase e pancreatite era então desconhecida ( falso positivo, segundo os autores) Evidências de possível associação rasburicase + pancreatite aguda Duas fontes de dados (AERS, EHR) Descrição de caso na literatura (Bauters et al. 2011) Avaliação dos EHR por dois especialistas do NYPH Desafio (readministração de rasburicase) Bauters, T., Mondelaers, V., Robays, H., De Wilde, H., Benoit, Y., & De Moerloose, B. (2011). Methemoglobinemia and hemolytic anemia after rasburicase administration in a child with leukemia. International journal of clinical pharmacy, 33(1), 58-60.
Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento
Predicting Spatial Disease Risk Hay SI, George DB, Moyes CL, Brownstein JS (2013) Big Data Opportunities for Global Infectious Disease Surveillance. PLoS Med 10(4): e1001413. doi:10.1371/journal.pmed.1001413
Mapeamento de doenças transmissíveis Mapeamento da distribuição geográfica de doenças transmissíveis é fundamental para programas de saúde pública De 355 doenças transmissíveis analisadas em (Hay et al., 2013), 174 tem um justificativa forte pra o mapeamento Das 174, apenas 7 foram mapeadas de forma completa Hay SI, Battle KB, Pigott DM, Smith DL, Moyes CL, et al. (2013) Global mapping of infectious disease. Philos Trans R Soc Lond B 368: 20120250. doi: 10.1098/rstb.2012.0250.
Mapeamento de doenças transmissíveis Mapeamento de doenças transmissíveis em tempo-real Integração de mapas estáticos de risco com relatórios de ocorrência atualizados continuamente Integração de diversos tipos de dados heterogêneos
Big Data e Saúde Pública Monitoramento epidemiológico Farmacovigilância Mapeamento dinâmico de risco de doenças transmissíveis Câncer diagnóstico e tratamento
Cancer Diagnóstico e Tratamento Cancer genomics simultaneous study of multiple types of genetic alterations (Chin et al., 2011) Vários projetos voltados para a caracterização das mutações somáticas (substituições, inserções, deleções, etc.) em todos os tipos de câncer Projetos mais significativos TCGA The Cancer Genome Atlas (EUA) ICGC International Cancer Genome Consortium Chin, L., Andersen, J.N., Futreal, P.A. (2011) Cancer genomics: from discovery science to personalized medicine. Nature Medicine. 17(3): 297-303.
International Cancer Genome Consortium
Cancer Diagnóstico e Tratamento Tecnologias de sequenciamento de nova geração permitem que o sequenciamento completo de genomas seja viável em termos de custo e tempo A caraterização em larga escala do genoma envolve a geração e interpretação de dados em uma escala sem precedentes Análises integradas de genomas associados ao câncer irão gerar hipóteses que precisarão de validação experimental (Chin et al. 2011) Objetivo final: medicina personalizada/de precisão Chin, L., Hahn, W.C., Getz, G., Meyerson, M. (2011) Making sense of cancer genomic data. Genes and Development. 25(6): 534-555.
From Science to Personalized Medicine (Chin et al. 2011) Establishing the reference cancer genome Making sense of the cancer genome Bioinformatics analysis of complex cancer genomic data Functional annotation of the cancer genome Establishing a clinical path hypothesis Elucidating the mechanism of action Chin, L., Andersen, J.N., Futreal, P.A. (2011) Cancer genomics: from discovery science to personalized medicine. Nature Medicine. 17(3): 297-303.
Big Data e Nuvens Computacionais
Cloud Computing: uma definição Cloud computing is a model for enabling convenient, on-demand network access to a shared pool of configurable computing resources (e.g., networks, servers, storage, applications, and services) that can be rapidly provisioned and released with minimal management effort or service provider interaction NIST Available at http://www.nist.gov/itl/cloud/upload/cloud-def-v15.pdf
Computação em Nuvem: Flexibilidade Vantagens Tecnologia de virtualização Escalabilidade Grande número de nós com velocidade local Acessibilidade Mesmo pequenos laboratórios podem se beneficiar da nuvem
Escalabilidade: Exemplo Schadt, E. E., Linderman, M. D., Sorenson, J., Lee, L., & Nolan, G. P. (2011). Cloud and heterogeneous computing solutions exist today for the emerging big data problems in biology. Nature Reviews Genetics, 12(3), 224-224.
Computação em Nuvem: Desafios Limites de largura de banda Grandes volumes de dados precisam ser transferidos para a nuvem Questões de segurança/privacidade Controle limitado sobre armazenamento e processamento remotos Expertise Adaptação de novas aplicações para a nuvem requer conhecimentos técnicos
Computação em Nuvem: Desafios Limites de largura de banda: exemplo A base de dados do genoma humano Africano (130GB) leva 2220 minutos (~ 37 horas) de tempo de transferência para uma taxa de upload de 1 MB/s Processar este base usando Crossbow leva cerca de 126 minutos usando 64 nós da nuvem da Amazon (c1.xlarge-8 núcleos) Issa, S. A., Kienzler, R., El-Kalioby, M., Tonellato, P. J., Wall, D., Bruggmann, R., & Abouelhoda, M. (2013). Streaming Support for Data Intensive Cloud-Based Sequence Analysis. BioMed research international,2013.
MapReduce MapReduce/Hadoop MapReduce: Ambiente de processamento distribuído inventado pelo Google para processar grandes volumes de dados Dados e cálculos estão espalhados ao longo de milhares de computadores, processando petabytes de dados cada dia Hadoop é a principal implementação de código aberto
MapReduce MapReduce/Hadoop: Vantagens Escalável, eficiente, confiável Fácil de programar Executado em computadores comuns (commodity) MapReduce/Hadoop: Desafios Reprojetar, reimplementar aplicações
Crossbow Cloud Computing em Genômica Pipeline escalável para requenciamento de genomas completos sobre Haddop CloudBurst Mapeamento de leituras curtas sobre Hadoop Myrna Cálculo de expressão diferencial gênica em grandes bases de RNA-seq sobre Hadoop
Contrail Cloud Computing em Genômica Montagem De novo de grandes genomas sobre Hadoop CloudBlast BLAST escalável sobre Hadoop Quake Detecção e correção de erros em leituras de sequências de DNA sobre Hadoop
Cloud Computing em Genômica Mais exemplos de apps. baseadas em Hadoop: CloudAligner BlastReduce CloudBrush GATK Nephele BlueSNP Etc
Crossbow: Hadoop Streaming Langmead, B., Schatz, M. C., Lin, J., Pop, M., & Salzberg, S. L. (2009). Searching for SNPs with cloud computing. Genome Biol, 10(11), R134.
Crossbow: Hadoop Streaming 1. Map (Bowtie): leituras de sequenciamento são mapeadas para o genoma de referência em paralelo. 2. Shuffle: os alinhamentos de seqüência são agregados de modo que todos os alinhamentos no mesmo cromossoma ou locus são agrupados e ordenados por posição. 3. Reduce/Scan (SOAPsnp): os alinhamentos ordenados são checados para identificar SNPs (polimorfismo de nucleotídeo único) dentro de cada região.
Mas...nosso grupo não tem especialistas em nuvens computacionais...eu ainda posso usar a nuvem para processar meus dados?
Galaxy Cloudman
Cloudgene Schönherr, S. et al. (2012). Cloudgene: A graphical execution platform for MapReduce programs on private and public clouds. BMC bioinformatics, 13(1), 200.
Perspectivas Futuras
Perspectivas Futuras Além do Hadoop/Mapreduce Adoção de novos esquemas de paralelismo para processamento de dados genômicos na nuvem. Armazenamento escalável de dados Alta disponibilidade/suporte à Replicação Trabalho preliminar no HBase pela Intel
Perspectivas Futuras Problemas de privacidade Parallel Homomorphic Processing Primeiro esquema completamente homomórfico apresentado em 2009 Colaboração com a UFRJ Processamento de dados clínicos na nuvem?
Perspectivas Futuras Problemas de transferência de dados Avanços Recentes Globus Online (GridFTP) www.globus.org Sobrepor transferência de dados e processamento (streaming-based) Biotorrents
Perspectivas Futuras Langille, M. G., & Eisen, J. A. (2010). BioTorrents: a file sharing service for scientific data. PLoS One, 5(4), e10071.
Obrigado!!! Perguntas? fabs@fiocruz.br Agradecimentos: Alberto Davila, Rodrigo Jardim, Nelson Kotowski (FIOCRUZ)