Genômica e Proteômica
Técnicas de sequenciamento Entre 1975 e 1977 desenvolvidas técnicas de sequenciamento de DNA. Sanger criou o método de sequenciamento baseado no alongamento do DNA. Maxam e Gilbert desenvolveram um segundo método baseado na degradação química do DNA O método de Sanger tornou-se o método padrão e é utilizado até hoje.
Método de Sanger O fragmento a ser sequenciado é usado como molde para fazer novas cópias da molécula de DNA. Na reação são colocados desoxirribonuclesídeos trifosfatos (dntps) e também didesoxirribonucleosídeos trifosfatos (ddntps), que são nucleotídeos especiais, os quais não tem o grupo 3 - OH. Quando os ddntps são incorporados na cadeia que está sendo sintetizada, a reação é interrompida, pois não tem a 3 -OH para adicionar o próximo nucleotídeo.
Método de Sanger Resultado da reação: fragmentos terminando em diferentes posições. Os dntps são marcado com fluorescências, de modo que possa ser detectado depois. Durante a reação, serão formados fragmentos de todos os tamanhos possíveis.
Método de Sanger ddntps marcados com fluorescência. Leitura do sequenciamento com os picos de fluorescência e a sequência de nucleotídeos
Método de Sanger
Sequenciamento de nova geração Nos últimos anos surgiram novas técnicas de sequenciamento do DNA. Essas novas técnicas foram chamadas de sequenciamento de nova geração. Essas novas plataformas de sequenciamento permitiram aos pesquisadores fazer trabalhos que antes seriam impossíveis pela limitação técnica.
Sequenciamento de nova geração Com essas plataformas é possível sequenciar uma quantidade maior de DNA em um período menor de tempo e a um custo mais baixo. Por exemplo, o Projeto Genoma Humano demorou 13 anos para sequenciar o genoma humano inteiro a um custo de 2,7 bilhões de dólares. Em 2008 o genoma humano foi sequenciado com essa nova abordagem em 5 meses a um custo de 1,5 milhões de dólares.
2 a Geração de Sequenciadores NGS Next Generation Sequencing Fim da era de tecnologias baseadas em eletroforese Alta capacidade de geração de dados: genomas em única corrida. Métodos alternativos à clonagem tradicional
Pirosequenciamento Roche (454) GS FLX sequencer Massively parallel amplification Emulsão de água em óleo DNA polymerase ATP sulfurylase Luciferase Apyrase Substrates: adenosine 5' phosphosulfate (APS) e luciferina
Pirosequenciamento Fragmentação do DNA Ligação à adaptadores Captura em esferas 1 fragmento por esfera Adaptadores
Pirosequenciamento Lâmina óptica de 44 um de diâmetro Uma esfera por orifício
Pirosequenciamento Cada base é adicionada separadamente
Pirosequenciamento
Pirosequenciamento Análise dos resultados https://www.youtube.com/watch?v=bnkehogvcai
Illumina (Solexa)
Illumina https://www.youtube.com/watch?v=womkfikwlxm
Ion Torrent
Ion Torrent
Ion Torrent https://www.youtube.com/watch?v=wybzbxifuks
Genômica: NGS Next Generation Sequencing ABI 3730xl Roche/454 FLX Illumina/Solexa GA ABI SOLiD Ion Torrent ABI 3730xl Roche/454 FLX Illumina/Solexa ABI SOLiD Ion Torrent Método Sanger Pirosequenciamento Sequenciamento por Síntese Sequenciamento por Ligação Sequenciamento por semicondutor Dados/run 290 Kb ~300 Mb ~7 Gb > 15 Gb > 1Gb Tempo/run 1 hora 5 horas 3-7 dias 10 dias 4 hora e meia Tamanho ~500-800 pb ~200-500 pb ~35-100 pb ~25-35 pb ~200 pb Custo/run $48 $6.800 $9.300 $11.000 $ 600.00
3 a Geração de Sequenciadores Capacidade de sequenciamento de uma única molécula de DNA. Sem necessidade de amplificação. Era da nanotecnologia Altíssima capacidade de geração de dados genoma humano em única corrida.
Sequenciamento 3 a geração Pacific Biosciences SMRT sequencing (Single Molecule Real Time Sequencing) PacBio RS II Sequenciamento de uma única molécula de DNA Sem necessidade de amplificação Altíssima capacidade de geração de dados: Genoma humano em única corrida
Genômica: Sequenciamento SMRT Janela de observação em nano- escala (ZMW) DNA polimerase adere a uma base transparente de nanotubos cilindricos de metal. Uma molécula de DNA se liga a polimerase com bases fosfoligadas Fluorescência liberada quando o fosfato é clivado. A luz é detectada e transformada em dado de sequência 20.000 X mais rápido que o método de Sanger Placa com milhares de cilindros em nano-escala
Sinal fluorescente é detectado de uma janela com interferência mínima de luz https://www.youtube.com/watch?v=v8p4ph2mavi
Fluoróforos diferenciados Fluoróforo traditional ligado a base nitrogenada Fluoróforo Fosfo-ligado (SMRT)
NÚMERO DE READS Sequenciamento SMRT TAMANHO DOS READS Sequencia longas moléculas de DNA (MÉDIA >10,000 pb) Até 10 bases por segundo Limitado pela velocidade de detecção, não pela polimerase.
Gigabites de dados por rodada (Log) Evolução do sequenciamento Tamanho dos reads (Log)
Sequências de Genomas Completos (até 2008) Mais de 2000 vírus 1325 plasmideos 1373 mitocôndrias 131 cloroplastos 109 archaea 687 bactérias 23 eucariotos Ferramentas de Bioinformática são essenciais para entender os dados de sequenciamento. John Wiley & Sons, Inc.
John Wiley & Sons, Inc.
Genômica estrutural A genômica é uma área da genética que estuda a estrutura e a função de genomas inteiros. Na década de 80, pesquisadores começaram a se unir em grandes equipes, fazendo um esforço conjunto para o sequenciamento de genomas inteiros. Surgiram então os Projetos Genoma, que tinham como objetivo conhecer a sequência de nucleotídeos de uma determinada espécie.
Genômica Estrutural Essa abordagem é conhecida como Genômica Estrutural e tais projetos geram uma quantidade muito grande de dados de sequências das mais diversas espécies, sendo que essa informação é armazenada em bancos de dados de acesso público, como o GenBank.
Genômica Estrutural A genômica estrutural está relacionada ao sequenciamento e à compreensão do conteúdo dos genomas. Uma das abordagens é primeiro caracterizar o genoma através de mapas genéticos e físicos de seus cromossomos. Estes mapas fornecem informações sobre as localizações relativas dos genes, marcadores moleculares e segmentos cromossômicos, que em geral são essenciais para o alinhamento de trechos de sequenciamentos de DNA em uma sequência total do genoma.
Mapas Genéticos Os mapas genéticos tem como objetivo determinar a posição de um certo número de marcadores genéticos em relação ao outro. Para esse tipo de análise é necessário que tenha polimorfismo e que tenham grandes famílias disponíveis para a análise de segregação, fornecendo uma localização aproximada dos genes com relação à outros genes ou marcadores, cuja localização é conhecida.
Mapas Genéticos As distâncias nos mapas genéticos são medidas em porcentagem de recombinação (centimorgans, cm) ou unidades de mapa. Os dados de vários cruzamentos de dois pontos ou três pontos podem ser integrados em mapas de ligação para cromossomos inteiros.
Mapas Genéticos Limitações: a primeira é a resolução. O genoma humano inclui 3,4 bilhões de pares de bases de DNA e tem uma distância genética total de cerca de 4.000 cm, uma média de 850.000 pb/cm. Mesmo se ocorresse um marcador a cada centimorgan, a resolução em relação à estrutura física do DNA ainda seria bem baixa. Um segundo problema com os mapas genéticos é que eles nem sempre correspondem precisamente a distâncias físicas entre os genes. Os mapas genéticos são baseados nas taxas de recombinação, que variam um pouco de uma parte do cromossomo para outra. Apesar disso, os mapas genéticos foram críticos para o desenvolvimento de mapas físicos e o sequenciamento de genomas inteiros.
Mapas Físicos Os mapas físicos referem-se a molécula de DNA. Trata-se de determinar a posição dos genes no cromossomo, assim como a distância em nucleotídeos entre os genes. O mapa físico final é constituído pela sequência completa do DNA.
Mapas Físicos Uma maneira de fazer um mapa físico é conectar trechos isolados do DNA genômico que foram clonados em bactérias ou leveduras. Os mapas físicos em geral têm maior resolução e são mais precisos que os mapas genéticos. Existem várias técnicas: o mapeamento de restrição, que determina as posições dos sítios de restrição no DNA e a hibridização in situ com fluorescência (FISH), na qual os marcadores podem ser visualmente mapeados a locais nos cromossomos; e o sequenciamento do DNA
Correlação dos mapas genéticos, citológicos e físicos, dos cromossomos A localização cromossômica dos genes e outros marcadores moleculares podem ser mapeados com base nas frequências de recombinação, posição relativa de marcas citológicas ou distâncias físicas. John Wiley & Sons, Inc.
Correlação de mapas Genético, Citológico e Físico
Mapas Genético: é baseado na frequência de recombinação. Citológico: é baseado no padrão de bandeamento dos cromossomos. Físico: é baseado em distâncias moleculares. Marcadores âncora: são mapeados geneticamente e fisicamente e podem ser usados para correlacionar os mapas. John Wiley & Sons, Inc.
Sequenciamento baseado em mapa Não é possível sequenciar um genoma completo de uma única vez, os métodos sequenciam pequenos trechos de DNA de cada vez, portanto um problema após sequenciar os fragmentos é ordená-los. O processo de montagem requer a criação inicial de mapas físicos e genéticos detalhados do genoma, que fornecem localizações conhecidas de marcadores genéticos (sítios de restrição, outros genes, ou sequências de DNA conhecidas) em intervalos regularmente espaçados ao longo de cada cromossomo. Esses marcadores depois são usados para alinhar os curtos fragmentos sequenciados em sua ordem correta.
Sequenciamento shotgun Neste enfoque, clones de inserções pequenas são preparados diretamente do DNA genômico e sequenciados. Para a construção da biblioteca genômica o DNA é fragmentado através de uma digestão parcial com enzimas de restrição, de modo que obtemos fragmentos sobrepostos, que permitem a reconstrução da sequência completa. Programas de computação montam o genoma inteiro examinando a superposição de clones de pequenas inserções. A necessidade de superposição significa que a maioria do genoma será sequenciada várias vezes (em geral de 10 a 15 vezes).
Projetos Genoma Início da década de 80: os métodos para mapeamento e sequenciamento de fragmentos de DNA estavam em um estágio de desenvolvimento que permitiu aos pesquisadores pensar em projetos de sequenciar todo o genoma humano. Foi feita uma colaboração internacional para realizar o Projeto do Genoma Humano.
Projeto do Genoma Humano O Projeto do Genoma Humano foi iniciado em outubro de 1990, com prazo de conclusão de 15 anos e foi dirigido por James Watson. O projeto contava com a participação de cerca de 5000 cientistas em 250 diferentes laboratórios. Em 1993, mapas físicos em grande escala foram completados para todos os 23 pares de cromossomos humanos. Ao mesmo tempo, as técnicas de sequenciamento automatizado haviam sido desenvolvidas, tomando factível o sequenciamento em larga escala.
Projeto do Genoma Humano O esforço inicial para sequenciamento do genoma foi um projeto público consistindo na colaboração internacional que formou o Intemational Human Genome Sequencing Consortium.
Projeto do Genoma Humano Em 1998, Craig Venter anunciou que lideraria a empresa chamada Celera Genomics em um esforço privado de sequenciar o genoma humano. Os esforços públicos e privados avançaram simultaneamente, mas usaram enfoques diferentes. O Human Genome Consortium usou um enfoque baseado em mapas;
Projeto do Genoma Humano A Celera Genomics usou um enfoque shotgun de genoma inteiro para determinar a sequência do genoma humano, embora os mapas genético e físico produzidos pelo esforço público tenham ajudado a Celera a montara sequência final.
Projeto do Genoma Humano Em 1999 foi anunciado o primeiro rascunho do genoma humano e o esboço inicial foi publicado na revista científica Nature em fevereiro de 2001 com cobertura de cerca de 90 por cento do genoma. Em 2003, um comunicado de imprensa anunciou que o projeto fora concluído com sucesso, com o sequenciamento de 99% do genoma humano com uma precisão de 99,99%.
Genomas no Brasil No Brasil também foram realizados projetos genoma. O projeto Genoma da FAPESP começou em 1997 e sequenciou o genoma da bactéria Xylella fastidiosa, que causa a praga do amarelinho nos laranjais. Para realizar esse projeto, formou-se uma rede com 192 pesquisadores. No Paraná também foi realizado um projeto genoma (GENOPAR), que sequenciou o genoma da bactéria fixadora de nitrogênio, o Herbaspirillum seropedicae.
Banco de dados O portal do NCBI permite acessar diferentes bancos de dados (http://www.ncbi.nlm.nih.gov/). Entre eles podemos destacar alguns como o PubMed, que permite busca na literatura biomédica, o OMIM (online Mendelian Inheritance in Man) e o banco de sequências (GenBank).
Bancos de dados Tem mais de 100 bilhões de bases armazenadas. Temos o genoma completo de diversas espécies, como o homem, o chimpanzé e o cão, apenas para citar alguns, mas é possível sequenciar o DNA não apenas de espécies vivas, mas também a partir de material de espécies já extintas. Em 2010 foi publicado o rascunho do genoma do homem de Neandertal, que é evolutivamente muito próximo dos humanos atuais, e viveu na Ásia e Europa, tendo desaparecido a cerca de 30.000 anos atrás. O DNA foi extraído a partir de 3 fragmentos de ossos.
Fragmentos de ossos de Neandertal usados para a extração de DNA. Fonte: Max Planck Institute for Evolutionary Anthropology As sequências de DNA do Neandertal podem ser acessadas no banco de dados do Ensembl: http://projects.ensembl.org/neandertal/
Proteômica É a ciência que estuda o conjunto de proteínas contidas numa célula
Proteômica
Proteômica Algumas aplicações: Desenvolvimento de drogas a partir de proteínas Estudos básicos de biologia celular e molecular Modificações pós-traducionais Identificação de marcadores moleculares: Desenvolvimento; Doenças; Terapias.
Proteômica Separação das proteínas Eletroforese bidimensional: Primeira dimensão: focalização isoelétrica, que separa as proteínas em função da sua carga. Segunda dimensão: as proteínas são separadas por peso molecular. O gel é corado com azul de Coomassie ou com prata. Pontos no gel são proteínas que migraram para locais específicos.
Proteômica Um ponto no gel pode ser recortado e analisado em um espectrômetro de massa. O mapeamento de massa identifica uma proteína partindo-a em peptídeos curtos e deduz depois a identidade da proteína através da comparação entre as massas observadas dos peptídeos e uma base de dados de sequências. A espectrometria de massa sequencial, por outro lado, pode obter a informação sequencial de peptídeos individuais isolando-os, fazendo-os colidir com um gás não reativo e catalogando em seguida os íons dos fragmentos assim produzidos.
Proteômica
Focalização isoelétrica As moléculas anfotéras migram sob a ação de um campo elétrico em um gel contendo um gradiente de ph. A migração se interrompe quando as proteínas atingirem seu ponto isoelétrico.
Focalização isoelétrica Gradientes imobilizados de ph - IPG
Focalização isoelétrica Reidratação das tiras e aplicação das amostras
Focalização isoelétrica
Eletroforese em gel de poliacrilamida (SDS-PAGE) As proteínas reduzidas migram sob a ação de um campo elétrico e a separação ocorre de acordo com o peso molecular da proteína em relação ao tamanho dos poros do gel.
SDS-PAGE
Coloração
Coloração
Software de análise
Espectrometria de massa
Espectrometria de massa
Banco de dados A partir das massas detectadas para os peptídeos é possível comparar o espectro obtido com os espectros teóricos de proteínas depositadas em bancos de dados.
Exemplo de aplicação: Câncer Comparative proteomics analysis of human gastric cancer Wei Li, Jian-Fang Li, Ying Qu, Xue-Hua Chen, Jian-Min Qin, Qin-Long Gu, Min Yan, Zheng-Gang Zhu, Bing-Ya Liu World J Gastroenterol 2008 October 7; 14(37): 5657-5664
Câncer normal câncer
Cromatografia líquida Outra maneira de fazer a separação inicial de proteínas é através de cromatografia líquida, na qual há uma separação de proteínas hidrofílicas e hidrofóbicas.
Cromatografia líquida bidimensional e mobilidade iônica: identificaram 10.390 proteínas expressas em oligodendrócitos.