Introdução à Bioinformática

Documentos relacionados
Anotação de Genomas. Fabiana G. S. Pinto

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática

Introdução ao SRS Sequence Retrieval System. Marcelo Falsarella Carazzolle

Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela

Dezembro Bioinformática. e Anotação. Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP

Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática

Bioinformática. Trabalho prático enunciado complementar. Notas complementares ao 1º enunciado


Introdução à Bioinformática. Prof.

COMPILADORES E INTERPRETADORES

ANÁLISE GENÔMICA, MAPEAMENTO E ANÁLISE DE QTLs

1.1. Organização de um Sistema Computacional

Pesquisador em Saúde Pública Prova Discursiva INSTRUÇÕES

Algoritmos e Estrutura de Dados. Introdução a Linguagem Python (Parte I) Prof. Tiago A. E. Ferreira

AMBIENTE DE PROGRAMAÇÃO PYTHON

Uso do calcário no solo Desenvolvimento de pesticidas e fertilizantes. Máquinas a vapor substituindo a força animal

Dadas a base e a altura de um triangulo, determinar sua área.

MC-102 Aula 01. Instituto de Computação Unicamp

Resolução de problemas e desenvolvimento de algoritmos

Introdução a Informática. Prof.: Roberto Franciscatto

ANÁLISE GENÔMICA, MAPEAMENTO E ANÁLISE DE QTLs

CONHECIMENTOS ESPECÍFICOS

FundamentosemInformática

O objetivo desta prática é ensinar como usar a máquina chamada computador visível ou vc0, um simulador de computador de von Neumann escrito em Java.

Análise de Dados de Expressão Gênica

Bioinformática Aula 01

Linguagens de Programação. Linguagens de Script. Carlos Bazilio

Bioinformática. João Varela Aula T4 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA

Novas Tecnologias de Sequenciamento

Conexões entre matemática e biologia

ICC Introdução para JavaScript

INTRODUÇÃO: 1 - Conectando na sua conta

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

FTIN Formação Técnica em Informática Módulo de Administração de Servidores de Rede AULA 03. Prof. Gabriel Silva

Programa Interunidades de Pós-Graduação em Bioinformática - Universidade de São Paulo

Aula 01 Visão Geral do Linux

AULA 4 VISÃO BÁSICA DE CLASSES EM PHP

CURSO SOBRE ACESSO ÀS BIBLIOTECAS ON-LINE DA MEDLINE/PubMed

PRODUTO 1 (CONSTRUÇÃO DE PORTAL WEB)

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.

Analise filogenética baseada em alinhamento de domínios

O que são domínios protéicos

Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

Pesquisador em Saúde Pública Prova Discursiva INSTRUÇÕES

Universidade Federal de Santa Maria UFSM Centro de Tecnologia CT. Power Point. Básico

CURSO B SICO DE PERL

Sequenciamento de genomas

SAIBA MAIS SOBRE O LINUX E DESCUBRA QUAL DISTRIBUIÇÃO É MELHOR PARA VOCÊ! CURSO

Desenvolvendo Websites com PHP

Sistema de Arquivos FAT

Noções de. Microsoft SQL Server. Microsoft SQL Server

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Modelagem por Homologia passo-a-passo. Prof. Rommel Ramos

O que é um programa? Programa é uma lista de instruções que descrevem uma tarefa a ser realizada pelo computador.

O modelo do computador

Curso Técnico em Redes

ALGORITMOS PARTE 01. Fabricio de Sousa Pinto

Acadêmicos: Luís Fernando Martins Nagata Gustavo Rezende Vinícius Rezende Santos

Aula 02. Introdução ao Linux

objetivos Complexidade dos genomas II AULA Pré-requisitos

INTRODUÇÃO À PROGRAMAÇÃO BCC 201 TURMAS 31, 32 E AULA TEÓRICA 2 PROF. MARCELO LUIZ SILVA (R E D)

Engenharia de Software III

APOSTILA DE EXCEL 2007

COMPARAÇÃO DE SEQÜÊNCIAS DE DNA

Introdução à Computação

Sistemas Operacionais. Prof. M.Sc. Sérgio Teixeira. Aula 05 Estrutura e arquitetura do SO Parte 1. Cursos de Computação

Bases de Dados. O ficheiro create-bank.sql contém um conjunto de instruções SQL para criar a base de dados de exemplo ilustrada na figura 1.

A Linguagem Pascal e o Ambiente de Programação Dev-Pascal. Introdução à Ciência da Computação I

Conceitos básicos de programação

SIMULADO DE INFORMÁTICA BÁSICA TÉCNICO DO MPU PROF. ALEXANDRE LÊNIN / PROF. JUNIOR MARTINS

Curso de Verão Bioinformática

Miguel Rocha Dep. Informática - Universidade do Minho. BIOINFORMÁTICA: passado, presente e futuro!!

Introdução à Lógica de Programação

MICROSOFT OFFICE EXCEL 2007

Projeto de Redes Neurais e MATLAB

Feature-Driven Development

ESTRUTURAS DE DADOS II

O Processo de Programação

Laboratório - Uso da calculadora do Windows com endereços de rede

Metabolismo de RNA: Transcrição procarioto/eucarioto

Introdução. Capítulo Breve sinopse

Bioinformática para o Citrus EST Project (CitEST)

AULA TEÓRICA 2 Tema 2. Conceitos básicos de informática, computadores e tecnologias de informação. Sistemas de numeração (continuação)

Lidar com números e estatísticas não é fácil. Reunir esses números numa apresentação pode ser ainda mais complicado.

Programação Web Prof. Wladimir

Questionário. A ferramenta auxilia na alocação de Não (0) x x x. Satisfatório (5) complexidade de um caso de uso? de uso (72) Sim (10)

Esta dissertação apresentou duas abordagens para integração entre a linguagem Lua e o Common Language Runtime. O objetivo principal da integração foi

PLANO DE ESTUDOS DE T.I.C. 7.º ANO

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

VisTrails. Fernando Seabra Chirigati Aluno de Engenharia de Computação e Informação COPPE/UFRJ fernando_seabra@cos.ufrj.br

7.012 Conjunto de Problemas 5

INTRODUÇÃO À LINGUAGEM C/C++

UNIVERSIDADE FEDERAL DE VIÇOSA BIOINFORMÁTICA ESTRUTURAL: PREDIÇÃO DE ESTRUTURA 3D DE PROTEÍNAS

PUCRS CURSO DE CIÊNCIAS BIOLÓGICAS Genética I AULA PRÁTICA APLICAÇÕES DAS TÉCNICAS DE PCR E ELETROFORESE DE DNA

Transcrição:

Introdução à Bioinformática Sónia Andrade setembro/2012 ESALq - USP 1

O que é bioinformática... é a pesquisa, desenvolvimento e aplicação de ferramentas e abordagens computacionais que permitem o uso de de dados biológicos, comportamentais ou da área de saúde, incluindo sua aquisição, organização, visualização, análise e armazenamento (http://www.bisti.nih.gov/compubiodef.pdf) National Center for Biotechnology Information

Origem - Universidade de Ultrecht, Grupo de Bioinformática, final dos anos 1970 - Paulien Hogeweg e Ben Hesper "the study of information processes in biotic systems". - Desde então a área de bioinformática engloba um número grande de assuntos interdisciplinares incluindo biologia de sistemas, biologia computacional e genômica Sequenciamento do genoma humano 2001

Métodos tradicionais em bioinformática - Procura na literatura e buscas (NCBI Entrez e Blast) - Análises de dados de sequenciamento (análise de restrição, mapeamento de plasmídeos, desenho de primers, procura por ORFs) - Obtenção da sequência consenso a partir de sequenciamento direto 4

Citocromo oxidase I 5

Uso de algoritmos para adquirir novos conhecimentos biológicos Uso de conhecimentos biológicos na construção de algoritmos

Algoritmos Afinal, o que é um algoritmo? Uma receita passo a passo para um cálculo Exemplo: Alinhamento de 2 sequências Método deslize a sequência 1 com sequência 2 e conte os pb que são coincidentes Algoritmo ao longo do comprimento da seq 1 - compare a base na posição 1 da seq 2 com posição 1 da seq 1, conte coincidentes - repita com todas posições - registre a posição de todas bases coincidentes Implementação escreva um código que exceute esses algoritmo em uma linguagem que o sistema computacional entenda 7

Nosso problema GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT < > CTAGAAGAGCGTAGTCAGAGTGTGTTTGAGTTCC?????? GATGCCATAGAGCTGTAGTCGTGTGTTTGACCTCT >CTAGAGAGCGTAGTCAGAGTGTGTTTGAGTTCC < 8

Por que nosso algoritmo não funcionou? Algoritmos de comparação par-a-par não funcionam bem pq não refletem a realidade biológica da similaridade entre sequências Mas porque não? Não sabe o que fazer com os indels Logo não sabe o que fazer com as regiões internas de similaridade Isso é um problema do algoritmo ou de sua implementação? Não, o problema aqui é o método Precisa conhecer a biologia do sistema Normalmente cientistas da computação criam algoritmos de bioinformática não muito úteis

Um problema biológico pode ser solucionado por vários algoritmos diferentes: - possíveis resultados diferentes - diferentes quantidade de tempo de cálculo - pesquisador define o melhor trade off Um tipo de algoritmo pode ser aplicável a diversos problemas biológicos Difícil saber qual é a melhor solução possível Quanto mais os algoritmos existentes não proporcionam a solução adequada, mais ativa é a área de pesquisa Uma solução ótima mas que leva bilhões de anos para calcular não é satisfatória! 10

Mas preciso saber muito de computação? - Bioinformática pode ser encarada como uma ferramenta como o PCR - Biólogos deveriam ser capazes de escrever seus próprios programas e construir base de dados? -na verdade não, mas seria extremamente vantajoso - está na crista da onda Two months in the lab can easily save an afternoon on the computer. Alan Bleasby, 1997 11

12

Mas qual sistema usar? Mac OS X e Linux - Sistema Unix É possível em Windows: Cygwin, um portal de ambiente Unix 13

Na maioria das distribuições o shell onde se digita a linha de comando se chama bash

Bash script #!/bin/bash for ARQ in $(ls *.fasta) do bsub -q giribet -R "span[ptile=4]" -n 4 -e $ARQ.err -o $ARQ.out -J $ARQ.job blastx -query $ARQ -db nr -gilist /n/nobackup2/giribet/sandrade/blast_db/fungi_metazoa.gi -outfmt 5 -max_target_seqs 5 -evalue 1e-5 -out $ARQ.blx done 15

Scripts Funções escritas utilizando linguagens avançadas, como perl (.pl), python (.py) ou R (.r), onde o programa é interpretado ao longo da análise #!/usr/bin/perl use warnings; #use Bio::SeqIO; use Bio::AlignIO; $informat="fasta"; $outformat="phylip"; #$count = 0; for $infile (@ARGV) { $in = Bio::AlignIO->new(-file => $infile, -format => $informat); $outfile = $infile.".phy"; $out = Bio::AlignIO->new(-file => ">$outfile", -format => $outformat, -interleaved => 0, -longid => 1); while ( my $aln = $in->next_aln ) { $out->write_aln($aln); # $count++; } } #warn "Translated $count sequences from $informat to $outformat format\n" warn "Converted file @ARGV sequences from $informat to $outformat format\n" 16

Scriptome http://sysbio.harvard.edu/csb/resources/computational/scriptome/ 17

Programas compilados Se referem a arquivos executáveis que já tem seu código pré-compilado ou seja Não possuem um arquivo texto onde vc possa fazer alterações (ou se vc faz, tem que ser compilado novamente) 18

Repositórios de programas livres https://github.com/ http://sourceforge.net/ 19

Onde analisar seus dados? 1000-Pentium Beowulf-Style Cluster Computer 1999 HPTC cluster -4096 processadores, 16 TB mem - 2008 20

Aplicações da área de Bioinformática Análise de bases de dados de DNA & proteína Alinhamentos múltiplos Similaridade, alinhamento e montagem Padrões de domínios/motifs de proteínas (Pfam, Blocks, ProDom) Padrões de sequências/motifs de DNA (promotores, fatores de transcrição, regiões intrônicas) Reconstrução filogenética Predição de genes Análise de expressão de microarranjos Análise de SNPs Predição da estrutura de proteínas Mapeamento dos caminhos metabólicos e regulatórios Ontologias 21

Genômica Aplicação do sequenciamento de nova geração para biologia molecular Permite o estudo dos genomas completos (e dos transcriptomas, proteomas, metabolômicas...) 22

Análise Genômica de larga escala - lida-se com uma quantidade muito grande de dados Cria-se uma base de dados do lab Utiliza-se de ferramentas de bioinformática em grupos de dados Necessário saber linguagem de programação -estudos de expressão diferencial, classificação e predição de genes -genômica funcional caminhos funcionais, classificção da ontologia -identificação de SNPs, GWA (Genome Wide Association) 23

Um dos grandes desafios... Enorme quantidade de dados Muitas novas sequências Sequenciamento direto Sequenciamento de genomas Sequenciamento de EST Sequenciamento ambiental/metagenômica O GenBank tem mais de 140 Bilhões de bases!!! E continua crescendo Processadores não dão conta

Busca de sequências Como procurar uma sequência similar às minhas? Ferramentas usando arquivos FASTA, faz-se uma busca heurística no BLAST (Basic Local Alignment Search Tool) Como decidir: resultados estatísticos e bom senso 25

Arquivos Fasta >Mytilusedulis TGGAGGAAAAGCTCCAAGAAAACAACTTGCCACCAAGGCCGC CCGTAAGAGCGCACCTGCCACAGGTGGAGTTAAGAAGCCACA TAGATACAGGCCAGGAACAGTCGCTCTTCGTGAGATCAGAAGA TACCAGAAAAGTACTGAACTCCTCATCAGGAAACTCCCCTTCC AGAGATTAGTTCGTGAAATTGCTCAAGACTTCAAGACTGATCTT CGTTTCCAGAGCTCTGCCGTTATGGCCCTCCAGGAAGCCAGT GAAGCTTACCTCGTTGGTCTTTTCGAGGACACCAACTTGTGTG CAATCCACGCCAAGAG >Golfingiaelongata TGGTGGCAAAGCCCCAAGGAAGCAACTGGCCACCAAGGCAG CCCGCAAGAGCGCCCCAGCSACAGGGGGAGTGAAGAAACCC CACAGGTACAGGCCTGGCACAGTCGCCCTGAGAGAAATCAGA AGGTACCAGAAGAGCACTGAACTTCTCATCAGGAAGCTGCCCT TCCAGCGTCTGGTGCGAGAAATTGCCCAGGACTTCAAGACTG ACCTCAGGTTCCAGAGCTCCGCCGTCATGGCTCTCCAGGAGG CCAGCGAGGCCTACCTTGTTGGACTGTTTGAGGACACCAACC TGTGCGCCATCCACGCCAAACG 26

BLAST 27

Algoritmo do Blast 28

Resultado BLAST 29

30

31

Projeto Genoma O genoma humano é decodificado cerca de 3,2 bilhões de pares de base 32

Mais genomas 33

Sequenciamento de Nova Geração fastq @HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAACCTTTACATAC TGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGATACTTTGA + b eeeeeggege]ghdhghiiihhiiifwefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggidm\`d`dac]]bc`_ ]b``bbb`bbz_`z @HWI-H201:67:D13FRACXX:5:1101:1875:1922 1:N:0:CGATGT NTTGCAAGTCATTGAACTTAGGGGAAAAGAAGTACTTTATGGCTCATTAAACAGGC CACTCAACACAACAACATACTTTTATAAATAAAATTTGCTAAGC + BP\ccccc\ceeehhhhhhhhhhhheehhhedefhehhhbdhheedehdecehhdehhhehhhhheedde eea a Z`bbcdd`caaaZ_Z ```Y^ cromatograma

Cerca de 76800 pb Cerca de 150 bilhões pb

Mas como são esses dados? Arquivos FASTQ Identificação do read/leitura @HWI-H201:67:D13FRACXX:5:1101:1590:1975 1:N:0:CGATGT CTTTCAAATCCATGTTTGATTAACCCTCGGAAAGCATGAGCAATAA CCTTTACATACTGATTTAAGAAAAAGTTCAGTGGTCCTAGCTTTGAT ACTTTGA + b eeeeeggege]ghdhghiiihhiiifwefae]ffg`]egdfhfafca^eghhiiiiiiiihiideggi dm\`d`dac]]bc`_]b``bbb`bbz_`z Score de qualidade

Paired end e Single end Ozsolak e Milos (2011) 37

Como checar a qualidade dessas sequências? Programa FASTQC 38

39

Mas o que fazer com as sequências que não estão boas?? préprocessamento Após thinning e trimming 40

Alinhamento contra o genoma de referência

Se temos um genoma de referência é fácil visualizar se o alinhamento ficou bom ou não

E quando não há um genoma de referência? Montagem de novo Gráficos De Brujin

Como saber se sua montagem de novo ficou boa ou não? Usando parâmetros como: Tamanho dos contigs Número dos contigs maior que 1000pb N50 * é o tamanho minímo do contig que contém 50% das bases utilizadas na montagem Exemplo: Se vc tem 1000 pares de base para fazer a montagem e seu N50 = 300, isso quer dizer que 500 pb estão dentro de contigs com tamanho 300 pb 44

Faça um blast!! Tubulanus punctatus dados da plataforma 454 - Roche 4217 contigs! 1885 identificados pelo Blast Todos Blast hits (e<10-4) 45

E em seguida se faz a anotação dos contigs Anotação estrutural consiste na identificação do elementos de genoma ORFs e sua localização Estrutura do gene Regiões codificadoras Localizaçào dos motifs reguladores Anotação funcional consiste em dar informação biológica aos elementos do genoma Função bioquímica Função biológica Regulação da expressão e interações 46

Anotação Funcional As propriedades dos produtos gênicos se encaixam em 3 categorias: Funções Moleculares Processos Biológicos Componentes Celulares DAG 47

O projeto Gene Ontology é uma iniciativa entre pesquisadores com o objetivo de padronizar a representação do genes e dos atributos desse genes em várias espécies e bases de dados. O projeto proporciona um vocabulário controlado de termos para descrever os produtos do gene e os dados de anotação do consórcio GO, assim como também ferramentas para acessar e processar esses dados. 48

50

51

Análise de expressão diferencial Quantificando a expressão RPKM: Reads Per Kilobase per Million mapped reads RPKM = C/LN C : número de reads mapeados em uma região determinada L: tamanho da região (em pb) N: número total de reads mapeados (em milhões) 52

Exemplo do cálculo de RPKM

Quantificando expressão: FPKM FPKM: Fragments Per Kilobase of transcript per Million fragments mapped Análogo ao RPKM mas não usa o número de reads As abundâncias relativas dos transcritos são descritas em termos de objetos biológicos esperados (fragmentos); a expressão relativa dos transcritos é proporcional ao número de fragmentos de cdna que geraram os mesmos

55

Nectophores rpm (mean) 1M Nectophore Enriched p<0.05 p<0.01 p<0.00 10k 100 1 Gastrozooid Enriched 0.01 0.01 1 100 10k 1M

Visualização de análises de RNA-seq

Análise de enriquecimento existem diferenças de expressão entre categorias pré-definidas? (Alguma categoria é enriquecida?) Categorias comumente usadas: Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG) Outras categorias PRÉ-definidas (cromossomo, tecido expresso, etc). 59

Como funciona? 1.Genes são divididos em categorias 2.conta-se quantos genes diferencialmente expressos existem por categoria 3. teste estatístico comparando distribuição de genes diferencialmente expressos entre categorias 60

Análise de enriquecimento existem diferenças de expressão entre categorias pré-definidas? (Alguma categoria é enriquecida?) Categorias comumente usadas: Gene Ontology (GO), Kyoto Encyclopedia of Genes and Genomes (KEGG) Outras categorias PRÉ-definidas (cromossomo, tecido expresso, etc). 61

Aula Prática Enriquecimento das ontologias GO usando GOrilla (http://cbl-gorilla.cs.technion.ac.il/) 62

Dados do traballho: Comparação da expressão diferencial entre células tumorosas do tipo TNBC e não TNBC 63

Objetivos - Procurar quais são os genes enriquecidos nas diferentes ontologias: Processos biológicos, funções moleculares e componentes celulares - Visualização e compressão dos DAG (gráficos acíclicos direcionado) 64

Exercício 1. fazer análise comparando os genes significativos em relação ao total de genes identificados Exercício 2. fazer análise somente com os genes significativos ranqueados para cada tipo de câncer 65