Alinhamento local- Utilização do BLAST

Documentos relacionados
Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

Alinhamento de seqüências

Elisa Boari de Lima Orientador: Thiago de Souza Rodrigues

Programas de Alinhamento. Sumário

Alinhamento de sequências

Identificação de genes por similaridade de seqüência

alinhamento global-alinhamento múltiplo de seqüências

Análise de significância de. alinhamentos

Alinhamentos e Busca de Similaridade. Ariane Machado Lima

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino

Busca em banco de dados

Bases de Dados. Freqüentemente usadas em. Bioinformática

Alinhamento de Seqüências

Bioinformática. João Varela Aulas T7-T8 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, E ENGENHARIA BIOLÓGICA

2 Contexto e Motivações

Bioinformática: QBQ-5722 Anotação Artemis: Passo-a-passo. Prof. Dr. João Carlos Setubal

Nada em Biologia faz sentido senão à luz da evolução.

Busca em banco de dados

3 Análise do programa BlastP

Predição de novo de genes

Bioinformática para o Citrus EST Project (CitEST)

Alinhamentos de sequências e Busca de Similaridade

Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática

Uso de microarrays e RNA-seq para a medida de níveis relativos de transcrição

Transcritômica. João Carlos Setubal IQ/USP outubro de 2013

Dezembro Bioinformática. e Anotação. Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP

Universidade Estadual de Maringá - UEM

Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática

Anotação de genomas II

3 Similaridade e tamanho da seqüência de consulta no BLAST

Explorando genomas: predição de genes e elementos transponíveis Proporção de diferentes sequências no genoma

Comparação entre sequências biológicas

Alinhamento de Sequências e Genômica Comparativa

Sequenciamento de genoma e transcriptomas

Banco de Dados Biológicos

MIDB-OP: um Modelo de Integração de Dados Biológicos apoiado em Ontologias e Procedência de dados Caroline Beatriz Perlin

Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática

Programa de Pós-Graduação Stricto Sensu em Biologia Computacional e Sistemas. Seleção de Mestrado 2012-A

UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer

Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos

Análise de transcriptoma usando a base de dados Kegg Orthology

Marcelo Reis. Centro APTA Citros Sylvio Moreira. 18 de julho de 2007

Protein Classification Tool: Uma ferramenta para anotação de proteínas utilizando bases secundárias

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Protein Classification Tool: Uma ferramenta para anotação de proteínas utilizando bases secundárias

Protein Homology detection by HMM-comparation.

Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda

Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

Introdução à Bioquímica

introdução ao curso

Sequenciamento de genoma e transcriptomas

ELISA BOARI DE LIMA UMA METODOLOGIA PARA IDENTIFICAÇÃO DE MÓDULOS FORMADORES DE SEQUÊNCIAS DE PROTEÍNAS MOSAICAS DO

Número de genes versus número de proteínas em eucariotos

Instituto Superior de Ciências da Saúde-Norte Curso de Bioquímica 2ºAno Projecto Tutorial BIOINFORMÁTICA

Cap. 6: Métodos para alinhamento de múltiplas seqüências

Capítulo 8. Versão 0.4. Filogenômica

Resumo - capítulo 5 - Predição da estrutura secundária do RNA

Biologia Molecular Computacional Homologia

Bioinformática. João Varela Aula T4 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA

IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição

- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma.

Busca de motivos em sequências. João Carlos Setubal IQ-USP 2014

Teoria dos Grafos Aula 17

UMA METODOLOGIA PARA IDENTIFICAÇÃO DE MÓDULOS FORMADORES DE SEQUÊNCIAS DE PROTEÍNAS MOSAICAS DO

3 Uma Ontologia para Sistemas de Gerência de Análises em Biossequências 3.1 Introdução

Instruções 6 Técnicas

6 Instanciações do Framework para Sistemas de Gerência de Análises de Biossequências 6.1 Introdução

Busca de motivos em sequências. João Carlos Setubal 2015

Análise de dados provenientes de técnicas moleculares

Tipos de gráficos disponíveis

Análise do pangenoma de Streptococcus pneumoniae e comparação de genomas dos serótipos 1 e 3

ALINHAMENTO DE SEQUÊNCIAS

A matemática e o genoma. Resumo

Identificação de fatores de transcrição a partir de dados de expressão.

Seqüenciamento de DNA

ANÁLISE DE TANDEM REPEATS CODIFICANTES EM GENOMAS BACTERIANOS

MARCADORES MOLECULARES

TE073 PDS II Programa de Graduação em Engenharia Elétrica

Este capítulo possui uma discussão preliminar do contexto biológico necessário para o entendimento e motivação deste trabalho.

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

1. OBJETIVO: Análises prévias para submissão de sequências utilizadas para desenho de Assays TaqMan (Expressão Gênica e Genotipagem).

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela

Prof. Marcelo Langer. Curso de Biologia. Aula 26 Genética

Turma de terça-feira 14 hs. Total: 31 alunos

DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR

Processamento Digital de Imagens

Anotação de genomas. João C. Setubal 2016

Processamento Digital de Imagens

O que são domínios protéicos

Identificação de Padrões em Proteínas Utilizando a Ferramenta de Bioinformática CD- Search

Montagem de regiões gênicas

Pesquisador em Saúde Pública Prova Discursiva INSTRUÇÕES

Fundamentos da Computação Gráfica

A ABSTRACÇÃO É NOSSA AMIGA

Gene de um organismo Eukariota. Intrões. Codão STOP UTR 5 3. Codão ATG. Exões. Transcrição. 5 Cap 3 poly-a. Splicing. Proteína 3/17/2005 3

TITULO: Implementação do alinhamento de proteínas em GPU utilizando OpenCL PROPOSTA DE TRABALHO DE GRADUAÇÃO

IACB 1º Semestre de 2014/2015. Exercicios de Preparação para o Teste 1

TE073 PDS II Programa de Graduação em Engenharia Elétrica

Transcrição:

Alinhamento local- Utilização do BLAST

BLAST

Tipos de BLAST (blastn) Compara nucleotídeos (blastp) Compara proteínas Utiliza nucleotídeo como query, este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de proteína Utiliza proteína como query, esta é comparada contra banco de nucleotídeo traduzido nos 6 quadros de leitura Utiliza nucleotídeo como query, este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de nucleotídeo traduzido nos 6 quadros de leitura

Submissão de seqüências Blastn Seqüência a ser alinhada ou numero de acesso Bases de dados Busca por palavra chave Programa Megablast + rapido

Parâmetros do blastn Programa: Megablast utiliza seeds maiores (28 bases) fazendo com que o algoritmo seja mais rápido Discontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases sejam coincidentes dentro de um padrão definido. Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível mas também mais lento

Parâmetros do blastn Max Target sequences- Numero de alinhamentos mostrados Short queries- Ajuste automático de parâmetros para seqüências pequenas Expect threshold- Ajuste da exigência mínima de relevância estatistica para seqüência ser mostrada Word size- Tamanho do seed

Parâmetros do blastn Match/Mismatch scores- escores para alinhamento coreto e incorreto Gap costs- Penalização para abertura de gaps Filtros- Filtragem de região de baixa complexidade ou repetições Mascaras- Filtragem de seqüências para busca dos seeds e mascaramento dado pelo usuario

Interpretação do resultado do blast

Interpretação do resultado do blast Accesion Numero de acesso para seqüência alinhada Description- Descrição breve da seqüência Max score- escore máximo resultante de um único HSPs (High-scoring Segment Pairs) Total score- Escore resultante da soma de HSPs Query coverage- Porcentagem da seqüência submetida ao programa que é coberta pelo alinhamento E-value- Parâmetro de confiança Max identity- Identidade máxima obtida por um HSP

Escore do blast Escore do blast O escore do blast é normalizado e é dado pela seguinte equação: l e K são parâmetros estatísticos utilizados utilizada que buscam normalizar os escores de resultados derivados de diferentes matrizes e espaços de busca

expected value (e-value) Parâmetro de confiança do alinhamento Onde E = expect value m e n-tamanho das seqüências alinhadas S - escore normalizado

Relação entre e-value e p-value E p 10 0.99995460 5 0.99326205 2 0.86466472 1 0.63212056 0.1 0.09516258 0.05 0.04877058 0.001 0.00099950 0.0001 0.0001000

Interpretação de e-value O e-value permite-nos ter uma idéia de quão significativos são os alinhamentos que obtemos. Entretanto a interpretação de um resultado nem sempre é trivial e muitas vezes dependo do que o usuário busca (definição de função, busca de motivos conservados, etc..) e também do tamanho da seqüência submetida (seqüências muito pequenas nunca obterão um e-value muito baixo mesmo obtendo um alinhamento perfeito) O fato de termos um e-value significativo não implica que necessariamente podemos postular a função de uma proteína, pois em alguns casos isso reflete meramente a conservação de algum motivo ou domínio que podem esta presentes em proteínas com funções diversas

Interpretação do resultado do blast Traços verticais representam identidade entre nucleotídeos Letras minúsculas em cinza representam trechos mascarados Traços horizontais representam gaps Query- seqüência submetida ao programa Subject- seqüência do banco de dados alinhada a seqüência submetida

Interpretação do resultado do blast Resultado tem dois HSPs (High-scoring Segment Pairs), estatísticas para cada um deles é dada.

Submissão de seqüências Blastp Basicamente o mesmo que o blastn Podem ser utilizados 3 programas: Blastp- algoritimo normal PSI-Blast- Matriz modificada PHI-BLAST-Busca sequencias contendo um motivo indicado pelo usuário Proteína X proteína

Submissão de seqüências Blastp Word size padrão para proteínas é 3 (contra 7 dos nucleotideos), entretanto somente aqueles mais significativos são utilizados como seeds Parâmetros do PSI-blast

Interpretação do resultado do blastp Espaços com letras na linha do meio do alinhamento indicam conservação do aminoácido Sinal + neste espaço indica uma substituição com escore positivo segundo a matriz de substituição utilizada

PSI-BLAST O PSI-blast inicia-se como um blastp normal e recupera proteínas contendo similaridades com a proteína inserida. Entretanto o algoritmo se utiliza das seqüências resultantes desta primeira pesquisa que obtiveram um escore acima de um certo limite para criar uma nova matriz (position-specific score matrix) baseada no alinhamento destas seqüências Esta matriz tenderá a fornecer escores mais altos para regiões conservadas dentro desta família e escores baixos para regiões pouco conservadas Uma nova busca é realizada com esta matriz e com os novos alinhamentos formados uma nova matriz pode ser criada

PSI-Blast Resultado primeiro alinhamento

PSI-Blast Resultado Primeiro alinhamento

PSI-Blast Resultado terceiro alinhamento

Primeiro alinhamento melhor hit Terceiro alinhamento melhor hit Terceiro alinhamento melhor hit do primeiro alinhamento

Interpretação do resultado do blastx Quadro de leitura da tradução da seqüência submetida

Interpretação do resultado do tblastn Quadro de leitura da tradução da seqüência do banco de dados

Interpretação do resultado do tblastx Quadro de leitura da tradução da seqüência submetida Quadro de leitura da tradução da seqüência do banco Provável resultado espúrio devido a conservação de bases no quadro de leitura positivo

Interpretação do resultado do tblastx Quando utilizamos o tblastx muitas vezes temos alinhamentos em quadros de leitura que não possuem nenhum sentido biológico, mas que são similares entre as seqüências devido a pouca divergência entre elas É recomendável quando analisamos uma seqüência de nucleotídeos tentarmos deduzir primeiramente a proteína codificada por este (através da dedução do quadro de leitura mais longo) e após isso utilizar o programa tblastn

Blast 2 sequences Permite a realização de alinhamento local entre duas seqüências Parâmetros semelhante ao do blast

Blast 2 sequences Estatísticas são calculadas levando-se em conta o banco nr do NCBI

BLAST Assembled Genomes

BLAST Assembled Genomes Ab-initio RNA ou proteinseqüências deduzidas a partir de programas de predição de genes utilizando a informação disponível para o organismo Build RNA ou protein- Combinação dos dados de ref- Seq mais as seqüências abinitio (dando preferência a primeira) Traces- Dados brutos de seqüenciamento em larga escala