Alinhamento local- Utilização do BLAST
|
|
|
- Stéphanie Vilaverde Carreira
- 9 Há anos
- Visualizações:
Transcrição
1 Alinhamento local- Utilização do BLAST
2 BLAST
3 Tipos de BLAST (blastn) Compara nucleotídeos (blastp) Compara proteínas Utiliza nucleotídeo como query, este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de proteína Utiliza proteína como query, esta é comparada contra banco de nucleotídeo traduzido nos 6 quadros de leitura Utiliza nucleotídeo como query, este é traduzido nos seus 6 quadros de leitura e é comparado contra banco de nucleotídeo traduzido nos 6 quadros de leitura
4 Submissão de seqüências Blastn Seqüência a ser alinhada ou numero de acesso Bases de dados Busca por palavra chave Programa Megablast + rapido
5 Parâmetros do blastn Programa: Megablast utiliza seeds maiores (28 bases) fazendo com que o algoritmo seja mais rápido Discontiguos megablast- Utiliza seeds maiores, mas exige que apenas algumas bases sejam coincidentes dentro de um padrão definido. Blastn- seeds menores (11 bases, podendo ser ajustado ate 7 bases). Mais sensível mas também mais lento
6 Parâmetros do blastn Max Target sequences- Numero de alinhamentos mostrados Short queries- Ajuste automático de parâmetros para seqüências pequenas Expect threshold- Ajuste da exigência mínima de relevância estatistica para seqüência ser mostrada Word size- Tamanho do seed
7 Parâmetros do blastn Match/Mismatch scores- escores para alinhamento coreto e incorreto Gap costs- Penalização para abertura de gaps Filtros- Filtragem de região de baixa complexidade ou repetições Mascaras- Filtragem de seqüências para busca dos seeds e mascaramento dado pelo usuario
8 Interpretação do resultado do blast
9 Interpretação do resultado do blast Accesion Numero de acesso para seqüência alinhada Description- Descrição breve da seqüência Max score- escore máximo resultante de um único HSPs (High-scoring Segment Pairs) Total score- Escore resultante da soma de HSPs Query coverage- Porcentagem da seqüência submetida ao programa que é coberta pelo alinhamento E-value- Parâmetro de confiança Max identity- Identidade máxima obtida por um HSP
10 Escore do blast Escore do blast O escore do blast é normalizado e é dado pela seguinte equação: l e K são parâmetros estatísticos utilizados utilizada que buscam normalizar os escores de resultados derivados de diferentes matrizes e espaços de busca
11 expected value (e-value) Parâmetro de confiança do alinhamento Onde E = expect value m e n-tamanho das seqüências alinhadas S - escore normalizado
12 Relação entre e-value e p-value E p
13 Interpretação de e-value O e-value permite-nos ter uma idéia de quão significativos são os alinhamentos que obtemos. Entretanto a interpretação de um resultado nem sempre é trivial e muitas vezes dependo do que o usuário busca (definição de função, busca de motivos conservados, etc..) e também do tamanho da seqüência submetida (seqüências muito pequenas nunca obterão um e-value muito baixo mesmo obtendo um alinhamento perfeito) O fato de termos um e-value significativo não implica que necessariamente podemos postular a função de uma proteína, pois em alguns casos isso reflete meramente a conservação de algum motivo ou domínio que podem esta presentes em proteínas com funções diversas
14 Interpretação do resultado do blast Traços verticais representam identidade entre nucleotídeos Letras minúsculas em cinza representam trechos mascarados Traços horizontais representam gaps Query- seqüência submetida ao programa Subject- seqüência do banco de dados alinhada a seqüência submetida
15 Interpretação do resultado do blast Resultado tem dois HSPs (High-scoring Segment Pairs), estatísticas para cada um deles é dada.
16 Submissão de seqüências Blastp Basicamente o mesmo que o blastn Podem ser utilizados 3 programas: Blastp- algoritimo normal PSI-Blast- Matriz modificada PHI-BLAST-Busca sequencias contendo um motivo indicado pelo usuário Proteína X proteína
17 Submissão de seqüências Blastp Word size padrão para proteínas é 3 (contra 7 dos nucleotideos), entretanto somente aqueles mais significativos são utilizados como seeds Parâmetros do PSI-blast
18 Interpretação do resultado do blastp Espaços com letras na linha do meio do alinhamento indicam conservação do aminoácido Sinal + neste espaço indica uma substituição com escore positivo segundo a matriz de substituição utilizada
19 PSI-BLAST O PSI-blast inicia-se como um blastp normal e recupera proteínas contendo similaridades com a proteína inserida. Entretanto o algoritmo se utiliza das seqüências resultantes desta primeira pesquisa que obtiveram um escore acima de um certo limite para criar uma nova matriz (position-specific score matrix) baseada no alinhamento destas seqüências Esta matriz tenderá a fornecer escores mais altos para regiões conservadas dentro desta família e escores baixos para regiões pouco conservadas Uma nova busca é realizada com esta matriz e com os novos alinhamentos formados uma nova matriz pode ser criada
20 PSI-Blast Resultado primeiro alinhamento
21 PSI-Blast Resultado Primeiro alinhamento
22 PSI-Blast Resultado terceiro alinhamento
23 Primeiro alinhamento melhor hit Terceiro alinhamento melhor hit Terceiro alinhamento melhor hit do primeiro alinhamento
24 Interpretação do resultado do blastx Quadro de leitura da tradução da seqüência submetida
25 Interpretação do resultado do tblastn Quadro de leitura da tradução da seqüência do banco de dados
26 Interpretação do resultado do tblastx Quadro de leitura da tradução da seqüência submetida Quadro de leitura da tradução da seqüência do banco Provável resultado espúrio devido a conservação de bases no quadro de leitura positivo
27 Interpretação do resultado do tblastx Quando utilizamos o tblastx muitas vezes temos alinhamentos em quadros de leitura que não possuem nenhum sentido biológico, mas que são similares entre as seqüências devido a pouca divergência entre elas É recomendável quando analisamos uma seqüência de nucleotídeos tentarmos deduzir primeiramente a proteína codificada por este (através da dedução do quadro de leitura mais longo) e após isso utilizar o programa tblastn
28 Blast 2 sequences Permite a realização de alinhamento local entre duas seqüências Parâmetros semelhante ao do blast
29 Blast 2 sequences Estatísticas são calculadas levando-se em conta o banco nr do NCBI
30 BLAST Assembled Genomes
31 BLAST Assembled Genomes Ab-initio RNA ou proteinseqüências deduzidas a partir de programas de predição de genes utilizando a informação disponível para o organismo Build RNA ou protein- Combinação dos dados de ref- Seq mais as seqüências abinitio (dando preferência a primeira) Traces- Dados brutos de seqüenciamento em larga escala
Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle
Métodos de alinhamento de sequências biológicas Marcelo Falsarella Carazzolle Resumo - Introdução - Alinhamentos ótimos - Global - Local (Smith-Waterman) - Semi global - Matrizes de alinhamento (BLOSUM)
Alinhamento de seqüências
Alinhamento de seqüências Qual a importância do alinhamento de seqüências Permite estabelecer identidades entre sequências Permite a dedução de função de proteínas baseado em similaridade Permite a definição
Alinhamento de sequências
Pontifícia Universidade Católica de Goiás Departamento de Biologia Alinhamento de sequências Prof. Macks Wendhell Gonçalves, Msc [email protected] Definição O alinhamento de sequências consiste no
alinhamento global-alinhamento múltiplo de seqüências
alinhamento global-alinhamento múltiplo de seqüências Alinhamento múltiplos de seqüências Qual a importância de se realizar alinhamentos múltiplos em oposição a alinhamentos em pares? Alinhamento múltiplos
Alinhamentos e Busca de Similaridade. Ariane Machado Lima
Alinhamentos e Busca de Similaridade Ariane Machado Lima Busca de identidade Identificar o que é determinada seqüência Ex.acabou de seqüenciar, seria contaminante? Outras fases de um projeto de seqüenciamento
Bases de Dados. Freqüentemente usadas em. Bioinformática
Bases de Dados Freqüentemente usadas em Bioinformática Ana Carolina Q. Simões [email protected] Organização da aula NCBI Translate tool Genome Browser EBI SwissProt KEGG Gene Ontology SMD Revistas relevantes
Alinhamento de Seqüências
18 CAPÍTULO 3 Alinhamento de Seqüências 3.1. Introdução O alinhamento de seqüências consiste no processo de comparar duas seqüências (de nucleotídeos ou proteínas) de forma a se observar seu nível de identidade.
Bioinformática: QBQ-5722 Anotação Artemis: Passo-a-passo. Prof. Dr. João Carlos Setubal
Bioinformática: QBQ-5722 Anotação Artemis: Passo-a-passo Prof. Dr. João Carlos Setubal Na área de trabalho, dentro da pasta QBQ2507, dê um duplo clique no ícone Artemis; O Artemis será carregado. Clique
Nada em Biologia faz sentido senão à luz da evolução.
Marcos T. Geraldo ADAPTABILIDADE Nada em Biologia faz sentido senão à luz da evolução. Theodosius Dobzhansky (1973) 1 Processo de evolução em moléculas de DNA, RNA e proteínas Reconstrução das relações
Busca em banco de dados
Busca em banco de dados Busca em banco de dados A quantidade imensa de dados existentes nos bancos públicos torna critica a existência de ferramentas eficientes que permitam a recuperação de dados desejados
Bioinformática para o Citrus EST Project (CitEST)
Bioinformática para o Citrus EST Project (CitEST) Marcelo da Silva Reis 1 1 Instituto de Matemática e Estatística, Universidade de São Paulo 20 de maio de 2009 Organização da Apresentação Esta apresentação
Explorando bancos de dados genômicos e introdução à bioinformática. Guilherme Targino Valente Marcos Tadeu Geraldo. Bioinformática
Explorando bancos de dados genômicos e introdução à bioinformática Guilherme Targino Valente Marcos Tadeu Geraldo 22/07/2011 Bioinformática É a aplicação de estatística e ciência da computação no campo
Transcritômica. João Carlos Setubal IQ/USP outubro de 2013
Transcritômica João Carlos Setubal IQ/USP outubro de 2013 Objetivo Obter, analisar, e interpretar dados de expressão gênica mrnas (que vão virar proteína) RNAs (que não vão virar proteína; ncrnas) O gene
Dezembro - 2006. Bioinformática. e Anotação. Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP
Dezembro - 2006 Bioinformática e Anotação Eduardo Fernandes Formighieri Laboratório de Genômica e Expressão / UNICAMP Hoje 1. Introdução à Genômica 2. Introdução à Bioinformática 3. Introdução à Anotação
Universidade Estadual de Maringá - UEM
Universidade Estadual de Maringá - UEM Disciplina: Biologia Molecular 6855 T1 e T2 Ciências Biológicas Transcriptoma metodologia ORESTES Profa. Dra. Maria Aparecida Fernandez Estratégia ORESTES ESTs de
Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática
Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática Hoje iremos trabalhar com dois programas free desenvolvidos pelo Sanger institute: Artemis e ACT. Artemis
3 Similaridade e tamanho da seqüência de consulta no BLAST
3 Similaridade e tamanho da seqüência de consulta no BLAST Quando se planeja construir aplicativos que utilizam um agrupamento de computadores no intuito de paralelizar ou distribuir processamento, se
Sequenciamento de genoma e transcriptomas
Sequenciamento de genoma e transcriptomas Por que seqüenciar genomas? O seqüenciamento de genomas é o primeiro passo para obter uma descrição completa da composição molecular de cada organismo, pois todas
Banco de Dados Biológicos
Pontifícia Universidade Católica de Goiás Departamento de Biologia Disciplina: Bioinformática Bio1015 Banco de Dados Biológicos Prof. Macks Wendhell Gonçalves, Msc [email protected] INTRODUÇÃO BANCO
Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática
Tutorial Introdução a anotação e comparação de genomas Tiago Mendes Doutorando em Bionformática Hoje iremos trabalhar com dois programas free desenvolvidos pelo Sanger institute: Artemis e ACT. Artemis
UFPel CDTec Biotecnologia. Anotação de genomas. MSc. Frederico schmitt Kremer
UFPel CDTec Biotecnologia Anotação de genomas MSc. Frederico schmitt Kremer A anotação de um genoma consiste na identificação de suas regiões funcionais ou de relevância biológico, o que pode incluir:
Bioinformática. Alinhamento de Sequências. Prof. Msc. Rommel Ramos
Bioinformática Alinhamento de Sequências Prof. Msc. Rommel Ramos 2013 Sumário 1. Comparação de Sequências 2. O que é alinhamento? 3. Tipos de Alinhamento 4. Algoritmos 5. Métodos de Alinhamento Comparação
Análise de transcriptoma usando a base de dados Kegg Orthology
Análise de transcriptoma usando a base de dados Kegg Orthology BLAST usando 25 mil CDS humanas como query e 500 mil transcritos de tumor de mama como database: $megablast -i h.sapiens.nuc -d tumor.seq
Bioinformática e Genética Animal. Pâmela A. Alexandre Doutoranda
Bioinformática e Genética Animal Pâmela A. Alexandre Doutoranda Descoberta da estrutura do DNA» Watson e Crick, 1953 DNA RNA Proteína Projeto Genoma Humano» 1990» 18 países» US$ 2,7 Bi» 13 anos (previsão
Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO
Universidade Federal de Pelotas Faculdade de Agronomia Eliseu Maciel Programa de Pós-Graduação em Agronomia CENTRO DE GENOMICA E FITOMELHORAMENTO Introdução à Bioinformática Professores: Luciano Maia Antonio
PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE
CONCEITOS EM EPIDEMIOLOGIA E FILOGENIA MOLECULARES PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE DE
Introdução à Bioquímica
Introdução à Bioquímica Nucleotídeos e Ácidos Nucléicos Dra. Fernanda Canduri Laboratório de Sistemas BioMoleculares. Departamento de Física.. UNESP São José do Rio Preto - SP. Genoma! O genoma de um organismo
Sequenciamento de genoma e transcriptomas
Sequenciamento de genoma e transcriptomas Durante décadas o método de Sanger foi praticamente a única opção utilizada para sequenciamento de DNA Nos últimos anos surgiram novas tecnologias de sequenciamento
Número de genes versus número de proteínas em eucariotos
Número de genes versus número de proteínas em eucariotos Bioquímica II SQM0416 Júlia Assirati Tomie Kuriyama Victória Montenegro de Campos Resumo Introdução Características do genoma humano Como foram
Resumo - capítulo 5 - Predição da estrutura secundária do RNA
Resumo - capítulo 5 - Predição da estrutura secundária do RNA Pedro Ivo Gomes de Faria Sumário 1 Introdução 2 1.1 Fundamentos da predição da estrutura do RNA........ 2 1.2 Características da estrutura
Biologia Molecular Computacional Homologia
Biologia Molecular Computacional Homologia Luiz Thibério Rangel O que é homologia? Conceito básico para estudos de genômica comparativa; Passo inicial para estudos de filogenia(omica); Importante para
Bioinformática. João Varela [email protected]. Aula T4 CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA
Bioinformática CURSOS EM BIOLOGIA, BIOQUÍMICA, BIOTECNOLOGIA, CIÊNCIAS BIOMÉDICAS E ENGENHARIA BIOLÓGICA João Varela [email protected] Aula T4 Esquema de anotação Annothaton 1. Determinar a localização das
IBM1029 Introdução à Bioinformática. O Início da Bioinformática 27/03/2017. Aula 2. O Início. Bioionformática: definição
IBM1029 Introdução à Bioinformática Profa Dra Silvana Giuliatti Departamento de Genética FMRP [email protected] O Início da Bioinformática Aula 2 O Início Trabalho de Margaret Dayhoff e colaboradores:
- Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma.
Sequenciamento de genomas - Sequenciamento de genomas nada mais é que a determinação da ordem linear dos nucleotídeos ou bases nitrogenadas de um genoma. O sequenciamento de um genoma é geralmente referido
Busca de motivos em sequências. João Carlos Setubal 2015
Busca de motivos em sequências João Carlos Setubal 2015 Cadeias exatas Podem ser encontradas com o mecanismo de busca de qualquer editor de textos Que algoritmo é executado? O mais simples (e que é muito
Análise de dados provenientes de técnicas moleculares
CIIMAR Curso de formação Análise de dados provenientes de técnicas moleculares Formadores: Filipe Pereira e Filipe Lopes Manual do Curso 1 Índice Objetivo Geral do Curso... 3 Público-alvo... 3 Objetivos
Tipos de gráficos disponíveis
Página 1 de 18 Excel > Gráficos > Criando gráficos Tipos de gráficos disponíveis Mostrar tudo O Microsoft Excel dá suporte a vários tipos de gráficos para ajudar a exibir dados de maneiras que sejam significativas
ALINHAMENTO DE SEQUÊNCIAS
Disciplina de BIOLOGIA COMPUTACIONAL Mestrado em ENGENHARIA BIOMÉDICA 4º Ano, 1º Semestre 2007/08 ALINHAMENTO DE SEQUÊNCIAS Relatório 2 Ana Calhau Ângela Pisco Nuno Santos 54605 55748 55746 Palavras-Chave:
A matemática e o genoma. Resumo
I Coloquio Regional da Região Centro-Oeste, 3 a 6 de novembro de 2009 Universidade Federal de Mato Grosso do Sul Mini-curso A matemática e o genoma Nalvo F. Almeida Jr. Resumo Os avanços da biotecnologia
Identificação de fatores de transcrição a partir de dados de expressão.
Identificação de fatores de transcrição a partir de dados de expressão. Márcio Augusto Afonso de Almeida Laboratório de Genética e Cardiologia Molecular InCor. Introdução Técnicas de expressão global permitem
Seqüenciamento de DNA
Seqüenciamento de DNA Profa. Dra. Aline Maria da Silva Instituto de Química- USP Bibliografia: Recombinant DNA James Watson & Michael Gilman Guia de Rotas na Tecnologia do Gene Matthew Walker & Ralph Rapley
MARCADORES MOLECULARES
ESALQ/USP MARCADORES MOLECULARES Base genética dos marcadores e usos no melhoramento de plantas e em estudos de diversidade genética e conservação Departamento de Genética ESTUDO DIRIGIDO 1. O que são
Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica. João Varela
Bioinformática Licenciaturas em Biologia, Bioquímica, Biotecnologia, Engenharia Biológica João Varela [email protected] Docentes João Varela (bioinformática: conceitos, bases de dados, aplicações, pesquisa
Prof. Marcelo Langer. Curso de Biologia. Aula 26 Genética
Prof. Marcelo Langer Curso de Biologia Aula 26 Genética MATERIAL GENÉTICO A primeira atividade é a de orientação do DNA para formar a proteína, que será responsável pela característica genética. DNA é
DEFINIÇÕES EM EPIDEMIOLOGIA MOLECULAR E CONCEITOS BÁSICOS EM BIOLOGIA MOLECULAR
DEFINIÇÕES EM E DEFINIÇÕES EM E CONCEITOS BÁSICOS EM BIOLOGIA PARA QUE SERVE ESTA AULA 1. DEFINIÇÕES EM CONCEITUAÇÃO DE DIFERENCIAÇÃO ENTRE, TAXONOMIA E FILOGENIA 2. CONCEITOS EM BIOLOGIA APRESENTAR (REVER)
Processamento Digital de Imagens
Ciência da Computação Processamento Digital de Imagens Propriedades de Imagem Digital Prof. Sergio Ribeiro Tópicos Propriedades de uma Imagem Digital Vizinhança Conectividade Operações Lógicas e Aritméticas
Processamento Digital de Imagens
Ciência da Computação Processamento Digital de Imagens Propriedades de Imagem Digital Prof. Sergio Ribeiro Tópicos Propriedades de uma Imagem Digital Vizinhança e Aritméticas Efeitos de em Pixel a Pixel
O que são domínios protéicos
Domínios protéicos O que são domínios protéicos Domínios protéicos é uma parte da cadeia polipeptídica que pode de enovelar independentemente para formar uma estrutura compacta e estável A existência de
Pesquisador em Saúde Pública Prova Discursiva INSTRUÇÕES
Bioinformática Pesquisador em Saúde Pública Prova Discursiva 1. Você recebeu do fiscal o seguinte material: INSTRUÇÕES a) Este Caderno de Questões contendo o enunciado das 2 (duas) questões da prova discursiva.
Fundamentos da Computação Gráfica
Fundamentos da Computação Gráfica Trabalho 2 Visão. Detecção de cantos. Manuel Alejandro Nodarse Moreno (1322198) Introdução. Detecção de cantos é uma abordagem utilizada em sistemas de visão computacional
