Cap. 6: Métodos para alinhamento de múltiplas seqüências

Documentos relacionados
Canais discretos sem memória e capacidade do canal

L.J. Amoreira UBI. Dezembro 2010

Compressão e Codificação de Dados. Primeiro Exame e Segundo Teste

universidade federal de pernambuco departamento de estatística

alinhamento global-alinhamento múltiplo de seqüências

Alinhamento de seqüências

Probabilidade, entropia, surpresa, e quantidade de informação 1

Teoria dos Grafos Aula 17

Teoria de distorção da taxa

Principais algoritmos de alinhamento de sequências genéticas. Alexandre dos Santos Cristino

Estatística e Modelos Probabilísticos - COE241

Resumo - capítulo 4 - Alinhamento múltiplo de sequências

PAULO EDUARDO BRANDÃO, PhD DEPARTAMENTO DE MEDICINA VETERINÁRIA PREVENTIVA E SAÚDE ANIMAL FACULDADE DE MEDICINA VETERINÁRIA E ZOOTECNIA UNIVERSIDADE

Protein Homology detection by HMM-comparation.

Alinhamentos de sequências e Busca de Similaridade

Métodos de alinhamento de sequências biológicas. Marcelo Falsarella Carazzolle

canal para sinais contínuos

Alinhamento local- Utilização do BLAST

Teoria da Informação

ALINHAMENTO DE SEQUÊNCIAS

Alinhamentos e Busca de Similaridade. Ariane Machado Lima

Segundo Exame e Repescagem de Testes. Mestrado em Engenharia Electrotécnica e de Computadores, IST 25 de Janeiro de 2014

Alinhamento de sequências

2 Teoria da Informação

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

INTRODUÇÃO À TEORIA DA INFORMAÇÃO

Estatística e Modelos Probabilísticos - COE241

6 Inserção Seletiva de Nulos

Estatística e Modelos Probabilísticos - COE241

Entropia, Entropia Relativa

Comparação e alinhamento de. sequências

Universidade Federal de Mato Grosso - UFMT Probabilidade e Estatística

TE111 Comunicação Digital

Estatística e Modelos Probabilísticos - COE241

Estatística e Modelos Probabilísticos - COE241

Comparação e alinhamento de sequências

Teoria da Informação ( ) Exame de Recurso ( ) Resolução. (1 p), (1 p), p = H(0,4;0,4;0,2) = 1,522

Teoria da Informação

MODELOS PROBABILÍSTICOS

Testes não paramétricos. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

CAPÍTULO 1 Operações Fundamentais com Números 1. CAPÍTULO 2 Operações Fundamentais com Expressões Algébricas 12

Teoria da Informação ( ) Exame de Recurso ( ) Resolução ( ) ( ) 2log2. log log

Modelagem e Análise de Sistemas - COS767

Estatística e Modelos Probabilísticos - COE241

Súmario APRESENTAÇÃO DA COLEÇÃO...13

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Probabilidade. Definição de informação

Sistemas discretos sem memória e codificação da fonte

Árvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015

Matriz de Referência de matemática 9º ano do ensino fundamental

1 a Lista Professor: Claudio Fabiano Motta Toledo Estagiário PAE: Jesimar da Silva Arantes

Resumo - capítulo 5 - Predição da estrutura secundária do RNA

Avaliação e Desempenho Aula 5

Processos Estocásticos. Luiz Affonso Guedes

Probabilidade. Objetivos de Aprendizagem. UFMG-ICEx-EST. Cap. 2 - Probabilidade Espaços Amostrais e Eventos. 2.1.

Resumo - capítulo 3 - Alinhamento de pares de sequências

sobre o grafo probabilístico completo de um sistema de regulação gênica

1 Estatística Descritiva

CONCEITOS BASICOS, ORGANIZAÇÃO E APRESENTAÇÃO DOS RESULTADOS, DISTRIBUIÇÃO DE FREQUÊNCIA

Processos Estocásticos. Introdução. Probabilidade. Introdução. Espaço Amostral. Luiz Affonso Guedes. Fenômenos Determinísticos

4 TEORIA MATEMÁTICA DA COMUNICAÇÃO DE SHANNON

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Testes de Aderência, Homogeneidade e Independência. Prof. Marcos Vinicius Pó Métodos Quantitativos para Ciências Sociais

Testes de Aderência, Homogeneidade e Independência

Projeto Multiresolução de Operadores Morfológicos. Morfológicos a Partir de Exemplos

Resposta da pergunta 2: Θ(n 3 ). Resposta da pergunta 8: 1. 7 O(n). Sim. 22. n log n O(1). Não. 3. n + 7 O(n). Sim. 4. n + 7 O(1). Não.

CONTROLE DE CONTEÚDO MINISTÉRIO DA FAZENDA ASSISTENTE TÉCNICO-ADMINISTRATIVO (ATA-MF)

Unidade III ESTATÍSTICA. Prof. Fernando Rodrigues

Variáveis bidimensionais

Alinhamento de Sequências e Genômica Comparativa

Universidade de São Paulo

Teoria Ergódica (22 a aula)

Estatística e Modelos Probabilísticos - COE241

Modelagem e Análise de Sistemas de Computação Aula 19

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov

Testes de Aderência, Homogeneidade e Independência

Estatística Empresarial. Fundamentos de Probabilidade

Estatística para Cursos de Engenharia e Informática

Dados Moleculares x Morfológicos

COMUNICAÇÃO DIGITAL INTRODUÇÃO À TEORIA DE INFORMAÇÃO

Variáveis bidimensionais

Teoria da Informação

Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE

Cap. 11 Testes de comparação entre duas amostras

Alinhamento Múltiplo de Seqüências Através de Técnicas de Agrupamento

Aula - Introdução a Teoria da Probabilidade

Aula 5. Como gerar amostras de uma distribuição qualquer a partir de sua CDF e de um gerador de números aleatórios?

Inteligência Artificial

Técnicas Computacionais em Probabilidade e Estatística I

TÉCNICAS DE CODIFICAÇÃO DE SINAIS

Alinhamentos de Múltiplas Seqüências. Rogério T. Brito Orientador: José A. R. Soares

Programa Analítico de Disciplina BQI460 Bioinformática

MATRIZ DE REFERÊNCIA-Ensino Médio Componente Curricular: Matemática

6 MATERIA IS UTILIZADOS E PREPARO DOS DADOS

8 JÚLIO CESAR R. PEREIRA

INF 1771 Inteligência Artificial

Aula 03: Análise de algoritmos melhor caso, pior caso e caso médio

Notas sobre crescimento de função

Optimização. Carlos Balsa. Departamento de Matemática Escola Superior de Tecnologia e Gestão de Bragança

Física da Informação Probabilidades

Transcrição:

Cap. 6: Métodos para alinhamento de múltiplas seqüências

Organização O que é um alinhamento múltiplo Escores para alinhamentos múltiplos Relação entre alinhamento múltiplo e análise filogenética Métodos Programação dinâmica multidimensional Algoritmo tradicional Algoritmo MSA Alinhamento progressivo Algoritmo de Feng Doolittle

Organização Alinhamento progressivo com profile (CLUSTALW) Alinhamento múltiplo por treinamento de HMM Com profile HMM conhecido De seqüências desalinhadas

O que é um alinhamento múltiplo Dadas k seqüências (de nucleotídeos ou aminoácidos), inserir gaps em posições destas seqüências de modo que resíduos homólogos fiquem alinhados em colunas. Homologia: estrutural e filogenética. Fig. 6.2, pág. 137: proporção de resíduos estruturalmente homólogos (ou structurally superposable, Chothia & Lesk[1986]) em função da porcentagem de idendidade entre as seqüências.

O que é um alinhamento múltiplo Simplificações para tornar o problema tratável homologia deve ser inferida somente das estruturas primárias (seqüências). homologia deve ser medida quantitativamente por uma função escore. supõe se independência estatística entre as colunas de um alinhamento.

Escores para alinhamento múltiplo SP: sum of pairs para cada coluna: soma dos escores para cada par possível de letras. Exemplo: s(n,n)=6; s(n,c)= 3. s(,a)=custo do gap; s(, )=0; s(a,b) vem da matriz de substituição score BLOSUM62: A:60, B:24, C:6

Escores para alinhamento múltiplo Entropia: quer se o a.m. de entropia mínima p ia : probabilidade de ocorrência do resíduo a na coluna i c ia : contagem do resíduo a na coluna i c ia p = ia c ia' (regularizado com pseudo contadores ou prioris Dirichlet) S m i = a p ia log p ia entropia da coluna i S m = S m i entropia do alinhamento m

Escores para alinhamento múltiplo Um problema com escores SP (sum of pairs) s(l,l)=5; s(l,g)= 4 se temos N Ls numa coluna, o escore é 5N(N+1)/2 se temos N 1 Ls e 1 G numa coluna o escore é 5N(N+1)/2 9 (N+1) a razão entre a diferença de escores e o escore original é 18/5N, que decai com o crescimento de N. Isto é contra intuitivo, pois quanto maior N, maior evidência de conservação naquela coluna, e maior a penalidade que se deve dar a um a.a. diferente de L. (discutível)

Escores para alinhamento múltiplo Este problema ocorre com a entropia? A entropia não pode ser analisada da mesma forma, pois isto implicaria numa divisão por zero. Propomos uma nova função G(X)= K H(X), onde K é o máximo valor possível da entropia. quer se (G(limpo) G(sujo))/G(limpo) = H(sujo)/K : proporcional a H(sujo) Exemplo: dois aminoácidos 0 e 1. H(X)=p(0) log 1/p(0) + p(1) log 1/p(1) p(0)= N 1/N; p(1)=1/n

Escores para alinhamento múltiplo entropia em função de N: H(N)= (N 1)/N log1/((n 1)/N) + (1/N) log 1/(1/N) que decresce com o crescimento de N veja gráfico conclusão: sim, a entropia tem o mesmo problema do SPscore.

(

Noções intuituitivas de teoria de informação Exemplo: Numa certa cidade faz sol em 15/16 dos dias e chove em 1/16 dos dias. O tempo em um dia não influencia os dias seguintes. O meteorologista Fulano diz que só vai fazer sol, e portanto tem uma taxa de erro 1/16. Beltrano acerta 14/15 dos sóis e 1/2 das chuvas. Sua taxa de erro é 1/16+1/32 = 3/32. Qual dos dois está mais certo?

N.I.T.I. Definições: Fonte de símbolos: a cada instante i gera um símbolo x[i] pertencente a um alfabeto. Os símbolos são gerados independentemente e sob a mesma distribuição de probabilidade. Exemplo: ={cara,coroa}; p(cara)=0.6; p(coroa)=0.4 Informação: mede a surpresa causada pela chegada de um símbolo. I(x)= log(1/p(x)) Entropia: valor esperado da informação: H(X)= p(xi) log p(xi) Entropia condicional H(A B)= E( H(A b) ) (Esperança em B da entropia de A dado b). Informação mútua: I(A;B)=H(A) H(A B)

N.I.T.I. Entropia do clima da cidade em questão: H(X)= p(chuva) log p(chuva) p(sol) log p(sol) = 0.3372901 Das afirmações de Fulano, aquele que só diz sol: H(Y) = 0 (entropia) H(X Y) = 0 (entropia do clima, condicionada às afirmações de F.) I(X; Y) = 0 (informação mútua entre o clima e as afirmações de F.) Das afirmações de Beltrano, aquele que diz sol e chuva: H(Z) = 0.4363301 H(Z X) = 15/16 * H(Z sol) + 1/16 * H(Z chuva) = 0.3937744 I(X ; Z) = I(Z; X) = 0.04255577

)