Cap. 6: Métodos para alinhamento de múltiplas seqüências
Organização O que é um alinhamento múltiplo Escores para alinhamentos múltiplos Relação entre alinhamento múltiplo e análise filogenética Métodos Programação dinâmica multidimensional Algoritmo tradicional Algoritmo MSA Alinhamento progressivo Algoritmo de Feng Doolittle
Organização Alinhamento progressivo com profile (CLUSTALW) Alinhamento múltiplo por treinamento de HMM Com profile HMM conhecido De seqüências desalinhadas
O que é um alinhamento múltiplo Dadas k seqüências (de nucleotídeos ou aminoácidos), inserir gaps em posições destas seqüências de modo que resíduos homólogos fiquem alinhados em colunas. Homologia: estrutural e filogenética. Fig. 6.2, pág. 137: proporção de resíduos estruturalmente homólogos (ou structurally superposable, Chothia & Lesk[1986]) em função da porcentagem de idendidade entre as seqüências.
O que é um alinhamento múltiplo Simplificações para tornar o problema tratável homologia deve ser inferida somente das estruturas primárias (seqüências). homologia deve ser medida quantitativamente por uma função escore. supõe se independência estatística entre as colunas de um alinhamento.
Escores para alinhamento múltiplo SP: sum of pairs para cada coluna: soma dos escores para cada par possível de letras. Exemplo: s(n,n)=6; s(n,c)= 3. s(,a)=custo do gap; s(, )=0; s(a,b) vem da matriz de substituição score BLOSUM62: A:60, B:24, C:6
Escores para alinhamento múltiplo Entropia: quer se o a.m. de entropia mínima p ia : probabilidade de ocorrência do resíduo a na coluna i c ia : contagem do resíduo a na coluna i c ia p = ia c ia' (regularizado com pseudo contadores ou prioris Dirichlet) S m i = a p ia log p ia entropia da coluna i S m = S m i entropia do alinhamento m
Escores para alinhamento múltiplo Um problema com escores SP (sum of pairs) s(l,l)=5; s(l,g)= 4 se temos N Ls numa coluna, o escore é 5N(N+1)/2 se temos N 1 Ls e 1 G numa coluna o escore é 5N(N+1)/2 9 (N+1) a razão entre a diferença de escores e o escore original é 18/5N, que decai com o crescimento de N. Isto é contra intuitivo, pois quanto maior N, maior evidência de conservação naquela coluna, e maior a penalidade que se deve dar a um a.a. diferente de L. (discutível)
Escores para alinhamento múltiplo Este problema ocorre com a entropia? A entropia não pode ser analisada da mesma forma, pois isto implicaria numa divisão por zero. Propomos uma nova função G(X)= K H(X), onde K é o máximo valor possível da entropia. quer se (G(limpo) G(sujo))/G(limpo) = H(sujo)/K : proporcional a H(sujo) Exemplo: dois aminoácidos 0 e 1. H(X)=p(0) log 1/p(0) + p(1) log 1/p(1) p(0)= N 1/N; p(1)=1/n
Escores para alinhamento múltiplo entropia em função de N: H(N)= (N 1)/N log1/((n 1)/N) + (1/N) log 1/(1/N) que decresce com o crescimento de N veja gráfico conclusão: sim, a entropia tem o mesmo problema do SPscore.
(
Noções intuituitivas de teoria de informação Exemplo: Numa certa cidade faz sol em 15/16 dos dias e chove em 1/16 dos dias. O tempo em um dia não influencia os dias seguintes. O meteorologista Fulano diz que só vai fazer sol, e portanto tem uma taxa de erro 1/16. Beltrano acerta 14/15 dos sóis e 1/2 das chuvas. Sua taxa de erro é 1/16+1/32 = 3/32. Qual dos dois está mais certo?
N.I.T.I. Definições: Fonte de símbolos: a cada instante i gera um símbolo x[i] pertencente a um alfabeto. Os símbolos são gerados independentemente e sob a mesma distribuição de probabilidade. Exemplo: ={cara,coroa}; p(cara)=0.6; p(coroa)=0.4 Informação: mede a surpresa causada pela chegada de um símbolo. I(x)= log(1/p(x)) Entropia: valor esperado da informação: H(X)= p(xi) log p(xi) Entropia condicional H(A B)= E( H(A b) ) (Esperança em B da entropia de A dado b). Informação mútua: I(A;B)=H(A) H(A B)
N.I.T.I. Entropia do clima da cidade em questão: H(X)= p(chuva) log p(chuva) p(sol) log p(sol) = 0.3372901 Das afirmações de Fulano, aquele que só diz sol: H(Y) = 0 (entropia) H(X Y) = 0 (entropia do clima, condicionada às afirmações de F.) I(X; Y) = 0 (informação mútua entre o clima e as afirmações de F.) Das afirmações de Beltrano, aquele que diz sol e chuva: H(Z) = 0.4363301 H(Z X) = 15/16 * H(Z sol) + 1/16 * H(Z chuva) = 0.3937744 I(X ; Z) = I(Z; X) = 0.04255577
)