Alinhamento de seqüências
Qual a importância do alinhamento de seqüências Permite estabelecer identidades entre sequências Permite a dedução de função de proteínas baseado em similaridade Permite a definição de domínios protéicos conservados Permite o estudo da evolução de proteínas (evolução de organismos?)
Introdução: princípios de alinhamento de nucleotídeos
Dot matrix Cria-se uma matriz onde são marcadas regiões com nucleotídeos coincidentes entre as duas seqüências comparadas Linhas diagonais formadas representariam regiões que apresentam conservação entre as duas seqüências
Dynamic programing Consegue prever o melhor alinhamento possível Requer muito recurso computacional, não sendo aplicável para comparações extensivas Algoritmos mais utilizados Needleman-Wunsch (global) e Smith-Waterman (local)
Exemplo do algoritimo Scores= +5 match, -2 mismatch e -6 gap
Resolução da matriz Scores= +5 match -2 mismatch -6 gap Traceback- a partir do melhor escore se refaz o caminho para dedução do alinhamento
Alinhamento local X alinhamento global
Alinhamento local X alinhamento global Alinhamento global- Busca o melhor alinhamento em toda a extensão das duas seqüências sendo comparadas Alinhamento local- busca somente alinhamento de regiões de alta similaridade, não importando as seqüências adjacentes a estas regiões
Ferramenta de busca em bancos de dados
Algoritmo do BLAST Seqüência é dividida em fragmentos de 11 nucleotídeos e estes passam a ser procurados em todo o banco de dados. ATCGTACAATAACGTG ATCGTACAATA TCGTACAATAA CGTACAATAAC GTACAATAACG TACAATAACGT ACAATAACGTG
Algoritmo do BLAST ATCGTACAATA TCGTACAATAA CGTACAATAAC GTACAATAACG TACAATAACGT ACAATAACGTG AAATGTGTGTATCGTACAATATCGTG Trecho encontrado em seqüências alvo é utilizado como seed
Algoritmo do BLAST ATCGTACAATAACGTG AAATGTGTGTATCGTACAATATCGTG Extensão do alinhamento utilizando os métodos para encontrar o alinhamento ótimo Como é uma ferramenta de alinhamento local só será alinhado trechos que produzam um escore elevado
Alinhamento de seqüências protéicas
Considerações evolucionarias Proteínas evoluem juntamente com o organismo Após a divergência de duas espécies há uma diversificação da seqüência de proteínas ortologas (isto é com uma origem evolutiva em comum) devido a mutações sofridas no código genético do individuo Após a ocorrência de mutações tenderão a serem selecionadas negativamente aquelas que causarem alterações drásticas na estrutura da proteína
Considerações evolucionarias Os fenômenos de mutações não são totalmente randômicos havendo uma preferência por eventos de transição em relação a eventos de transversão. Purinas Pirimidinas
Considerações evolucionarias Considerando a freqüência de mutações de nucleotídeos a mutação Isoleucina-> Valina seria mais freqüente que Isoleucina-> Leucina
Considerações evolucionarias Considerando o código genético é possível notar que nem todas as mutações de aminoácido podem ser obtidas a partir de uma única mutação de nucleotídeo Deste modo teremos algumas mutações mais freqüentes que as outras Considerando este aspecto a mutação Isoleucina-> Valina seria mais freqüente que Isoleucina->Alanina
Considerações evolucionarias Cadeia lateral apolar ATA->AGA ATA->CTA Cadeia lateral polar Neste caso apesar da probabilidade da mutação ocorrer ser a mesma é muito mais provável que a primeira mutação seja selecionada negativamente, pois introduz um aminoácido de cadeia lateral de caráter muito diferente da original. Cadeia lateral apolar
Considerações evolucionarias Considerando todos estes fatores é concluir que a partir de um evento ancestral de divergência de duas proteínas ortologas, a taxa de conversão de um determinado aminoácido para outro não será igual e sim dependente do par que iremos avaliar Além disso a abundancia relativa dos aminoácidos é diferente, influenciando o resultado
Matriz de comparação Matrizes de comparação analisam as freqüências relativas com que ocorrem as diferentes substituições de aminoácidos Com bases nestas freqüências e com a abundancia relativa de cada aminoácido na proteína é possível atribuir um escore que reflete a probabilidade daquela mutação ocorrer (prováveis escore positivo) Os dois tipos mais utilizados de matrizes são a PAM (Point Accepted Mutation) e a Blossum (Blocks Substitution Matrix)
Matriz do tipo PAM Analise de evolução de seqüências (por métodos de parcimônia) Calculo de uma matriz baseado nas taxas de substituições dos aminoácidos
Matriz do tipo PAM A matriz PAM 1foi produzida baseados um determinado tempo de evolução (PAM unit- tempo em que 1% dos aminoacidos mudam). Outras matrizes (PAM 100, PAM 250) foram derivadas a partir desta primeira matriz. Quanto maior a unidade de PAM a matriz seria mais adequada para comparar seqüências mais divergentes. Matriz tipo PAM250 é representada acima mostra acima da diagonal o numero de substituições observadas e a diagonal e abaixo representam escores derivados. Caixas em cinza tem escore positivo e aquelas em preto são as mutações possíveis via a substituição de um único nucleotídeo
Matriz do tipo Blosum Ao contrario da matriz PAM não se baseia em um modelo evolucionário explicito, mas sim em analise de seqüências alinhadas par a par. Matriz PAM Considerando a primeira coluna teríamos 6X5= 30 conservações de T 6 mudanças T->I e seis mudanças I->T Matriz Blossum
Matriz do tipo Blosum Entretanto este tipo de abordagem é muito sensível a presença de seqüências muito semelhantes na comparação Para solucionar isso as seqüências são agrupadas em blocos baseado em seu nível de identidade e cada bloco terá o mesmo peso independente do numero de seqüências que o compõe Deste modo temos diferentes matrizes baseados no nível de identidade utilizado para construir os blocos (por exemplo a matriz blosum80 criou blocos com proteínas que são 80% idênticas)
Equivalência entre matrizes Apesar de serem construídas com metodologias diferentes e portanto produzirem matrizes não equivalentes é possível dizer que de modo genérico as matrizes Blosum e PAM teriam as seguintes equivalências PAM100 ==> Blosum90 PAM120 ==> Blosum80 PAM160 ==> Blosum60 PAM200 ==> Blosum52 PAM250 ==> Blosum45