Domínios protéicos
O que são domínios protéicos Domínios protéicos é uma parte da cadeia polipeptídica que pode de enovelar independentemente para formar uma estrutura compacta e estável A existência de domínios permite a construção de proteínas a partir de módulos Diversos domínios possuem uma função especifica associada
Domínios protéicos Exemplo de um proteína (Src) que possui quatro domínios. Dois possuem atividade regulatória (SH2 e SH3) enquanto outros dois são domínios catalíticos
Domínios protéicos e Estrutura gênica Existe um viés na evolução dos genes que faz com que a borda de uma porção significante de domínios coincida com a borda de exons, gerando uma estrutura modular que tem implicações na evolução de genes e proteínas
Domínios protéicos e evolução de proteínas Dentro de um gene pode ocorrer a duplicação de um segmento contendo um domínio, levando a formação de uma nova proteína
Domínios protéicos e evolução de proteínas Proteínas diferentes podem ser geradas a partir de domínios de diferentes proteínas devido a estrutura modular destes
Domínios protéicos e splicing alternativo Splicing alternativo de um fator de transcrição. Neste caso cada exons corresponderia a um domínio diferente. Produção de duas isoformas diferentes, uma contendo um sitio de ativação e a outra não faz com que haja efeitos opostos em relação a transcrição de genes.
Determinação de domínios Quando realizamos analises bioinformáticas de seqüências protéicas identificamos domínios como blocos de motivos estruturais ou de seqüências que são recorrentes em proteínas estudadas Estes domínios podem ser determinados por diversas metodologias, e são armazenados em bancos de domínios diferentes. Estes bancos de domínios por sua vez possuem ferramentas de busca que permitem a detecção de domínios em seqüências do interesse do pesquisador
Domínios protéicos Exemplo de um domínio protéico da família de receptores de TNF Devido a sua função biológica existe uma pressão evolutiva para a conservação de certos motivos em um mesmo domínio em proteínas de diferentes espécies Apesar desta pressão evolutiva nem sempre esta conservação segue parâmetros muito estritos Conservação é percebida através de alinhamento múltiplo de seqüências
Hidden Markov Model (HMM) Este tipo de problema aborda um problema estatístico no qual temos diferentes probabilidade de eventos associados a diferente estados e uma chance de transição associadas a estes estados Um tipo de problema clássico associado seria o sorteio de esferas de diferentes cores em urnas contendo diferente proporções destas esferas. A urna da qual seria sorteada a esfera obedeceria a uma chance de transição.
Aplicação de HMMs a alinhamento de domínios Dentro deste modelo haveria estados diferentes para inserção, deleção e identidade. Existiria um estado inicial a partir do qual se iniciariam as comparações O HMM pode ser considerado uma representação estatística do alinhamento múltiplo
Aplicação de HMMs a alinhamento de domínios A partir de um alinhamento múltiplo utilizando seqüências de diversos organismos prévio é criado um modelo que representa o domínio estudado Este modelo poderá então ser utilizado para prever a probabilidade de uma determinada proteína possuir este domínio
Pfam Hiden Markov models (HMMs) foram utilizados para a construção dos bancos e para detecção de domínios em seqüências pesquisadas no pfam
Resultado Pfam
Representação gráfica de um HMM Representação gráfica de um HMM. Quanto mais fina a coluna contendo o resíduo maior a chance desta ser deletada. Colunas em vermelho representam inserções
Resultado Pfam
Smart Também utiliza o HMM- concentrado em módulos extracelulares e domínios de proteínas sinalizadoras
Resultado Smart
Interpro Possui varias buscas (inclusive do Pfam e Smart) integrados
Resultado interpro
Interpro
CDD
CDD Utiliza para busca o RPS-Blast (Reverse Position-Specific BLAST), que seria uma espécie de versão reversa do PSI-Blast A diferença neste tipo de busca é que uma matriz de posição (position-specific score matrices-pssm) é calculada para cada família e quando realizamos a busca nossa seqüências será comparada com uma seqüência consenso de cada família utilizando a sua respectiva matriz. Apesar de utilizar famílias derivadas do Pfam e Smart, o CDD calcula PSSMs para estas famílias e portanto a busca não é idêntica a realizadas diretamente nestes bancos, que utilizam HMM.
CDD Alinhamento contra a seqüência consenso do domínio Resíduos em vermelho- possuem identidade entre seqüência e consenso
CDD Resíduos em vermelho- Altamente conservado (alto peso no PSSM) Resíduos em azul Menor conservação (baixo peso no PSSM) Resíduos em cinza e minúsculos- Não conservados (posições não presentes no PSSM)
DART Ferramenta para observar a arquitetura de diferentes proteínas contendo o mesmo domínio (Pfam e Smart possuem ferramentas parecidas integradas)
Clusters of Orthologous Groups (COG) Agrupa proteínas apenas de genomas descritos Busca por proteínas ortologas através de metodologia utilizando BLAST e selecionando apenas o melhor alinhamento em cada genoma (BeTs- Best hits) Clusters são gerados a partir de conexões de proteínas de diferentes organismos que tem em comum o fato de produzirem o melhor alinhamento uma com as outras do que comparadas com outras proteínas do genoma