Determinação da Estrutura de Proteínas através de Programação por Restrições



Documentos relacionados
48 Como produzimos a insulina?

- Ácido ribonucléico (ARN ou RNA): participa do processo de síntese de proteínas.

BASES NITROGENADAS DO RNA

BIOLOGIA. Moléculas, células e tecidos. Transcrição e tradução Parte 2. Professor: Alex Santos

Criado e Desenvolvido por: RONNIELLE CABRAL ROLIM Todos os direitos são reservados

Site:

Biologia - Grupos A - B - Gabarito

CÓDIGO GENÉTICO Lista I 20 Questões Professor Charles Reis Curso Expoente

OS ÁCIDOS NUCLÉICOS DNA / RNA

Biotecnologia Geral TRANSCRIÇÃO E TRADUÇÃO

Substrato do Tripeptídeo

2016 Dr. Walter F. de Azevedo Jr.

Bioinformática. Conceitos Fundamentais de Biologia Molecular. Paulo Henrique Ribeiro Gabriel

UFABC Bacharelado em Ciência & Tecnologia

Utilização do SOLVER do EXCEL

Aula: 16 Temática: Estrutura dos aminoácidos e proteínas parte I. Iremos iniciar o estudo da estrutura dos aminoácidos e proteínas.

Avanços na transparência

IA: Problemas de Satisfação de Restrições. Prof. Msc. Ricardo Britto DIE-UFPI

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

1 3AMINOپ0 9CIDOS PLASMپ0 9TICOS LIVRES پ0 9CIDOS AMINADOS PLASMپ0 9TICOS LIVRES

Projeto e Análise de Algoritmos Projeto de Algoritmos Tentativa e Erro Parte 2. Prof. Humberto Brandão humberto@bcc.unifal-mg.edu.

ESTRUTURA DAS PROTEÍNAS

Projeto e Análise de Algoritmos Projeto de Algoritmos Tentativa e Erro. Prof. Humberto Brandão humberto@bcc.unifal-mg.edu.br

Fenilalanina (Phe) Treonina (Thr) Tirosina (Tir)

Proteínas. As proteínas são o centro da acção em todos os processos biológicos. Voet & Voet Biochemistry

Modelo Cascata ou Clássico

DETERMINAÇÃO DA ESTRUTURA TRIDIMENSIONAL DE PROTEÍNAS POR DIFRAÇÃO DE RAIOS-X

4 Segmentação Algoritmo proposto

Localização dos inquéritos de rua para Arroios e Gulbenkian

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe!

Entendendo o Astigmatismo. Introdução. Lentes especiais sem astigmatismo MAS450/ de março de 2003

EXAME Discursivo. Biologia. 2 A fase 01/12/2013. Boa prova!

DNA, RNA E INFORMAÇÃO

APLICAÇÕES DA DERIVADA

COLÉGIO PEDRO II CAMPUS TIJUCA II

As bactérias operárias

2. Representação Numérica

Parece claro que há uma, e uma só, conclusão a tirar destas proposições. Esa conclusão é:

Simetria Externa. Universidade de São Paulo. Instituto de Química de São Carlos. Departamento de Química e Física Molecular. SQM Cristalografia

ÁCIDOS NUCLEÍCOS RIBOSSOMO E SÍNTESE PROTEÍCA

ASTRONOMIA. A coisa mais incompreensível a respeito do Universo é que ele é compreensível Albert Einstein

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

CAP. I ERROS EM CÁLCULO NUMÉRICO

INFORMAÇÃO, VIDA E DNA. Prof. João Henrique Kleinschmidt Material elaborado pelos professores de NI

UNIDADE 4 - ESTRUTURA CRISTALINA

Começo por apresentar uma breve definição para projecto e para gestão de projectos respectivamente.

Problemas insolúveis. Um exemplo simples e concreto

BIOVESTIBA.NET BIOLOGIA VIRTUAL Profº Fernando Teixeira UFRGS CÓDIGO GENÉTICO

3 Classificação Resumo do algoritmo proposto

Objetivos. Apresentar as superfícies regradas e superfícies de revolução. Analisar as propriedades que caracterizam as superfícies regradas e

Arquitecturas de Software Licenciatura em Engenharia Informática e de Computadores

CT-234. Análise de Algoritmos e Complexidade Estrutural. Carlos Alberto Alonso Sanches

Código Genético. Bianca Zingales

Diagrama de transição de Estados (DTE)

PARALELO DE TRANSFORMADORES TRIFÁSICOS

Estrutura tridimensional de proteínas. Prof. Dr. Fernando Berton Zanchi

IBM1018 Física Básica II FFCLRP USP Prof. Antônio Roque Aula 3

Módulo 4. Construindo uma solução OLAP

Princípios moleculares dos processos fisiológicos

Organização do Material Genético nos Procariontes e Eucariontes

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 2. Prof. Rafael Dias Ribeiro. M.Sc.

Código Genético. Bianca Zingales

BIOLOGIA. Biologia Molecular (segunda parte) Professora: Brenda Braga

Além do Modelo de Bohr

Oficina de Multimédia B. ESEQ 12º i 2009/2010

INFORMAÇÃO, VIDA E DNA. Prof. João Henrique Kleinschmidt Material elaborado pelos professores de NI

Ministério das Finanças Instituto de Informática. Departamento de Sistemas de Informação

RESSONÂNCIA MAGNÉTICA NUCLEAR

MANUAL DO UTILIZADOR

CÓDIGO GENÉTICO E SÍNTESE PROTEICA

Aminoácidos não-essenciais: alanina, ácido aspártico, ácido glutâmico, cisteína, glicina, glutamina, hidroxiprolina, prolina, serina e tirosina.

Proposta. Atribuição de endereços IPv6 na UTL

Compensação. de Factor de Potência

ÁCIDOS NUCLÉICOS Alfredinho Alves

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

Unidade VI. Validação e Verificação de Software Teste de Software. Conteúdo. Técnicas de Teste. Estratégias de Teste

Múltiplos Estágios processo com três estágios Inquérito de Satisfação Fase II

Faculdade de Engenharia Optimização. Prof. Doutor Engº Jorge Nhambiu

Uma reflexão sobre Desenvolvimento Económico Sustentado em Moçambique

John Fenn KoichiTanaka Kurt Wûthrich

Equipe de Biologia. Biologia

Bacharelado em Ciência e Tecnologia Bacharelado em Ciências e Humanidades. Representação Gráfica de Funções

Aminoácidos peptídeos e proteínas

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

A Gestão, os Sistemas de Informação e a Informação nas Organizações

Resistência de isolamento (R iso ) de sistemas fotovoltaicos não separados galvanicamente

Que imagens têm ou não têm simetria?

Análise de Sistemas. Conceito de análise de sistemas

O Princípio da Complementaridade e o papel do observador na Mecânica Quântica

Guia de Estudo Folha de Cálculo Microsoft Excel

Projeto Genoma e Proteoma

1. NÍVEL CONVENCIONAL DE MÁQUINA

5. Métodos ágeis de desenvolvimento de software

REFLEXÃO DA LUZ: ESPELHOS 412EE TEORIA

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

Tópicos de Física Moderna ano 2005/2006

Aprend.e Sistema integrado de formação e aprendizagem

MICROSOFT ACCESS MICROSOFT ACCESS. Professor Rafael Vieira Professor Rafael Vieira

Transcrição:

Universidade Nova de Lisboa Faculdade de Ciências e Tecnologia Departamento de Informática Determinação da Estrutura de Proteínas através de Programação por Restrições Por: Ludwig Krippahl Dissertação apresentada na Faculdade de Ciências e Tecnologia da Universidade Nova de Lisboa para a obtenção do grau de Mestre em Inteligência Artificial Aplicada. Orientador Científico: Professor Doutor Pedro Barahona Lisboa, 1999

2

à Lena, pelas restrições que lhe impus durante este trabalho. 3

4

5 Agradecimentos Agradeço antes de mais a ajuda do meu professor e orientador Pedro Barahona, e a sua paciência em ensinar informática a um químico. Ao Brian Goodfellow e à Anjos Macedo agradeço a ajuda com os dados e a técnica de RMN, e ao Nuno Palma o seu apoio e as indicações que me permitiram traduzir para Português alguns termos que normalmente uso em Inglês. Pelas traduções eventualmente menos felizes, assumo plena responsabilidade. Este trabalho foi financiado em parte pela bolsa BM / 17904 / 98 do programa PRAXIS da Fundação para a Ciência e Tecnologia A figura 1.12 foi cedida por Brian Goodfellow. A figura 1.8 foi criada com o programa RasMol, por R.Sayle As imagens na figura 2.6 são propriedade de Land of Marbles, e foram usadas com autorização dos proprietários. As figuras 1.2, 1.3, 1.5, 1.6, 1.7, 1.9, 1.10, 2.1, 3.1, 3.15, 3.16, 3.17, 3.18, 3.19 e 3.20 foram criadas com o programa CyberMol por Ludwig Krippahl e Nuno Palma.

6

7 Sumário Nesta dissertação proponho uma abordagem baseada em técnicas de programação por restrições para determinar estruturas de proteínas a partir de restrições de distância obtidas por Ressonância Magnética Nuclear (RMN). O primeiro capítulo é uma breve introdução à estrutura de proteínas. No segundo capítulo descrevo o método proposto, que consiste essencialmente numa redução do espaço de possibilidades por técnicas de processamento de restrições, seguido por uma minimização. No terceiro capítulo mostro os resultados obtidos e um teste de comparação do desempenho do método com DYANA ("Dynamics algorithm for NMR applications [17]), uma aplicação comercial baseada em técnicas de minimização. Neste teste o tempo de cálculo para o DYANA foi de mais de seis horas, enquanto método aqui proposto obteve resultados semelhantes em 8 minutos. Neste trabalho concluo que a aplicação de técnicas de Programação por Restrições podem reduzir significativamente o tempo de cálculo para estes problemas

8

9 Abstract In this dissertation I propose a constraint-based approach to determining protein structures compatible with distance constraints obtained from Nuclear Magnetic Resonance (NMR) data. In the first chapter I give a brief introduction to protein structure. The second chapter describes the method proposed, which consists essentially of a constraint based reduction of the possibilities, followed by a local search with an optimisation algorithm. In the third chapter, I show the results obtained, and compare the performance of the algorithm with DYANA ("Dynamics algorithm for NMR applications [17]) an existing commercial application based on simulated annealing. In this test case, computation time for DYANA was more than six hours, whereas the method proposed here produced similar results in 8 minutes. I conclude that the application of Constraint Programming techniques can greatly reduce computation time in solving these distance constraint systems.

10

11 Índice Introdução...13 1. Estrutura de Proteínas...15 1.1 Ligação Covalente...15 1.2 Estrutura Primária...16 1.3 Estrutura Secundária....20 1.4 Estrutura Terciária...22 1.5 Estrutura Quaternária...23 1.6 Outros Elementos Estruturais...24 1.7 Quiralidade...25 1.8 Ressonância Magnética Nuclear...25 2. Método...30 2.1 Modelação do Problema...30 2.2 Técnicas de Consistência...32 2.3 Adaptação do Modelo...40 2.4 Enumeração...46 2.5 Retrocesso...48 2.6 Minimização...49 2.7 Verificação da Quiralidade...49 2.8 Discussão do Método...50 3. Resultados...52 3.1 Estrutura de Teste...52 3.2 Representação dos Domínios...54 3.3 Heurística de Enumeração...55 3.4 Sobreposição de Átomos...59 3.5 Dependência das Restrições...61 3.6 Dimensão Final dos Domínios...64 3.6 Desempenho...66 3.7 Comparação com DYANA...67 3.7 Outras Estruturas Testadas...70 4. Conclusão...76 Glossário...78 Bibliografia...80 Apêndice A: Quadros...84

12

13 Introdução A programação por restrições representa uma das melhores aproximações que a informática já fez ao Cálice Sagrado da programação: o utilizador expõe o problema, o computador resolve-o Eugene C. Freuder, CONSTRAINTS, Abril 1997 A Programação por Restrições (Constraint Programming) é um dos campos mais promissores na informática moderna. A combinação de uma filosofia declarativa, eficiência e uma vasta aplicabilidade tornam estas técnicas uma ferramenta poderosa para a resolução de inúmeros problemas. Com origem nos anos sessenta (6), as técnicas de Programação por Restrições evoluíram de soluções para problemas específicos para um paradigma geral sobre a forma de resolver uma grande classe de problemas. Determinantes para a concepção moderna de Programação por Restrições foram os trabalhos de Gallaire, Jaffar e Lassez (13, 22 em 6) em meados dos anos oitenta, que salientaram os muitos elementos comuns entre a Programação em Lógica e a Programação por Restrições. Desde então a formalização dos problemas de uma forma declarativa tem sido uma das ideias chave da Programação por Restrições. Esta noção não impede, no entanto, que as restrições sejam resolvidas de uma forma imperativa. O recurso a linguagens imperativas, mesmo que apenas a baixo nível, é evidentemente inevitável. O importante neste conceito é que o utilizador possa expor o problema de forma declarativa. No trabalho aqui descrito, como veremos adiante, foi precisamente esta a abordagem: a resolução das restrições foi escrita numa linguagem imperativa (Object Pascal) mas a definição do problema a resolver consiste apenas numa lista que declara as restrições a respeitar. Outra noção fundamental na Programação por Restrições é a consistência entre valores de variáveis. Uma restrição pode ser vista como um conjunto de combinações admissíveis para os valores das variáveis envolvidas. Os valores possíveis para cada variável dependem assim dos valores que outras variáveis tomem. Garantindo a consistência entre os valores de grupos de variáveis consegue-se reduzir muito o espaço de pesquisa a percorrer para encontrar soluções admissíveis. Nesta dissertação irei descrever o estudo de aplicabilidade destas técnicas à determinação de estruturas de proteínas por Ressonância Magnética Nuclear (RMN). A motivação base para a procura de uma forma mais eficiente de determinar a estrutura de proteínas não é apenas a curiosidade científica (excepto na opinião muito pessoal do autor). O campo da bioquímica estrutural tem muitas aplicações práticas, em que qualquer melhoria no desempenho pode trazer muitas vantagens concretas e imediatas.

14 A industria farmacêutica moderna está cada vez mais dependente do conhecimento detalhado da estrutura das macro-moléculas que formam os sistemas biológicos, entre as quais as proteínas se destacam pela sua importância. Em muitos campos da indústria proteínas desempenham papeis de grande importância, desde os glutões do detergente, às enzimas que dão às jeans o azul que a gente gosta ou que catalisam a transformação de glicose em frutose na industria alimentar. Os recentes desenvolvimentos na bioquímica e biologia molecular criaram uma nova indústria com um grande crescimento económico, em que o conhecimento tem o potencial de se converter rapidamente em dinheiro. Em muitos casos a determinação estrutural de proteínas é o factor limitante na elucidação destes sistemas, pois é um processo demorado e muito exigente. A tese que aqui defendo, suportada pelos resultados obtidos ao longo do trabalho, é que a aplicação de técnicas de Programação por Restrições resulta num aumento significativo na eficiência, em relação aos métodos até agora usados. Os métodos presentemente disponíveis assentam principalmente em algoritmos de minimização. Um exemplo é a aplicação DYANA (17), neste momento a mais usada para a resolução destes problemas na Faculdade de Ciências e Tecnologia. O algoritmo base desta aplicação é o método de minimização simuilated annealing, partindo de uma estrutura gerada aleatoriamente. Desta forma são reduzidas progressivamente as violações às restrições impostas. As desvantagens deste algoritmo são o enorme espaço de pesquisa que percorre e a propensão para ficar preso em mínimos locais. Esta última torna necessário o cálculo de um número considerável de estruturas (tipicamente 500) pois apenas uma pequena fracção destas é aceitável. Nesta dissertação começarei por introduzir, no primeiro capítulo, as noções básicas de estrutura de proteínas que são relevantes a este trabalho. No segundo capítulo o problema será formalizado como um problema de processamento de restrições, e serão expostos os algoritmos usados para o resolver. Os resultados obtidos e a parametrização do programa serão apresentados no terceiro capítulo. No quarto e último capítulo serão discutidas as vantagens e limitações do presente método, bem como alguns desenvolvimentos já planeados para o futuro.

15 1. Estrutura de Proteínas Staudinger salientou que as macro-moléculas possuem propriedades que não podem ser previstas a partir das propriedades das suas unidades constituintes... Aparentemente o único obstáculo para compreender a natureza da vida é a sua fantástica complexidade. A Informática dá nos a esperança que um dia possamos vencer também esta dificuldade H.A. Krebs, Persp. Biol. Med., 1971 Desde muito cedo na história da química que as proteínas têm atraído a atenção dos investigadores (3). Em algumas substancias orgânicas observaram a intrigante propriedade de solidificar com o calor, algo contrário à maioria, que normalmente derrete quando aquecida. Em 1777 Pierre Maquer chamoulhes substâncias albuminosas, de albumen, o nome em latim para a clara do ovo, que partilha esta propriedade com outras então conhecidas (caseína do leite, globulina do sangue, etc...). Em 1839 o químico holandês Gerardus Mulder determinou a fórmula química C 40 H 62 O 12 N 10 como sendo comum a todas as substâncias albuminosas. Ele propôs que todas estas substâncias se formavam a partir de moléculas com esta composição, e chamou a este grupo proteína. A palavra proteína deriva da palavra grega protos, significando primeiro ou mais importante. Apesar de mais tarde se descobrir que a hipótese de Mulder não era correcta, o nome persistiu e é de certa forma apropriado, pois apesar de constituírem apenas cerca de 20% da massa orgânica nos seres vivos (15), são a mais versátil classe de compostos orgânicos. Os papéis que desempenham nos sistemas biológicos são muito diversos; catálise de reacções, transporte, suporte e movimento, resposta imunitária, entre outros (33). Neste capítulo irei descrever os elementos estruturais das proteínas, e a forma como a Ressonância Magnética Nuclear nos permite elucidar estas estruturas. As técnicas de análise estrutural por Ressonância Magnética Nuclear podem ser aplicadas ao estudo de uma vasta gama de compostos orgânicos, mas irei focar apenas o caso das proteínas, por ser o relevante para este trabalho. 1.1 Ligação Covalente Uma molécula é um conjunto de átomos unidos por ligações covalentes. A ligação covalente é formada, numa descrição muito simplificada, quando dois átomos partilham electrões. Os electrões deixam de ocupar orbitais atómicas (centradas no núcleo de um único átomo) para ocupar orbitais moleculares (dispersas por vários átomos), ligando assim os átomos envolvidos. Estas orbitais moleculares têm mínimos de energia em geometrias bem definidas, tendendo a forçar os átomos da molécula a formar estruturas semi-rígidas. No entanto as ligações podem sofrer algumas distorções, sendo estas:

16 Compressão e Extensão quando varia o comprimento da ligação química. Flexão quando varia o ângulo formado por duas ligações com um átomo em comum. Torção quando varia o ângulo entre uma ligação e o plano definido pelas duas ligações consecutivas (ângulo diedro) A Figura 1.1 ilustra estas variações na geometria duma molécula. Compressão/Extensão Torção Flexão Figura 1.1 Possíveis distorções à geometria de ligações covalentes. As ligações covalentes são resistentes a distorções de Compressão, Extensão e Flexão, e por isso a amplitude destas é, em geral, pequena. Muitas ligações têm uma liberdade significativa de Torção. As ligações Carbono-Carbono e Carbono-Azoto em cada aminoácido (ver 1.2 Estrutura Primária adiante) são um exemplo de ligações com grande liberdade de Torção, o que permite uma enorme diversidade nas estruturas de proteínas. 1.2 Estrutura Primária Cada proteína é formada por uma ou mais cadeias de aminoácidos, que são pequenas moléculas orgânicas contendo um grupo ácido (ácido carboxilico: COOH) e um grupo amina (NH 2 ). Estes dois grupos estão ligados a um átomo de carbono que é designado como Cα (Carbono alfa). Esta região formada pelo grupo amina, o grupo carboxilico e Carbono alfa é comum a todos os aminoácidos que participam na formação de proteínas. Aminoácidos diferentes distingem-se pelo grupo de átomos ligado ao Cα. Este grupo, formando a restante estrutura do aminoácido é designado por cadeia lateral. Em solução aquosa, em condições fisiológicas, os grupos amina e ácido carboxilico encontram-se normalmente na forma ionizada. O grupo ácido carboxilico (COOH) tende a ceder um ião H + para a água. Assim em solução este grupo encontra-se tipicamente na forma de carboxilato (COO - ). O grupo amina tende a ligar-se a um ião H + em solução, e por isso em solução estará tipicamente na forma

17 NH + 3. A associação/dissociação de iões H + está dependente da concentração destes em solução, ou seja, do ph da solução 1, mas esta descrição é correcta na maioria dos casos em condições fisiológicas. A Figura 1.2 mostra a estrutura de três aminoácidos (Glicina, Leucina e Tirosina) nestas condições, salientando os grupos amina e ácido carboxilico aqui referidos. Como se pode ver nesta figura, uma parte da estrutura é comum a todos os aminoácidos, e apenas as cadeias laterais distinguem os aminoácidos. Glicina Leucina Tirosina Carboxilo Amina Carboxilo Amina Carboxilo Ca Ca Ca Amina C N O H Cadeias Laterais Figura 1.2 Estrutura de três aminoácidos em solução. Os grupos ácido carboxilico e amina estão marcados em cada aminoácido, bem como o Carbono alfa. Estes formam a estrutura comum a todos os aminoácidos e compõem a cadeia principal da proteína. Na região inferior estão representadas as cadeias laterais que distinguem os diferentes aminoácidos. Em sistemas biológicos já foram encontrados mais de 300 aminoácidos, mas regra geral as proteínas contém apenas 20 aminoácidos diferentes (15). Por isso iremos apenas considerar estes 20 aminoácidos mais comuns. No entanto todos os algoritmos aqui descritos (ver 2. Método, página 30) podem ser aplicados a proteínas com aminoácidos menos comuns ou mesmo outras moléculas (ver 1.6 Outros Elementos Estruturais, página 24). A Tabela 1.1 mostra os nomes destes aminoácidos, bem como as abreviaturas e os símbolos normalmente usados para os identificar. Neste documento serão utilizadas as abreviaturas de três letras para referir os aminoácidos específicos. A importância dos aminoácidos nos sistemas biológicos vem da capacidade que os grupos amina e ácido carboxilico têm de formar uma ligação entre o Carbono do grupo carboxilico e o Azoto do grupo amina.. Esta ligação é chamada ligação peptídica. 1 O valor de ph é o simétrico do logaritmo da concentração de iões H +.

18 Nome Abreviatura Símbolo Ácido Aspártico Asp D Ácido Glutâmico Glu E Alanina Ala A Arginina Arg R Aspargina Asn N Cisteína Cys C Fenilalanina Phe F Glicina Gly G Glutamina Gln Q Histidina His H Isoleucina Ile I Leucina Leu L Lisina Lys K Metionina Met M Prolina Pro P Serina Ser S Tirosina Tyr Y Treonina Thr T Triptofano Trp W Valina Val V Tabela 1.1 Nomes, abreviaturas e símbolos para os 20 aminoácidos mais comuns (15,33). O nome deriva de peptós, palavra grega para digestão, pois esta é a ligação quebrada na digestão de proteínas. A Figura 1.3 ilustra a formação duma ligação peptídica entre uma Cisteina e uma Histidina. Em condições fisiológicas a reacção é mais complexa do que a Figura 1.3 indica, não só pelo estado ionizado dos grupos que reagem (ver acima) mas também porque estas reacções são catalisadas por outras proteínas. A Figura 1.3 mostra também (ilustração inferior) os dois aminoácidos ligados pela ligação peptídica. Pode-se notar aqui uma sequência contínua formada pelos átomos Carbono do grupo ácido carboxilico, Carbono alfa e Azoto do grupo amina de cada aminoácido. Este padrão...-c-cα-n-c-cα-n-... repete-se por toda a cadeia de aminoácidos, e é designado como cadeia principal da proteína (backbone). Estes átomos estão marcados na Figura 1.3 (ilustração inferior). Esta propriedade permite a agregação de aminoácidos em longas cadeias, contendo centenas ou milhares de átomos.

19 Amina Carboxilo Água C Cisteina Histidina N O C Cα N C Cα N H S Ligação Peptídica Figura 1.3 Formação da ligação peptídica entre Cisteína e Histidina. No topo está esquematizada a reacção de ligação entre os dois aminoácidos. A figura abaixo representa a estrutura molecular formada pelos dois aminoácidos ligados pela ligação peptídica. A estrutura primária é a sequência de aminoácidos nas cadeias que formam a proteína. Na estrutura primária incluí-se tipicamente também a informação sobre pontes de dissulfureto, mas estes elementos estruturais serão focados mais adiante (ver 1.6 Outros Elementos Estruturais, página 24). A assimetria da ligação peptídica e dos aminoácidos faz com que um dos extremos da cadeia contenha sempre um grupo amina, e o outro um grupo ácido carboxilico. Por convenção, o aminoácido no extremo com o grupo amina livre é considerado o primeiro aminoácido. Esta convenção reflecte a ordem pela qual os aminoácidos são adicionados na síntese das cadeias em sistemas biológicos. A informação sobre a sequência primária das proteínas está contida no ADN (Ácido Desoxirribonucleico), que constitui o material genético dos seres vivos 2. A síntese de proteínas nas células processa-se em duas fases. Em primeiro lugar a sequência da zona do ADN que codifica a proteína é replicada em ARN (Ácido Ribonucleico), num processo chamado transcrição. Na segunda fase, a tradução, as cadeias de aminoácidos que formam a proteína são sintetizadas a partir do ARN. O ADN contém apenas 4 bases diferentes: Adenina, Guanina, Citosina, e Timina. O ARN contém também Adenina, Guanina, e Citosina., mas contém Uracilo em vez de Timi- 2 O genoma de alguns vírus é composto por Ácido Ribonucleico (ARN)

20 Timina.. Como as proteínas contém 20 aminoácidos diferentes, cada aminoácido é codificado por uma sequência de três bases, como se mostra na Tabela 1.2 (24). Primeira Base Segunda Base U C A G U C A G UUU Phe UCU Ala UAU Tyr UGU Cys UUC Phe UCC Ala UAC Tyr UGC Cys UUA Leu UCA Ala UAA Fim UAG Fim UUG Leu UCG Ala UGA Fim UGG Trp CUU Leu CCU Thr CAU His CGU Arg CUC Leu CCC Thr CAC His CGC Arg CUA Leu CCA Thr CAA Gln CAG Arg CUG Leu CCG Thr CGA Gln CGG Arg AUU Ile ACU Pro AAU Asn AGU Ser AUC Ile ACC Pro AAC Asn AGC Ser AUA Ile ACA Pro AAA Lys AAG Arg AUG Met ACG Pro AGA Lys AGG Arg GUU Val GCU Ser GAU Asp GGU Gly GUC Val GCC Ser GAC Asp GGC Gly GUA Val GCA Ser GAA Glu GAG Gly GUG Val GCG Ser GGA Glu GGG Gly Tabela 1.2 Correspondência entre as sequências dos tripletos no ARN e os aminoácidos que estes codificam. Hoje em dia existem assim duas abordagens possíveis para determinar a estrutura primária de uma proteína: A degradação química controlada das cadeias de aminoácidos permite a determinação directa da sequência (degradação de Edman, 33). A sequenciação do ADN/ARN que codifica a proteína permite determinar indirectamente a sequência desta. A combinação destes dois métodos permitiu a determinação das estrutura primárias de muitas proteínas. Presentemente o número de estruturas primárias conhecidas aproxima-se de 100.000. 1.3 Estrutura Secundária. O termo estrutura secundária refere-se ao conjunto de estruturas locais, estáveis, e que são elementos comuns à maioria das proteínas (33). Por estas razões, é possível prever, com alguma confiança, estes elementos estruturais, pelo que serão potencialmente uma importante fonte de informação acerca da estrutura da proteína.

21 Apesar de a ligação peptídica ser uma ligação rígida, as ligações adjacentes Carbono-Carbono e Carbono-Azoto (ver Figura 1.3) tem grande liberdade de Torção (ver 1.1 Ligação...Ala-Leu-Ala-Met-Glu-Glu-Leu-His-Lys... Covalente), permitindo à cadeia peptídica uma grande variabilidade estrutural. Essencialmente existem três elementos da estrutura secundária: hélice-α, folha-β e dobra-β. Estas estruturas são estabilizadas pela Figura 1.4 Na hélice-α as pontes de Hidrogénio ligam cada aminoácido ao aminoácido quatro posições à frente na sequência da cadeia. formação de pontes de hidrogénio (ver 1.6 Outros Elementos Estruturais, página 24) entre átomos pertencentes à cadeia principal da proteína. São estruturas estáveis e que podem ser previstas com alguma confiança a partir da estrutura primária. A hélice-α é uma espiral formada por pontes de hidrogénio entre os átomos de Hidrogénio covalentemente ligados aos átomos de Azoto, os átomos de Oxigénio (grupo carbonilo) do aminoácido situado a quatro posições à frente na sequência primária. A Figura 1.4 mostra esquematicamente estas ligações. A Figura 1.5 mostra a estrutura tridimensional da hélice-α. Nesta figura apenas os átomos que participam na formação das pontes Hidrogénio estão representados. Figura 1.5 Hélice-α. Os átomos de Carbono e as cadeias laterais não estão representados para melhor claridade. N O H Ponte de Hidrogénio Ácido Carboxilico Amina Amina Figura 1.6 C N O H Cadeia Lateral Ácido Carboxilico Folha-β. Nesta figura as cadeias laterais são representadas apenas por um átomo. Os terminais Amina e Ácido Carboxilico estão identificados, ilustrando a orientação anti-paralela das cadeias.

22 C N O H Figura 1.7 Dobra-β. A ponte de Hidrogénio que liga um aminoácido ao aminoácido três posições adiante na sequência estabiliza esta estrutura. A folha-β é formada por dois ou mais segmentos de cadeia numa orientação paralela ou anti-paralela. Isto significa que as cadeias estão paralelas, mas podem orientar-se no mesmo sentido ou em sentidos opostos, ficando o extremo do grupo amina de uma cadeia no sentido do grupo ácido carboxilico da outra. A Figura 1.6 mostra a estrutura de uma folha-β anti-paralela formada por duas cadeias. Neste caso as pontes de Hidrogénio são formadas entre aminoácidos que podem estar distantes na sequência, ou mesmo pertencerem a diferentes cadeias. O terceiro elemento da estrutura secundária é a dobra-β. Esta estrutura forma uma curva apertada na cadeia da proteína, estabilizada pela presença de uma ponte de Hidrogénio entre o Oxigénio do grupo Carbonilo de um aminoácido (este é o resultante do grupo ácido carboxilico após a formação da ligação peptídica, como ilustrado na Figura 1.3, página 19) com um átomo de Hidrogénio ligado ao Azoto do aminoácido três posições adiante na sequência. A Figura 1.7 ilustra este elemento da estrutura secundária. Os elementos de estrutura secundária, pela sua estabilidade, conferem grande estabilidade estrutural às proteínas. De certa forma pode-se dizer que sustentam a estrutura tridimensional da proteína. No entanto, as proteínas contêm também regiões que não participam na formação destas estruturas, e por isso são potencialmente mais flexíveis. Este misto de rigidez e flexibilidade permite que as proteínas possam ter uma vasta gama de formas, e mesmo mudar significativamente de forma por interacção com outras moléculas. No entanto, as possibilidades quase ilimitadas de combinação destas estruturas tornam a previsão da forma tridimensional uma tarefa muito complexa e de momento pouco fiável. 1.4 Estrutura Terciária O termo Estrutura Terciária refere-se, formalmente, à relação espacial entre aminoácidos distantes na sequência (33). Na prática, a fronteira entre estrutura secundária e terciária não é muito nítida (por exemplo, uma folha-β contém relações espaciais entre aminoácidos distantes na sequência), mas podemos conceber a estrutura terciária como a forma tridimensional que uma cadeia de aminoácidos toma, incluindo normalmente vários elementos de estrutura secundária. A Figura 1.8 ilustra a estrutura terciária da quimotripsina (27). Esta representação salienta os diferentes elementos de estrutura secundária presentes na proteína. As setas amarelas representam as folhas-β, indicando o sentido de cada segmento de cadeia. A vermelho estão representadas as hélices-α, com a

23 Figura 1.8 Representação estereoscópica da estrutura ternária da Quimotripsina. Os elementos da estrutura secundária estão representados com diferentes cores: Vermelho para hélices-α, amarelo para folhas-β e azul para as dobras-β. α, com a sua característica forma em espiral. As dobras-β estão representadas a azul, sendo os segmentos a branco regiões sem estrutura secundária definida. A estrutura terciária é assim determinada pela relação espacial entre todos estes elementos. O objectivo deste trabalho é a determinação desta relação espacial entre átomos a partir de restrições às distâncias entre estes. Estas restrições podem ser determinadas experimentalmente, como veremos adiante. 1.5 Estrutura Quaternária Em muitos casos uma proteína é composta por mais que uma cadeia de aminoácidos. Nestas proteínas Figura 1.9 Estrutura quaternária de duas proteínas. À direita a protease do vírus da imunodeficiência humana, à esquerda a hemoglobina humana. As diferentes cadeias de aminoácidos estão representadas em cores diferentes.

24 a relação espacial entre as várias cadeias é chamada estrutura quaternária. Na prática, as dificuldades à determinação da estrutura quaternária são muito semelhantes ao caso da estrutura terciária, e no âmbito deste trabalho não foi feita uma distinção explícita entre os dois casos. A Figura 1.9 mostra a estrutura quaternária de duas proteínas: a protease do vírus da immunodeficiência humana (34) e a hemoglobina humana(12). 1.6 Outros Elementos Estruturais Nas secções anteriores mencionei alguns elementos que contribuem para a formação ou estabilização das várias estruturas nas proteínas. Nesta secção irei detalhar um pouco mais três destes elementos (33). Pontes de Hidrogénio: As pontes de Hidrogénio formam-se entre dois átomos que partilham entre si um átomo de Hidrogénio. Um exemplo é o dos grupos NH e CO na dobra-β. Neste caso o átomo de Hidrogénio está fracamente ligado ao Azoto, podendo ser partilhado com o átomo de Oxigénio. Esta partilha de ligações com o Hidrogénio força os átomos de Azoto e Oxigénio a aproximarem-se, efectivamente ligando-os. Neste caso o Azoto é o átomo dador, pois está covalentemente ligado ao Hidrogénio, e o Oxigénio é o receptor. Nas proteínas as pontes de Hidrogénio formam-se tipicamente entre átomos de Azoto ou Oxigénio. Esta ligação é cerca de vinte vezes mais fraca do que as ligações covalentes, mas mesmo assim desempenha um papel importante na determinação da estrutura da proteína devido ao seu elevado número, formando redes extensas em toda a proteína. Pontes de Dissulfureto: A Cisteína é um aminoácido contendo um átomo de Enxofre que tem a capacapacidade de formar uma ligação covalente com o Enxofre de outra Cisteína (ver Figura 1.3, página 13). Esta ligação covalente entre os dois átomos de enxofre é chamada ponte de Dissulfureto, permite ligar C covalentemente duas cadeias de aminoácidos, ou uma N cadeia em regiões distantes na estrutura primária. O Fe Figura 1.10 Hemo da Hemoglobina humana. Os átomos de Hidrogénio não estão representados Grupos Prostéticos: Muitas proteínas contém mais que aminoácidos. No caso da hemoglobina, por exemplo, é um hemo contendo um átomo de Ferro (ilustrado na Figura 1.10) que desempenha o papel crucial no transporte do Oxigénio. Nestes casos a estrutura química destes grupos deve ser considerada na determinação da estrutura da proteína, bem como as suas ligações às cadeias de aminoácidos que a formam.

25 1.7 Quiralidade A quiralidade não é propriamente um elemento estrutural, mas sim uma característica de uma estrutura. A quiralidade foi definida por Kelvin (33) como: "Eu designo qualquer figura geométrica, ou conjunto de pontos, como quiral, e digo que tem quiralidade, se a sua imagem num espelho plano, em condições ideais, não pode ser sobreposta de forma a coincidir com o original." Um exemplo de uma estrutura quiral é a mão. A mão direita é idêntica à imagem no espelho da mão esquerda e vice-versa, mas ambas diferem da sua própria imagem no espelho. O termo quiral deriva precisamente de cheir, palavra grega para mão. Em geral, moléculas complexas como as proteínas, são quirais, ou seja, a imagem no espelho é diferente da estrutura. Além disso, normalmente partes da estrutura também têm quiralidade. Um exemplo são os centros quirais nos aminoácidos, que conferem a estes últimos duas formas possíveis, designadas R e S (de rectus e sinister, latim para direita e esquerda). Em sistemas biológicos existe em geral apenas uma das duas formas possíveis para cada aminoácido. As hélices-α, outro exemplo de uma estrutura quiral dentro da proteína, também só existem em seres vivos numa das duas formas possíveis. Não é necessária para este trabalho uma abordagem detalhada deste tema. O importante a ter em conta é que as proteínas são estruturas quirais, por isso diferentes da sua imagem no espelho, mas em que apenas uma das formas tem realidade biológica. Este factor é importante porque um conjunto de distâncias, mesmo que suficiente para determinar completamente a estrutura duma proteína, terá sempre no mínimo duas soluções, uma das quais é a imagem do espelho da solução correcta. Mais adiante (2.7 adiante (2.7 Verificação da Quiralidade, Página 49) irei referir como este problema foi resolvido. Menor Energia α 1.8 Ressonância Magnética Nuclear Um tratamento detalhado das técnicas de RMN estrutural estaria fora do âmbito desta dissertação. No entanto, penso que é importante dar uma visão geral dos princípios que permitem obter experimentalmente as restrições necessárias para definir a estrutura de uma proteína (14,4). Campo Externo Maior Energia β Muitos núcleos atómicos são dipolos magnéticos. O mais importante destes, em bioquímica estrutural, é o núcleo do Hidrogénio, composto apenas por um pro- Figura 1.11 Possíveis orientações para o vector de momento magnético de um protão na presença de um campo externo.