Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica

Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica por Elisabeth Silva Fernandes Dissertação de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientador: Professor Alípio Jorge Co-Orientador: Professor Rui Brito, Universidade de Coimbra Faculdade de Economia Universidade do Porto 5 de Junho de 2008

Motivação Objectivo Estudar o processo de desnaturação da proteína TTR. O monómero de TTR tem 127 aminoácidos. Duas variantes de TTR: WT-TTR wild type e L55P-TTR variante mutada. Dados 10 simulações da desnaturação da TTR. Cada corrida com 127 séries temporais. Medida em estudo: distância do C a de cada aminoácido ao centro de massa da proteína. Cada série temporal tem 10001 valores (um por cada pico segundo). Figura 1- (A) TTR; (B) Monomero de TTR 2

Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção de Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 3

Análise de Clusters - Partição Consenso 126 series temporais, 10 simulações de desnaturação da TTR Optimização dos Índices G2 e G3 de Milligan e Cooper Clustering hierárquico para cada corrida (Método de Ward e Distância Euclideana): 10 Partições dos 126 aminoácidos; Clustering hierárquico sob o quadro das classificações (Método da Ligação Média e Medida de dissemelhança definida): Partição Consenso 14 Clusters dos 127 aminoácidos 4 01-03-2008

Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção Extracção de Conhecimento Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 5

Aminoácidos Representativos Elemento representativo de um cluster: - Aminoácido mais próximo do centróide da classe. Nas 10 Partições: O aminoácido representativo é o mais votado; Caso de empate: deixa-se para escolher no final e dos mais votados escolhe-se o mais afastado dos aminoácidos já escolhidos. 15 elementos representativos 6

Identificação de Eventos 1. Comparação de Aminoácidos dois a dois Evento Nº 1 - troca de posição entre dois aminoácidos GLU_42 CM LEU_17 95 Eventos 8 01-03-2008

Identificação de Eventos Evento Nº2 - duas trocas entre dois aminoácidos GLU_42 CM LEU_17 89 Eventos 9 01-03-2008

Identificação de Eventos Procura de alterações significativas por aminoácido Verifica-se a ocorrência de um evento quando, para uma janela de 200ps, a linha que passa pelo ponto de máximo e pelo mínimo tem declive superior a 1. 66 aminoácidos com alterações bruscas de comportamento 10 01-03-2008

Regras de Associação Evento Nº 1 - troca de posição entre dois aminoácidos Regra nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Support=0.5; Confidence=1; Lift=2; Se o aminoácido ASN_98 alterna de comportamento com SER_77, relativamente ao centro de massa, e o mesmo ocorre com entre os aminoácidos ASN_124 e GLU_63 então a variante de TTR é L55P-TTR Regra nº2: GLU_42_troca_2x_A_ALA_91 L55 Support=0.4; Confidence=1; Lift=2; 12

Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante WT-TTR 13

Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante L55P-TTR 14

Regra Nº 1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante WT-TTR 15

Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante L55P-TTR 16

Regras de Associação Procura de eventos ao longo das séries dos 127 aminoácidos Regra Nº3: GLY_83 L55 Support= 0.4 Confidence=1; Lift=2 A probabilidade de estarmos perante a variante L55P-TTR quando o aminoácido GLY_83 muda abruptamente de comportamento é 100% 17

Regras de Associação Procura de eventos ao longo das séries dos 127 aminoácidos Regra Nº3: GLY_83 L55 Support= 0.4 Confidence=1; Lift=2 A probabilidade de estarmos perante a variante L55P-TTR quando o aminoácido GLY_83 muda abruptamente de comportamento é 100% Regra Nº4: PRO_86 WT Support= 0.5 Confidence=0.83; Lift=1.66; Conviction=30 18

Valor das Regras obtidas Só foram analisadas 10 simulações da desnaturação da TTR?! Como controlar o risco de falsas descobertas? Trabalho Futuro: Desenvolver técnicas para controlar o risco de falsas descobertas Quantas simulações precisamos? Trabalho Futuro: Desenvolver um modelo para calcular o número esperado de exemplos que precisamos para este tipo de problema. Qual é a probabilidade de uma regra aleatória dar o mesmo resultado (ou melhor) do que uma dada regra? Exemplo: Para a Regra Nº4 temos que a probabilidade é de 0.0198. 19

Conclusões A partição consenso fornece uma partição dos aminoácidos que considera n simulações. Para cada cluster obteve-se o aminoácido representativo simplificando-se a complexidade do problema, reduzindo-se o número de séries em estudo. A identificação de eventos é uma fase importante deste processo, podendo caracterizar-se o processo a um nível superior. Com as Regras de Associação podemos identificar padrões que descriminam as variantes de TTR. 20