Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica por Elisabeth Silva Fernandes Dissertação de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientador: Professor Alípio Jorge Co-Orientador: Professor Rui Brito, Universidade de Coimbra Faculdade de Economia Universidade do Porto 5 de Junho de 2008
Motivação Objectivo Estudar o processo de desnaturação da proteína TTR. O monómero de TTR tem 127 aminoácidos. Duas variantes de TTR: WT-TTR wild type e L55P-TTR variante mutada. Dados 10 simulações da desnaturação da TTR. Cada corrida com 127 séries temporais. Medida em estudo: distância do C a de cada aminoácido ao centro de massa da proteína. Cada série temporal tem 10001 valores (um por cada pico segundo). Figura 1- (A) TTR; (B) Monomero de TTR 2
Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção de Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 3
Análise de Clusters - Partição Consenso 126 series temporais, 10 simulações de desnaturação da TTR Optimização dos Índices G2 e G3 de Milligan e Cooper Clustering hierárquico para cada corrida (Método de Ward e Distância Euclideana): 10 Partições dos 126 aminoácidos; Clustering hierárquico sob o quadro das classificações (Método da Ligação Média e Medida de dissemelhança definida): Partição Consenso 14 Clusters dos 127 aminoácidos 4 01-03-2008
Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção Extracção de Conhecimento Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 5
Aminoácidos Representativos Elemento representativo de um cluster: - Aminoácido mais próximo do centróide da classe. Nas 10 Partições: O aminoácido representativo é o mais votado; Caso de empate: deixa-se para escolher no final e dos mais votados escolhe-se o mais afastado dos aminoácidos já escolhidos. 15 elementos representativos 6
Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção Extracção de Conhecimento Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 7
Identificação de Eventos 1. Comparação de Aminoácidos dois a dois Evento Nº 1 - troca de posição entre dois aminoácidos GLU_42 CM LEU_17 95 Eventos 8 01-03-2008
Identificação de Eventos Evento Nº2 - duas trocas entre dois aminoácidos GLU_42 CM LEU_17 89 Eventos 9 01-03-2008
Identificação de Eventos Procura de alterações significativas por aminoácido Verifica-se a ocorrência de um evento quando, para uma janela de 200ps, a linha que passa pelo ponto de máximo e pelo mínimo tem declive superior a 1. 66 aminoácidos com alterações bruscas de comportamento 10 01-03-2008
Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção Extracção de Conhecimento Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 11
Regras de Associação Evento Nº 1 - troca de posição entre dois aminoácidos Regra nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Support=0.5; Confidence=1; Lift=2; Se o aminoácido ASN_98 alterna de comportamento com SER_77, relativamente ao centro de massa, e o mesmo ocorre com entre os aminoácidos ASN_124 e GLU_63 então a variante de TTR é L55P-TTR Regra nº2: GLU_42_troca_2x_A_ALA_91 L55 Support=0.4; Confidence=1; Lift=2; 12
Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante WT-TTR 13
Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante L55P-TTR 14
Regra Nº 1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante WT-TTR 15
Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante L55P-TTR 16
Regras de Associação Procura de eventos ao longo das séries dos 127 aminoácidos Regra Nº3: GLY_83 L55 Support= 0.4 Confidence=1; Lift=2 A probabilidade de estarmos perante a variante L55P-TTR quando o aminoácido GLY_83 muda abruptamente de comportamento é 100% 17
Regras de Associação Procura de eventos ao longo das séries dos 127 aminoácidos Regra Nº3: GLY_83 L55 Support= 0.4 Confidence=1; Lift=2 A probabilidade de estarmos perante a variante L55P-TTR quando o aminoácido GLY_83 muda abruptamente de comportamento é 100% Regra Nº4: PRO_86 WT Support= 0.5 Confidence=0.83; Lift=1.66; Conviction=30 18
Valor das Regras obtidas Só foram analisadas 10 simulações da desnaturação da TTR?! Como controlar o risco de falsas descobertas? Trabalho Futuro: Desenvolver técnicas para controlar o risco de falsas descobertas Quantas simulações precisamos? Trabalho Futuro: Desenvolver um modelo para calcular o número esperado de exemplos que precisamos para este tipo de problema. Qual é a probabilidade de uma regra aleatória dar o mesmo resultado (ou melhor) do que uma dada regra? Exemplo: Para a Regra Nº4 temos que a probabilidade é de 0.0198. 19
Conclusões A partição consenso fornece uma partição dos aminoácidos que considera n simulações. Para cada cluster obteve-se o aminoácido representativo simplificando-se a complexidade do problema, reduzindo-se o número de séries em estudo. A identificação de eventos é uma fase importante deste processo, podendo caracterizar-se o processo a um nível superior. Com as Regras de Associação podemos identificar padrões que descriminam as variantes de TTR. 20
Fim