Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica

Documentos relacionados
Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Descrição do Método de Análise de Clusters

Introdução à Mineração de Dados com Aplicações em Ciências Espaciais

ª Fase. 16 pontos

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Fundação Oswaldo Cruz Escola Nacional de Saúde Pública Departamento de Epidemiologia. Estatística espacial. Padrão Pontual

IFSC Campus Lages. Tradução. Biologia Molecular Prof. Silmar Primieri

O papel das investigações estatísticas no programa de Matemática do 3.º ciclo do ensino básico

BIOQUÍMICA I 1º ano de Medicina Ensino teórico 2010/2011

Clustering: k-means e Agglomerative

Proteínas são organizadas em níveis. Na aula passada... Cadeia polipetídica na conformação estendida

MÉTODOS MULTIVARIADOS. Rodrigo A. Scarpel

Simulador de eletroforese

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

CURSO VOCACIONAL SECUNDÁRIO 2º ANO TÉCNICO COMERCIAL NRº DO PROJETO: ENSINO SECUNDÁRIO OBJETIVOS - REPRESENTAÇÃO GEOMÉTRICA DE UMA FUNÇÃO

O risco económico na avaliação de projectos alternativos

Caraterização molecular e funcional de variantes alfa de hemoglobina identificadas no Centro Hospitalar e Universitário de Coimbra

SENSOMETRIA. Adilson dos Anjos. Curitiba, PR 21 de maio de Departamento de Estatística Universidade Federal do Paraná

"Busca por evide ncias de dina mica cao tica nas flutuac o es turbulentas de densidade em plasmas"

Tópicos Avançados em IA. Prof. Eduardo R. Hruschka

RMN em proteínas pequenas

A ABSTRACÇÃO É NOSSA AMIGA

Prof.: Joni Fusinato

Simulação manual do algoritmo

CLARA. Resumo. Introdução. Artigo de Referência [1] Introdução PAM. Modelagem como grafo CLARANS. Comparação de eficiência Conclusão

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

Lista de Exercícios Aminoácidos e Proteínas

Clóvis de Araújo Peres Cargo: Professor Titular de Estatística da USP UNIFESP Formação: PhD em Estatística pela Universidade WISCONSIN - USA

EAD Simulação. Aula 2 Parte 1: Modelos & Simulação. Profa. Dra. Adriana Backx Noronha Viana

Segmentação: exemplo chocolate

INF 1771 Inteligência Artificial


Aminoácidos peptídeos e proteínas

Estudo heurístico de performance de estratégias de investimento simples baseadas na média móvel e desvio padrão no mercado ForEx

Um modelo estatístico para campeonatos de Futebol

1. Realizou-se uma Assembleia-geral de uma associação cultural, com o objectivo de

Aminoácidos (aas) Prof.ª: Suziane Antes Jacobs

Mestrado Integrado em Engenharia Mecânica

Modelo Bayesiano Para Análise de Vazios Urbanos. Humberto Emmanuel Schmidt Oliveira Aparecida D. P. Souza Nilton Nobuhiro Imai FCT/UNESP

Proposta de teste de avaliação

X ~ Binomial (n ; p) H: p = p 0 x A: p p 0 (ou A: p > p 0 ou A: p < p 0 ) { X k 1 } U { X k 2 } (ou { X k } ou { X k }) x RC não rejeitamos H

Redes Neurais (Inteligência Artificial)

ANÁLISE DE AGRUPAMENTO APLICADA AO CRESCIMENTO POPULACIONAL DE ALGUNS PAÍSES EUROPEUS

Agentes de Procura Procura Estocástica. Capítulo 3: Costa, E. e Simões, A. (2008). Inteligência Artificial Fundamentos e Aplicações, 2.ª edição, FCA.

Aminoácidos. Prof. Dr. Walter F. de Azevedo Jr. Laboratório de Sistemas BioMoleculares. Departamento de Física. UNESP São José do Rio Preto. SP.

Análise de Agrupamento. Cluster Analysis

Sensometria, Segmentação. Adilson dos Anjos

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Projected Clustering Algorithm

Estatística Aplicada

Tipos de Dados Biológicos e Multimídia

Redes complexas: como as "coisas" se conectam

Rafael Mesquita. Proteínas. Estrutura

14/02/2017. Genética. Professora Catarina

4. Tipos de Pesquisas

Curso Profissional de Nível Secundário

ÍNDICE. Variáveis, Populações e Amostras. Estatística Descritiva PREFÁCIO 15 NOTA À 3ª EDIÇÃO 17 COMO USAR ESTE LIVRO? 21 CAPÍTULO 1 CAPÍTULO 2

Catarina Marques. Estatística II Licenciatura em Gestão. Conceitos: População, Unidade Estatística e Amostra

Estatística Empresarial. Fundamentos de Probabilidade

Aula 1. Referência. Bancos de Dados. Linguagem x Informação. Introdução a Bioquímica: Biomoléculas. Introdução ao Curso: Aminoácidos.

Análise de Padrões nas Estruturas em Grandes Escalas do Universo

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

Algoritmos probabilísticos

Instituto Nacional de Pesquisas Espaciais - INPE. Divisão de Processamento de Imagens - DPI

Análise de Clusters. Aplicações da formação de Grupos (Clustering)

Análise de Agrupamento (Cluster analysis)

Análise de dados: clustering e redução de dimensionalidade

CURSO: ENFERMAGEM DISCIPLINA: BIOQUÍMICA HUMANA PROF. WILLAME BEZERRA. Aminoácidos. Prof. Willame Bezerra

ESCOLA SECUNDÁRIA DE LOUSADA

Reconhecimento de Padrões. Reconhecimento de Padrões

EXECUTIVE MASTER EM APPLIED BUSINESS ANALYTICS

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

Estatística e Modelos Probabilísticos - COE241

Exame de Aprendizagem Automática

Agrupamento de Escolas do Fundão

Aminoácidos não-essenciais: alanina, ácido aspártico, ácido glutâmico, cisteína, glicina, glutamina, hidroxiprolina, prolina, serina e tirosina.

Bolsas BIC CMAT Ano Lista das propostas

Hidrofobicidade. processo foi sucintamente descrita por G.S.Hartley em 1939:

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

Número: Nome:

1. Introdução. Tema: Modelo da procura de transporte público em territórios de baixa densidade

6 Aplicação do Modelo de Geração de Cenários

Prof. Daniela Barreiro Claro

Prova Escrita de MATEMÁTICA A - 12o Ano a Fase

Segmentação: exemplo snacks (Lawlesss, 2013)

1 Desenho da investigação. 1.1 Definição e objectivos 1.2 Elementos do desenho

ESCOLA SECUNDÁRIA COM 3º CICLO D. DINIS 12º ANO DE ESCOLARIDADE DE MATEMÁTICA A Tema I Probabilidades e Combinatória

Delineamento, Tipos de Pesquisa, Amostragem. Prof. Alejandro Martins

Carla Alexandra Marques Gregório. Análise de Dados de Desnaturação Proteica Obtida por Simulações de Dinâmica Molecular

MINERAÇÃO DE DADOS. Thiago Marzagão CLUSTERIZAÇÃO. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 9

Programa de Pós-Graduação em Química

Estatística e Modelos Probabilísticos - COE241

A procura da melhor partição em Classificação Hierárquica: A abordagem SEP/COP

Procedimento de comparações múltiplas baseado na distribuição F e sua implementação no pacote Experimental Designs

Análise dos alunos do 1ºAno da Escola Naval. O problema. Sumário. O problema. A questão. Os dados (1)

Determinação espectrofotométrica do pka do indicador vermelho de metilo

Cluster. Larissa Sayuri Futino Castro dos Santos

ESTRUTURA DAS PROTEÍNAS

Transcrição:

Extracção de Conhecimento de Dados obtidos por Simulação da Desnaturação Proteica por Elisabeth Silva Fernandes Dissertação de Mestrado em Análise de Dados e Sistemas de Apoio à Decisão Orientador: Professor Alípio Jorge Co-Orientador: Professor Rui Brito, Universidade de Coimbra Faculdade de Economia Universidade do Porto 5 de Junho de 2008

Motivação Objectivo Estudar o processo de desnaturação da proteína TTR. O monómero de TTR tem 127 aminoácidos. Duas variantes de TTR: WT-TTR wild type e L55P-TTR variante mutada. Dados 10 simulações da desnaturação da TTR. Cada corrida com 127 séries temporais. Medida em estudo: distância do C a de cada aminoácido ao centro de massa da proteína. Cada série temporal tem 10001 valores (um por cada pico segundo). Figura 1- (A) TTR; (B) Monomero de TTR 2

Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção de Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 3

Análise de Clusters - Partição Consenso 126 series temporais, 10 simulações de desnaturação da TTR Optimização dos Índices G2 e G3 de Milligan e Cooper Clustering hierárquico para cada corrida (Método de Ward e Distância Euclideana): 10 Partições dos 126 aminoácidos; Clustering hierárquico sob o quadro das classificações (Método da Ligação Média e Medida de dissemelhança definida): Partição Consenso 14 Clusters dos 127 aminoácidos 4 01-03-2008

Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção Extracção de Conhecimento Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 5

Aminoácidos Representativos Elemento representativo de um cluster: - Aminoácido mais próximo do centróide da classe. Nas 10 Partições: O aminoácido representativo é o mais votado; Caso de empate: deixa-se para escolher no final e dos mais votados escolhe-se o mais afastado dos aminoácidos já escolhidos. 15 elementos representativos 6

Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção Extracção de Conhecimento Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 7

Identificação de Eventos 1. Comparação de Aminoácidos dois a dois Evento Nº 1 - troca de posição entre dois aminoácidos GLU_42 CM LEU_17 95 Eventos 8 01-03-2008

Identificação de Eventos Evento Nº2 - duas trocas entre dois aminoácidos GLU_42 CM LEU_17 89 Eventos 9 01-03-2008

Identificação de Eventos Procura de alterações significativas por aminoácido Verifica-se a ocorrência de um evento quando, para uma janela de 200ps, a linha que passa pelo ponto de máximo e pelo mínimo tem declive superior a 1. 66 aminoácidos com alterações bruscas de comportamento 10 01-03-2008

Processo de Extracção de Conhecimento Dados 10 Simulações Dim: 10001 x 127 Análise Exploratória Clustering para cada variante de TTR (Partição I e II) Extracção Extracção de Conhecimento Conhecimento Análise de Clusters Partição consenso Aminoácidos Representativos Eventos Regras de Associação 11

Regras de Associação Evento Nº 1 - troca de posição entre dois aminoácidos Regra nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Support=0.5; Confidence=1; Lift=2; Se o aminoácido ASN_98 alterna de comportamento com SER_77, relativamente ao centro de massa, e o mesmo ocorre com entre os aminoácidos ASN_124 e GLU_63 então a variante de TTR é L55P-TTR Regra nº2: GLU_42_troca_2x_A_ALA_91 L55 Support=0.4; Confidence=1; Lift=2; 12

Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante WT-TTR 13

Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante L55P-TTR 14

Regra Nº 1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante WT-TTR 15

Regra Nº1: ASN_98_spw_SER_77 & ASN_124_spw_GLU_63 L55 Variante L55P-TTR 16

Regras de Associação Procura de eventos ao longo das séries dos 127 aminoácidos Regra Nº3: GLY_83 L55 Support= 0.4 Confidence=1; Lift=2 A probabilidade de estarmos perante a variante L55P-TTR quando o aminoácido GLY_83 muda abruptamente de comportamento é 100% 17

Regras de Associação Procura de eventos ao longo das séries dos 127 aminoácidos Regra Nº3: GLY_83 L55 Support= 0.4 Confidence=1; Lift=2 A probabilidade de estarmos perante a variante L55P-TTR quando o aminoácido GLY_83 muda abruptamente de comportamento é 100% Regra Nº4: PRO_86 WT Support= 0.5 Confidence=0.83; Lift=1.66; Conviction=30 18

Valor das Regras obtidas Só foram analisadas 10 simulações da desnaturação da TTR?! Como controlar o risco de falsas descobertas? Trabalho Futuro: Desenvolver técnicas para controlar o risco de falsas descobertas Quantas simulações precisamos? Trabalho Futuro: Desenvolver um modelo para calcular o número esperado de exemplos que precisamos para este tipo de problema. Qual é a probabilidade de uma regra aleatória dar o mesmo resultado (ou melhor) do que uma dada regra? Exemplo: Para a Regra Nº4 temos que a probabilidade é de 0.0198. 19

Conclusões A partição consenso fornece uma partição dos aminoácidos que considera n simulações. Para cada cluster obteve-se o aminoácido representativo simplificando-se a complexidade do problema, reduzindo-se o número de séries em estudo. A identificação de eventos é uma fase importante deste processo, podendo caracterizar-se o processo a um nível superior. Com as Regras de Associação podemos identificar padrões que descriminam as variantes de TTR. 20

Fim