Aplicação de inferência difusa em bioinformática para identificação de SNPs



Documentos relacionados
Complemento III Noções Introdutórias em Lógica Nebulosa

SISTEMA FUZZY APLICADO À BIOINFORMÁTICA NA TOMADA DE DECISÃO PARA IDENTIFICAÇÃO DE SNPs

3 Classificação Resumo do algoritmo proposto

Análise crítica dos resultados oriundos de certificados de calibração relativo à calibração de bloco-padrão utilizando lógica fuzzy.

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Localização dos inquéritos de rua para Arroios e Gulbenkian

Introdução à genética quantitativa usando os recursos do R

PLANEJAMENTO DA MANUFATURA

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

4 Avaliação Econômica

NBC TSP 10 - Contabilidade e Evidenciação em Economia Altamente Inflacionária

MODELAGEM DIFUSA PARA SUPORTE À DECISÃO NA DESCOBERTA DE SNPs EM SEQUÊNCIAS DE cdna

4 Arquitetura básica de um analisador de elementos de redes

Organização e Arquitetura de Computadores I

Este trabalho tem como objetivo propor um modelo multicritério para a priorização dos modos de falha indicados a partir de uma aplicação do processo

Gerenciamento de Projeto: Criando o Termo de Abertura II. Prof. Msc Ricardo Britto DIE-UFPI rbritto@ufpi.edu.br

6 Construção de Cenários

Cláudio Tadeu Cristino 1. Julho, 2014

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Simulação Transiente

Feature-Driven Development

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Revisão de Estatística Básica:

PLANEJAMENTO OPERACIONAL: RECURSOS HUMANOS E FINANÇAS MÓDULO 16

RELATÓRIO TREINAMENTO ADP 2013 ETAPA 01: PLANEJAMENTO

O que é a estatística?

Como redigir o projeto de pesquisa? Identificação

2 Atualidade de uma base de dados

TEORIA DO RISCO. LUIZ SANTOS / MAICKEL BATISTA economia.prof.luiz@hotmail.com maickel_ewerson@hotmail.com

Taxa de Aplicação de CIP (Custos Indiretos de Produção)

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

Apostila de Fundamentos de Programação I. Prof.: André Luiz Montevecchi

Modelo Cascata ou Clássico

APLICACAÇÃO DE METRICAS E INDICADORES NO MODELO DE REFERENCIA CMMI-Dev NIVEL 2

A Grande Importância da Mineração de Dados nas Organizações

1

RESOLUÇÃO CFC Nº /09. O CONSELHO FEDERAL DE CONTABILIDADE, no exercício de suas atribuições legais e regimentais,

IMPLEMENTAÇÃO DE PROCESSADOR DIGITAL BASEADO EM LÓGICA FUZZY USANDO UM FPGA

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

Análise Exploratória de Dados

3 Metodologia 3.1. Tipo de pesquisa

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

Capítulo 3. Avaliação de Desempenho. 3.1 Definição de Desempenho

Teste de Software. Ricardo Argenton Ramos Engenharia de Software I

Teoria da Decisão MÉTODOS QUANTITATIVOS DE GESTÃO

Técnicas para Programação Inteira e Aplicações em Problemas de Roteamento de Veículos 14

Modelo fuzzy para a chance de sucesso na quitação de um empréstimo

computador-cálculo numérico perfeita. As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

ANÁLISE DOS RESULTADOS DOS PROGRAMAS DE APOIO ÀS PMEs NO BRASIL Resumo Executivo PARA BAIXAR A AVALIAÇÃO COMPLETA:

Pontos de Pedido Fuzzy: Otimizando Níveis de Estoque por meio de Experiência Gerencial

Engenharia de Software III

ANEXO 5 ESCOPO DO ESTUDO DE VIABILIDADE TÉCNICA, ECONÔMICA E JURÍDICA

AUTOR: DAVID DE MIRANDA RODRIGUES CONTATO: CURSO FIC DE PROGRAMADOR WEB VERSÃO: 1.0

Sistemas de Numerações.

Arquitetura de Rede de Computadores

GARANTIA DA QUALIDADE DE SOFTWARE

2 Diagrama de Caso de Uso

COMITÊ DE PRONUNCIAMENTOS CONTÁBEIS INTERPRETAÇÃO TÉCNICA ICPC 06. Hedge de Investimento Líquido em Operação no Exterior

MS 777 Projeto Supervisionado Professor: Laércio Luis Vendite Ieda Maria Antunes dos Santos RA:

APLICAÇÕES DA DERIVADA

Comentários sobre os Indicadores de Mortalidade


Instalações Máquinas Equipamentos Pessoal de produção

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

CAPÍTULO 11. Poupança, acumulação de capital e produto. Olivier Blanchard Pearson Education

Teoria Geral de Sistemas. Késsia R. C. Marchi

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

UNIVERSIDADE FEDERAL DO PARANÁ UFPR Bacharelado em Ciência da Computação

2aula TEORIA DE ERROS I: ALGARISMOS SIGNIFICATIVOS, ARREDONDAMENTOS E INCERTEZAS. 2.1 Algarismos Corretos e Avaliados

Prof. Dr. Guanis de Barros Vilela Junior

BM&FBOVESPA IGC. Página 1 de 8

Matemática Financeira Módulo 2

Sistemas de Informação I

Avaliação de Processos Produtivos - APP

FUNÇÃO COMO CONJUNTO R 1. (*)= ou, seja, * possui duas imagens. b) não é uma função de A em B, pois não satisfaz a segunda condição da

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO CENTRO UNIVERSITÁRIO NORTE DO ESPÍRITO SANTO DISCIPLINA: ECONOMIA DA ENGENHARIA

Curso superior de Tecnologia em Gastronomia

Desenvolvimento de um sistema computacional para otimização de custos e ganho nutricional nas refeições do restaurantes do IFMG-campus Bambuí

Crescimento em longo prazo

CONSULTA PÚBLICA Nº 008/2010. Revisão da Metodologia de Estabelecimento dos Limites dos Indicadores Coletivos de Continuidade

Complemento IV Introdução aos Algoritmos Genéticos

Equações do primeiro grau

Arquitetura de Computadores - Arquitetura RISC. por Helcio Wagner da Silva

Utilização de Sistemas Distribuídos em MMOGs (Massive MultiPlayer Online Games) Mauro A. C. Júnior

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

CAP. 2 CONSIDERAÇÕES SOBRE OS CRITÉRIOS DE DECISÃO

Universidade Federal de Uberlândia Brasil

ROTEIRO PARA CLASSIFICAÇÃO DE LIVROS Avaliação dos Programas de Pós graduação

FACULDADE PITÁGORAS DISCIPLINA: SISTEMAS DE INFORMAÇÃO

4 Segmentação Algoritmo proposto

Poder Judiciário TRIBUNAL DE JUSTIÇA DO ESTADO DO AMAPÁ. Estudos Preliminares. Descrição sucinta, precisa, clara e suficiente da STIC escolhida.

ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

Pindyck & Rubinfeld, Capítulo 15, Mercado de Capitais::REVISÃO

Avaliação Alimentar Utilizando Técnicas de Inteligência Artificial

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Transcrição:

Aplicação de inferência difusa em bioinformática para identificação de SNPs Wagner Arbex 1, Fabrízzio Condé de Oliveira 2, Luís Alfredo Vidal de Carvalho 3 1 Empresa Brasileira de Pesquisa Agropecuária Rua Eugênio do Nascimento, 610-36038-330 - Juiz de Fora - MG 2 Universidade Salgado de Oliveira Av. dos Andradas, 731-36036-000 - Juiz de Fora - MG 3 Universidade Federal do Rio de Janeiro Centro de Tecnologia - Bloco H-319-21945-970 - Rio de Janeiro - RJ arbex@cnpgl.embrapa.br, fabrizzioconde@gmail.com, alfredo@ufrj.br Abstract. Research involving the discovery of single nucleotide polymorphisms (SNPs) requires bioinformatics tools to be applied to different cases, with the ability to analyze reads from different sources, levels of coverage and to establish reliable measures. These tools work with different methodologies on different attributes, however, it is expected similar results, even when dealing with a same data set, but it s not unusual to provide different results, which leads to uncertainty in decision making, when the results are discordant. Resumo. A investigação de polimorfismos de base única necessita de ferramentas de bioinformática que devem ser aplicadas a diferentes casos, com capacidade para analisar seqüências de diferentes fontes, níveis de cobertura e que consigam medidas confiáveis. Essas ferramentas trabalham com diferentes metodologias, sobre diferentes atributos, contudo, espera-se que apresentem resultados similares, ao tratarem um mesmo conjunto de dados, mas, não é incomum fornecerem resultados diferentes, o que produz incerteza na tomada de decisão, quando os resultados são discordantes. 1. Introdução Polimorfismos de base única (single nucleotide polymorphisms - SNPs) são pares de bases em uma única posição no DNA genômico, que se apresentam com diferentes alternativas nas seqüências e podem ser encontrados no genoma de indivíduos isoladamente ou em grupos de indivíduos, em alguma população. A individualidade é conseqüência da expressão do código genético, ou seja, em sua essência, as seqüências de nucleotídeos formam as moléculas e seqüências de DNA, RNA e proteínas, que, por sua vez, interagem e formam as células, as quais também, interagem e formam os tecidos, os órgãos, até que, finalmente, formam os indivíduos. Essa é a importância dos SNPs, pois, em síntese, a alteração de um único nucleotídeo, uma única base, em uma dada seqüência, pode alterar a formação de proteínas e o conjunto dessas alterações pode provocar variações nas características dos indivíduos.

Esse texto apresenta um modelo matemático e computacional para tomada de decisão, desenvolvido e implementado com o fuzzymorphic.pl [Arbex 2009], aplicado à investigação de SNPs em seqüências expressas de cdna, que utiliza-se de lógica difusa para a implementação de um sistema de inferência, auxiliar à tomada de decisão, partindo de resultados prévios, obtidos por diferentes ferramentas de descoberta de SNPs e que apresentam resultados possivelmente conflitantes. O modelo é aplicado para auxiliar na tomada de decisão, nos casos em que as informações sejam divergentes e, também, na confirmação de informações coincidentes. 2. Inferência difusa como suporte à decisão A subjetividade no raciocínio em geral, utilizada no cotidiano, sendo transmitida e perfeitamente compreendida entre interlocutores, é expressa em termos e variáveis lingüísticas [Zadeh 1973] e não é expressa sob a lógica clássica ou qualquer abordagem matemática tradicional. O uso de, p. ex., adjetivos comuns que representam imprecisão ou incerteza, tais como, alto, baixo ou, relações e agrupamentos, como, conjunto das pessoas altas, não podem ser expressos por essas abordagens, a menos que seja definido, com exatidão, o conceito ou o valor que determine a altura, a partir da qual, uma pessoa pode ser considera alta. Os termos e variáveis lingüísticas aumentam a complexidade dos sistemas computacionais frente à capacidade trabalharem com números, valores exatos, discretos e, por vezes, excludentes, o que sugere a idéia de que, trabalhar com valores incertos, possibilita a modelagem de sistemas complexos, mesmo que se reduza a precisão do resultado, mas não retira a credibilidade. Se as incertezas, quando consideras isoladamente, são indesejáveis, quando associadas a outras características, em geral, permitem a redução da complexidade do sistema e aumentam a credibilidade dos resultados obtidos [Klir and Yuan 1995]. As abordagens clássicas são falhas para valores limítrofes e, portanto, resultados matemática e logicamente precisos, porém, questionáveis, podem ser encontrados. P. ex., o Polyphred score (PPS) estabelece seis classes com intervalos precisos (Tab. 1) [Nickerson et al. 2008] e, supondo que fossem determinados os scores 70 e 89 para dois pontos, então, para ambos, seria considerada a taxa de 35% de verdadeiros positivos na decisão desses pontos virem a ser SNPs (Classe 4). Tabela 1. Classes definidas pelo PPS [Nickerson et al. 2008]. Classe PPS Taxa de verdadeiros positivos 1 99 97% 2 95-98 75% 3 90-94 62% 4 70-89 35% 5 50-69 11% 6 0-49 1% Essa decisão, lógica e matematicamente precisa, pode ser questionada devido à subjetividade que a envolve, visto que, 70 e 89, se encontram nos limites da classe a qual pertencem e, portanto, muito próximos de diferentes interpretações. Todavia, as abordagens clássicas da lógica e da matemática não possuem as ferramentas necessárias para tratar valores limítrofes, imprecisão ou incerteza. Um valor limítrofe acarretará dúvidas na decisão de o ponto ser, ou não, considerado polimórfico, o que sugere um sistema de inferência difusa (SID) para o tratamento dessa incerteza.

O problema de valores limítrofes, em geral, não é tão simples quanto parece, do contrário, as abordagens clássicas poderiam facilmente resolvê-lo, mas, ao aproximar-se do raciocínio subjetivo para a interpretação e a extração de uma resposta, uma decisão, torna-se complexo e a aparente simplicidade é conferida pela modelagem por lógica difusa e seu embasamento na teoria dos conjuntos difusos. A subjetividade intrínseca ao raciocínio trata situações complexas, mediante imprecisão, incerteza ou aproximação e, então, são utilizados operadores humanos, também de natureza imprecisa, que são expressos por termos ou variáveis lingüísticas, o que, em geral, não permite uma solução em termos exatos, mas, pode propor uma classificação, agrupamento ou agregação qualitativa em categorias ou possíveis conjuntos de soluções [de Almeida and Evsukoff 2005]. A teoria dos conjuntos difusos e a lógica difusa são adequadas para representar a informação imprecisa e caso seja possível organizar os operadores humanos em regras da forma se ANTECEDENTE então CONSEQÜENTE, o raciocínio subjetivo pode ser descrito em um algoritmo computacionalmente executável [Tanscheit 2007] capaz de classificar, de modo impreciso, as variáveis que participam dos termos antecedentes e conseqüentes das regras, em conceitos qualitativos, o que representa a idéia de variável lingüística [de Almeida and Evsukoff 2005]. Assim, como sistemas capazes de processar informações imprecisas e qualitativas, os modelos de inferência difusa são adequados à situação de tomada de decisão [de Almeida and Evsukoff 2005]. 3. Descrição do modelo e do SID para identificação de SNPs Em geral, as etapas de um SID são: a fuzzificação, que converte os dados precisos (crisps) de entrada em valores difusos; a inferência, propriamente dita; e a defuzzificação, que converte os resultados difusos em grandezas numéricas precisas. No modelo proposto, consideram-se como valores de entrada, as probabilidades, previamente determinadas, de o ponto vir a ser um SNP e o valor de qualidade do ponto na seqüencia consenso. Os Casos 1 e 2 serão utilizados ao longo do texto para demonstrar o modelo, assumindo, para o Caso 1, 99% e 96%, quanto as probabilidades e 43 de qualidade e, para o Caso 2, os valores são, respectivamente, 94%, zero e 50. 3.1. Fuzzificação Avalia-se um valor de entrada por sua função de pertinência, o que determina um grau de pertinência (GP ) do valor para a sua função e as funções de pertinência adotadas foram baseadas: 1. no PPS (Tab. 1), com a função de pertinência definida pela variável linguística probabilidade, com os termos (Exps. 1 e 2): improvável (P IM ), pouco provável (P PP ), medianamente provável (P mp ), provável (P PR ), muito provável (P MP )ealtamente provável (P AP ); 2. na qualidade das bases do consenso o Phrap quality score (PQS) que varia entre 4 e 90 e sua função de pertinência (Exps. 3) define a variável linguística qualidade, nos termos: ruim (Q R ), boa (Q B )eótima (Q O ). P IM (x) = 1 x 49 59 x 59 49 49 <x<59 0 x 59 P PP (x) = 0 x 25 x 25 50 25 25 <x<50 1 50 x 69 79 x 79 69 69 <x<79 0 x 79 P mp (x) = 0 x 60 x 60 70 60 60 <x<70 1 70 x 89 91, 5 x 91, 5 89 89 <x<91, 5 0 x 91, 5 (1)

P PR (x) = 0 x 80 x 80 90 80 80 <x<90 1 90 x 94 96 x 96 94 94 <x<96 0 x 96 P MP (x) = 0 x 92, 5 x 92, 5 95 92, 5 92, 5 <x<95 1 95 x 98 99 x 99 98 98 <x<99 0 x 99 0 x 96, 5 P AP (x) = x 96, 5 99 96, 5 96, 5 <x<99 1 x 99 (2) Q R (x) = 1 x 20 30 x 30 20 20 <x<30 0 x 30 Q B (x) = 0 x 15 x 15 30 15 15 <x<30 1 30 x 40 70 x 70 40 40 <x<70 0 x 70 Q O (x) = 0 x 40 x 40 50 40 40 <x<50 1 x 50 (3) Os resultados da fuzzificação para o Caso 1, PPS 1 = 99, PPS 2 = 96 e PQS = 43, em suas respectivas funções de pertinência, podem ser vistos nas Tabs. 2 e 3 e as Figs. 1 e 2 representam graficamente seus conjuntos difusos. Tabela 2. GPs para a variável probabilidade, para o Caso 1. PPS1 PPS2 Improvável 0 0 Pouco provável 0 0 Medianamente provável 0 0 Provável 0 0 Muito Provável 0 1 Altamente provável 1 0 Tabela 3. GPs para a variável qualidade, para a Caso 1. PQS Ruim 0 Boa 0,9 Ótimo 0,3 Figura 1. Fuzzificação para a variável probabilidade, no Caso 1. Figura 2. Fuzzificação para a variável qualidade, no Caso 1. Para o Caso 2, o resultado da fuzzificação para PPS 1 = 94, PPS 2 = 0 e PQS = 50, pode ser visto nas Tabs. 4 e 5 com as representações nas Figs. 3 e 4. Tabela 4. GPs para a variável probabilidade, para o Caso 2. PPS1 PPS2 Improvável 0 1 Pouco provável 0 0 Medianamente provável 0 0 Provável 1 0 Muito Provável 0,6 0 Altamente provável 0 0 Tabela 5. GPs para a variável qualidade, para o Caso 2. PQS Ruim 0 Boa 0,67 Ótimo 1 Figura 3. Fuzzificação para a variável probabilidade, no Caso 2. Figura 4. Fuzzificação para a variável qualidade, no Caso 2.

A probabilidade, para o Caso 1, é expressa pelos termos muito provável e altamente provável, e a qualidade, pelos termos bom e ótimo e, essas mesmas variáveis do Caso 2, pelos termos improvável, provável, muito provável, bom e ótimo. 3.2. Inferência A inferência executa operações sobre os conjuntos difusos, com a combinação dos antecedentes das regras, a implicação e a aplicação do modus ponens generalizado, sendo, esse procedimento, feito em dois passos: a agregação, que corresponde ao operador lógico E que executa a intersecção entre conjuntos e, portanto, determina o mínimo entre os valores disparados pelas regras, seguido da composição. Os modelos ( máquinas ) de inferência adequados para esse SID, são os modelos de Mamdani ou de Larsen, visto que são sensíveis ao disparo de múltiplas regras sobre o conjunto de saída, quando, então, inicia-se o procedimento de defuzzificação, que começa com o segundo passo da inferência, a composição, que é equivalente ao operador lógico OU e executa a união entre conjuntos, na qual o maior valor entre os mínimos resultantes da agregação é considerado para a defuzzificação. Foram estabelecidas trinta e seis regras de inferência (Tab. 6), sendo que em metade dessas seus antecedentes são avaliados pelas variáveis probabilidade (PPS 1 ) e qualidade e, a outra metade, é avaliada pelas variáveis probabilidade (PPS 2 )equalidade. Essas regras, relacionam termos de entrada com a função de saída, expressa pelos termos SNP descartado, SNP não confirmado e SNP confirmado. se Tabela 6. Regras de inferência utilizadas no SID. improvável qualidade ruim SNP descartado (R 1 ) pouco provável qualidade ruim SNP descartado (R 2 ) medianamente provável qualidade ruim SNP descartado (R 3 ) provável qualidade ruim SNP descartado (R 4 ) muito provável qualidade ruim SNP descartado (R 5 ) altamente provável qualidade ruim SNP descartado (R 6 ) improvável qualidade boa SNP descartado (R 7 ) pouco provável qualidade boa SNP descartado (R 8 ) medianamente provável qualidade boa SNP não confirmado (R e então 9 ) provável qualidade boa SNP não confirmado (R 10 ) muito provável qualidade boa SNP confirmado (R 11 ) altamente provável qualidade boa SNP confirmado (R 12 ) improvável qualidade ótima SNP descartado (R 13 ) pouco provável qualidade ótima SNP descartado (R 14 ) medianamente provável qualidade ótima SNP não confirmado (R 15 ) provável qualidade ótima SNP não confirmado (R 16 ) muito provável qualidade ótima SNP confirmado (R 17 ) altamente provável qualidade ótima SNP confirmado (R 18 ) No Caso 1, as funções de pertinência (Exps. 1, 2 e 3), resultam em P MP = 1, para PPS 2, P AP = 1, para PPS 1, Q B =0, 9eQ O =0, 3 (Tabs. 2 e 3 e Figs. 1 e 2), então, a agregação é feita entre Q B e Q O, o que resulta no termo ótima para a variável qualidade. Os demais valores obtidos são iguais e, assim, não aplica-se a agregação, o que resulta em muito provável (PPS 2 )ealtamente provável (PPS 1 ), para probabilidade, que disparam as regras R 17 e R 18. Para o Caso 2, após a agregação, toma-se P IM = 1 (PPS 2 ), P MP =0, 6(PPS 1 ) e Q B =0, 67 que são levados à máquina de inferência, que dispara R 7 e R 11. O modelo de inferência mapeia os antecedentes, resultantes da agregação, no termo conseqüente, que, para os modelos de Mamdani ou Larsen, representa uma função de saída em termos lingüísticos, exatamente como uma função de pertinência.

A função de saída que foi estabelecida, reduz as seis classes definidas para o PPS aos termos SNP descartado (SNP D ), SNP não confirmado (SNP NC )esnp confirmado (SNP C ), que, então, compõem a variável linguística SNP (Exps. 4): SNP D (x) = 1 x 20 30 x 30 20 20 <x<30 0 x 30 SNP NC (x) = 0 x 15 x 15 30 15 15 <x<30 1 30 x 40 70 x 70 40 40 <x<70 0 x 70 SNP C (x) = As regras R 17 e R 18, disparadas no Caso 1, são processadas como: 0 x 40 x 40 50 40 40 <x<50 1 x 50 1. R 17 tem como antecedentes o valor muito provável, com GP = 1, e o valor ótima, com GP =0, 3; assim, a aplicação da regra mapeia o conseqüente SNP confirmado, com GP = 1 e GP =0, 3, isto é SNP C = 1 e SNP C =0, 3; 2. R 18 tem como antecedentes o valor altamente provável, com GP = 1, e o valor ótima, com GP =0, 3; então, da mesma forma, mapeia o conseqüente SNP confirmado, com GP = 1 e GP =0, 3, isto é SNP C = 1 e SNP C =0, 3. Com a aplicação das duas regras, cujos resultados foram coincidentes, apenas o termo SNP confirmado foi mapeado e o procedimento de composição deve ser tomado somente sobre esse termo. A composição busca o máximo entre os GP s de cada termo, no caso, somente sobre o termo SNP confirmado, fazendo SNP C = 1. Para o Caso 2, são disparadas as regras R 7 e R 11, que avaliam os valores antecedentes P IM = 1 e Q O =0, 67, para R 7,eP MP =0, 6eQ O =0, 67, para R 11. A regra R 7 mapeia na função de saída o valor SNP descartado, com GP = 1 e GP = 0, 67, enquanto a regra R 11 mapeia na função de saída o valor SNP não confirmado, com GP =0, 67 e GP =0, 6. O termo SNP confirmado não foi mapeado, logo o procedimento de composição aplicado aos demais termos resulta em SNP descartado, com GP = 1 (SNP D = 1), e SNP não confirmado, com GP =0, 67 (SNP NC =0, 67). As Figs. 5 e 6 representam, respectivamente, a aplicação das regras de inferência sobre a função de saída (Exps. 4) para os Casos 1 e 2. (4) Figura 5. Aplicação das regras de inferência para o Caso 1. Figura 6. Aplicação das regras de inferência para o Caso 2. 3.3. Defuzzificação A defuzzificação executa a composição, que determina os valores que representam cada um dos conjuntos mapeados na função de saída, e, a partir desses, calcula um valor preciso (VP), obtido com a aplicação do método de defuzzificação. Para o modelo proposto, o método de defuzzificação deve considerar múltiplos disparos, pois o valor da qualidade da base no consenso é utilizada como um valorizador dos valores de probabilidade confrontados (PPS 1 e PPS 2 ). Assim, havendo

disparos múltiplos, esses devem ser avaliados, pois, servem à idéia de valorizar os conjuntos difusos estabelecidos na função de saída. Para esse fim, deve ser utilizado o método centro de máximo (center of maximum - COM) e, a partir dos modelos de inferência, aplica-se o método de defuzzificação adequado ao problema. Como o fuzzymorphic.pl permite a inferência pelos modelos de Mamdani e Larsen, ambos podem ser aplicados e, juntamente com os valores tomados da composição, definem os valores para a defuzzificação. O COM (Exp. 5), trata-se de uma média ponderada, onde o numerador é o somatório dos valores da composição (h i ), isto é, a altura do conjuntos de saída, multiplicados pelos valores no universo de discurso (u i ), encontrados pelo modelo de inferência, do seu respectivo conjunto de saída, e o denominador é o somatório das alturas (h i ). Para o Caso 1, o VP (Exp. 6) e sua representação (Fig. 7) são iguais para os modelos de Mamdani e Larsen, mas, para o Caso 2, como conseqüência desses modelos, a defuzzificação apresenta diferentes resultados (Exps. 7 e 8 e Figs. 8 e 9). VP = hi u i (5) VP C1 = 75 1 = 75 (6) hi 1 Figura 7. Aplicação do modelo de inferência, para o Caso 1. VP C2 = (10 1) + (37, 475 0, 67) 1+0, 67 = 21, 02 (7) VP C2 = (10 1) + (35 0, 67) 1+0, 67 = 20, 03 (8) Figura 8. Aplicação do modelo de Mamdani para o Caso 2. Figura 9. Aplicação do modelo de Larsen para o Caso 2. 3.4. Discussão sobre o modelo de inferência para identificação de SNPs O Caso 1 inicia com resultados prévios similares, 99% e 96% de probabilidades do ponto vir a ser um SNP, entretanto, o Caso 2, parte de resultados divergentes, 94% e zero. O SID incluiu um novo atributo, a qualidade da base no consenso, 43 e 50, para os Casos 1 e 2, respectivamente, ampliando as possibilidades de investigação e utilizando-se deste como um valorizador para a tomada da decisão. Assim, aos resultados prévios de o ponto vir a ser um SNP, acrescenta-se a qualidade do ponto, utilizando-os como as variáveis do modelo que permite a determinação de uma das três possibilidade excludentes: a confirmação do SNP, a eliminação dessa possibilidade ou, uma situação intermediária, sem elementos conclusivos para a confirmação ou o descarte dessa possibilidade.

A análise desses casos fornece elementos suficientes para apresentar o modelo, contudo, resultados efetivos são obtidos mediante a análise de conjuntos de dados, quando os valores inferidos a partir do modelo, podem, então, ser agrupados, determinando os conjuntos de pontos que melhor se ajustam às possibilidades investigadas. Estabelecer grupos é uma tarefa complexa, pois procura-se dizer como são e em quantas classes os dados se distribuem, sem o conhecimento a priori dos mesmos e, caso os valores se distribuam equitativamente no espaço, não caracterizando qualquer categoria, as classes podem não existir, uma vez que são definidas com base na semelhança entre os elementos, cabendo a verificação das possíveis classes para avaliar a existência de algum significado útil [de Carvalho 2005]. 4. Conclusões Critérios fixos e precisos de classificação, em geral, não são adequados, quando um estudo apresenta resultados próximos à divisão das classes, o que pode ser tratado por SIDs, que também são convenientes e possuem capacidade para tratar problemas que apresentam incerteza ou imprecisão para a tomada de decisão. Ao adicionar um novo atributo aos resultados prévios, o modelo de inferência é capaz de decidir, de forma única, entre suas três possibilidades e, então, agrupálas a partir de um algoritmo não-supervisionado e com estabelecimento dinâmico do número de grupos, esperando que o resultado desse agrupamento confirme o particionamento do conjunto em três grupos, não necessitando de limites fixos e precisos para a identificar possíveis SNPs. Referências Arbex, W. (2009). fuzzymorphic.pl. 1 CD. Perl. Ambiente UNIX-like com GUI e interpretador Perl 5.0 ou posterior. de Almeida, P. E. M. and Evsukoff, A. G. (2005). Sistemas fuzzy, pages 169 202. Manole, Barueri. de Carvalho, L. A. V. (2005). Datamining: a mineração de dados no marketing, medicina, economia, engenharia e administração. Ciência Moderna, Rio de Janeiro. Klir, G. J. and Yuan, B. (1995). Fuzzy sets and fuzzy logic: theory and applications. Prentice Hall, Upper Saddle River. Nickerson, D. A., Taylor, S. L., Kolker, N., Sloan, J., Bhangale, T., Stephens, M., and Robertson, I. (2008). Polyphred users manual. University of Washington, Seattle. Version 6.15 Beta. Tanscheit, R. (2007). Sistemas fuzzy, pages 229 264. Thomson Learning, São Paulo. Zadeh, L. A. (1973). Outline of a new approach to the analysis of complex systems and decision processes. IEEE Trans. on Systems, Man, and Cybernetics, SMC- 3:28 44.