UNIVERSIDADE FEDERAL DE RONDÔNIA

Documentos relacionados

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

GARANTIA DA QUALIDADE DE SOFTWARE

Introdução à genética quantitativa usando os recursos do R

STATGEN Plataforma web para análise de dados genéticos.

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

3 Classificação Resumo do algoritmo proposto

ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA ) PÁGINAS OCULTAS NO LIVRO DA VIDA

PRIMAVERA RISK ANALYSIS

PCR Real-time thermal cycler Standard thermal cycler

4 Segmentação Algoritmo proposto

Técnicas de biologia molecular. da análise de genes e produtos gênicos únicos a abordagens em larga escala

PUCRS CURSO DE CIÊNCIAS BIOLÓGICAS Genética I AULA PRÁTICA APLICAÇÕES DAS TÉCNICAS DE PCR E ELETROFORESE DE DNA

ISO/IEC 12207: Gerência de Configuração

Sequenciamento de DNA

MELHORAMENTO DE PLANTAS AUTÓGAMAS POR HIBRIDAÇÃO

15 Computador, projeto e manufatura

deficiências gênicas em amostras de DNA, de seres humanos e/ou animais, o qual além

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

BIOTECNOLOGIA. 2. Conceito de clonagem molecular

Gerenciamento de Riscos do Projeto Eventos Adversos

As bactérias operárias

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

Replicação Quais as funções do DNA?

DEMONSTRAÇÕES FINANCEIRAS COMBINADAS

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe!

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: Drd. Mariana de F. G. Diniz

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Organização do Material Genético nos Procariontes e Eucariontes

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Instalações Máquinas Equipamentos Pessoal de produção

5 Extraindo listas de produtos em sites de comércio eletrônico

Importância da normalização para as Micro e Pequenas Empresas 1. Normas só são importantes para as grandes empresas...

Engenharia de Software III

Sequenciamento de genomas

LEI DE OHM. Professor João Luiz Cesarino Ferreira. Conceitos fundamentais

Localização dos inquéritos de rua para Arroios e Gulbenkian

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

QUALIDADE Noções iniciais

UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR

Capacidade = 512 x 300 x x 2 x 5 = ,72 GB

Projeto Genoma e Proteoma

Objetivos. Processos de Software. Tópicos abordados. O processo de software. Modelos genéricos de modelos de processo de software.

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Medida da velocidade de embarcações com o Google Earth

Conceitos e Princípios Básicos da Experimentação

7.Conclusão e Trabalhos Futuros

Módulo 4. Construindo uma solução OLAP

Orientação a Objetos

1) MANUAL DO INTEGRADOR Este documento, destinado aos instaladores do sistema, com informações de configuração.

CHECK - LIST - ISO 9001:2000

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE LIBERAÇÃO

Capítulo 4 - Gestão do Estoque Inventário Físico de Estoques

ATENÇÃO: * Arquivos com tamanho superior a 500 KB NÃO SERÃO ACEITOS * SOMENTE serão aceitos documentos do formato: PDF

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual

Qual é o risco real do Private Equity?

Tópicos Abordados. Pesquisa de Mercado. Aula 1. Contextualização

Relatório Metodológico da Tipologia dos Colegiados de Gestão Regional CGR. O presente relatório tem por objetivo apresentar uma tipologia dos CGR

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Artigo Os 6 Mitos Do Seis Sigma

ESTE DOCUMENTO É UMA TRADUÇÃO LIVRE. EM CASO DE DIVERGÊNCIA, PREVELECE A INFORMAÇÃO ESPECÍFICA CONTIDA NO EDITAL ORIGINAL EM INGLÊS.

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause

Sistemas de Gestão Ambiental O QUE MUDOU COM A NOVA ISO 14001:2004

Estabilizada de. PdP. Autor: Luís Fernando Patsko Nível: Intermediário Criação: 22/02/2006 Última versão: 18/12/2006

Desenvolvimento de um software de gerenciamento de projetos para utilização na Web

MODELO CMM MATURIDADE DE SOFTWARE

4 Avaliação Econômica

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Este documento foi elaborado sob a licença

Abordagem de Processo: conceitos e diretrizes para sua implementação

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Ancestralidade Materna polimorfismos matrilínea DNA Mitocondrial (mtdna).

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

Feature-Driven Development

Processos Técnicos - Aulas 4 e 5

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

15/03/2010. Análise por pontos de função. Análise por Pontos de Função. Componentes dos Pontos de Função. Componentes dos Pontos de Função

Módulo 4: Gerenciamento de Dados

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

Avaliação molecular da macho-esterilidade citoplasmática em milho

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

LOGÍSTICA MADE DIFFERENT LOGÍSTICA

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Modelo Cascata ou Clássico

Mitocôndrias e Cloroplastos

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

GASTAR MAIS COM A LOGÍSTICA PODE SIGNIFICAR, TAMBÉM, AUMENTO DE LUCRO

A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA

Tecnologia para garantir qualidade e eficiência

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1

Transcrição:

UNIVERSIDADE FEDERAL DE RONDÔNIA PAULO HENRIQUE ALVES Uso de Dados de Microarranjos de DNA em Amostras Armazenadas por Longo Período. Estudo dos Casos de Amostras da Hospedaria de Imigrantes do Estado de São Paulo e Monte Negro, Rondônia. PORTO VELHO - RO 2012

PAULO HENRIQUE ALVES Uso de Dados de Microarranjos de DNA em Amostras Armazenadas por Longo Período. Estudo dos Casos de Amostras da Hospedaria de Imigrantes do Estado de São Paulo e Monte Negro, Rondônia. Dissertação apresentada ao Programa de Pós Graduação em Biologia Experimental da Universidade Federal de Rondônia, para o Título de Mestre em Biologia Experimental. Orientador: Dr. Ricardo de Godoi Mattos Ferreira PORTO VELHO - RO 2012

FICHA CATALOGRÁFICA Alves, Paulo Henrique. A474u Uso de dados de microarranjos de DNA em amostras armazenadas por longo período. Estudo dos casos de amostras da hospedaria de imigrantes do estado de São Paulo e Monte Negro, Rondônia. / Paulo Henrique Alves. Porto Velho, Rondônia, 2012. 60f.: il. Dissertação (Mestrado em Biologia Experimental) Programa de Pós-Graduação em Biologia Experimental, Fundação Universidade Federal de Rondônia, Porto Velho, Rondônia, 2012. Orientador: Prof. Dr. Ricardo de Godoi Mattos Ferreira. 1. Microarranjos. 2. SNP. 3. Bioinformática. 4. Homozigosidade. I. Título. CDU: 577.1(811.1) Bibliotecária Responsável: Eliane Gemaque / CRB 11-549

A minha família, que sem eles nada disso seria possível, sempre apoiando e acreditando no meu potencial. A minha linda princesinha, que com seu olhar me faz acreditar que tudo é possível.

AGRADECIMENTOS Ao CNPq pelo apoio financeiro. A todos os colegas, professores e amigos da FIOCRUZ/RO. A toda a equipe que participou do projeto e da coleta dos dados da Hospedaria de Imigrantes do Departamento de Imigração e Colonização do Estado de São Paulo, como também, toda a equipe que coletou os dados do Município de Monte Negro do Estado de Rondônia. Às colegas Lilian Mota Cantanhêde e Iasmin Pimentel. Aos colegas do Laboratório de Epidemiologia e Genética da Universidade Federal de São Paulo por fornecer os dados que tornaram possível a execução do trabalho. Aos meus amigos Márlon Grégori Flores Custódio pela parceria e o apoio e Ednaldo Teixeira da Silva pelas sábias dicas e ensinamentos da programação. Ao Professor Fernando Berton Zanchi pela colaboração e apoio na produção dos scripts para o banco de dados. Ao Professor Ricardo de Godoi Mattos Ferreira pela orientação, paciência, grandes ensinamentos e amizade.

RESUMO O presente estudo tem como objetivo avaliar se os dados fornecidos pelos experimentos de microarranjos utilizando amostras biológicas alimentadas por longos períodos podem trazer viés as análises. Admite-se na literatura científica que dois indivíduos não aparentados apresentam em seu genoma cerca de 99,5% de similaridade e que a maioria das diferenças ocorre em locais específicos, por substituições únicas de nucleótidos (SNP). Nos seres humanos, como em outros organismos diplóides, existem duas cópias de cada cromossomo autossómico, portanto, há geralmente três combinações de alelos possíveis para cada SNP, sendo o genótipo de um indivíduo uma combinação específica de alelos. Tecnologias de análise moleculares, tais como microarranjos de DNA permitem avaliar a partir de algumas dezenas de milhares até milhões de variações de DNA em praticamente todos os genes humanos. Entre essas tecnologias, existe o GeneChip 500k da Affymetrix, em que os dados podem ser analisados utilizando chips com duas matrizes com 250 mil sondas e procedimentos de digestão enzimática, que no presente estudo foi a Nsp I. Esses microarranjos possuem um desenho básico com pares de sondas de 25 bases capazes de analisar mais de 250.000 SNPs. Essas sondas são hibridizadas sobre lâminas de vidro, utilizando uma técnica conhecida como fotolitografia. O DNA extraído de amostras é hibridado com as sondas do chip, resultando numa matriz que é digitalizada, proporcionando uma imagem de elevada resolução, imagens que são os dados primários deste tipo de experimento. Esta imagem é submetida a um processo de atribuição de genótipo, que é específico para cada SNP. A análise é feita pelo algoritmo BRLMM (Distância de Mahalanobis com Robusto Modelo Linear e Bayesiano) usado em estratégias com o modelo dinâmico, que calcula os genótipos com base na intensidade de sondas. Os quatro estados possíveis para cada SNPs (null, A, AB e B) são chamados de código de chamada (call code) e são definidos pela relação entre a intensidade da sonda e seu fundo, gerando alguns indicadores que são comparados entre diferentes experimentos. O genótipo final é, em seguida, o resultado de sondas do tipo A, combinados com sondas do tipo B de cada SNP. Quando um código não pode ser devidamente determinado é chamado de NoCall. Abordagens bayesianas combinadas com a distância Mahalanobis são utilizadas para gerar um controle de qualidade (QC call rate) que é determinado por um valor de call rate de 93% para cada experimento. O fabricante de microarranjos recomenda que os únicos resultados obtidos nos experimentos sejam os que apresentem um call rate superior ao indicado. Os Dados foram obtidos em projetos em andamento no Laboratório de Epidemiologia e Genética do Departamento de Ciências Biomedicas da Universidade de São Paulo. Devido à importância da amostra, e a impossibilidade de realizar novas coletas, decidiu-se verificar que tipo de viés poderia ser encontrado utilizando os dados dessas amostras analisadas. Um viés possível, é que, alguma perda não aleatória de blocos cromossômicos pode ser detectada nos genótipos homozigóticos em posições cromossômicas comuns que levam a erros de cálculo de genótipos e freqüências de alelos e genótipos / associação de fenótipo. Para avaliar a hipótese de perda não aleatória, um banco de dados MySQL foi criado para armazenar os genótipos fornecidos pelos programas da Affymetrix e scripts em PHP foram criados para calcular uma pontuação individual cumulativa baseado no vizinho / SNP consecutivo e calcular a frequência de genótipos do SNP baseada na contagem de genótipos da amostra. Concluímos com os resultados, que ao compararmos os dados e verificar que boa parte estava abaixo do QC call rate e cruzar os dados de Monte Negro com a da Hospedaria, verificamos que a homozigosidade em Monte Negro é relativamente maior. Contudo a nossa hipótese era de que a baixa qualidade da amostra da Hospedaria poderia influenciar no aumento de homozigosidade, devido a atribuição errada do call code AB em AA ou BB, o que de fato não ocorreu. Apesar de não podermos inferir com 100% de certeza o estudo abre margem para novos estudos de variabilidade genética. Palavras-chave: Microarranjos, SNP, Bioinformática, Homozigosidade.

ABSTRACT The present study aims to evaluate if data provided by microarray experiments using biological samples stoked for long periods can bring bias to downstream analyses. It is accepted on scientific literature that two unrelated individuals share about 99.5% of theirs genome and that most of the differences occurs at specific locations by single nucleotides substitutions (SNPs). In humans, as in other diploid organisms, there are two copies of each autosomal chromosome, so there are usually three possible allele combinations for each SNP, been the genotype of an individual a specific combination of alleles on a specific SNP. Molecular analysis technologies such as DNA microarrays allows one to evaluate from some tens of thousands up to millions of DNA variations in virtually every human gene. Among those technologies, data obtained using the Affymetrix GeneChip 500k (only from the 250K Nsp slides) were analyzed. Those microarrays have a basic design with a group of pairs of 25 mers probes able to discriminate more than 250,000 SNPs on every subject. Those probes are spotted on glass slides using a technique known as photolithography. DNA extracted from subject s samples are hybridized with the array probes, resulting in a matrix that is scanned, resulting in a very high resolution image, which is the primary data of this kind of experiment. This image is than subjected to the genotype calling process to attribute the individual genotype on every SNP. This analysis is done by the BRLMM (Bayesian Robust Linear Model with Mahalanobis distance classifier) algorithm used in pipeline with the Dynamic Model, which calculates the genotypes based on probes intensity. The four possible states for every SNPs (Null, A, AB e B) are named call code, defined by the relation between probe intensity and its background, generating some metrics that are compared between different experiments in the dynamic model given the final call code. The final genotype is then the result of type A probes metrics, combined with type B probes of every SNP. When those cannot be properly accessed a null call value (NoCall) is attributed. Bayesians approaches combined with Mahalanobis distance are used to determine a quality control (QC call rate) for every microarray. The microarray manufacturer recommends the only data from experiments with an overall call rate greater than 93% is used. Data from experiments of an ongoing project at the Genetic Epidemiology Laboratory from the Biomedicine Science Department of São Paulo University with overall call rate smaller than 93% were analyzed. Due to the sample importance, and the impossibility to perform a new sample collection, it was decided to verify what kind of bias could be found using the genotypes generated by microarray analyses in this kind of sample. One of the possible bias is that some norandom loss of chromosome blocks could be detected by long homozygous genotypes in common chromosomal positions leading to miscalculation of genotypes and alleles frequencies and genotype/phenotype association. To evaluate the no-random loss of chromosome blocks bias hypothesis a MySQL database was created to store the genotypes provided by Affymetrix softwares. PHP scripts were created to calculate an individual cumulative score based on both neighbor/consecutive SNPs and the calculate genotypes frequency of that SNP based on sample genotypes counts. No bias was found using the proposed scoring schema on chromosome 22 data. Further analyses need to be done on different scoring schemas and also using data of all chromosomes Keywords: Microarray, SNP, Bioinformatics, Homozygosity.

ÍNDICE DE IMAGENS Figura 1. Esquema da Hibridização a níveis de especificidade.... 3 Figura 2. Imagem dos chips das plataformas.... 5 Figura 3. Técnicas empregadas... 8 Figura 4. Visão geral do processo de ligação dos adaptadores...12 Figura 5. Fluxo de trabalho do Algoritmo BRLMM....13 Figura 6. Transformação do Espaço dos Clusters...15 Figura 7. Imagem de baixa qualidade hospedaria....17 Figura 8. Foto do Museu dos Imigrantes de São Paulo...20 Figura 10. Imagem do arquivo de intensidades...22 Figura 11. Lista de Arquivos disponibilizados pelo software Genotyping Console...22 Figura 12. Output do software genotyping console...23 Figura 13. Esquema do Fluxo de Trabalho...24 Figura 14. Diagrama do Banco de Dados Microarray....26 Figura 15. Imagem da Home do programa MySQL Workbench....27 Figura 16. Imagem da Home do programa phpmyadmin....28 Figura 17. Histograma para análise das frequências dos QC Call Rates...30 Figura 18. Gráfico dos limites do QC Call Rates Monte Negro....31 Figura 19. Gráfico dos limites do QC Call Rates Hospedaria....31 Figura 20. Percentual de Call Codes presentes no banco relacionando a quantidade de Homozigotos analisados no estudo....33 Figura 21. Comparação dos grupos de call codes....35 Figura 22. Função para cálculo do score....35 Figura 23.Gráfico dos scores do cromossomo 19 obtidos para cada um dos blocos para as duas amostras....38 Figura 24. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra da Hospedaria....38 Figura 25. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra de Monte Negro...39 Figura 26. Boxplot da amostra Hospedaria por cromossomo....40 Figura 27. Boxplot da amostra Monte Negro por cromossomo....41

ÍNDICE DE TABELAS Tabela 1. Análises descritivas das amostras de Monte Negro e Hopedaria....32 Tabela 2. Relação da quantidade de repetições com os grupos formados para cada call code....34 Tabela 3. Esquema de atribuição dos scores....36 Tabela 4. Esquema de atribuição dos scores e medição dos blocos de score...37

SUMÁRIO 1 CONTEXTUALIZAÇÃO... 1 2 INTRODUÇÃO... 2 2.1 Microarranjo... 2 2.1.1 Hibridização... 2 2.1.2 Normalização... 4 2.1.3 Sumarização... 4 2.2 As Principais Tecnologias de Microarranjo... 5 2.2.1 Características e Aplicações... 6 2.2.2 As Ferramentas do Microarranjo... 7 2.2.3 As Diferentes Tecnologias de Microarranjos... 8 2.3 Mapeamento Humano...11 2.4 Microarranjos de DNA Affymetrix...11 2.4.1 GeneChip Conjunto de Matrizes 500k...11 2.4.2 Seleção de SNP e Cobertura do Genoma...12 2.5 Obtenção e Análise dos Dados...12 2.6 Algoritmos de Microarranjo...13 2.6.1 Normalização e Sumarização do Alelo...14 2.6.2 Agrupamento e Transformação do Espaço...14 2.6.3 Obtenção do Genótipo...15 2.6.4 Casos Especiais...16 2.7 Desafios no Uso dos Microarranjos de DNA...16 2.7.1 Hibridização Cruzada...16 2.7.2 Ruído...17 2.7.3 Correção do Background...17 2.8 Degradação do DNA...18 3 OBJETIVO...18 3.1 Objetivos Específicos...18 4 METODOLOGIA...19 4.1 Obtenção dos Dados...19 4.1.1 Hospedaria...19 4.1.2 Monte Negro...20 4.2 Tratamento dos Dados no Microarranjo...21 4.2.1 Console de Comando GeneChip...21 4.2.2 Console de Genotipagem (Genotyping Console)...21 4.3 Análise dos Dados...23 4.3.1 Banco de Dados...24 4.3.2 Scripts de Análise...28 4.3.3 Estatística dos Dados...29 5 RESULTADOS...29 5.1 Controle de Qualidade...29 5.1.1 Análises Exploratórias...29 5.2 Contagem dos códigos de leitura (call codes)...32 5.2.1 Contagem das sequências de homozigotos...33 5.3 Determinação dos Scores...35 5.3.1 Criação dos Blocos de Scores...36

5.4 Gráficos das Médias dos Scores....37 6 DISCUSSÃO...42 6.1 Fenômeno Biológico...42 6.2 Metodologia Analítica...42 6.3 Análise de Hipóteses Genéticas...43 6.4 Relação Entre o QC e os Grupos Analisados....44 7 CONCLUSÃO...45 8 PERSPECTIVA...45 9 REFERÊNCIAS BIBLIOGRÁFICAS...46 10 ANEXOS...49 10.1 Anexo A...49 10.2 Anexo B...54 10.3 Anexo C...56

1 CONTEXTUALIZAÇÃO Técnicas que envolvem biologia molecular necessitam de uma avaliação cuidadosa de seus mecanismos. Estas são suscetíveis a vários problemas, como por exemplo, o longo período de armazenagem do DNA que pode gerar prováveis desgastes a amostra. Uma destas técnicas é a de Microarranjos de DNA, que devido a estes problemas pode gerar resultados imprecisos afetando assim as conclusões de experimentos baseados nesses dados. A hipótese a ser testada no presente trabalho é de que no processo de armazenagem e manipulação das amostras biológicas, podem ocorrer perdas não aleatórias de blocos cromossômicos em regiões específicas. Essas perdas podem ser detectadas em dados de microarranjos de DNA quando uma série longa de genótipos homozigóticos ou genótipos não determinados ocorrem em regiões cromossômicas específicas. Essa perda não aleatória poderia gerar viés no cálculo de freqüências de alelos e genótipos e consequente associação dos fenótipos estudados com os genótipos obtidos. Uma abordagem que pode ajudar a sanar os problemas nos resultados é a aplicação de mecanismos de bioinformática, onde aliamos práticas de produção de códigos de programação, estruturação de bancos de dados e de análises de bioestatística a fim de analisar resultados imprecisos fornecidos por outras técnicas. O presente estudo tem como objetivo principal avaliar se a baixa qualidade dos dados de microarranjos de DNA das amostras de Monte Negro, em Rondônia e Hospedaria dos Imigrantes do estado de São Paulo, que foram obtidas nos experimentos realizados pelo Laboratório de Epidemiologia Genética do ICB (Instituto de Ciências Biomédicas) da USP (Universidade de São Paulo) podem trazer viés às análises subsequentes de frequência, associação e ligação. 1

2 INTRODUÇÃO 2.1 Microarranjo As primeiras tentativas de se usar nucleotídeos em arranjos (arrays), com o propósito de analisar simultaneamente, o maior número possível de genes começaram a ser aplicadas no final da década de 70, com o advento da técnica conhecida como Dot- Blot (Kafatos et al., 1979). Contudo, foi somente na metade da década de 90 que esta tecnologia adquiriu as características atuais (SCHENA et al.,1995). A tecnologia do microarranjo teve sua evolução a partir de uma técnica criada por um biólogo britânico chamado Edwin Southern (1975) conhecida como Southern blotting, onde DNA fragmentado serve como uma sonda para uma sequencia de DNA. Esses fragmentos são anexados a um substrato, em seguida hibridizados com a amostra a ser averiguada. O uso de arranjos de diferentes fragmentos de DNA em matrizes de perfil de expressão foi descrita pela primeira vez em 1987. Estas sondas foram utilizadas para identificar genes cuja expressão é modulada por interferons (Kulesh et al., 1987). A utilização de microarranjos para perfis de expressão gênica foi primeiramente relatada em 1995 (Schena et al., 1995) a completa expressão de um genoma eucarioto (Saccharomyces cerevisiae ) em um microarranjo foi publicado em 1997 (LASHKARI et al., 1997). O sucesso da tecnologia de microarranjo levou a produção de plataformas múltiplas com matrizes diferentes no que se refere a sondas utilizadas (oligonucleotídios curtos, longos e DNA, etc.), a hibridização (competitiva e não competitiva), métodos de rotulagem e de produção polimerização in situ, spotting, etc. (BARNES, 2005). 2.1.1 Hibridização A definição de hibridização pode ser feita através de quatro níveis de especificidade no que envolve o contexto de hibridização de microarranjos. O primeiro é hibridação entre uma molécula com uma única sonda e um único alvo (Figura 1A). As duas moléculas podem apresentar hibridação perfeita (Figura 1Ai), parcial hibridação (Figura 1Aii) ou nenhuma hibridização (Figura 1Aiii). O segundo nível é com relação ao spot (Figure 1B). Neste nível, múltiplas sondas compõem um spot que será hibridizado para múltiplos alvos. Essa relação pode apresentar uma hibridização perfeita ou parcial 2

(Figura 1Bi, Figura 1Bii e Figura 1Biii). É possível que ocorra em um mesmo array as duas formas. A hibridização parcial a nível local pode ser um resultado de hibridização cruzada, isto é, hibridização entre sequências que não são estritamente complementares, (Figura 1Biv), devido à presença de moléculas não-alvo com sequências semelhantes as das sondas. Uma vez que um local não é composto de sondas múltiplas um único spot pode simultaneamente suportar todas as combinações possíveis. O terceiro nível é o conjunto de pontos (spot-set. A Affymetrix utiliza a terminologia probe-set) (Figura 1C), em que vários spots representam diferentes segmentos da sequência de referência. Neste nível, diferentes pontos de um spot-set podem apresentar tanto uma hibridização perfeita com alvo (Figura 1CI) quanto hibridização parcial (Figura 1Cii), que pode ocorrer devida a presença de sondas que apresentem disparidades à molécula alvo, como por exemplo, erros de quantificação; Também a não hibridização (Figura 1Ciii) devido a splicings alternativos de uma transcrição; E hibridização cruzada (Figura 1Civ) que ocorre devido a, segmentos de genes conservados que hibridizam com moléculas não-alvo ocasionando a esse efeito uma mancha no spot-set. O quarto e útimo nível de especificidade envolve microarranjos, em que um número variável de spot-sets que podem apresentar diferenças nas formas de hibridação com sequências alvo (Figura 1D), hibridização perfeita ou seja, todas as moléculas-alvo são hibridizadas ao seu ponto representante e todos os spot-sets hibridizam com as moléculas alvo a que representam, hibridização parcial em qualquer direção, não hibridização moléculas alvo não são hibridizados ou hibridização. Estas diferentes formas podem existir para um grande número de diferentes moléculas-alvo ou spot-sets (KOLTAI, 2008). Após o processo de hibridização, todos os chips de DNA são lavados para remoção dos alvos excedentes não ligados às sondas (OLIVEIRA, 2010) Figura 1. Esquema da Hibridização a níveis de especificidade (Fonte. KOLTAI, 2008). 3

2.1.2 Normalização Normalização é um termo utilizado para descrever o processo de eliminação de variações, causadas pelo diferencial de rotulagem da eficiência dos corantes fluorescentes ou de diferentes quantidades de matéria-prima nas amostras utilizadas. Assim como para todas as experiências em larga escala, existem muitas fontes de variação sistemáticas que afetam as medições dos níveis de expressão do gene. O primeiro passo para o processo de normalização é a escolha do conjunto de genes que consiste de genes onde os níveis de expressão não devem mudar mediante as condições estudadas sendo a razão da expressão de todos os genes (gene set). É esperado que a partir deste conjunto, os fatores da normalização, que é um número que representa a variabilidade observada no conjunto dos genes, sejam calculados. (BABU, 2004). Este processo de correção dos dados considera ajustes para diferenças entre chips visto em termos de variância, média, em efeitos de marcação e outros possíveis erros sistemáticos. Determinados procedimentos de normalização baseiam-se em somente alguns genes presentes nos chips exemplo disso, genes controles ou housekeeping e genes com expressão supostamente constante nos diversos grupos experimentais, tendo assim outros que se baseiam com todos os genes utilizando procedimentos estatísticos robustos (GÖHLMANN e TALLOEN, 2009). 2.1.3 Sumarização É o passo em que os valores de intensidade observados para cada grupo de sondas (porbe set) representativos dos genes são combinados numa única medida que resume tudo, determinando o nível de expressão de um gene. Diferentes técnicas e resultados são referenciados e utilizam a média das diferenças entre a intensidade das sondas PM (perfect match) e a intensidade das sondas MM (mismatch) para produzir o valor de expressão, outras que consideram somente o valor da intensidade das sondas PM (MBEI, RMA, srma, FARMS). Que são algoritmos contidos em programas específicos para análise de dados de microarranjos (OLIVEIRA, 2010). 4

2.2 As Principais Tecnologias de Microarranjo Uma das tecnologias empregadas é a Affymetreix GeneChip (Santa Clara, CA) (Figura 2a) que em uma das técnicas, utiliza máscaras fotolitográficas para cada base nucleotídica a ser fixada em cada posição específica. Processo em que uma determinada região da lâmina deve conter uma base específica, a máscara deixa um ponto ou spot na região, onde a base pode ser depositada sem haver contaminação das outras regiões, em seguida ocorre desbloqueio por luminosidade ocorrendo assim um processo de repetição até que os fragmentos de interesse sejam construídos base a base (ESTEVES, 2007). Outra fabricante de lâminas deste tipo Agilent (Palo Alto, CA) (Figura 2b) usa uma metodologia similar à das impressoras de jato de tinta, onde quatro cartuchos contendo os quatro nucleotídeos (A,C,G,T) adenina, citosina, guanina e tirosina respectivamente, são carregados em uma cabeça de impressão que injeta cada base necessária em áreas específicas da lâmina à medida que a cabeça de impressão se move ao longo da mesma (ESTEVES, 2007). Uma terceira plataforma Illumina BeadArrays (Figura 2c) tem um processo fundamentado na síntese de oligonucleotídeos longos espotados em uma matriz de micro esferas (microbeads), que são então colocados em um Microarranjo utilizando um mecanismo de montagem aleatória. O rendimento gerado pela montagem utiliza na ordem de 30 (trinta) cópias de oligonucleotídeos prevê um aumento da replicação e um diferencial da tecnologia (GUNDERSON, 2004). Figura 2. Imagem dos chips das plataformas (a) GeneChip da Affymetrix (b) Chip-on-chip da Agilent (c) BeadArray da Illumina (Fonte. Google Imagens 2012 15:48). 5

2.2.1 Características e Aplicações Microarranjo (do inglês Microarray) se tornou uma das ferramentas indispensáveis utilizadas por muitos profissionais, com práticas diversas, tais como, monitoramento de níveis de expressão do genoma, variação de genes em um dado organismo, detecção de polimorfismos de nucleotídeos simples (SNP), análise cromossomal, entre outras. Um microarranjo é tipicamente um slide de vidro, sílica, plástico, membranas de nylon e nitrocelulose sobre a qual as moléculas de DNA são fixadas de forma ordenada em locais específicos, chamados de spots (pontos microscópicos). No caso da utilização de membranas de nylon, essas moléculas são marcadas radioativamente e utiliza-se apenas um tipo biológico por membrana, em contrapartida as lâminas de vidro, na qual dois tipos de amostras biológicas diferentes são marcados geralmente por fluorescência. (ESTEVES, 2007). Os microarranjos são chamados também de chips de DNA em referencia ao componente eletrônico miniaturizado, uma vez que são coleções de segmentos de material genético (sondas do inglês probes) representativos dos genes de interesse que se encontram depositados sobre um substrato sólido em um padrão regular (Chaudhuri, 2005). Diversas são as variações da tecnologia básica dos microarranjos, que dependem das características do substrato, tipo de sonda bem como o método aplicado (ROGOJINA et al., 2003). O substrato sólido utilizado pode ser de diferentes materiais (lâmina de vidro, sílica, plástico, membranas de nylon, nitrocelulose etc., medindo 2 cm2). As sondas podem ser compostas de oligonucleotídios de cadeia longa (45 a 70mer), cdnas produzidos em projetos de sequenciamento, produtos de amplificação por PCR (reação em cadeia da polimerase) ou oligonucleotídios de cadeia curta (25mer) (VENKATASUBBARAO, 2004). Um microarranjo pode conter milhares de pontos e cada local pode conter alguns milhões de cópias de moléculas de DNA, denominadas probes (sondas), idênticas que correspondem exclusivamente a um gene. O DNA em um spot pode ser genômico, cdna, ou mesmo pequenos trechos de nucleotídeos (oligonucleotídio medindo VERIFICAR: 35 mers) correspondente a uma sequencia de DNA de interesse. Os spots são fixados sobre o slide (vidro) por um robô ou são sintetizadas pelo processo de fotolitografia. (BABU, 2004). Da mesma maneira, as formas de deposição das sondas também variam, mas duas são as mais comuns: deposição mecânica e síntese in situ. A primeira, mais simples, é feita por robôs de alta precisão que utilizam agulhas especiais para depositar 6

as sondas na superfície da lâmina na forma de spots (elemento circular criado pela sonda) (VENKATASUBBARAO, 2004 apud OLIVEIRA, 2010). 2.2.2 As Ferramentas do Microarranjo Tecnologias avançadas de manufatura permitem a produção em massa de biochips e automação, aumentando a proliferação de ensaio de microarranjo, garantindo a sua qualidade, disponibilidade e acessibilidade. É o exemplo de tecnologias como, fotolitografia, mecânica de Microspotting e jato de tinta (Ink jets) (SCHENA, et al., 1995). a) Fotolitografia: Baseada na síntese in situ, mais complexa, utiliza processos especiais como a fotolitografia, impressão a jato ou síntese eletroquímica para realizar a síntese química de oligonucleotídios sintéticos de cadeia curta (25 mer) diretamente sobre a superfície do substrato. Representado na (Figura 3a) uma lamina de vidro modificada com grupos de proteção foto instáveis (X) é seletivamente ativada para a síntese de DNA por uma luz através de uma foto máscara (M1). A lamina é então inundada com uma base de DNA (A-X), resultando em acoplamento espacial definido pela superfície do chip. A segunda foto máscara (M2) é usada para desproteger regiões definidas da lâmina. Repetidos ciclos de desproteção e de engate são realizados para permitir a preparação dos microarranjos. Tecnologia desenvolvida por Fodor e colegas (Affymetrix, Santa Clara, CA, E.U.A, 1992) que combina a tecnologia de fotolitografia da indústria de semicondutores com o DNA sintético para permitir a fabricação de oligonucleotídeos de microarranjo de alta densidade. Uma das principais vantagens desta abordagem é que as versões foto protegidas dos blocos de DNA permitem a fabricação de chips diretamente da sequencia da base de dados, eliminando assim os aspectos incertos da manipulação e controle. b) Mecânica de Microspotting: Uma versão original do que foi desenvolvido pro Shalon e Brown, (1995) e posteriormente comercializado na Synteni (Fremont, CA, E.U.A). Versão em miniatura de antigas técnicas de DNA spotting, que engloba conjuntos de tecnologias que permitem a deposição relacionada com a produção automatizada por microarranjo de impressão em pequenas quantidades de substâncias bioquímicas préfabricadas sobre superfícies sólidas (Figura 3b). A técnica de Mecânica de Microspotting relaciona uma amostra bioquímica que é carregada por um pino por ação capilar, em seguida, um pequeno volume é transferido para uma superfície sólida por contato físico 7

entre o pino e o substrato. Após o primeiro ciclo de spotting, o pino é lavado e uma segunda amostra é carregada e depositada em um local adjacente. Sistema que é automatizado por controle robótico e cabeçotes multiplex que permitem a fabricação dos microarranjos. c) Jatos de tinta: Técnica conhecida pelo nome Ink jets, fornece uma maneira de fabricar microarranjos. A mais avançada destas abordagens são adaptações em tecnologia de jatos de tintas que utilizam formas piezoeletric e outras de propulsão para transferência de sub posições bioquímicas dos bocais miniaturizados em superfícies sólidas (Figura 3c). Ink jets onde uma amostra bioquímica é carregada em um bocal miniaturizado equipado com um encaixe piezoelétrico e uma corrente elétrica são usadas para expelir uma quantidade exata de líquido sobre o substrato. Após a primeira etapa de injeção, o jato é lavado e uma segunda amostra é carregada e depositada em um local adjacente, o ciclo se repete permitindo assim a produção rápida de microarranjos. Figura 3. Técnicas empregadas (a) Esquema do método de fotolitografia (b) Mecânica de Microspotting (c) Jato de Tinta para produção de Microarranjo. Fonte: Affymetrix.(SCHENA, et al., 1998). 2.2.3 As Diferentes Tecnologias de Microarranjos A distinção entre as diferentes tecnologias existentes refere-se ao número de amostras hibridizadas em cada lâmina. Neste sentido, os diversos tipos de tecnologias de Microarranjos podem ser divididos em dois grupos básicos: sistema de uma cor ou canal 8

único (single-color ou single-channel Microarray) e sistema de duas cores, dois canais (two-color ou two-channel Microarray) ou sppoted array, sendo também são referidas por lâminas de hibridizações independentes e lâminas de hibridizações competitivas, respectivamente (VENKATASUBBARAO, 2004 apud OLIVEIRA, 2010). As sondas tendem a ligar-se pelo processo de hibridização apenas a sua sequência complementar de nucleotídeos (alvos) extraída de amostras biológicas previamente marcadas com substâncias fluorescentes. Processo chamado de hibridização (JALURIA et al., 2007). Após o processo de hibridização, todos os chips de DNA são lavados para remoção dos alvos excedentes (que não se ligaram às sondas) e, em seguida, exposta à ação de raios laser que excitam os fluoróforos que foram incorporados aos alvos, fazendo com estes emitam luz (fluorescência). Em princípio, quanto maior for a expressão de um determinado gene, maior será a quantidade de alvos marcados com o fluoróforo e, consequentemente, maior será a intensidade da fluorescência do complexo alvo sonda após a hibridização. Assim, a tecnologia de Microarranjos fornece uma medida indireta do nível de expressão gênica, mediante quantificação da abundância dos RNAs transcritos (OLIVEIRA, 2010). A tecnologia de Microarranjo é amplamente usada para monitorar a expressão gênica de dezenas de milhares de genes em paralelo, a partir de células e em diferentes condições experimentais. Microarranjo utiliza a vantagem do projeto de sequenciamento do genoma humano, e compara a expressão de genes (DNA) de amostra de genes conhecidos (Babu, 2004). As aplicações incluem várias técnicas. Perfis de expressão gênica: Milhares de genes são simultaneamente monitorados a fim de estudar os efeitos do tratamento em doenças, testando os estágios em que os genes são expressos. A expressão de genes alvos sintetiza novos dados sobre o que os genes fazem em condições variadas gerando uma ampla quantidade de interpretações possíveis (COUZIN, 2006). Hibridização de genômica comparativa: Também conhecida como (CMA) Cromossomal Microarray Analysis, método que analisa mudanças em cópias de DNA, como deleções e inserções de bases nucleotídicas (MORAN, 2004). Imunoprecipitação da cromatina em Chip: Método que utiliza sequências de DNA ligadas a uma proteína específica que pode ser isolada por imunoprecipitação, fragmentos que podem então ser hibridizados com um microarranjo permitindo assim determinar as proteínas de ligação. Os representantes mais importantes dessa classe são fatores de transcrição, replicação de proteínas relacionadas, tais como, ORC (Complexo de Reconhecimento de Origem) e histonas (APARICIO, 2004). 9

Detecção de Splicing alternativo: O splicing alternativo (AS) é um processo biológico que ocorre durante a fase de maturação de um pré-mrna, permitindo a produção de diferentes variantes do mrna maduro a partir de uma única unidade de transcrição. Primeiramente considerado como um acontecimento extraordinário, é agora visto que envolve a maioria dos genes multi-exon humanos, entre 50% a 74%. Este mecanismo utiliza sondas específicas para emendar sitios previstos ou genes esperados (TOMOTANI, 2010). Fusão de Genes Microarranjo: O princípio desta técnica é a construção de splicing alternativo. A estratégia combina oligos que permitem a medição da junção de transcritos quiméricos com medidas de exons já conhecidos. Fusão de genes criada por rearranjos cromossômicos estruturais, tais como translocações, deleções, inversões e muitas vezes recursos patogenéticos essenciais do genoma do câncer. Eles parecem ser particularmente característicos das neoplasias hematológicas e sarcomas, onde a sua identificação pode ser crucial para o diagnóstico diferencial e tomada de decisão terapêutica (SKOTHEIM et al, 2009). Tiling Array: O objetivo é detectar empiricamente expressão de transcritos ou alternativamente formas de splice que possam não ter sido previamente previstos. Eles funcionam com um princípio semelhante aos microarranjos tradicionais que rotulam moléculas-alvo hibridizando sondas não rotuladas fixadas sobre uma superfície sólida. Pequenos fragmentos são projetados para cobrir todo o genoma ou regiões contíguas do genoma. Dependendo do comprimento da sonda e espaçamento, entre diferentes graus de resolução pode ser alcançado. Uma única matriz pode variar de 10 mil para mais de 6 milhões, característica que confere milhões de cópias a uma sonda (MOCKLER, 2005). DamID: Ou Identificação de adenina em DNA Metiltransferase. DamID identifica sítios de ligação, expressando a proteína de ligação no DNA proposto como uma proteína de fusão com a DNA metiltransferase. Ligação da proteína de interesse para a DNA metiltransferase localiza na região do sítio de ligação (VOGEL, 2007). Detecção de SNP (SNP array): A técnica baseia-se na matriz de hibridização genômica em microarranjo de oligonucleotídeos sintéticos de alta densidade. Cada um dos dois alelos de um SNP é representado por 10 ou 14 oligonucleotídeos (chamado de probe set) as intensidades de hibridização são medidas para todas as sondas em um conjunto (LAMY, 2006). 10

2.3 Mapeamento Humano Apesar do princípio dos processos de normalização, sumarização e hibridização do microarranjo se manter, a constituição das sondas e dos alvos difere entre as tecnologias de microarranjos. Na construção de um microarranjo de SNPs, as sondas são um segmento da zona conservada, em que um polimorfismo se encontra na zona central. Por sua vez, as sequências alvo são constituídas por segmentos de DNA do genoma completo do organismo. São várias as aplicações dos microarranjos de SNP s, no entanto, uma das mais relevantes resulta na avaliação da susceptibilidade de determinadas doenças genéticas. Tal é conseguido através do estudo da sequência associada à determinada doença e da capacidade de encontrar polimorfismos (ARRAIS, 2010). 2.4 Microarranjos de DNA Affymetrix 2.4.1 GeneChip Conjunto de Matrizes 500k O GeneChip Conjunto de Matrizes 500k duas matrizes de 250k permite estudos de genomas inteiros para associação de diferentes populações, essas matrizes correspondem a quantidade de SNPs que uma matriz de microarranjo pode analisar, podendo ser de até quinhentos mil SNPs. O método utiliza o mesmo padrão da tecnologia de GeneChip 10K e 100K. Em que, o DNA genômico (de no mínimo 250 g) é digerido com enzimas de restrição (Nsp I ou Sty I) e ligado a adaptadores que reconhecem a ligação entre as bases. Todos os fragmentos resultantes do processo de restrição enzimática, independentemente do tamanho, são substratos para ligação de adaptadores. Um primer genérico que reconhece a sequência do adaptador é usado para amplificar os fragmentos ligados ao DNA, podendo amplificar fragmentos de 200 a 1100 pb. O DNA amplificado é então fragmentado, rotulado e hibridado (Figura 4). Sendo que, o conjunto de matrizes de mapeamento de 500K é composto de duas matrizes, cada uma capaz de genotipar, em média, 250.000 SNPs. Uma matriz usa o Nsp I enzima de restrição (~ 262.000 SNPs), enquanto o segundo usa Sty I (~ 238.000 SNPs). Juntos, é possível genotipar 10.000, 50.000, 100.000, 250.000, ou 500.000 SNPs para uma variedade de aplicações, incluindo ligação e estudos de associação (AFFYMETRIX, 2006). 11

Figura 4. Visão geral do processo de ligação dos adaptadores (hibridização) (Affymetrix ). 2.4.2 Seleção de SNP e Cobertura do Genoma SNPs são selecionados e em seguida dispostos em arrays com base na acurácia, call rate e análise de desequilíbrio de ligação, tendo com base o estudo prévio do genoma de três populações. A distância mediana entre os SNPs é de 2,5 kb e a distância média é de 5.8 kb. A heterozigozidade média destes SNPs é de 0,30. Oitenta e cinco por cento do genoma humano está presente em 10 kb de um SNP (AFFYMETRIX, 2006). 2.5 Obtenção e Análise dos Dados Os valores obtidos serão utilizados como entrada nas ferramentas de análise de dados. Estas podem ser divididas em três classes: verificação da qualidade, préprocessamento e normalização. A primeira diz respeito à verificação da qualidade elementar do resultado. Neste passo, vários erros sistemáticos, associados com o procedimento laboratorial, são detectados através do uso de um conjunto de ferramentas estatísticas e de métodos alternativos de visualização dos resultados. Após esta fase, é, normalmente, aplicado aos dados um conjunto de algoritmos que tem como objetivo removerem os efeitos de hibridação basal, responsável por conduzir a valores de intensidade do fundo do microarranjo. É, ainda, realizada a normalização dos dados, de forma a que os valores produzidos sejam uniformes e passíveis de comparação. Só 12

então, através do uso de ferramentas de visualização e de análise exploratória, a interpretação biológica dos dados é obtida (ARRAIS, 2010). 2.6 Algoritmos de Microarranjo A tecnologia do GeneChip 100K e 500K utiliza o Modelo Dinâmico (DM) que tem sido muito efetivo nas aplicações, mas que, na atualidade foi possível melhorá-lo com mudanças no desenvolvimento do algoritmo RLMM (Distância de Mahalanobis com Robusto Modelo Linear) em duas importantes áreas. Em primeiro lugar, RLMM realiza uma análise de múltiplos chips, permitindo a estimativa simultânea dos efeitos e sinais da sonda para cada SNP. Em segundo lugar, a melhora no desempenho (call rate e acurácia) igualando o desempenho dos genótipos homozigotos e heterozigotos. A principal diferença dessa mudança é a inserção de passos bayesianos ao algoritmo RLMM que passa a ser chamado de BRLMM, fazendo assim, parte do fluxo de trabalho (Figura 5.) (BRLMM, 2006). Figura 5. Fluxo de trabalho do Algoritmo BRLMM (Adaptação Affymetrix ). 13

2.6.1 Normalização e Sumarização do Alelo A Normalização e sumarização dos alelos são passos do algoritmo BRLMM que consistem na determinação de valores para cada alelo de um SNP em um dado experimento, que ocorre o aumento ou diminuição destes valores em prol da quantidade de alelos presentes no genoma alvo (target). Os valores são calculados a fim de remover efeitos estranhos relacionados a variações no chip, background e brilhos relativos a diferentes sondas (probes) de um array (BRLMM, 2006). Para cada SNP de interesse, o array terá múltiplas sondas designadas para hibridizar com cada alelo do SNP, onde a intensidade das sondas varia em sistemáticas maneiras para cada genótipo. Essa variação torna necessária a sumarização das intensidades dos alelos, a esse processo dá-se o nome de sinal, que será atribuído para cada alelo específico, portanto pra cada SNP de um experimento obtêm-se dois valores, sendo um sinal representado pela letra A e um sinal pela letra B nomeadas como sondas. Como a quantidade é resultante na intensidade do sinal, é importante saber que devido a problemas de hibridização cruzada com alternância de alelos, este sinal não corresponde diretamente à perfeita concentração de alelos correspondentes (BRLMM, 2006). Portanto, cada SNP terá uma matriz (2xN) como valor de saída. Ou seja, dois sinais para cada um dos N experimentos. Esta matriz de saída é então usada para avaliar cada SNP do experimento (BRLMM, 2006). 2.6.2 Agrupamento e Transformação do Espaço Após obter os sinais para cada alelo do SNP em cada experimento, inicia-se a avaliação das distâncias entre os protótipos (cluster center) (Figura 6) para um determinado genótipo (AA, AB, BB chamados de call codes) dados reais observados no experimento. Embora, um "sinal" bruto dos valores seja útil para análise de expressão, este não é perfeitamente adequado para análise de clusteres de genótipos. Por isso a necessidade de transformar cada par do sinal em cada experiência para um espaço com propriedades mais adequadas para avaliação dos genótipos (BRLMM, 2006). 14

Figura 6. Transformação do Espaço dos Clusters (BRLMM, 2006). 2.6.3 Obtenção do Genótipo Segundo o manual do algoritmo BRLMM de 2006, a obtenção do genótipo é um processo que compara a transformação do sinal de valores observados em um experimento típico (protótipo) que é esperado para cada genótipo. O genótipo que está mais próximo do valor típico é o que é atribuído (um classificador de distância mínima). A obtenção é baseada na razão entre o mais próximo protótipo para o segundo mais próximo. Cada SNP deverá ter três genótipos "AA", "AB" e "BB", que é esperado ter alguma dispersão de valores mediante ao protótipo. Logo, essa dispersão é medida por uma distribuição multidimensional. O método pardrão para avaliar a distância do centro dos grupos (protótipo) é a distância de Mahalanobis que leva em conta a variação e covariação dos protótipos ao longo de cada eixo, que é definido pela equação sqrt[(x-µ) t -1 (x-µ)], onde µ é o centro do aglomerado, x é o valor de teste, e Σ é a matriz de variância-covariância descrevendo os grupos (clusters) multidimensionais. Então com um experimento obtêm-se valores transformados x e comparam os três clusters centrais que foram criados (µaa, µab e µbb) com matrizes de covariação ( AA, AB e BB) e com isso obtem-se uma distância (daa, dab e dbb). A menor 15

distância de um genótipo é que determinará qual o melhor genótipo do SNP a ser utilizado. E nesse espaço de agrupamentos, cada protótipo consiste de dois componentes, um centro e uma variância. Os componentes do centro consistem das médias dos contrastes e forças de cada sinal, ou seja, µg=(contrasteg,forçag), onde G é o genótipo. O componente da variância é uma matriz 2x2 (variância-covariância). Ao fim do processo obtemos os genótipos com menor distância dos centros. 2.6.4 Casos Especiais Há uma definição clara para os protótipos observados no algoritmo já explicado. Entretanto, para os SNPs que estão no cromossomo X (chrx), o tratamento é diferente, assim, há grupos centrais distintos para cada sexo com menor quantidade de cópias do chrx. Isso muda não apenas a localização dos centros de cluster para indivíduos XY, mas os SNPs localizados no chrx podem acabar sendo chamados de heterozigotos. O tratamento especial ocorre devido os SNPs do chrx aqui descritos serem aplicados apenas para os que estão em regiões não-pseudo-autossômica. Após a detecção das diferenças entre indivíduos XY e XX por um sinal obtido pelo Modelo Dinâmico (MD) do algoritmo. Portanto, pessoas XY são estimadas como aquelas que apresentam heterozigosidade menor que 7,5% no chrx, sendo maior, são tratados como XX. Apenas dois centros de clusters são utilizados (AA e BB) e apenas os dados dos indivíduos XY são utilizados. As seguintes modificações são executadas. A primeira, apenas o MD para homozigotos é usado para propagar o processo de aprendizagem que estima os clusters. Isto fornece a localização aproximada para os protótipos homozigotos do agrupamento dos SNPs específicos. Segundo, os clusters heterozigotos são modificados para evitar confusões entre indivíduos heterozigotos e XY (BRLMM, 2006). 2.7 Desafios no Uso dos Microarranjos de DNA 2.7.1 Hibridização Cruzada Como a hibridização cruzada é um dos desafios presentes na tecnologia de microarranjo e é eventualmente obtida pela reduzida dimensão das sondas usadas, a Affymetrix aplica vários pares de sondas para cada transcrito alvo. Cada par de sondas perfaz-se de uma sequência de 25 oligonucleotídios com complementaridade completa 16

com o éxons do gene alvo (perfect macth) e de outra de 25 oligonucleotídios, que difere da anterior num único nucleotídeo localizado na posição central (mismatched). O objetivo é o de que as sondas que possuem um nucleotídeo errado não hibridem com o transcrito alvo sem erros, mas hibridem com muitos dos transcritos alvo com os quais as restantes sondas sem erros também erradamente hibridam. Assim, o valor de intensidade do mismatched subtraído ao do perfect macth deve dar uma estimativa mais realística da intensidade correspondente à hibridação do transcrito alvo (ARRAIS, 2010). 2.7.2 Ruído Devido suas condições, os microarranjos tendem por vezes a apresentar dados com ruído (figura 7). Realizando a mesma experiência com os mesmos métodos, materiais e condições, é possível que após a digitalização e processamento da imagem os valores obtidos sejam distintos. Na origem desta situação está o fato do ruído ser cumulativo a todos os passos e por muitas vezes não ser possível de reproduzir com precisão todas as condições de uma experiência (ARRAIS, 2010). Figura 7. Imagem de baixa qualidade hospedaria_15_mapping250k_nsp QC 50,09. 2.7.3 Correção do Background A correção do background (Figura 7) é o principal passo para remoção de contribuições não biológicas ao sinal medido. Típicos exemplos de sinais não específicos 17

são sinais de fundo das lavagens incompletas, ligações inespecíficas de transcritos. (SEO e Hoffman, 2006 apud OLIVEIRA, 2010). 2.8 Degradação do DNA O DNA degrada-se através de diversos mecanismos, incluindo processos bacteriológicos, bioquímicos, oxidativos e/ou enzimáticos, que levam a ruptura das cadeias constituintes da molécula. Calor, umidade e luz são exemplos de fatores que contribuem para essa degradação. Pode então concluir-se que a presença de DNA degradado numa amostra conduz, geralmente, a obtenção de um perfil genético parcial, o que significa um menor poder informativo. (MARTINS, 2008). 3 OBJETIVO O presente estudo tem como objetivo principal avaliar se a baixa qualidade dos dados de microarranjos de DNA das amostras de Monte Negro, em Rondônia, e da Hospedaria dos Imigrantes de São Paulo, que foram obtidas nos experimentos realizados pelo Laboratório de Epidemiologia Genética do ICB (Instituto de Ciências Biomédicas) da USP (Universidade de São Paulo) podem trazer viés às análises subsequentes de frequência, associação e ligação. 3.1 Objetivos Específicos a. Treinar e usar os softwares associados ao estudo. b. Realizar análises descritivas das sequências de No Call e Homozigotos. c. Verificar se há viés nos resultados, sugerindo correções e avaliando se a mesma região é perdida em diferentes amostras. 18

4 METODOLOGIA 4.1 Obtenção dos Dados A obtenção dos dados ocorreu por intermédio de trabalhos realizados na USP (Universidade de São Paulo) e no laboratório de Epidemiologia e Genéticos (EPIGEN). Estes foram analisados utilizando a tecnologia de Microarranjos de DNA da Affymetreix GeneChip Human Mapping 500K. Duas amostras foram escolhidas para o desenvolvimento do presente trabalho. Os residentes da Hospedaria dos Imigrantes do Estado de São Paulo e o Município de Monte Negro do Estado de Rondônia, contabilizando um N de 152 indivíduos coletados. Escolhemos estas amostras pela importância dos resultados gerados em trabalhos anteriores e por se tratarem de coletas antigas, inviabilizando uma nova coleta. 4.1.1 Hospedaria A coleta foi feita pela equipe de pesquisa dirigida pelo Prof. Dr. Henrique Krieger (projeto: Dinâmica Gênica em Populações do Nordeste Brasileiro) no período de outubro de 1969 a agosto de 1970 com um total de 9127 indivíduos, pertencentes a 1806 famílias, na antiga e extinta Hospedaria de Imigrantes do Departamento de Imigração e Colonização em São Paulo. Essa população caracteriza-se por apresentar altas taxas de fertilidade, consanguinidade, mortalidade e grande variabilidade étnica permitindo a realização de estudos de variabilidade genética (KAWAMATA, 2006). Desses 9127 indivíduos, separamos 69 indivíduos da Hospedaria dos Imigrantes do Estado de São Paulo, devido à quantidade de informações que estas amostras forneciam e que ao fim do procedimento gerou 1517 arquivos, com informações biológicas obtidas a partir dos programas da affymetrix. 19

Figura 8. Foto do Museu dos Imigrantes de São Paulo, antiga Hospedaria de Imigrantes. (Fonte: Google imagens). 4.1.2 Monte Negro Município do Estado de Rondônia que se localiza a uma latitude 10º17'40" sul e a uma longitude 63º19'31" oeste. Sua população estimada em 2010 era de 14.090 habitantes e possui uma área de 1.413,4 km² (IBGE, 29 de novembro de 2010). O presente trabalho analisou 83 indivíduos relacionados ao programa: Pesquisas na Amazônia Ocidental Brasileira, onde foram coletados 900 indivíduos que compreendem cerca de 250 famílias nucleares do Município de Monte Negro (Figura 9). Em outros estudos, foi observado um componente de mistura africana de 25%, seguido de 12% de ameríndia e 63% de origem europeia (FERREIRA, 2008). Ao fim do procedimento de microarranjo, contabilizou um total de 1827 arquivos, com informações biológicas geradas a partir dos programas da affymetrix. Figura 9. Foto do Instituto de Ciências Biomédicas (ICB5) da USP em Monte Negro/RO. (Fonte: http://www.icbusp.org/) 20

4.2 Tratamento dos Dados no Microarranjo O software genotyping console da affymetrix gerou 23 arquivos para cada indivíduo do estudo (output) no formato txt (do inglês text), relativos à quantidade de cromossomos. Sendo 22 desses arquivos referentes aos cromossomos autossômicos e um ligado ao sexo (apenas o X, a tecnologia de Microarranjos de DNA GeneChip array 500k utiliza uma metodologia específica para o cromossomo Y vide tópico 2.5.4 Casos Especiais) e um arquivo que não estava relacionado a cromossomo algum (NoChr). A priori, o que nos interessou foram apenas os arquivos relacionados aos 22 cromossomos autossômicos, já que nosso estudo não tem correlação com cromossomos ligados ao sexo. Essa quantidade de arquivos se repetiu na ordem de 152 vezes, pois se tratava da quantidade de amostras coletadas (Nomeamos o conjunto de amostras de array_experiment), gerando ao final de todo o processo 3.344 arquivos que auxiliaram na inserção dos dados de interesse. 4.2.1 Console de Comando GeneChip O programa AGCC (Affymetrix GeneChip Command Console) fornece um conjunto de ferramentas para controle dos instrumentos e gerenciamento de dados utilizados no processamento do GeneChip array. O software sumariza as sondas e suas intensidades (arquivos com extensão CEL são gerados), possibilita o registro da amostra, gerenciamento de dados e controle de instrumentos, bem como da imagem. Suporta toda a gama de ensaios da Affymetrix, permitindo integração com aplicativos de análise primários como o Expression Affymetrix Console e Genotipagem Console. Os dados das amostras de atributos e matrizes podem ser diretamente importados para mais de 30 aplicativos disponíveis (AFFYMETRIX, 2006). 4.2.2 Console de Genotipagem (Genotyping Console) A utilização do programa Genotyping Console utilizado para leitura dos arquivos que continham as informações dos indivíduos analisados, apresentava formatos nativos do programa possibilitando a manipulação apenas no Genotyping Console. Os formatos são (ARR e CEL) arquivos que mostram os atributos e intensidades respectivamente, no arquivo de extensão CEL encontramos os valores do QC call rate (Figuara 10) que foram utilizados como base do nosso trabalho. Tabela completa no Anexo C. 21

Figura 9. Imagem do arquivo de intensidades (QC call rate) gerado pelo programa Genotyping Console da Affymetrix. Na Figura 11 apresentamos as definições de cada arquivo gerado pelo programa. Figura 10. Lista de Arquivos disponibilizados pelo software Genotyping Console da affymetrix (Fonte: Affymetrix). De todos os arquivos que são gerados a partir do programa Genotyping Console, o que nos serviu como suporte para inserção das informações necessárias no banco de dados e posteriormente para teste da nossa hipótese foi o arquivo com extensão (CHP) exportado para o formato txt (Figura 12). 22

Esse arquivo apresenta informações que ajudaram na estruturação do banco, informações que são as seguintes: Cabeçalho, que mostra as informações de um determinado cromossomo para um determinado indivíduo, é com ele que identificamos o arquivo no programa; Probe Set ID, o nome de uma sonda específica; Call Codes (AA, BB e NoCall), códigos que representam um genótipo relacionado a um SNP, onde AA e BB indicam um genótipo homozigoto, AB de genótipos heterozigotos e NoCall genótipo nenhum. Figura 11. Output do software genotyping console (brlmm.chp). 4.3 Análise dos Dados Após uma primeira análise e tratamento dos dados pelo programa Genotyping Console da Affymetrix, demos início a depuração dos dados para o trabalho de verificação dos possíveis erros ocorridos pela qualidade do DNA analisado pelo microarranjo de DNA. Esta preparação seguiu uma linha lógica de execução, onde o primeiro passo foi a criação de um banco de dados (BD) para armazenagem dos dados, já que se tratava de um contingente muito grande de valores. Para isso, era necessário à escolha de um Sistema de Gerenciamento de Banco de Dados adequado (DBMS do inglês Database Management System), assim como os programas que auxiliaram na construção dos esquemas, diagramas e scripts que ao fim de todo o processo geraria aproximadamente ~6,8 Gbytes de informação. O segundo passo foi colocar em prática a preparação dos scripts de análise dos dados que foram armazenados no BD, onde, também, escolhemos qual a melhor linguagem para execução do nosso fluxo de trabalho (Figura 13). Por fim, realizou-se as análises estatísticas dos valores gerados a partir dos programas utilizados e códigos desenvolvidos. 23

Figura 12. Esquema do Fluxo de Trabalho (Workflow) A. Primeira Fase, Obtenção, Preparação e Inserção dos dados no DB. B. Segunda Fase, Síntese dos scripts nas linguagens PHP/SQL/PERL, Contagem dos call codes e suas interações, Criação do algoritmo de geração de s scores para os respectivos call codes. C. Terceira Fase, Estatísticas dos valores obtidos nos scripts desenvolvidos na segunda fase e produção dos resultados finais. 4.3.1 Banco de Dados A escolha do melhor banco a ser utilizado partiu de um conceito de facilidade e praticidade na execução dos passos que se seguiam. Com isso, optamos por utilizar o MySQL por ser um dos DBMS mais populares na atualidade e por possuir iniciativa Open Source (Uso livre), sistema que é desenvolvido, distribuído e tem suporte da MySQL AB, que é uma empresa comercial fundada pelos desenvolvedores do MySQL e por 24

apresentar várias vantagens. Como são descritos no Manual de Referência do MySQL 4.1 de 2006: O programa MySQL (R) é um servidor robusto de bancos de dados SQL (Structured Query Language Linguagem Estruturada para Pesquisas) muito rápido, multi-tarefa e multi-usuário. O Servidor MySQL pode ser usado em sistemas de produção com alta carga e missão crítica, bem como, pode ser embutido em programa de uso em massa; Funciona em diversas plataformas; O MySQL é um sistema de gerenciamento de bancos de dados relacional; Um sistema de alocação de memória muito rápido; Funções SQL são implementadas por meio de uma biblioteca de classes altamente otimizada e com o máximo de desempenho. Geralmente não há nenhuma alocação de memória depois da inicialização da pesquisa. Ao escolher o MySQL como sistema de gerenciamento dos nossos dados, começamos a desenvolver o diagrama que daria origem ao banco (Figura 14). Para esse momento escolhemos utilizar dois programas o MySQL Workbench (Figura 15) e o phpmyadim versão 3.3 (Figura 16) ambas ferramentas Open Source e multi-plataformas. 25

Figura 13. Diagrama do Banco de Dados Microarray. 26

Após a escolha da ferramenta para confecção do diagrama, iniciamos a edição do mesmo, que ao fim de uma reunião, ficou decidido que possuiria 15 tabelas relacionais (1:N e N:N). Esta decisão foi tomada após uma análise apurada dos arquivos que são gerados pelo programa genotyping console, que posteriormente seriam inseridos com ajuda de um script em PHP. O programa MySQL Workbench (Figura 15) auxiliou nesse processo, por possuir uma interface dinâmica e de fácil compreensão dos processos de edição de diagramas de bancos de dados. Entretanto, no decorrer do processo vimos que era necessário utilizar uma ferramenta mais detalhada e robusta para as ações de estruturação e conexão do banco, para essa mudança, optamos por utilizar o phpmyadmin. Figura 14. Imagem da Home do programa MySQL Workbench. O programa phpmyadmin (Figura 16) apresenta as seguintes características encontradas na página do programa (http://www.phpmyadmin.net/home_page/index.php 27/04/2012 15:28). Interface web Intuitiva (Em qualquer sistema operacional é possível acessar). Suporte para muitas funções do MySQL; Importa nos formatos CSV e SQL; Exporta dados nos formatos CSV, SQL, XML, PDF, ISO/IEC 26300 - OpenDocument Text and Spreadsheet, Word, L A T E X entre outros; Administra múltiplos servidores; Cria gráficos dos layouts em PDF; 27

Buscas globais nos bancos de dados. Figura 15. Imagem da Home do programa phpmyadmin. 4.3.2 Scripts de Análise A linguagem que serviu de suporte para a edição dos scripts utilizados no trabalho foi o PHP PHP: Hypertext Preprocessor, uma linguagem de programação de ampla utilização, interpretada, muito utilizada para desenvolvimento para a Web. A sintaxe da linguagem lembra C, Java e Perl, e é fácil de aprender. Apesar do objetivo principal da linguagem ser para desenvolvedores escreverem páginas que serão geradas dinamicamente, muitas outras características estão relacionadas à linguagem PHP, como é possível ver no Manual do PHP online (PHP, 2012): O PHP é extremamente útil em recursos de processamento de texto, e manipulação de arquivos, o POSIX estendido ou expressões regulares Perl até como interpretador para documentos XML; Considerada uma das mais significativas características do PHP é seu suporte a uma ampla variedade de banco de dados. Vários são os bancos suportados (MySQL, ODBC, Oracle, PostgreSQL entre outros); O PHP pode ser utilizado na maioria dos sistemas operacionais, incluindo Linux, várias variantes Unix (incluindo HP-UX, Solaris e OpenBSD), Microsoft Windows, Mac OS X, RISC OS; 28

O PHP também é suportado pela maioria dos servidores web atuais, incluindo Apache, Microsoft Internet Information Server, Personal Web Server, Netscape and iplanet Servers, Oreilly Website Pro Server, Caudium, Xitami, OmniHTTPd, entre outros. A linguagem utilizada para manipulação do banco de dados é a SQL (Structured Query Language) é uma linguagem de pesquisa declarativa para banco de dados relacional. A linguagem é um grande padrão de banco de dados. Isto decorre da sua simplicidade e facilidade de uso. Ela se diferencia de outras linguagens de consulta a banco de dados no sentido em que uma consulta SQL especifica a forma do resultado e não o caminho para chegar a ele. Ela é uma linguagem declarativa em oposição a outras linguagens procedurais (NAVATHE, 2002). 4.3.3 Estatística dos Dados Demos início as análises dos scores gerados pelo script gscore.php e optamos por tentar utilizar o programa R que é um software livre desenvolvido para análises estatísticas. O motivo de estar escolhendo esse pacote é por causa da quantidade de dados alocados no banco de dados microarray. Outra vantagem que torna o R a melhor ferramenta para as análises, é por que possui um pacote chamado RMySQL que conecta com o banco de dados, proporcionando uma interação mais prática das análises dos scores. 5 RESULTADOS 5.1 Controle de Qualidade 5.1.1 Análises Exploratórias Após a obtenção dos dados provenientes do programa AGCC, que gera um arquivo com valores de controle de qualidade (QC call rate) para cada arquivo CEL, valores que são determinados através do algoritmo BRLMM que associa esses valores de qualidade 29

aos resultados gerados pelo microarranjo, que por padrão recomenda que os únicos resultados considerados nas experiências sejam os que apresentem um call rate superior a 93%, esse valor é definido pela empresa responsável pela tecnologia, que leva em conta a qualidade dos resultados de intensidade. Iniciamos as análises exploratórias dos dados presentes nos arquivos GQC, a fim de entender melhor como os valores se comportavam nas duas amostras analisadas. Geramos dois histogramas (Figura 17) para comparar e entender como os valores do QC eram distribuídos em conformidade à frequência observada nas duas amostras. Podemos observar a partir desses dois gráficos que poucos valores estão acima do valor sugerido pelo protocolo da affymetrix e que existe uma maior concentração de valores abaixo de 93% na amostra da Hospedaria quando comparado com a de Monte Negro. Isto pode reforçar a ideia de que algum fator relacionado à estocagem possa ter influenciado nos resultados, já que, essa amostra possui um longo período desde sua coleta. Figura 16. Histograma para análise das frequências dos QC Call Rates Monte Negro e Hospedaria. Demos continuidade às análises dos resultados com relação aos valores que estavam acima e abaixo do valor padrão do QC, criando outros dois gráficos de pirâmide. É observado que tanto na Hospedaria (Figura 18) quanto na amostra de Monte Negro (Figura 19) a quantidade de valores acima do sugerido é a mesma e que a distribuição dos valores abaixo do sugerido na amostra de Monte Negro se aproxima bastante dos 93 30

e os da Hospedaria a maior concentração está entre 50 a 60, sugerindo uma baixa qualidade nos dados do sinal. Figura 17. Gráfico dos limites do QC Call Rates Monte Negro. Figura 18. Gráfico dos limites do QC Call Rates Hospedaria. 31

A tabela 1 mostra a descrição das duas amostras analisadas, com seu N amostral e medidas de tendência central e de dispersão. Observamos que a média da amostra de Monte Negro é maior comparado a de Hospedaria, sugerindo que maioria dos dados apresenta uma concentração de valores mais altos, onde é reforçado ao verificar o desvio padrão da mesma amostra, que ao ser novamente comparado com a amostra da Hospedaria apresenta menor dispersão dos dados, ou seja, os valores não se distanciam tanto da média. Ao calcular o coeficiente de variação (cv= s/ẋ) das duas amostras, notamos que a Hospedaria tem maior variação dos dados com 21,14% enquanto a amostra de Monte Negro é de 11,31%. Tabela 1. Análises descritivas das amostras de Monte Negro e Hopedaria. AMOSTRA QC call rate N Mínimo Máximo Média Desvio Padrão Variância Monte Negro 84 52,76 96,24 80,3210 9,09610 82,739 Hospedaria 69 50,09 95,92 69,7465 14,75938 217,839 5.2 Contagem dos códigos de leitura (call codes) Tendo entendido como estavam distribuídos os dados do QC call rate demos início a análise descritiva das sequências de NoCall e Homozigotos, dados que estavam armazenados no banco de dados microarray. A primeira ideia foi verificar a concentração de call codes (AA, BB, AB e NoCall) presentes no banco (Figura 20). Era necessário conhecer estes números devido o problema exposto no tópico anterior, como tínhamos a grande maioria dos QC call rates abaixo do valor sugerido pelo protocolo, ou seja, a estimação das intensidades (sinal) para cada call code não possuía uma qualidade acentuada, e como, pelo modelo seguido na sumarização, que pra cada SNP de um experimento de microarranjo era obtido dois valores, onde um sinal representava a letra A e outro a letra B determinada pela concentração não perfeita de alelos correspondentes a cada uma das letras, que ao fim desse processo gerava uma matriz (2xN) onde era atribuído três diferentes tipos de call codes (AA, BB, AB), a dúvida partia daí, quando o programa sugere um AB a certeza de que esta estimação esteja correta é bem grande frente o design do algoritmo, agora quando é sugerido um AA ou um BB é possível que um ou outro seja um AB mal atribuído já que tratamos de um grupo diploide que é constituído de duas cromátides sendo que cada um dos alelos é 32

representado por cada uma dessas letras no presente experimento, uma estimação incorreta de um call code gera um genótipo incorreto. Separamos os códigos homozigotos dos heterozigotos e verificamos a taxa de cada código através de um gráfico de setores. observamos uma taxa de 54% de homozigotos, sendo 30% de códigos AA e 24% de códigos BB, a taxa de heterozigotos representados pelo código AB foi de 28% e os 18% restantes eram os códigos NoCall que representam a falta de sinal (Figura 20). Figura 19. Percentual de Call Codes presentes no banco relacionando a quantidade de Homozigotos analisados no estudo. 5.2.1 Contagem das sequências de homozigotos A contagem das interações dos call codes homozigotos (AA e BB) teve início, já que, a nossa hipótese partia da ideia de verificar a atribuição errônea desses códigos. A estratégia para esse momento foi contar as interações grupo a grupo. Onde toda vez que encontrássemos um call code ou uma sequencia de dois ou mais códigos seguidos no nosso banco, com a ideia de verificar qual o tamanho dos grupos possíveis para cada um dos códigos em questão. Para ajudar nessa contagem foi criado um script em PHP count_call_code_interactions.php (Anexo A) com auxílio da linguagem SQL. O script selecionava a coluna call_code em que estavam os códigos depositados, onde toda vez que ele achava um código armazenava na memória. Se o código seguinte fosse igual o 33

script somava ao anterior, se fosse diferente, salvava o código anterior e iniciava uma nova contagem. Quando o script encontrava uma sequencia com mesmo tamanho, somava e criava o grupo. Ao fim, obtivemos a quantidade de 17 grupos com tamanhos de 1 a 17 códigos seguidos. O código que apresentou maior sequência foi o código AA (Tabela 2). Tabela 2. Relação da quantidade de repetições com os grupos formados para cada call code. GRUPOS REPETIÇÕES AA BB AB NoCall 1 5704041 5137863 5574239 4142725 2 1815381 1264573 1627852 834243 3 591635 334257 496372 199143 4 200494 92623 160838 51436 5 69145 26586 52009 14171 6 23637 8024 17481 4033 7 8641 2461 6123 1189 8 3059 758 2149 341 9 1188 279 733 129 10 394 87 284 25 11 169 34 115 10 12 69 11 37 3 13 23 12 14 0 14 21 3 2 0 15 4 1 0 0 16 1 0 0 0 17 1 0 0 0 No gráfico abaixo (Figura 21) apresentamos a distribuição das frequências de cada um dos códigos analisados. Fizemos um corte no eixo x do gráfico (Comparação) para visualizar melhor os grupos de interação, com ele é possível verificar que a maior tendência dos grupos vem do código AA e AB. 34

Figura 20. Comparação dos grupos de call codes. 5.3 Determinação dos Scores Ao verificarmos a distribuição dos call codes nas nossas amostras, decidimos criar um script que calculasse um score para cada um dos códigos em questão. A ideia era estimar o tamanho dos blocos de homozigosidade presentes na nossa amostra, no intuito de verificar como no geral os dados se comportavam. Essa abordagem levou em consideração os códigos, indivíduos e os cromossomos de cada indivíduo da amostra. O primeiro passo no desenvolvimento do script gscore.php (Anexo A) foi a criação de uma função (Figura 22) em que era associado um valor a cada um dos códigos, onde toda vez que o script encontrasse um call code AA ou um BB somava um, quando encontrasse AB zerava, quando NoCall não fazia nada. Figura 21. Função para cálculo do score. 35

O segundo passo foi a continuação dessa função. Onde, toda vez que o indivíduo ou cromossomo mudasse, a contagem zerava e começava tudo novamente. Esse processo foi feito para todos os indivíduos e cromossomos do estudo. A tabela 3 mostra a estratégia seguida. Tabela 3. Esquema de atribuição dos scores. CallCode gscore.php AA 1 BB 2 AA 3 BB 4 AB 0 NC 0 BB 1 AB 0 AB 0 BB 1 NC 1 BB 2 BB 3 5.3.1 Criação dos Blocos de Scores No intuito de estudar a homozigosidade na amostra, criamos um script block_score.php (Anexo A) que estimava o tamanho dos blocos de homozigotos presentes nos dados. Este script usava o script gscore.php para determinar o tamanho dos blocos, ao fim da soma do último código homozigoto o script block_score.php atribuía esse valor a cada um dos códigos associados aquela soma, estimando assim o tamanho do bloco (Tabela 4). Todos os valores foram armazenados no banco de dados microarray, tabela blocks colunas score e size. 36

Tabela 4. Esquema de atribuição dos scores e medição dos blocos de score. CallCode gscore.php block_score.php block_id AA 1 4 1 BB 2 4 1 AA 3 4 1 BB 4 4 1 AB 0 0 0 NC 0 0 0 BB 1 1 2 AB 0 0 0 AB 0 0 0 BB 1 3 3 NC 1 3 3 BB 2 3 3 BB 3 3 3 5.4 Gráficos das Médias dos Scores. Para visualizar melhor os resultados criamos gráficos em que os parâmetros aplicados foram os cromossomos, posição do cromossomo e as médias dos valores dos scores (Figura 23). As médias foram calculadas direto do banco de dados utilizando a linguagem SQL, em que, para cada cromossomo e cada posição do cromossomo eram somados todos os scores e dividido pelo total de scores presentes naquela posição. Esse procedimento foi feito para todos os 22 cromossomos do estudo. 37

Figura 22.Gráfico dos scores do cromossomo 19 obtidos para cada um dos blocos para as duas amostras. Figura 23. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra da Hospedaria. 38

Figura 24. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra de Monte Negro. Para avaliar a distribuição empírica dos dados, utilizamos gráficos do tipo boxplot (ou diagrama de caixa), estes gráficos foram organizados a fim de comparar visualmente a variabilidade, e a mediana entre as médias dos scores dos 22 cromossomos analisados no presente estudo. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior Q1 1,5(Q3 Q1), e do quartil superior até o maior valor não superior ao limite superior Q3 + 1,5(Q3 Q1). Maioria dos valores se apresentam aproximadamente entre 5 e 10 no caso de Monte Negro, já Hospedaria entre 4 a 7. Todo valor fora desse limite é considerado valor discrepante (outliers) o maior pico observado para valores discrepantes encontrasse nos cromossomos 11, 12, e 14 para a amostra da Hospedaria e em Monte Negro são observados os cromossomos 2, 10 e 19. É possível verificar quais cromossomos possuem maior variabilidade, através da comparação das diferenças entre os quartis. 39

Figura 25. Boxplot da amostra Hospedaria por cromossomo. 40

Figura 26. Boxplot da amostra Monte Negro por cromossomo. 41

6 DISCUSSÃO 6.1 Fenômeno Biológico Entender como o fenômeno biológico está associado aos dados de intensidade de sinal, como é o caso da tecnologia do Microarranjos, é um dos pontos mais complexos do nosso estudo. Tínhamos duas matrizes de 250 mil SNPs a serem cruzadas com 150 indivíduos de duas populações distintas, com coletas de diferentes épocas e com características próprias, tais como, tempo de armazenagem e qualidade da amostra coletada. Em seguida, observamos um problema biológico onde dois alelos característicos deste tipo de polimorfismo eram atribuídos especificamente a uma ordem e posição. Portanto, a resposta a ser obtida pela tecnologia tinha que ser a mais confiável possível, em comparação aos parâmetros sugeridos pelo protocolo da metodologia empregada. Entretanto, dentre os 150 indivíduos analisados apenas oito estavam dentro dos critérios de qualidade. Passamos então a criar metodologias analíticas que poderiam aumentar o nível de confiança dessas estimativas. 6.2 Metodologia Analítica Vários polimorfismos de nucleotídeo simples (SNP) foram identificados a partir da técnica de microarranjo em nosso estudo. Onde cada posição específica de um cromossomo associado a um indivíduo era atribuída uma intensidade para a concentração de SNPs no chip. Essa intensidade era representada por um código (Call Code) específico, quando identificado um genótipo homozigoto tínhamos os códigos AA e BB e para os genótipos heterozigotos AB, quando a concentração de SNPs era muito baixa o código atribuído era o NoCall. A atribuição desses códigos é realizada por um algoritmo chamado BRLMM que após o processo molecular de hibridização, passa por uma normalização, que é a primeira fase de transformação do dado biológico em um código específico seguido da sumarização, processo em que cada código é associado a um SNP. O algoritmo atua a partir do processo de normalização utilizando parâmetros estatísticos Bayesianos e distância de Mahalanobis que tem como função estimar a 42

distância de cada um dos códigos em relação aos grupos homozigotos AA e BB e heterozigotos AB. Analisamos esses códigos em quantidade e interação. Verificando os blocos de homozigosidade, pois a hipótese do nosso trabalho era de que, AA ou BB podem ser um AB mal atribuído por uma leitura errônea do dado molecular ou pela qualidade da amostra. Após observar os gráficos de qualidade de cada uma das amostras, podemos perceber que os dados da Hospedaria apresentam maior variabilidade com relação ao QC Call rates. Além disso, boa parte desses dados está bem a baixo desse controle de qualidade, já que essa amostra tem maior tempo de armazenagem, sendo possível que esse tempo possa ter influenciado os resultados. 6.3 Análise de Hipóteses Genéticas As análises descritivas foram realizadas, tanto para os QC Call rates como para os call codes, com ajuda dos scripts que criamos. Utilizando os gráficos das médias de cada um dos blocos de homozigosidade definidos por uma função de atribuição de scores. Observamos nos gráficos uma variação com relação às médias dos blocos ao comparar as amostras de Monte Negro e Hospedaria. Onde o maior pico de variação foi encontrado nas amostras de Monte Negro que chegou próximo a uma média de score 25. Ao verificar todos os cromossomos autossômicos dessa mesma amostra e comparar com os resultados da Hospedaria, verificamos que este padrão é seguido em todos os cromossomos, onde a maior parte das médias se concentram entre os valores de score 5 e 10 aproximadamente. Já os dados da Hospedaria mostram valores entre 5 e 7 aproximadamente, ou seja, no caso de Monte Negro os blocos de homozigosidade são maiores quando comparados a amostra da Hospedaria. Com base na hipótese sugerida, de que era possível que alguns códigos homozigotos poderiam ser heterozigotos mal atribuídos e comparados aos resultados, não podemos inferir com uma margem alta de certeza, que no caso da Hospedaria, os códigos tenham sido erroneamente atribuídos. Para que isso seja possível, temos que testar com amostras com quantidade maior de QC Call Rates, acima de 93%, para que novas comparações sejam feitas e uma resposta mais segura possa ser dada. 43

6.4 Relação Entre o QC e os Grupos Analisados. As duas amostras apresentaram a mesma quantidade QC Call Rates acima do padrão sugerido de 93%, já nos dados que estão abaixo do padrão a variação é grande. Quando associados aos blocos e homozigosidade percebemos que eles são maiores na amostra de Monte Negro. Se realmente ocorresse uma atribuição errada na amostra de Hospedaria devido a má qualidade da amostra esses blocos deveriam ser bem maiores em comparação a amostra de Monte Negro que apresentou maio qualidade do QC Call Rate. Como altos índices de homozigosidade podem caracterizar uma perda de alelos heterozigóticos, resultando em alto grau de consanguinidade e diminuição da variabilidade genética, estudos mais aprofundados com relação a variabilidade genética deve ser empregada aos dados do presente estudo. 44

7 CONCLUSÃO Concluímos que ao verificar os resultados e compará-los ao controle de qualidade sugerido pelo protocolo do método usado, não é possível inferir com 100% de certeza que os valores dos blocos estejam sendo influenciados pela má qualidade do dado. Entretanto, quando comparamos as duas amostras, verificamos que a Hospedaria por apresentar maior tempo de estocagem, segundo trabalhos feitos anteriormente por Kawamata, 2006 que sugere um alto grau de consanguinidade nessa amostra, quando cruzadas com os dados de Monte Negro que não apresenta muito tempo de estocagem foram observados blocos de homozigosidade maiores, estes dados podem sugerir que na verdade o tempo de estocagem não influenciou no resultado ou que Monte Negro apresenta grau de consanguinidade maior que a amostra da Hospedaria, mas que isso abre margem para novos estudos de variabilidade genética. Novas análises estatísticas devem ser aplicadas para conclusão dos problemas apresentados. 8 PERSPECTIVA Como perspectiva do trabalho, apresentamos novos objetivos a serem desenvolvidos para trabalhos futuros com dados de Microarranjo de DNA: a. Propor soluções que envolvam mascaramento de homozigoze seguida quando a mesma for maior que a limiar; b. Avaliar o efeito do mascaramento em análises realizadas; c. Refazer análises de Monte Negro e Chagas Hospedaria utilizando a metodologia proposta. 45

9 REFERÊNCIAS BIBLIOGRÁFICAS Affymetrix, GeneChip Human Mapping 500K Array Set (2006). Data Sheet. Aparicio, Oscar, O Aparicio, Geisberg JV, Struhl K (2004). "imunoprecipitação da cromatina para determinar a associação de proteínas com seqüências específicas do genoma in vivo". atual Protocolos em Biologia Celular (University of Southern California, Los Angeles, California, E.U.A..: John Wiley & Sons, Inc.), Capítulo 17 (2004): Unidade de 17.7. doi : 10.1002/0471143030.cb1707s23. ISSN 1934-2616. PMID 18228445. http://www.ncbi.nlm.nih. gov/pubmed/18228445 Arrais J. P, Sistemas de informação para DNA (2010). Dissertação apresentada à Universidade de Aveiro BRLMM: an Improved Genotype Calling Method for the GeneChip Human Mapping 500K Array Set Revision Date: 2006-04-14 Revision Version: 1.0 Chaudhuri JD. Genes arrayed out for you: the amazing world of Microarranjos. Med Sci Monit. 2005;11(2):RA52-62. Couzin J (2006). "Genomics. Microarranjo data reproduced, but some concerns remain". Science 313 (5793): 1559. doi : 10.1126/science.313.5793.1559a. PMID 16973852. Edwin Mellor Sul (05 de novembro de 1975). "Detection of specific sequences among DNA fragments separated by gel electrophoresis". Journal of Molecular Biology 98 (3): 503 517. doi : 10.1016/S0022-2836(75)80083-0. ISSN 0022-2836. PMID 1195397 Esteves G. H. Métodos estatísticos para a análise de dados de cdna Microarranjo em um ambiente computacional integrado. (2007) Tese apresentada na Universidade de São Paulo. Ferreira, Ricardo de Godoi Mattos. Genética Epidemiológica de Malária em Rondônia. São Paulo, 2008. Tese Doutorado, Universidade de São Paulo. Göhlmann H, Talloen W. Gene expression studies using Affymetrix Microarranjos.1st ed. Boca Raton: Chapman & Hall/CRC, 2009. Gunderson,K.L., Kruglyak,S., Graige,M.S., Garcia,F., Kermani,B.G., Zhao,C., Che,D., Dickinson,T., Wickham,E., Bierle,J. et al. (2004) Decoding randomly ordered DNA arrays. Genome Res., 14, 870 877. Hiendleder S, Bauersachs S, Boulesteix A, Blum H, Arnold GJ, Fröhlich T, Wolf E. Functional genomics: tools for improving farm animal hea lth and welfare. Rev Sci Tech. 2005;24(1):355-77. 46

Jaluria P, Konstantopoulos K, Betenbaugh M, Shiloach J. A perspective on Microarranjos: current applications, pitfalls, and potential uses. Microb Cell Fact. 2007;6:4. KAFATOSF,. C., J. REGIERG,. D. MAZURM,. R. NADELH,. BLAU,W. H. PETRIA,. R. WYMAN, R. E. GELINASP,. B. MOOREM,. PAULA,. EFSTRATIADJIS.,V OURNAKISM,. R. GOLDSMITH, I. HUNSLEBY.,B AKERa nd J. NARDI,1 977 The eggshell of insects: differentiation-specific proteins and the control of their synthesis and accumulation during development. pp. 45-145. In: R&wlts and Problems in Cell Differentiation, Vol. 8. Edited by W. BEERMANN. Springer-Verlag, New York. Kawamata, Carlos Eduardo Malvezzi. EPIDEMIOLOGIA GENÉTICA DA INFECÇÃO POR Trypanosoma cruzi. Dissertação apresentada ao Programa de Pós-Graduação Biologia da relação Patógeno-hospedeiro, USP/Instituto de Ciências Biomédicas/ICB, 2006 Koltai, H. Specificity of DNA microarray hybridization: characterization, effectors and approaches for data correction. Nucleic Acids Research, Vol. 36, No 2395-2405. doi: 10.1093/nar/gkn087 2008. Kulesh D.A, Clive DR, Zarlenga DS, Greene JJ (1987). "Identification of interferonmodulated proliferation-related cdna sequences". Proc Natl Acad Sci USA 84 (23): 8453 8457. doi:10.1073/pnas.84.23.8453. PMID 2446323. Lashkari D.A, DeRisi JL, McCusker JH, Namath AF, Gentile C, Hwang SY, Brown PO, Davis RW (1997). "Yeast Microarranjos for genome wide parallel genetic and gene expression analysis". Proc Natl Acad Sci USA 94 (24): 13057 13062. doi:10.1073/pnas.94.24.13057. PMID 9371799. Navathe, S. B. and Elmasri, R.. Sistemas de banco de dados Fundamentos e aplicações. LTC: 2002. Philippe Lamy, Jakob Grove, Carsten Wiuf. A review of software for microarray Genotyping. HUMAN GENOMICS. VOL 5. NO 4. 304 309 MAY 2011 Babu, M. (2004) An Introduction to Microarranjo Data Analysis Manual de Referência do MySQL 4.1 This is a translation of the MySQL Reference Manual that can be found at dev.mysql.com. The original Reference Manual is in English, and this translation is not necessarily as up to date as the English version. Copyright 1997-2006 MySQL AB Manual PHP Copyright 2001-2012 The PHP Group http://www.php.net/manual/pt_br/ Last updated: Mon Apr 16 01:41:16 2012 UTC 47

Mark Schena, Renu A. Heller, Thomas P. Theriault, Ken Konrad, Eric Lachenmeier and Ronald W. Davis (1998). Microarranjos: biotechnlogy's discovery platform for functional genomics. Elsevier Science Ltd. PII: S0167-7799(98)01219-0 301. Martins T. M. V., Y-miniSTR: alternativa para a analise de amostras complicadas (2008). Dissertacao para a obtencao do grau de Mestre em Ciencias Forenses Barnes, M. Johannes Freudenberg, Susan Thompson, Bruce Aronow, Paul Pavlidis. Experimental comparison and cross-validation of gene expression analysis platforms. 5914 5923 Nucleic Acids Research, 2005, Vol. 33, No. 18 doi:10.1093/nar/gki890. Mockler T, Ecker,J: Applications of DNA tiling arrays for whole-genome analysis. Genomics, 85 (2005) 1-15 Moran G, Stokes C, Thewes S, Hube B, Coleman DC, Sullivan D (2004). "Comparative genomics using Candida albicans DNA Microarranjos reveals absence and divergence of virulence-associated genes in Candida dubliniensis". Microbiology 150 (Pt 10): 3363 3382. doi:10.1099/mic.0.27221-0. PMID 15470115. Oliveira, Rafael Martins. Análise do perfil transcricional de células dendríticas derivadas de monócitos utilizadas na vacina terapêutica anti-hiv-1. São Paulo, 2010. Tese de doutorado Faculdade de Medicina da Universidade de São Paulo. Rogojina AT, Orr WE, Song BK, Geisert EE Jr. Comparing the use of Affymetrix to spotted oligonucleotide Microarranjos using two retinal pigment epithelium cell lines. Mol Vis. 2003;9:482-96. Schena M, Shalon D, Davis RW, Brown PO (1995). "Quantitative monitoring of gene expression patterns with a complementary DNA Microarranjo". Science 270 (5235): 467 470. doi:10.1126/science.270.5235.467. PMID 7569999. Skotheim RI; Thomassen GO; Eken M; Lind GE; Micci F; Ribeiro FR; Cerveira N; Teixeira MR; Heim S; Rognes T; Lothe RA. A universal assay for detection of oncogenic fusion transcripts by oligo microarray analysis. 2009 Tomotani, Barbara Mizumo. Aspectos Evolutivos do Splicing Alternativo Departamento de Fisiologia, Instituto de Biociências, 2010 USP Venkatasubbarao S. Microarranjos--status and prospects. Trends Biotechnol. 2004 Dec;22(12):630-7. Vogel MJ, Peric-Hupkes D, van Steensel B (2007). "Detection of in vivo protein-dna interactions using DamID in mammalian cells". Nat Protoc 2 (6): 1467 78. doi:10.1038/nprot.2007.148. PMID 17545983. 48

10 ANEXOS 10.1 Anexo A I. Insert_file.php 49

50

II. Count_call_code_interactions.php 51

III. count_call_code.php 52

IV. gscore.php 53

10.2 Anexo B I. tabelas_mean.php 54

II. gráficos.r 55

10.3 Anexo C I. Select para calcular as médias dos scores. 56