UNIVERSIDADE FEDERAL DE RONDÔNIA

Tamanho: px
Começar a partir da página:

Download "UNIVERSIDADE FEDERAL DE RONDÔNIA"

Transcrição

1 UNIVERSIDADE FEDERAL DE RONDÔNIA PAULO HENRIQUE ALVES Uso de Dados de Microarranjos de DNA em Amostras Armazenadas por Longo Período. Estudo dos Casos de Amostras da Hospedaria de Imigrantes do Estado de São Paulo e Monte Negro, Rondônia. PORTO VELHO - RO 2012

2 PAULO HENRIQUE ALVES Uso de Dados de Microarranjos de DNA em Amostras Armazenadas por Longo Período. Estudo dos Casos de Amostras da Hospedaria de Imigrantes do Estado de São Paulo e Monte Negro, Rondônia. Dissertação apresentada ao Programa de Pós Graduação em Biologia Experimental da Universidade Federal de Rondônia, para o Título de Mestre em Biologia Experimental. Orientador: Dr. Ricardo de Godoi Mattos Ferreira PORTO VELHO - RO 2012

3 FICHA CATALOGRÁFICA Alves, Paulo Henrique. A474u Uso de dados de microarranjos de DNA em amostras armazenadas por longo período. Estudo dos casos de amostras da hospedaria de imigrantes do estado de São Paulo e Monte Negro, Rondônia. / Paulo Henrique Alves. Porto Velho, Rondônia, f.: il. Dissertação (Mestrado em Biologia Experimental) Programa de Pós-Graduação em Biologia Experimental, Fundação Universidade Federal de Rondônia, Porto Velho, Rondônia, Orientador: Prof. Dr. Ricardo de Godoi Mattos Ferreira. 1. Microarranjos. 2. SNP. 3. Bioinformática. 4. Homozigosidade. I. Título. CDU: 577.1(811.1) Bibliotecária Responsável: Eliane Gemaque / CRB

4 A minha família, que sem eles nada disso seria possível, sempre apoiando e acreditando no meu potencial. A minha linda princesinha, que com seu olhar me faz acreditar que tudo é possível.

5 AGRADECIMENTOS Ao CNPq pelo apoio financeiro. A todos os colegas, professores e amigos da FIOCRUZ/RO. A toda a equipe que participou do projeto e da coleta dos dados da Hospedaria de Imigrantes do Departamento de Imigração e Colonização do Estado de São Paulo, como também, toda a equipe que coletou os dados do Município de Monte Negro do Estado de Rondônia. Às colegas Lilian Mota Cantanhêde e Iasmin Pimentel. Aos colegas do Laboratório de Epidemiologia e Genética da Universidade Federal de São Paulo por fornecer os dados que tornaram possível a execução do trabalho. Aos meus amigos Márlon Grégori Flores Custódio pela parceria e o apoio e Ednaldo Teixeira da Silva pelas sábias dicas e ensinamentos da programação. Ao Professor Fernando Berton Zanchi pela colaboração e apoio na produção dos scripts para o banco de dados. Ao Professor Ricardo de Godoi Mattos Ferreira pela orientação, paciência, grandes ensinamentos e amizade.

6 RESUMO O presente estudo tem como objetivo avaliar se os dados fornecidos pelos experimentos de microarranjos utilizando amostras biológicas alimentadas por longos períodos podem trazer viés as análises. Admite-se na literatura científica que dois indivíduos não aparentados apresentam em seu genoma cerca de 99,5% de similaridade e que a maioria das diferenças ocorre em locais específicos, por substituições únicas de nucleótidos (SNP). Nos seres humanos, como em outros organismos diplóides, existem duas cópias de cada cromossomo autossómico, portanto, há geralmente três combinações de alelos possíveis para cada SNP, sendo o genótipo de um indivíduo uma combinação específica de alelos. Tecnologias de análise moleculares, tais como microarranjos de DNA permitem avaliar a partir de algumas dezenas de milhares até milhões de variações de DNA em praticamente todos os genes humanos. Entre essas tecnologias, existe o GeneChip 500k da Affymetrix, em que os dados podem ser analisados utilizando chips com duas matrizes com 250 mil sondas e procedimentos de digestão enzimática, que no presente estudo foi a Nsp I. Esses microarranjos possuem um desenho básico com pares de sondas de 25 bases capazes de analisar mais de SNPs. Essas sondas são hibridizadas sobre lâminas de vidro, utilizando uma técnica conhecida como fotolitografia. O DNA extraído de amostras é hibridado com as sondas do chip, resultando numa matriz que é digitalizada, proporcionando uma imagem de elevada resolução, imagens que são os dados primários deste tipo de experimento. Esta imagem é submetida a um processo de atribuição de genótipo, que é específico para cada SNP. A análise é feita pelo algoritmo BRLMM (Distância de Mahalanobis com Robusto Modelo Linear e Bayesiano) usado em estratégias com o modelo dinâmico, que calcula os genótipos com base na intensidade de sondas. Os quatro estados possíveis para cada SNPs (null, A, AB e B) são chamados de código de chamada (call code) e são definidos pela relação entre a intensidade da sonda e seu fundo, gerando alguns indicadores que são comparados entre diferentes experimentos. O genótipo final é, em seguida, o resultado de sondas do tipo A, combinados com sondas do tipo B de cada SNP. Quando um código não pode ser devidamente determinado é chamado de NoCall. Abordagens bayesianas combinadas com a distância Mahalanobis são utilizadas para gerar um controle de qualidade (QC call rate) que é determinado por um valor de call rate de 93% para cada experimento. O fabricante de microarranjos recomenda que os únicos resultados obtidos nos experimentos sejam os que apresentem um call rate superior ao indicado. Os Dados foram obtidos em projetos em andamento no Laboratório de Epidemiologia e Genética do Departamento de Ciências Biomedicas da Universidade de São Paulo. Devido à importância da amostra, e a impossibilidade de realizar novas coletas, decidiu-se verificar que tipo de viés poderia ser encontrado utilizando os dados dessas amostras analisadas. Um viés possível, é que, alguma perda não aleatória de blocos cromossômicos pode ser detectada nos genótipos homozigóticos em posições cromossômicas comuns que levam a erros de cálculo de genótipos e freqüências de alelos e genótipos / associação de fenótipo. Para avaliar a hipótese de perda não aleatória, um banco de dados MySQL foi criado para armazenar os genótipos fornecidos pelos programas da Affymetrix e scripts em PHP foram criados para calcular uma pontuação individual cumulativa baseado no vizinho / SNP consecutivo e calcular a frequência de genótipos do SNP baseada na contagem de genótipos da amostra. Concluímos com os resultados, que ao compararmos os dados e verificar que boa parte estava abaixo do QC call rate e cruzar os dados de Monte Negro com a da Hospedaria, verificamos que a homozigosidade em Monte Negro é relativamente maior. Contudo a nossa hipótese era de que a baixa qualidade da amostra da Hospedaria poderia influenciar no aumento de homozigosidade, devido a atribuição errada do call code AB em AA ou BB, o que de fato não ocorreu. Apesar de não podermos inferir com 100% de certeza o estudo abre margem para novos estudos de variabilidade genética. Palavras-chave: Microarranjos, SNP, Bioinformática, Homozigosidade.

7 ABSTRACT The present study aims to evaluate if data provided by microarray experiments using biological samples stoked for long periods can bring bias to downstream analyses. It is accepted on scientific literature that two unrelated individuals share about 99.5% of theirs genome and that most of the differences occurs at specific locations by single nucleotides substitutions (SNPs). In humans, as in other diploid organisms, there are two copies of each autosomal chromosome, so there are usually three possible allele combinations for each SNP, been the genotype of an individual a specific combination of alleles on a specific SNP. Molecular analysis technologies such as DNA microarrays allows one to evaluate from some tens of thousands up to millions of DNA variations in virtually every human gene. Among those technologies, data obtained using the Affymetrix GeneChip 500k (only from the 250K Nsp slides) were analyzed. Those microarrays have a basic design with a group of pairs of 25 mers probes able to discriminate more than 250,000 SNPs on every subject. Those probes are spotted on glass slides using a technique known as photolithography. DNA extracted from subject s samples are hybridized with the array probes, resulting in a matrix that is scanned, resulting in a very high resolution image, which is the primary data of this kind of experiment. This image is than subjected to the genotype calling process to attribute the individual genotype on every SNP. This analysis is done by the BRLMM (Bayesian Robust Linear Model with Mahalanobis distance classifier) algorithm used in pipeline with the Dynamic Model, which calculates the genotypes based on probes intensity. The four possible states for every SNPs (Null, A, AB e B) are named call code, defined by the relation between probe intensity and its background, generating some metrics that are compared between different experiments in the dynamic model given the final call code. The final genotype is then the result of type A probes metrics, combined with type B probes of every SNP. When those cannot be properly accessed a null call value (NoCall) is attributed. Bayesians approaches combined with Mahalanobis distance are used to determine a quality control (QC call rate) for every microarray. The microarray manufacturer recommends the only data from experiments with an overall call rate greater than 93% is used. Data from experiments of an ongoing project at the Genetic Epidemiology Laboratory from the Biomedicine Science Department of São Paulo University with overall call rate smaller than 93% were analyzed. Due to the sample importance, and the impossibility to perform a new sample collection, it was decided to verify what kind of bias could be found using the genotypes generated by microarray analyses in this kind of sample. One of the possible bias is that some norandom loss of chromosome blocks could be detected by long homozygous genotypes in common chromosomal positions leading to miscalculation of genotypes and alleles frequencies and genotype/phenotype association. To evaluate the no-random loss of chromosome blocks bias hypothesis a MySQL database was created to store the genotypes provided by Affymetrix softwares. PHP scripts were created to calculate an individual cumulative score based on both neighbor/consecutive SNPs and the calculate genotypes frequency of that SNP based on sample genotypes counts. No bias was found using the proposed scoring schema on chromosome 22 data. Further analyses need to be done on different scoring schemas and also using data of all chromosomes Keywords: Microarray, SNP, Bioinformatics, Homozygosity.

8 ÍNDICE DE IMAGENS Figura 1. Esquema da Hibridização a níveis de especificidade Figura 2. Imagem dos chips das plataformas Figura 3. Técnicas empregadas... 8 Figura 4. Visão geral do processo de ligação dos adaptadores...12 Figura 5. Fluxo de trabalho do Algoritmo BRLMM Figura 6. Transformação do Espaço dos Clusters...15 Figura 7. Imagem de baixa qualidade hospedaria Figura 8. Foto do Museu dos Imigrantes de São Paulo...20 Figura 10. Imagem do arquivo de intensidades...22 Figura 11. Lista de Arquivos disponibilizados pelo software Genotyping Console...22 Figura 12. Output do software genotyping console...23 Figura 13. Esquema do Fluxo de Trabalho...24 Figura 14. Diagrama do Banco de Dados Microarray Figura 15. Imagem da Home do programa MySQL Workbench Figura 16. Imagem da Home do programa phpmyadmin Figura 17. Histograma para análise das frequências dos QC Call Rates...30 Figura 18. Gráfico dos limites do QC Call Rates Monte Negro Figura 19. Gráfico dos limites do QC Call Rates Hospedaria Figura 20. Percentual de Call Codes presentes no banco relacionando a quantidade de Homozigotos analisados no estudo Figura 21. Comparação dos grupos de call codes Figura 22. Função para cálculo do score Figura 23.Gráfico dos scores do cromossomo 19 obtidos para cada um dos blocos para as duas amostras Figura 24. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra da Hospedaria Figura 25. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra de Monte Negro...39 Figura 26. Boxplot da amostra Hospedaria por cromossomo Figura 27. Boxplot da amostra Monte Negro por cromossomo....41

9 ÍNDICE DE TABELAS Tabela 1. Análises descritivas das amostras de Monte Negro e Hopedaria Tabela 2. Relação da quantidade de repetições com os grupos formados para cada call code Tabela 3. Esquema de atribuição dos scores Tabela 4. Esquema de atribuição dos scores e medição dos blocos de score...37

10 SUMÁRIO 1 CONTEXTUALIZAÇÃO INTRODUÇÃO Microarranjo Hibridização Normalização Sumarização As Principais Tecnologias de Microarranjo Características e Aplicações As Ferramentas do Microarranjo As Diferentes Tecnologias de Microarranjos Mapeamento Humano Microarranjos de DNA Affymetrix GeneChip Conjunto de Matrizes 500k Seleção de SNP e Cobertura do Genoma Obtenção e Análise dos Dados Algoritmos de Microarranjo Normalização e Sumarização do Alelo Agrupamento e Transformação do Espaço Obtenção do Genótipo Casos Especiais Desafios no Uso dos Microarranjos de DNA Hibridização Cruzada Ruído Correção do Background Degradação do DNA OBJETIVO Objetivos Específicos METODOLOGIA Obtenção dos Dados Hospedaria Monte Negro Tratamento dos Dados no Microarranjo Console de Comando GeneChip Console de Genotipagem (Genotyping Console) Análise dos Dados Banco de Dados Scripts de Análise Estatística dos Dados RESULTADOS Controle de Qualidade Análises Exploratórias Contagem dos códigos de leitura (call codes) Contagem das sequências de homozigotos Determinação dos Scores Criação dos Blocos de Scores...36

11 5.4 Gráficos das Médias dos Scores DISCUSSÃO Fenômeno Biológico Metodologia Analítica Análise de Hipóteses Genéticas Relação Entre o QC e os Grupos Analisados CONCLUSÃO PERSPECTIVA REFERÊNCIAS BIBLIOGRÁFICAS ANEXOS Anexo A Anexo B Anexo C...56

12 1 CONTEXTUALIZAÇÃO Técnicas que envolvem biologia molecular necessitam de uma avaliação cuidadosa de seus mecanismos. Estas são suscetíveis a vários problemas, como por exemplo, o longo período de armazenagem do DNA que pode gerar prováveis desgastes a amostra. Uma destas técnicas é a de Microarranjos de DNA, que devido a estes problemas pode gerar resultados imprecisos afetando assim as conclusões de experimentos baseados nesses dados. A hipótese a ser testada no presente trabalho é de que no processo de armazenagem e manipulação das amostras biológicas, podem ocorrer perdas não aleatórias de blocos cromossômicos em regiões específicas. Essas perdas podem ser detectadas em dados de microarranjos de DNA quando uma série longa de genótipos homozigóticos ou genótipos não determinados ocorrem em regiões cromossômicas específicas. Essa perda não aleatória poderia gerar viés no cálculo de freqüências de alelos e genótipos e consequente associação dos fenótipos estudados com os genótipos obtidos. Uma abordagem que pode ajudar a sanar os problemas nos resultados é a aplicação de mecanismos de bioinformática, onde aliamos práticas de produção de códigos de programação, estruturação de bancos de dados e de análises de bioestatística a fim de analisar resultados imprecisos fornecidos por outras técnicas. O presente estudo tem como objetivo principal avaliar se a baixa qualidade dos dados de microarranjos de DNA das amostras de Monte Negro, em Rondônia e Hospedaria dos Imigrantes do estado de São Paulo, que foram obtidas nos experimentos realizados pelo Laboratório de Epidemiologia Genética do ICB (Instituto de Ciências Biomédicas) da USP (Universidade de São Paulo) podem trazer viés às análises subsequentes de frequência, associação e ligação. 1

13 2 INTRODUÇÃO 2.1 Microarranjo As primeiras tentativas de se usar nucleotídeos em arranjos (arrays), com o propósito de analisar simultaneamente, o maior número possível de genes começaram a ser aplicadas no final da década de 70, com o advento da técnica conhecida como Dot- Blot (Kafatos et al., 1979). Contudo, foi somente na metade da década de 90 que esta tecnologia adquiriu as características atuais (SCHENA et al.,1995). A tecnologia do microarranjo teve sua evolução a partir de uma técnica criada por um biólogo britânico chamado Edwin Southern (1975) conhecida como Southern blotting, onde DNA fragmentado serve como uma sonda para uma sequencia de DNA. Esses fragmentos são anexados a um substrato, em seguida hibridizados com a amostra a ser averiguada. O uso de arranjos de diferentes fragmentos de DNA em matrizes de perfil de expressão foi descrita pela primeira vez em Estas sondas foram utilizadas para identificar genes cuja expressão é modulada por interferons (Kulesh et al., 1987). A utilização de microarranjos para perfis de expressão gênica foi primeiramente relatada em 1995 (Schena et al., 1995) a completa expressão de um genoma eucarioto (Saccharomyces cerevisiae ) em um microarranjo foi publicado em 1997 (LASHKARI et al., 1997). O sucesso da tecnologia de microarranjo levou a produção de plataformas múltiplas com matrizes diferentes no que se refere a sondas utilizadas (oligonucleotídios curtos, longos e DNA, etc.), a hibridização (competitiva e não competitiva), métodos de rotulagem e de produção polimerização in situ, spotting, etc. (BARNES, 2005) Hibridização A definição de hibridização pode ser feita através de quatro níveis de especificidade no que envolve o contexto de hibridização de microarranjos. O primeiro é hibridação entre uma molécula com uma única sonda e um único alvo (Figura 1A). As duas moléculas podem apresentar hibridação perfeita (Figura 1Ai), parcial hibridação (Figura 1Aii) ou nenhuma hibridização (Figura 1Aiii). O segundo nível é com relação ao spot (Figure 1B). Neste nível, múltiplas sondas compõem um spot que será hibridizado para múltiplos alvos. Essa relação pode apresentar uma hibridização perfeita ou parcial 2

14 (Figura 1Bi, Figura 1Bii e Figura 1Biii). É possível que ocorra em um mesmo array as duas formas. A hibridização parcial a nível local pode ser um resultado de hibridização cruzada, isto é, hibridização entre sequências que não são estritamente complementares, (Figura 1Biv), devido à presença de moléculas não-alvo com sequências semelhantes as das sondas. Uma vez que um local não é composto de sondas múltiplas um único spot pode simultaneamente suportar todas as combinações possíveis. O terceiro nível é o conjunto de pontos (spot-set. A Affymetrix utiliza a terminologia probe-set) (Figura 1C), em que vários spots representam diferentes segmentos da sequência de referência. Neste nível, diferentes pontos de um spot-set podem apresentar tanto uma hibridização perfeita com alvo (Figura 1CI) quanto hibridização parcial (Figura 1Cii), que pode ocorrer devida a presença de sondas que apresentem disparidades à molécula alvo, como por exemplo, erros de quantificação; Também a não hibridização (Figura 1Ciii) devido a splicings alternativos de uma transcrição; E hibridização cruzada (Figura 1Civ) que ocorre devido a, segmentos de genes conservados que hibridizam com moléculas não-alvo ocasionando a esse efeito uma mancha no spot-set. O quarto e útimo nível de especificidade envolve microarranjos, em que um número variável de spot-sets que podem apresentar diferenças nas formas de hibridação com sequências alvo (Figura 1D), hibridização perfeita ou seja, todas as moléculas-alvo são hibridizadas ao seu ponto representante e todos os spot-sets hibridizam com as moléculas alvo a que representam, hibridização parcial em qualquer direção, não hibridização moléculas alvo não são hibridizados ou hibridização. Estas diferentes formas podem existir para um grande número de diferentes moléculas-alvo ou spot-sets (KOLTAI, 2008). Após o processo de hibridização, todos os chips de DNA são lavados para remoção dos alvos excedentes não ligados às sondas (OLIVEIRA, 2010) Figura 1. Esquema da Hibridização a níveis de especificidade (Fonte. KOLTAI, 2008). 3

15 2.1.2 Normalização Normalização é um termo utilizado para descrever o processo de eliminação de variações, causadas pelo diferencial de rotulagem da eficiência dos corantes fluorescentes ou de diferentes quantidades de matéria-prima nas amostras utilizadas. Assim como para todas as experiências em larga escala, existem muitas fontes de variação sistemáticas que afetam as medições dos níveis de expressão do gene. O primeiro passo para o processo de normalização é a escolha do conjunto de genes que consiste de genes onde os níveis de expressão não devem mudar mediante as condições estudadas sendo a razão da expressão de todos os genes (gene set). É esperado que a partir deste conjunto, os fatores da normalização, que é um número que representa a variabilidade observada no conjunto dos genes, sejam calculados. (BABU, 2004). Este processo de correção dos dados considera ajustes para diferenças entre chips visto em termos de variância, média, em efeitos de marcação e outros possíveis erros sistemáticos. Determinados procedimentos de normalização baseiam-se em somente alguns genes presentes nos chips exemplo disso, genes controles ou housekeeping e genes com expressão supostamente constante nos diversos grupos experimentais, tendo assim outros que se baseiam com todos os genes utilizando procedimentos estatísticos robustos (GÖHLMANN e TALLOEN, 2009) Sumarização É o passo em que os valores de intensidade observados para cada grupo de sondas (porbe set) representativos dos genes são combinados numa única medida que resume tudo, determinando o nível de expressão de um gene. Diferentes técnicas e resultados são referenciados e utilizam a média das diferenças entre a intensidade das sondas PM (perfect match) e a intensidade das sondas MM (mismatch) para produzir o valor de expressão, outras que consideram somente o valor da intensidade das sondas PM (MBEI, RMA, srma, FARMS). Que são algoritmos contidos em programas específicos para análise de dados de microarranjos (OLIVEIRA, 2010). 4

16 2.2 As Principais Tecnologias de Microarranjo Uma das tecnologias empregadas é a Affymetreix GeneChip (Santa Clara, CA) (Figura 2a) que em uma das técnicas, utiliza máscaras fotolitográficas para cada base nucleotídica a ser fixada em cada posição específica. Processo em que uma determinada região da lâmina deve conter uma base específica, a máscara deixa um ponto ou spot na região, onde a base pode ser depositada sem haver contaminação das outras regiões, em seguida ocorre desbloqueio por luminosidade ocorrendo assim um processo de repetição até que os fragmentos de interesse sejam construídos base a base (ESTEVES, 2007). Outra fabricante de lâminas deste tipo Agilent (Palo Alto, CA) (Figura 2b) usa uma metodologia similar à das impressoras de jato de tinta, onde quatro cartuchos contendo os quatro nucleotídeos (A,C,G,T) adenina, citosina, guanina e tirosina respectivamente, são carregados em uma cabeça de impressão que injeta cada base necessária em áreas específicas da lâmina à medida que a cabeça de impressão se move ao longo da mesma (ESTEVES, 2007). Uma terceira plataforma Illumina BeadArrays (Figura 2c) tem um processo fundamentado na síntese de oligonucleotídeos longos espotados em uma matriz de micro esferas (microbeads), que são então colocados em um Microarranjo utilizando um mecanismo de montagem aleatória. O rendimento gerado pela montagem utiliza na ordem de 30 (trinta) cópias de oligonucleotídeos prevê um aumento da replicação e um diferencial da tecnologia (GUNDERSON, 2004). Figura 2. Imagem dos chips das plataformas (a) GeneChip da Affymetrix (b) Chip-on-chip da Agilent (c) BeadArray da Illumina (Fonte. Google Imagens :48). 5

17 2.2.1 Características e Aplicações Microarranjo (do inglês Microarray) se tornou uma das ferramentas indispensáveis utilizadas por muitos profissionais, com práticas diversas, tais como, monitoramento de níveis de expressão do genoma, variação de genes em um dado organismo, detecção de polimorfismos de nucleotídeos simples (SNP), análise cromossomal, entre outras. Um microarranjo é tipicamente um slide de vidro, sílica, plástico, membranas de nylon e nitrocelulose sobre a qual as moléculas de DNA são fixadas de forma ordenada em locais específicos, chamados de spots (pontos microscópicos). No caso da utilização de membranas de nylon, essas moléculas são marcadas radioativamente e utiliza-se apenas um tipo biológico por membrana, em contrapartida as lâminas de vidro, na qual dois tipos de amostras biológicas diferentes são marcados geralmente por fluorescência. (ESTEVES, 2007). Os microarranjos são chamados também de chips de DNA em referencia ao componente eletrônico miniaturizado, uma vez que são coleções de segmentos de material genético (sondas do inglês probes) representativos dos genes de interesse que se encontram depositados sobre um substrato sólido em um padrão regular (Chaudhuri, 2005). Diversas são as variações da tecnologia básica dos microarranjos, que dependem das características do substrato, tipo de sonda bem como o método aplicado (ROGOJINA et al., 2003). O substrato sólido utilizado pode ser de diferentes materiais (lâmina de vidro, sílica, plástico, membranas de nylon, nitrocelulose etc., medindo 2 cm2). As sondas podem ser compostas de oligonucleotídios de cadeia longa (45 a 70mer), cdnas produzidos em projetos de sequenciamento, produtos de amplificação por PCR (reação em cadeia da polimerase) ou oligonucleotídios de cadeia curta (25mer) (VENKATASUBBARAO, 2004). Um microarranjo pode conter milhares de pontos e cada local pode conter alguns milhões de cópias de moléculas de DNA, denominadas probes (sondas), idênticas que correspondem exclusivamente a um gene. O DNA em um spot pode ser genômico, cdna, ou mesmo pequenos trechos de nucleotídeos (oligonucleotídio medindo VERIFICAR: 35 mers) correspondente a uma sequencia de DNA de interesse. Os spots são fixados sobre o slide (vidro) por um robô ou são sintetizadas pelo processo de fotolitografia. (BABU, 2004). Da mesma maneira, as formas de deposição das sondas também variam, mas duas são as mais comuns: deposição mecânica e síntese in situ. A primeira, mais simples, é feita por robôs de alta precisão que utilizam agulhas especiais para depositar 6

18 as sondas na superfície da lâmina na forma de spots (elemento circular criado pela sonda) (VENKATASUBBARAO, 2004 apud OLIVEIRA, 2010) As Ferramentas do Microarranjo Tecnologias avançadas de manufatura permitem a produção em massa de biochips e automação, aumentando a proliferação de ensaio de microarranjo, garantindo a sua qualidade, disponibilidade e acessibilidade. É o exemplo de tecnologias como, fotolitografia, mecânica de Microspotting e jato de tinta (Ink jets) (SCHENA, et al., 1995). a) Fotolitografia: Baseada na síntese in situ, mais complexa, utiliza processos especiais como a fotolitografia, impressão a jato ou síntese eletroquímica para realizar a síntese química de oligonucleotídios sintéticos de cadeia curta (25 mer) diretamente sobre a superfície do substrato. Representado na (Figura 3a) uma lamina de vidro modificada com grupos de proteção foto instáveis (X) é seletivamente ativada para a síntese de DNA por uma luz através de uma foto máscara (M1). A lamina é então inundada com uma base de DNA (A-X), resultando em acoplamento espacial definido pela superfície do chip. A segunda foto máscara (M2) é usada para desproteger regiões definidas da lâmina. Repetidos ciclos de desproteção e de engate são realizados para permitir a preparação dos microarranjos. Tecnologia desenvolvida por Fodor e colegas (Affymetrix, Santa Clara, CA, E.U.A, 1992) que combina a tecnologia de fotolitografia da indústria de semicondutores com o DNA sintético para permitir a fabricação de oligonucleotídeos de microarranjo de alta densidade. Uma das principais vantagens desta abordagem é que as versões foto protegidas dos blocos de DNA permitem a fabricação de chips diretamente da sequencia da base de dados, eliminando assim os aspectos incertos da manipulação e controle. b) Mecânica de Microspotting: Uma versão original do que foi desenvolvido pro Shalon e Brown, (1995) e posteriormente comercializado na Synteni (Fremont, CA, E.U.A). Versão em miniatura de antigas técnicas de DNA spotting, que engloba conjuntos de tecnologias que permitem a deposição relacionada com a produção automatizada por microarranjo de impressão em pequenas quantidades de substâncias bioquímicas préfabricadas sobre superfícies sólidas (Figura 3b). A técnica de Mecânica de Microspotting relaciona uma amostra bioquímica que é carregada por um pino por ação capilar, em seguida, um pequeno volume é transferido para uma superfície sólida por contato físico 7

19 entre o pino e o substrato. Após o primeiro ciclo de spotting, o pino é lavado e uma segunda amostra é carregada e depositada em um local adjacente. Sistema que é automatizado por controle robótico e cabeçotes multiplex que permitem a fabricação dos microarranjos. c) Jatos de tinta: Técnica conhecida pelo nome Ink jets, fornece uma maneira de fabricar microarranjos. A mais avançada destas abordagens são adaptações em tecnologia de jatos de tintas que utilizam formas piezoeletric e outras de propulsão para transferência de sub posições bioquímicas dos bocais miniaturizados em superfícies sólidas (Figura 3c). Ink jets onde uma amostra bioquímica é carregada em um bocal miniaturizado equipado com um encaixe piezoelétrico e uma corrente elétrica são usadas para expelir uma quantidade exata de líquido sobre o substrato. Após a primeira etapa de injeção, o jato é lavado e uma segunda amostra é carregada e depositada em um local adjacente, o ciclo se repete permitindo assim a produção rápida de microarranjos. Figura 3. Técnicas empregadas (a) Esquema do método de fotolitografia (b) Mecânica de Microspotting (c) Jato de Tinta para produção de Microarranjo. Fonte: Affymetrix.(SCHENA, et al., 1998) As Diferentes Tecnologias de Microarranjos A distinção entre as diferentes tecnologias existentes refere-se ao número de amostras hibridizadas em cada lâmina. Neste sentido, os diversos tipos de tecnologias de Microarranjos podem ser divididos em dois grupos básicos: sistema de uma cor ou canal 8

20 único (single-color ou single-channel Microarray) e sistema de duas cores, dois canais (two-color ou two-channel Microarray) ou sppoted array, sendo também são referidas por lâminas de hibridizações independentes e lâminas de hibridizações competitivas, respectivamente (VENKATASUBBARAO, 2004 apud OLIVEIRA, 2010). As sondas tendem a ligar-se pelo processo de hibridização apenas a sua sequência complementar de nucleotídeos (alvos) extraída de amostras biológicas previamente marcadas com substâncias fluorescentes. Processo chamado de hibridização (JALURIA et al., 2007). Após o processo de hibridização, todos os chips de DNA são lavados para remoção dos alvos excedentes (que não se ligaram às sondas) e, em seguida, exposta à ação de raios laser que excitam os fluoróforos que foram incorporados aos alvos, fazendo com estes emitam luz (fluorescência). Em princípio, quanto maior for a expressão de um determinado gene, maior será a quantidade de alvos marcados com o fluoróforo e, consequentemente, maior será a intensidade da fluorescência do complexo alvo sonda após a hibridização. Assim, a tecnologia de Microarranjos fornece uma medida indireta do nível de expressão gênica, mediante quantificação da abundância dos RNAs transcritos (OLIVEIRA, 2010). A tecnologia de Microarranjo é amplamente usada para monitorar a expressão gênica de dezenas de milhares de genes em paralelo, a partir de células e em diferentes condições experimentais. Microarranjo utiliza a vantagem do projeto de sequenciamento do genoma humano, e compara a expressão de genes (DNA) de amostra de genes conhecidos (Babu, 2004). As aplicações incluem várias técnicas. Perfis de expressão gênica: Milhares de genes são simultaneamente monitorados a fim de estudar os efeitos do tratamento em doenças, testando os estágios em que os genes são expressos. A expressão de genes alvos sintetiza novos dados sobre o que os genes fazem em condições variadas gerando uma ampla quantidade de interpretações possíveis (COUZIN, 2006). Hibridização de genômica comparativa: Também conhecida como (CMA) Cromossomal Microarray Analysis, método que analisa mudanças em cópias de DNA, como deleções e inserções de bases nucleotídicas (MORAN, 2004). Imunoprecipitação da cromatina em Chip: Método que utiliza sequências de DNA ligadas a uma proteína específica que pode ser isolada por imunoprecipitação, fragmentos que podem então ser hibridizados com um microarranjo permitindo assim determinar as proteínas de ligação. Os representantes mais importantes dessa classe são fatores de transcrição, replicação de proteínas relacionadas, tais como, ORC (Complexo de Reconhecimento de Origem) e histonas (APARICIO, 2004). 9

21 Detecção de Splicing alternativo: O splicing alternativo (AS) é um processo biológico que ocorre durante a fase de maturação de um pré-mrna, permitindo a produção de diferentes variantes do mrna maduro a partir de uma única unidade de transcrição. Primeiramente considerado como um acontecimento extraordinário, é agora visto que envolve a maioria dos genes multi-exon humanos, entre 50% a 74%. Este mecanismo utiliza sondas específicas para emendar sitios previstos ou genes esperados (TOMOTANI, 2010). Fusão de Genes Microarranjo: O princípio desta técnica é a construção de splicing alternativo. A estratégia combina oligos que permitem a medição da junção de transcritos quiméricos com medidas de exons já conhecidos. Fusão de genes criada por rearranjos cromossômicos estruturais, tais como translocações, deleções, inversões e muitas vezes recursos patogenéticos essenciais do genoma do câncer. Eles parecem ser particularmente característicos das neoplasias hematológicas e sarcomas, onde a sua identificação pode ser crucial para o diagnóstico diferencial e tomada de decisão terapêutica (SKOTHEIM et al, 2009). Tiling Array: O objetivo é detectar empiricamente expressão de transcritos ou alternativamente formas de splice que possam não ter sido previamente previstos. Eles funcionam com um princípio semelhante aos microarranjos tradicionais que rotulam moléculas-alvo hibridizando sondas não rotuladas fixadas sobre uma superfície sólida. Pequenos fragmentos são projetados para cobrir todo o genoma ou regiões contíguas do genoma. Dependendo do comprimento da sonda e espaçamento, entre diferentes graus de resolução pode ser alcançado. Uma única matriz pode variar de 10 mil para mais de 6 milhões, característica que confere milhões de cópias a uma sonda (MOCKLER, 2005). DamID: Ou Identificação de adenina em DNA Metiltransferase. DamID identifica sítios de ligação, expressando a proteína de ligação no DNA proposto como uma proteína de fusão com a DNA metiltransferase. Ligação da proteína de interesse para a DNA metiltransferase localiza na região do sítio de ligação (VOGEL, 2007). Detecção de SNP (SNP array): A técnica baseia-se na matriz de hibridização genômica em microarranjo de oligonucleotídeos sintéticos de alta densidade. Cada um dos dois alelos de um SNP é representado por 10 ou 14 oligonucleotídeos (chamado de probe set) as intensidades de hibridização são medidas para todas as sondas em um conjunto (LAMY, 2006). 10

22 2.3 Mapeamento Humano Apesar do princípio dos processos de normalização, sumarização e hibridização do microarranjo se manter, a constituição das sondas e dos alvos difere entre as tecnologias de microarranjos. Na construção de um microarranjo de SNPs, as sondas são um segmento da zona conservada, em que um polimorfismo se encontra na zona central. Por sua vez, as sequências alvo são constituídas por segmentos de DNA do genoma completo do organismo. São várias as aplicações dos microarranjos de SNP s, no entanto, uma das mais relevantes resulta na avaliação da susceptibilidade de determinadas doenças genéticas. Tal é conseguido através do estudo da sequência associada à determinada doença e da capacidade de encontrar polimorfismos (ARRAIS, 2010). 2.4 Microarranjos de DNA Affymetrix GeneChip Conjunto de Matrizes 500k O GeneChip Conjunto de Matrizes 500k duas matrizes de 250k permite estudos de genomas inteiros para associação de diferentes populações, essas matrizes correspondem a quantidade de SNPs que uma matriz de microarranjo pode analisar, podendo ser de até quinhentos mil SNPs. O método utiliza o mesmo padrão da tecnologia de GeneChip 10K e 100K. Em que, o DNA genômico (de no mínimo 250 g) é digerido com enzimas de restrição (Nsp I ou Sty I) e ligado a adaptadores que reconhecem a ligação entre as bases. Todos os fragmentos resultantes do processo de restrição enzimática, independentemente do tamanho, são substratos para ligação de adaptadores. Um primer genérico que reconhece a sequência do adaptador é usado para amplificar os fragmentos ligados ao DNA, podendo amplificar fragmentos de 200 a 1100 pb. O DNA amplificado é então fragmentado, rotulado e hibridado (Figura 4). Sendo que, o conjunto de matrizes de mapeamento de 500K é composto de duas matrizes, cada uma capaz de genotipar, em média, SNPs. Uma matriz usa o Nsp I enzima de restrição (~ SNPs), enquanto o segundo usa Sty I (~ SNPs). Juntos, é possível genotipar , , , , ou SNPs para uma variedade de aplicações, incluindo ligação e estudos de associação (AFFYMETRIX, 2006). 11

23 Figura 4. Visão geral do processo de ligação dos adaptadores (hibridização) (Affymetrix ) Seleção de SNP e Cobertura do Genoma SNPs são selecionados e em seguida dispostos em arrays com base na acurácia, call rate e análise de desequilíbrio de ligação, tendo com base o estudo prévio do genoma de três populações. A distância mediana entre os SNPs é de 2,5 kb e a distância média é de 5.8 kb. A heterozigozidade média destes SNPs é de 0,30. Oitenta e cinco por cento do genoma humano está presente em 10 kb de um SNP (AFFYMETRIX, 2006). 2.5 Obtenção e Análise dos Dados Os valores obtidos serão utilizados como entrada nas ferramentas de análise de dados. Estas podem ser divididas em três classes: verificação da qualidade, préprocessamento e normalização. A primeira diz respeito à verificação da qualidade elementar do resultado. Neste passo, vários erros sistemáticos, associados com o procedimento laboratorial, são detectados através do uso de um conjunto de ferramentas estatísticas e de métodos alternativos de visualização dos resultados. Após esta fase, é, normalmente, aplicado aos dados um conjunto de algoritmos que tem como objetivo removerem os efeitos de hibridação basal, responsável por conduzir a valores de intensidade do fundo do microarranjo. É, ainda, realizada a normalização dos dados, de forma a que os valores produzidos sejam uniformes e passíveis de comparação. Só 12

24 então, através do uso de ferramentas de visualização e de análise exploratória, a interpretação biológica dos dados é obtida (ARRAIS, 2010). 2.6 Algoritmos de Microarranjo A tecnologia do GeneChip 100K e 500K utiliza o Modelo Dinâmico (DM) que tem sido muito efetivo nas aplicações, mas que, na atualidade foi possível melhorá-lo com mudanças no desenvolvimento do algoritmo RLMM (Distância de Mahalanobis com Robusto Modelo Linear) em duas importantes áreas. Em primeiro lugar, RLMM realiza uma análise de múltiplos chips, permitindo a estimativa simultânea dos efeitos e sinais da sonda para cada SNP. Em segundo lugar, a melhora no desempenho (call rate e acurácia) igualando o desempenho dos genótipos homozigotos e heterozigotos. A principal diferença dessa mudança é a inserção de passos bayesianos ao algoritmo RLMM que passa a ser chamado de BRLMM, fazendo assim, parte do fluxo de trabalho (Figura 5.) (BRLMM, 2006). Figura 5. Fluxo de trabalho do Algoritmo BRLMM (Adaptação Affymetrix ). 13

25 2.6.1 Normalização e Sumarização do Alelo A Normalização e sumarização dos alelos são passos do algoritmo BRLMM que consistem na determinação de valores para cada alelo de um SNP em um dado experimento, que ocorre o aumento ou diminuição destes valores em prol da quantidade de alelos presentes no genoma alvo (target). Os valores são calculados a fim de remover efeitos estranhos relacionados a variações no chip, background e brilhos relativos a diferentes sondas (probes) de um array (BRLMM, 2006). Para cada SNP de interesse, o array terá múltiplas sondas designadas para hibridizar com cada alelo do SNP, onde a intensidade das sondas varia em sistemáticas maneiras para cada genótipo. Essa variação torna necessária a sumarização das intensidades dos alelos, a esse processo dá-se o nome de sinal, que será atribuído para cada alelo específico, portanto pra cada SNP de um experimento obtêm-se dois valores, sendo um sinal representado pela letra A e um sinal pela letra B nomeadas como sondas. Como a quantidade é resultante na intensidade do sinal, é importante saber que devido a problemas de hibridização cruzada com alternância de alelos, este sinal não corresponde diretamente à perfeita concentração de alelos correspondentes (BRLMM, 2006). Portanto, cada SNP terá uma matriz (2xN) como valor de saída. Ou seja, dois sinais para cada um dos N experimentos. Esta matriz de saída é então usada para avaliar cada SNP do experimento (BRLMM, 2006) Agrupamento e Transformação do Espaço Após obter os sinais para cada alelo do SNP em cada experimento, inicia-se a avaliação das distâncias entre os protótipos (cluster center) (Figura 6) para um determinado genótipo (AA, AB, BB chamados de call codes) dados reais observados no experimento. Embora, um "sinal" bruto dos valores seja útil para análise de expressão, este não é perfeitamente adequado para análise de clusteres de genótipos. Por isso a necessidade de transformar cada par do sinal em cada experiência para um espaço com propriedades mais adequadas para avaliação dos genótipos (BRLMM, 2006). 14

26 Figura 6. Transformação do Espaço dos Clusters (BRLMM, 2006) Obtenção do Genótipo Segundo o manual do algoritmo BRLMM de 2006, a obtenção do genótipo é um processo que compara a transformação do sinal de valores observados em um experimento típico (protótipo) que é esperado para cada genótipo. O genótipo que está mais próximo do valor típico é o que é atribuído (um classificador de distância mínima). A obtenção é baseada na razão entre o mais próximo protótipo para o segundo mais próximo. Cada SNP deverá ter três genótipos "AA", "AB" e "BB", que é esperado ter alguma dispersão de valores mediante ao protótipo. Logo, essa dispersão é medida por uma distribuição multidimensional. O método pardrão para avaliar a distância do centro dos grupos (protótipo) é a distância de Mahalanobis que leva em conta a variação e covariação dos protótipos ao longo de cada eixo, que é definido pela equação sqrt[(x-µ) t -1 (x-µ)], onde µ é o centro do aglomerado, x é o valor de teste, e Σ é a matriz de variância-covariância descrevendo os grupos (clusters) multidimensionais. Então com um experimento obtêm-se valores transformados x e comparam os três clusters centrais que foram criados (µaa, µab e µbb) com matrizes de covariação ( AA, AB e BB) e com isso obtem-se uma distância (daa, dab e dbb). A menor 15

27 distância de um genótipo é que determinará qual o melhor genótipo do SNP a ser utilizado. E nesse espaço de agrupamentos, cada protótipo consiste de dois componentes, um centro e uma variância. Os componentes do centro consistem das médias dos contrastes e forças de cada sinal, ou seja, µg=(contrasteg,forçag), onde G é o genótipo. O componente da variância é uma matriz 2x2 (variância-covariância). Ao fim do processo obtemos os genótipos com menor distância dos centros Casos Especiais Há uma definição clara para os protótipos observados no algoritmo já explicado. Entretanto, para os SNPs que estão no cromossomo X (chrx), o tratamento é diferente, assim, há grupos centrais distintos para cada sexo com menor quantidade de cópias do chrx. Isso muda não apenas a localização dos centros de cluster para indivíduos XY, mas os SNPs localizados no chrx podem acabar sendo chamados de heterozigotos. O tratamento especial ocorre devido os SNPs do chrx aqui descritos serem aplicados apenas para os que estão em regiões não-pseudo-autossômica. Após a detecção das diferenças entre indivíduos XY e XX por um sinal obtido pelo Modelo Dinâmico (MD) do algoritmo. Portanto, pessoas XY são estimadas como aquelas que apresentam heterozigosidade menor que 7,5% no chrx, sendo maior, são tratados como XX. Apenas dois centros de clusters são utilizados (AA e BB) e apenas os dados dos indivíduos XY são utilizados. As seguintes modificações são executadas. A primeira, apenas o MD para homozigotos é usado para propagar o processo de aprendizagem que estima os clusters. Isto fornece a localização aproximada para os protótipos homozigotos do agrupamento dos SNPs específicos. Segundo, os clusters heterozigotos são modificados para evitar confusões entre indivíduos heterozigotos e XY (BRLMM, 2006). 2.7 Desafios no Uso dos Microarranjos de DNA Hibridização Cruzada Como a hibridização cruzada é um dos desafios presentes na tecnologia de microarranjo e é eventualmente obtida pela reduzida dimensão das sondas usadas, a Affymetrix aplica vários pares de sondas para cada transcrito alvo. Cada par de sondas perfaz-se de uma sequência de 25 oligonucleotídios com complementaridade completa 16

28 com o éxons do gene alvo (perfect macth) e de outra de 25 oligonucleotídios, que difere da anterior num único nucleotídeo localizado na posição central (mismatched). O objetivo é o de que as sondas que possuem um nucleotídeo errado não hibridem com o transcrito alvo sem erros, mas hibridem com muitos dos transcritos alvo com os quais as restantes sondas sem erros também erradamente hibridam. Assim, o valor de intensidade do mismatched subtraído ao do perfect macth deve dar uma estimativa mais realística da intensidade correspondente à hibridação do transcrito alvo (ARRAIS, 2010) Ruído Devido suas condições, os microarranjos tendem por vezes a apresentar dados com ruído (figura 7). Realizando a mesma experiência com os mesmos métodos, materiais e condições, é possível que após a digitalização e processamento da imagem os valores obtidos sejam distintos. Na origem desta situação está o fato do ruído ser cumulativo a todos os passos e por muitas vezes não ser possível de reproduzir com precisão todas as condições de uma experiência (ARRAIS, 2010). Figura 7. Imagem de baixa qualidade hospedaria_15_mapping250k_nsp QC 50, Correção do Background A correção do background (Figura 7) é o principal passo para remoção de contribuições não biológicas ao sinal medido. Típicos exemplos de sinais não específicos 17

29 são sinais de fundo das lavagens incompletas, ligações inespecíficas de transcritos. (SEO e Hoffman, 2006 apud OLIVEIRA, 2010). 2.8 Degradação do DNA O DNA degrada-se através de diversos mecanismos, incluindo processos bacteriológicos, bioquímicos, oxidativos e/ou enzimáticos, que levam a ruptura das cadeias constituintes da molécula. Calor, umidade e luz são exemplos de fatores que contribuem para essa degradação. Pode então concluir-se que a presença de DNA degradado numa amostra conduz, geralmente, a obtenção de um perfil genético parcial, o que significa um menor poder informativo. (MARTINS, 2008). 3 OBJETIVO O presente estudo tem como objetivo principal avaliar se a baixa qualidade dos dados de microarranjos de DNA das amostras de Monte Negro, em Rondônia, e da Hospedaria dos Imigrantes de São Paulo, que foram obtidas nos experimentos realizados pelo Laboratório de Epidemiologia Genética do ICB (Instituto de Ciências Biomédicas) da USP (Universidade de São Paulo) podem trazer viés às análises subsequentes de frequência, associação e ligação. 3.1 Objetivos Específicos a. Treinar e usar os softwares associados ao estudo. b. Realizar análises descritivas das sequências de No Call e Homozigotos. c. Verificar se há viés nos resultados, sugerindo correções e avaliando se a mesma região é perdida em diferentes amostras. 18

30 4 METODOLOGIA 4.1 Obtenção dos Dados A obtenção dos dados ocorreu por intermédio de trabalhos realizados na USP (Universidade de São Paulo) e no laboratório de Epidemiologia e Genéticos (EPIGEN). Estes foram analisados utilizando a tecnologia de Microarranjos de DNA da Affymetreix GeneChip Human Mapping 500K. Duas amostras foram escolhidas para o desenvolvimento do presente trabalho. Os residentes da Hospedaria dos Imigrantes do Estado de São Paulo e o Município de Monte Negro do Estado de Rondônia, contabilizando um N de 152 indivíduos coletados. Escolhemos estas amostras pela importância dos resultados gerados em trabalhos anteriores e por se tratarem de coletas antigas, inviabilizando uma nova coleta Hospedaria A coleta foi feita pela equipe de pesquisa dirigida pelo Prof. Dr. Henrique Krieger (projeto: Dinâmica Gênica em Populações do Nordeste Brasileiro) no período de outubro de 1969 a agosto de 1970 com um total de 9127 indivíduos, pertencentes a 1806 famílias, na antiga e extinta Hospedaria de Imigrantes do Departamento de Imigração e Colonização em São Paulo. Essa população caracteriza-se por apresentar altas taxas de fertilidade, consanguinidade, mortalidade e grande variabilidade étnica permitindo a realização de estudos de variabilidade genética (KAWAMATA, 2006). Desses 9127 indivíduos, separamos 69 indivíduos da Hospedaria dos Imigrantes do Estado de São Paulo, devido à quantidade de informações que estas amostras forneciam e que ao fim do procedimento gerou 1517 arquivos, com informações biológicas obtidas a partir dos programas da affymetrix. 19

31 Figura 8. Foto do Museu dos Imigrantes de São Paulo, antiga Hospedaria de Imigrantes. (Fonte: Google imagens) Monte Negro Município do Estado de Rondônia que se localiza a uma latitude 10º17'40" sul e a uma longitude 63º19'31" oeste. Sua população estimada em 2010 era de habitantes e possui uma área de 1.413,4 km² (IBGE, 29 de novembro de 2010). O presente trabalho analisou 83 indivíduos relacionados ao programa: Pesquisas na Amazônia Ocidental Brasileira, onde foram coletados 900 indivíduos que compreendem cerca de 250 famílias nucleares do Município de Monte Negro (Figura 9). Em outros estudos, foi observado um componente de mistura africana de 25%, seguido de 12% de ameríndia e 63% de origem europeia (FERREIRA, 2008). Ao fim do procedimento de microarranjo, contabilizou um total de 1827 arquivos, com informações biológicas geradas a partir dos programas da affymetrix. Figura 9. Foto do Instituto de Ciências Biomédicas (ICB5) da USP em Monte Negro/RO. (Fonte: 20

32 4.2 Tratamento dos Dados no Microarranjo O software genotyping console da affymetrix gerou 23 arquivos para cada indivíduo do estudo (output) no formato txt (do inglês text), relativos à quantidade de cromossomos. Sendo 22 desses arquivos referentes aos cromossomos autossômicos e um ligado ao sexo (apenas o X, a tecnologia de Microarranjos de DNA GeneChip array 500k utiliza uma metodologia específica para o cromossomo Y vide tópico Casos Especiais) e um arquivo que não estava relacionado a cromossomo algum (NoChr). A priori, o que nos interessou foram apenas os arquivos relacionados aos 22 cromossomos autossômicos, já que nosso estudo não tem correlação com cromossomos ligados ao sexo. Essa quantidade de arquivos se repetiu na ordem de 152 vezes, pois se tratava da quantidade de amostras coletadas (Nomeamos o conjunto de amostras de array_experiment), gerando ao final de todo o processo arquivos que auxiliaram na inserção dos dados de interesse Console de Comando GeneChip O programa AGCC (Affymetrix GeneChip Command Console) fornece um conjunto de ferramentas para controle dos instrumentos e gerenciamento de dados utilizados no processamento do GeneChip array. O software sumariza as sondas e suas intensidades (arquivos com extensão CEL são gerados), possibilita o registro da amostra, gerenciamento de dados e controle de instrumentos, bem como da imagem. Suporta toda a gama de ensaios da Affymetrix, permitindo integração com aplicativos de análise primários como o Expression Affymetrix Console e Genotipagem Console. Os dados das amostras de atributos e matrizes podem ser diretamente importados para mais de 30 aplicativos disponíveis (AFFYMETRIX, 2006) Console de Genotipagem (Genotyping Console) A utilização do programa Genotyping Console utilizado para leitura dos arquivos que continham as informações dos indivíduos analisados, apresentava formatos nativos do programa possibilitando a manipulação apenas no Genotyping Console. Os formatos são (ARR e CEL) arquivos que mostram os atributos e intensidades respectivamente, no arquivo de extensão CEL encontramos os valores do QC call rate (Figuara 10) que foram utilizados como base do nosso trabalho. Tabela completa no Anexo C. 21

33 Figura 9. Imagem do arquivo de intensidades (QC call rate) gerado pelo programa Genotyping Console da Affymetrix. Na Figura 11 apresentamos as definições de cada arquivo gerado pelo programa. Figura 10. Lista de Arquivos disponibilizados pelo software Genotyping Console da affymetrix (Fonte: Affymetrix). De todos os arquivos que são gerados a partir do programa Genotyping Console, o que nos serviu como suporte para inserção das informações necessárias no banco de dados e posteriormente para teste da nossa hipótese foi o arquivo com extensão (CHP) exportado para o formato txt (Figura 12). 22

34 Esse arquivo apresenta informações que ajudaram na estruturação do banco, informações que são as seguintes: Cabeçalho, que mostra as informações de um determinado cromossomo para um determinado indivíduo, é com ele que identificamos o arquivo no programa; Probe Set ID, o nome de uma sonda específica; Call Codes (AA, BB e NoCall), códigos que representam um genótipo relacionado a um SNP, onde AA e BB indicam um genótipo homozigoto, AB de genótipos heterozigotos e NoCall genótipo nenhum. Figura 11. Output do software genotyping console (brlmm.chp). 4.3 Análise dos Dados Após uma primeira análise e tratamento dos dados pelo programa Genotyping Console da Affymetrix, demos início a depuração dos dados para o trabalho de verificação dos possíveis erros ocorridos pela qualidade do DNA analisado pelo microarranjo de DNA. Esta preparação seguiu uma linha lógica de execução, onde o primeiro passo foi a criação de um banco de dados (BD) para armazenagem dos dados, já que se tratava de um contingente muito grande de valores. Para isso, era necessário à escolha de um Sistema de Gerenciamento de Banco de Dados adequado (DBMS do inglês Database Management System), assim como os programas que auxiliaram na construção dos esquemas, diagramas e scripts que ao fim de todo o processo geraria aproximadamente ~6,8 Gbytes de informação. O segundo passo foi colocar em prática a preparação dos scripts de análise dos dados que foram armazenados no BD, onde, também, escolhemos qual a melhor linguagem para execução do nosso fluxo de trabalho (Figura 13). Por fim, realizou-se as análises estatísticas dos valores gerados a partir dos programas utilizados e códigos desenvolvidos. 23

35 Figura 12. Esquema do Fluxo de Trabalho (Workflow) A. Primeira Fase, Obtenção, Preparação e Inserção dos dados no DB. B. Segunda Fase, Síntese dos scripts nas linguagens PHP/SQL/PERL, Contagem dos call codes e suas interações, Criação do algoritmo de geração de s scores para os respectivos call codes. C. Terceira Fase, Estatísticas dos valores obtidos nos scripts desenvolvidos na segunda fase e produção dos resultados finais Banco de Dados A escolha do melhor banco a ser utilizado partiu de um conceito de facilidade e praticidade na execução dos passos que se seguiam. Com isso, optamos por utilizar o MySQL por ser um dos DBMS mais populares na atualidade e por possuir iniciativa Open Source (Uso livre), sistema que é desenvolvido, distribuído e tem suporte da MySQL AB, que é uma empresa comercial fundada pelos desenvolvedores do MySQL e por 24

36 apresentar várias vantagens. Como são descritos no Manual de Referência do MySQL 4.1 de 2006: O programa MySQL (R) é um servidor robusto de bancos de dados SQL (Structured Query Language Linguagem Estruturada para Pesquisas) muito rápido, multi-tarefa e multi-usuário. O Servidor MySQL pode ser usado em sistemas de produção com alta carga e missão crítica, bem como, pode ser embutido em programa de uso em massa; Funciona em diversas plataformas; O MySQL é um sistema de gerenciamento de bancos de dados relacional; Um sistema de alocação de memória muito rápido; Funções SQL são implementadas por meio de uma biblioteca de classes altamente otimizada e com o máximo de desempenho. Geralmente não há nenhuma alocação de memória depois da inicialização da pesquisa. Ao escolher o MySQL como sistema de gerenciamento dos nossos dados, começamos a desenvolver o diagrama que daria origem ao banco (Figura 14). Para esse momento escolhemos utilizar dois programas o MySQL Workbench (Figura 15) e o phpmyadim versão 3.3 (Figura 16) ambas ferramentas Open Source e multi-plataformas. 25

37 Figura 13. Diagrama do Banco de Dados Microarray. 26

38 Após a escolha da ferramenta para confecção do diagrama, iniciamos a edição do mesmo, que ao fim de uma reunião, ficou decidido que possuiria 15 tabelas relacionais (1:N e N:N). Esta decisão foi tomada após uma análise apurada dos arquivos que são gerados pelo programa genotyping console, que posteriormente seriam inseridos com ajuda de um script em PHP. O programa MySQL Workbench (Figura 15) auxiliou nesse processo, por possuir uma interface dinâmica e de fácil compreensão dos processos de edição de diagramas de bancos de dados. Entretanto, no decorrer do processo vimos que era necessário utilizar uma ferramenta mais detalhada e robusta para as ações de estruturação e conexão do banco, para essa mudança, optamos por utilizar o phpmyadmin. Figura 14. Imagem da Home do programa MySQL Workbench. O programa phpmyadmin (Figura 16) apresenta as seguintes características encontradas na página do programa ( 27/04/ :28). Interface web Intuitiva (Em qualquer sistema operacional é possível acessar). Suporte para muitas funções do MySQL; Importa nos formatos CSV e SQL; Exporta dados nos formatos CSV, SQL, XML, PDF, ISO/IEC OpenDocument Text and Spreadsheet, Word, L A T E X entre outros; Administra múltiplos servidores; Cria gráficos dos layouts em PDF; 27

39 Buscas globais nos bancos de dados. Figura 15. Imagem da Home do programa phpmyadmin Scripts de Análise A linguagem que serviu de suporte para a edição dos scripts utilizados no trabalho foi o PHP PHP: Hypertext Preprocessor, uma linguagem de programação de ampla utilização, interpretada, muito utilizada para desenvolvimento para a Web. A sintaxe da linguagem lembra C, Java e Perl, e é fácil de aprender. Apesar do objetivo principal da linguagem ser para desenvolvedores escreverem páginas que serão geradas dinamicamente, muitas outras características estão relacionadas à linguagem PHP, como é possível ver no Manual do PHP online (PHP, 2012): O PHP é extremamente útil em recursos de processamento de texto, e manipulação de arquivos, o POSIX estendido ou expressões regulares Perl até como interpretador para documentos XML; Considerada uma das mais significativas características do PHP é seu suporte a uma ampla variedade de banco de dados. Vários são os bancos suportados (MySQL, ODBC, Oracle, PostgreSQL entre outros); O PHP pode ser utilizado na maioria dos sistemas operacionais, incluindo Linux, várias variantes Unix (incluindo HP-UX, Solaris e OpenBSD), Microsoft Windows, Mac OS X, RISC OS; 28

40 O PHP também é suportado pela maioria dos servidores web atuais, incluindo Apache, Microsoft Internet Information Server, Personal Web Server, Netscape and iplanet Servers, Oreilly Website Pro Server, Caudium, Xitami, OmniHTTPd, entre outros. A linguagem utilizada para manipulação do banco de dados é a SQL (Structured Query Language) é uma linguagem de pesquisa declarativa para banco de dados relacional. A linguagem é um grande padrão de banco de dados. Isto decorre da sua simplicidade e facilidade de uso. Ela se diferencia de outras linguagens de consulta a banco de dados no sentido em que uma consulta SQL especifica a forma do resultado e não o caminho para chegar a ele. Ela é uma linguagem declarativa em oposição a outras linguagens procedurais (NAVATHE, 2002) Estatística dos Dados Demos início as análises dos scores gerados pelo script gscore.php e optamos por tentar utilizar o programa R que é um software livre desenvolvido para análises estatísticas. O motivo de estar escolhendo esse pacote é por causa da quantidade de dados alocados no banco de dados microarray. Outra vantagem que torna o R a melhor ferramenta para as análises, é por que possui um pacote chamado RMySQL que conecta com o banco de dados, proporcionando uma interação mais prática das análises dos scores. 5 RESULTADOS 5.1 Controle de Qualidade Análises Exploratórias Após a obtenção dos dados provenientes do programa AGCC, que gera um arquivo com valores de controle de qualidade (QC call rate) para cada arquivo CEL, valores que são determinados através do algoritmo BRLMM que associa esses valores de qualidade 29

41 aos resultados gerados pelo microarranjo, que por padrão recomenda que os únicos resultados considerados nas experiências sejam os que apresentem um call rate superior a 93%, esse valor é definido pela empresa responsável pela tecnologia, que leva em conta a qualidade dos resultados de intensidade. Iniciamos as análises exploratórias dos dados presentes nos arquivos GQC, a fim de entender melhor como os valores se comportavam nas duas amostras analisadas. Geramos dois histogramas (Figura 17) para comparar e entender como os valores do QC eram distribuídos em conformidade à frequência observada nas duas amostras. Podemos observar a partir desses dois gráficos que poucos valores estão acima do valor sugerido pelo protocolo da affymetrix e que existe uma maior concentração de valores abaixo de 93% na amostra da Hospedaria quando comparado com a de Monte Negro. Isto pode reforçar a ideia de que algum fator relacionado à estocagem possa ter influenciado nos resultados, já que, essa amostra possui um longo período desde sua coleta. Figura 16. Histograma para análise das frequências dos QC Call Rates Monte Negro e Hospedaria. Demos continuidade às análises dos resultados com relação aos valores que estavam acima e abaixo do valor padrão do QC, criando outros dois gráficos de pirâmide. É observado que tanto na Hospedaria (Figura 18) quanto na amostra de Monte Negro (Figura 19) a quantidade de valores acima do sugerido é a mesma e que a distribuição dos valores abaixo do sugerido na amostra de Monte Negro se aproxima bastante dos 93 30

42 e os da Hospedaria a maior concentração está entre 50 a 60, sugerindo uma baixa qualidade nos dados do sinal. Figura 17. Gráfico dos limites do QC Call Rates Monte Negro. Figura 18. Gráfico dos limites do QC Call Rates Hospedaria. 31

43 A tabela 1 mostra a descrição das duas amostras analisadas, com seu N amostral e medidas de tendência central e de dispersão. Observamos que a média da amostra de Monte Negro é maior comparado a de Hospedaria, sugerindo que maioria dos dados apresenta uma concentração de valores mais altos, onde é reforçado ao verificar o desvio padrão da mesma amostra, que ao ser novamente comparado com a amostra da Hospedaria apresenta menor dispersão dos dados, ou seja, os valores não se distanciam tanto da média. Ao calcular o coeficiente de variação (cv= s/ẋ) das duas amostras, notamos que a Hospedaria tem maior variação dos dados com 21,14% enquanto a amostra de Monte Negro é de 11,31%. Tabela 1. Análises descritivas das amostras de Monte Negro e Hopedaria. AMOSTRA QC call rate N Mínimo Máximo Média Desvio Padrão Variância Monte Negro 84 52,76 96,24 80,3210 9, ,739 Hospedaria 69 50,09 95,92 69, , , Contagem dos códigos de leitura (call codes) Tendo entendido como estavam distribuídos os dados do QC call rate demos início a análise descritiva das sequências de NoCall e Homozigotos, dados que estavam armazenados no banco de dados microarray. A primeira ideia foi verificar a concentração de call codes (AA, BB, AB e NoCall) presentes no banco (Figura 20). Era necessário conhecer estes números devido o problema exposto no tópico anterior, como tínhamos a grande maioria dos QC call rates abaixo do valor sugerido pelo protocolo, ou seja, a estimação das intensidades (sinal) para cada call code não possuía uma qualidade acentuada, e como, pelo modelo seguido na sumarização, que pra cada SNP de um experimento de microarranjo era obtido dois valores, onde um sinal representava a letra A e outro a letra B determinada pela concentração não perfeita de alelos correspondentes a cada uma das letras, que ao fim desse processo gerava uma matriz (2xN) onde era atribuído três diferentes tipos de call codes (AA, BB, AB), a dúvida partia daí, quando o programa sugere um AB a certeza de que esta estimação esteja correta é bem grande frente o design do algoritmo, agora quando é sugerido um AA ou um BB é possível que um ou outro seja um AB mal atribuído já que tratamos de um grupo diploide que é constituído de duas cromátides sendo que cada um dos alelos é 32

44 representado por cada uma dessas letras no presente experimento, uma estimação incorreta de um call code gera um genótipo incorreto. Separamos os códigos homozigotos dos heterozigotos e verificamos a taxa de cada código através de um gráfico de setores. observamos uma taxa de 54% de homozigotos, sendo 30% de códigos AA e 24% de códigos BB, a taxa de heterozigotos representados pelo código AB foi de 28% e os 18% restantes eram os códigos NoCall que representam a falta de sinal (Figura 20). Figura 19. Percentual de Call Codes presentes no banco relacionando a quantidade de Homozigotos analisados no estudo Contagem das sequências de homozigotos A contagem das interações dos call codes homozigotos (AA e BB) teve início, já que, a nossa hipótese partia da ideia de verificar a atribuição errônea desses códigos. A estratégia para esse momento foi contar as interações grupo a grupo. Onde toda vez que encontrássemos um call code ou uma sequencia de dois ou mais códigos seguidos no nosso banco, com a ideia de verificar qual o tamanho dos grupos possíveis para cada um dos códigos em questão. Para ajudar nessa contagem foi criado um script em PHP count_call_code_interactions.php (Anexo A) com auxílio da linguagem SQL. O script selecionava a coluna call_code em que estavam os códigos depositados, onde toda vez que ele achava um código armazenava na memória. Se o código seguinte fosse igual o 33

45 script somava ao anterior, se fosse diferente, salvava o código anterior e iniciava uma nova contagem. Quando o script encontrava uma sequencia com mesmo tamanho, somava e criava o grupo. Ao fim, obtivemos a quantidade de 17 grupos com tamanhos de 1 a 17 códigos seguidos. O código que apresentou maior sequência foi o código AA (Tabela 2). Tabela 2. Relação da quantidade de repetições com os grupos formados para cada call code. GRUPOS REPETIÇÕES AA BB AB NoCall No gráfico abaixo (Figura 21) apresentamos a distribuição das frequências de cada um dos códigos analisados. Fizemos um corte no eixo x do gráfico (Comparação) para visualizar melhor os grupos de interação, com ele é possível verificar que a maior tendência dos grupos vem do código AA e AB. 34

46 Figura 20. Comparação dos grupos de call codes. 5.3 Determinação dos Scores Ao verificarmos a distribuição dos call codes nas nossas amostras, decidimos criar um script que calculasse um score para cada um dos códigos em questão. A ideia era estimar o tamanho dos blocos de homozigosidade presentes na nossa amostra, no intuito de verificar como no geral os dados se comportavam. Essa abordagem levou em consideração os códigos, indivíduos e os cromossomos de cada indivíduo da amostra. O primeiro passo no desenvolvimento do script gscore.php (Anexo A) foi a criação de uma função (Figura 22) em que era associado um valor a cada um dos códigos, onde toda vez que o script encontrasse um call code AA ou um BB somava um, quando encontrasse AB zerava, quando NoCall não fazia nada. Figura 21. Função para cálculo do score. 35

47 O segundo passo foi a continuação dessa função. Onde, toda vez que o indivíduo ou cromossomo mudasse, a contagem zerava e começava tudo novamente. Esse processo foi feito para todos os indivíduos e cromossomos do estudo. A tabela 3 mostra a estratégia seguida. Tabela 3. Esquema de atribuição dos scores. CallCode gscore.php AA 1 BB 2 AA 3 BB 4 AB 0 NC 0 BB 1 AB 0 AB 0 BB 1 NC 1 BB 2 BB Criação dos Blocos de Scores No intuito de estudar a homozigosidade na amostra, criamos um script block_score.php (Anexo A) que estimava o tamanho dos blocos de homozigotos presentes nos dados. Este script usava o script gscore.php para determinar o tamanho dos blocos, ao fim da soma do último código homozigoto o script block_score.php atribuía esse valor a cada um dos códigos associados aquela soma, estimando assim o tamanho do bloco (Tabela 4). Todos os valores foram armazenados no banco de dados microarray, tabela blocks colunas score e size. 36

48 Tabela 4. Esquema de atribuição dos scores e medição dos blocos de score. CallCode gscore.php block_score.php block_id AA BB AA BB AB NC BB AB AB BB NC BB BB Gráficos das Médias dos Scores. Para visualizar melhor os resultados criamos gráficos em que os parâmetros aplicados foram os cromossomos, posição do cromossomo e as médias dos valores dos scores (Figura 23). As médias foram calculadas direto do banco de dados utilizando a linguagem SQL, em que, para cada cromossomo e cada posição do cromossomo eram somados todos os scores e dividido pelo total de scores presentes naquela posição. Esse procedimento foi feito para todos os 22 cromossomos do estudo. 37

49 Figura 22.Gráfico dos scores do cromossomo 19 obtidos para cada um dos blocos para as duas amostras. Figura 23. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra da Hospedaria. 38

50 Figura 24. Gráficos dos scores do cromossomo 19 obtidos para cada um dos blocos da amostra de Monte Negro. Para avaliar a distribuição empírica dos dados, utilizamos gráficos do tipo boxplot (ou diagrama de caixa), estes gráficos foram organizados a fim de comparar visualmente a variabilidade, e a mediana entre as médias dos scores dos 22 cromossomos analisados no presente estudo. As hastes inferiores e superiores se estendem, respectivamente, do quartil inferior até o menor valor não inferior ao limite inferior Q1 1,5(Q3 Q1), e do quartil superior até o maior valor não superior ao limite superior Q3 + 1,5(Q3 Q1). Maioria dos valores se apresentam aproximadamente entre 5 e 10 no caso de Monte Negro, já Hospedaria entre 4 a 7. Todo valor fora desse limite é considerado valor discrepante (outliers) o maior pico observado para valores discrepantes encontrasse nos cromossomos 11, 12, e 14 para a amostra da Hospedaria e em Monte Negro são observados os cromossomos 2, 10 e 19. É possível verificar quais cromossomos possuem maior variabilidade, através da comparação das diferenças entre os quartis. 39

51 Figura 25. Boxplot da amostra Hospedaria por cromossomo. 40

52 Figura 26. Boxplot da amostra Monte Negro por cromossomo. 41

53 6 DISCUSSÃO 6.1 Fenômeno Biológico Entender como o fenômeno biológico está associado aos dados de intensidade de sinal, como é o caso da tecnologia do Microarranjos, é um dos pontos mais complexos do nosso estudo. Tínhamos duas matrizes de 250 mil SNPs a serem cruzadas com 150 indivíduos de duas populações distintas, com coletas de diferentes épocas e com características próprias, tais como, tempo de armazenagem e qualidade da amostra coletada. Em seguida, observamos um problema biológico onde dois alelos característicos deste tipo de polimorfismo eram atribuídos especificamente a uma ordem e posição. Portanto, a resposta a ser obtida pela tecnologia tinha que ser a mais confiável possível, em comparação aos parâmetros sugeridos pelo protocolo da metodologia empregada. Entretanto, dentre os 150 indivíduos analisados apenas oito estavam dentro dos critérios de qualidade. Passamos então a criar metodologias analíticas que poderiam aumentar o nível de confiança dessas estimativas. 6.2 Metodologia Analítica Vários polimorfismos de nucleotídeo simples (SNP) foram identificados a partir da técnica de microarranjo em nosso estudo. Onde cada posição específica de um cromossomo associado a um indivíduo era atribuída uma intensidade para a concentração de SNPs no chip. Essa intensidade era representada por um código (Call Code) específico, quando identificado um genótipo homozigoto tínhamos os códigos AA e BB e para os genótipos heterozigotos AB, quando a concentração de SNPs era muito baixa o código atribuído era o NoCall. A atribuição desses códigos é realizada por um algoritmo chamado BRLMM que após o processo molecular de hibridização, passa por uma normalização, que é a primeira fase de transformação do dado biológico em um código específico seguido da sumarização, processo em que cada código é associado a um SNP. O algoritmo atua a partir do processo de normalização utilizando parâmetros estatísticos Bayesianos e distância de Mahalanobis que tem como função estimar a 42

54 distância de cada um dos códigos em relação aos grupos homozigotos AA e BB e heterozigotos AB. Analisamos esses códigos em quantidade e interação. Verificando os blocos de homozigosidade, pois a hipótese do nosso trabalho era de que, AA ou BB podem ser um AB mal atribuído por uma leitura errônea do dado molecular ou pela qualidade da amostra. Após observar os gráficos de qualidade de cada uma das amostras, podemos perceber que os dados da Hospedaria apresentam maior variabilidade com relação ao QC Call rates. Além disso, boa parte desses dados está bem a baixo desse controle de qualidade, já que essa amostra tem maior tempo de armazenagem, sendo possível que esse tempo possa ter influenciado os resultados. 6.3 Análise de Hipóteses Genéticas As análises descritivas foram realizadas, tanto para os QC Call rates como para os call codes, com ajuda dos scripts que criamos. Utilizando os gráficos das médias de cada um dos blocos de homozigosidade definidos por uma função de atribuição de scores. Observamos nos gráficos uma variação com relação às médias dos blocos ao comparar as amostras de Monte Negro e Hospedaria. Onde o maior pico de variação foi encontrado nas amostras de Monte Negro que chegou próximo a uma média de score 25. Ao verificar todos os cromossomos autossômicos dessa mesma amostra e comparar com os resultados da Hospedaria, verificamos que este padrão é seguido em todos os cromossomos, onde a maior parte das médias se concentram entre os valores de score 5 e 10 aproximadamente. Já os dados da Hospedaria mostram valores entre 5 e 7 aproximadamente, ou seja, no caso de Monte Negro os blocos de homozigosidade são maiores quando comparados a amostra da Hospedaria. Com base na hipótese sugerida, de que era possível que alguns códigos homozigotos poderiam ser heterozigotos mal atribuídos e comparados aos resultados, não podemos inferir com uma margem alta de certeza, que no caso da Hospedaria, os códigos tenham sido erroneamente atribuídos. Para que isso seja possível, temos que testar com amostras com quantidade maior de QC Call Rates, acima de 93%, para que novas comparações sejam feitas e uma resposta mais segura possa ser dada. 43

55 6.4 Relação Entre o QC e os Grupos Analisados. As duas amostras apresentaram a mesma quantidade QC Call Rates acima do padrão sugerido de 93%, já nos dados que estão abaixo do padrão a variação é grande. Quando associados aos blocos e homozigosidade percebemos que eles são maiores na amostra de Monte Negro. Se realmente ocorresse uma atribuição errada na amostra de Hospedaria devido a má qualidade da amostra esses blocos deveriam ser bem maiores em comparação a amostra de Monte Negro que apresentou maio qualidade do QC Call Rate. Como altos índices de homozigosidade podem caracterizar uma perda de alelos heterozigóticos, resultando em alto grau de consanguinidade e diminuição da variabilidade genética, estudos mais aprofundados com relação a variabilidade genética deve ser empregada aos dados do presente estudo. 44

56 7 CONCLUSÃO Concluímos que ao verificar os resultados e compará-los ao controle de qualidade sugerido pelo protocolo do método usado, não é possível inferir com 100% de certeza que os valores dos blocos estejam sendo influenciados pela má qualidade do dado. Entretanto, quando comparamos as duas amostras, verificamos que a Hospedaria por apresentar maior tempo de estocagem, segundo trabalhos feitos anteriormente por Kawamata, 2006 que sugere um alto grau de consanguinidade nessa amostra, quando cruzadas com os dados de Monte Negro que não apresenta muito tempo de estocagem foram observados blocos de homozigosidade maiores, estes dados podem sugerir que na verdade o tempo de estocagem não influenciou no resultado ou que Monte Negro apresenta grau de consanguinidade maior que a amostra da Hospedaria, mas que isso abre margem para novos estudos de variabilidade genética. Novas análises estatísticas devem ser aplicadas para conclusão dos problemas apresentados. 8 PERSPECTIVA Como perspectiva do trabalho, apresentamos novos objetivos a serem desenvolvidos para trabalhos futuros com dados de Microarranjo de DNA: a. Propor soluções que envolvam mascaramento de homozigoze seguida quando a mesma for maior que a limiar; b. Avaliar o efeito do mascaramento em análises realizadas; c. Refazer análises de Monte Negro e Chagas Hospedaria utilizando a metodologia proposta. 45

57 9 REFERÊNCIAS BIBLIOGRÁFICAS Affymetrix, GeneChip Human Mapping 500K Array Set (2006). Data Sheet. Aparicio, Oscar, O Aparicio, Geisberg JV, Struhl K (2004). "imunoprecipitação da cromatina para determinar a associação de proteínas com seqüências específicas do genoma in vivo". atual Protocolos em Biologia Celular (University of Southern California, Los Angeles, California, E.U.A..: John Wiley & Sons, Inc.), Capítulo 17 (2004): Unidade de doi : / cb1707s23. ISSN PMID gov/pubmed/ Arrais J. P, Sistemas de informação para DNA (2010). Dissertação apresentada à Universidade de Aveiro BRLMM: an Improved Genotype Calling Method for the GeneChip Human Mapping 500K Array Set Revision Date: Revision Version: 1.0 Chaudhuri JD. Genes arrayed out for you: the amazing world of Microarranjos. Med Sci Monit. 2005;11(2):RA Couzin J (2006). "Genomics. Microarranjo data reproduced, but some concerns remain". Science 313 (5793): doi : /science a. PMID Edwin Mellor Sul (05 de novembro de 1975). "Detection of specific sequences among DNA fragments separated by gel electrophoresis". Journal of Molecular Biology 98 (3): doi : /S (75) ISSN PMID Esteves G. H. Métodos estatísticos para a análise de dados de cdna Microarranjo em um ambiente computacional integrado. (2007) Tese apresentada na Universidade de São Paulo. Ferreira, Ricardo de Godoi Mattos. Genética Epidemiológica de Malária em Rondônia. São Paulo, Tese Doutorado, Universidade de São Paulo. Göhlmann H, Talloen W. Gene expression studies using Affymetrix Microarranjos.1st ed. Boca Raton: Chapman & Hall/CRC, Gunderson,K.L., Kruglyak,S., Graige,M.S., Garcia,F., Kermani,B.G., Zhao,C., Che,D., Dickinson,T., Wickham,E., Bierle,J. et al. (2004) Decoding randomly ordered DNA arrays. Genome Res., 14, Hiendleder S, Bauersachs S, Boulesteix A, Blum H, Arnold GJ, Fröhlich T, Wolf E. Functional genomics: tools for improving farm animal hea lth and welfare. Rev Sci Tech. 2005;24(1):

58 Jaluria P, Konstantopoulos K, Betenbaugh M, Shiloach J. A perspective on Microarranjos: current applications, pitfalls, and potential uses. Microb Cell Fact. 2007;6:4. KAFATOSF,. C., J. REGIERG,. D. MAZURM,. R. NADELH,. BLAU,W. H. PETRIA,. R. WYMAN, R. E. GELINASP,. B. MOOREM,. PAULA,. EFSTRATIADJIS.,V OURNAKISM,. R. GOLDSMITH, I. HUNSLEBY.,B AKERa nd J. NARDI,1 977 The eggshell of insects: differentiation-specific proteins and the control of their synthesis and accumulation during development. pp In: R&wlts and Problems in Cell Differentiation, Vol. 8. Edited by W. BEERMANN. Springer-Verlag, New York. Kawamata, Carlos Eduardo Malvezzi. EPIDEMIOLOGIA GENÉTICA DA INFECÇÃO POR Trypanosoma cruzi. Dissertação apresentada ao Programa de Pós-Graduação Biologia da relação Patógeno-hospedeiro, USP/Instituto de Ciências Biomédicas/ICB, 2006 Koltai, H. Specificity of DNA microarray hybridization: characterization, effectors and approaches for data correction. Nucleic Acids Research, Vol. 36, No doi: /nar/gkn Kulesh D.A, Clive DR, Zarlenga DS, Greene JJ (1987). "Identification of interferonmodulated proliferation-related cdna sequences". Proc Natl Acad Sci USA 84 (23): doi: /pnas PMID Lashkari D.A, DeRisi JL, McCusker JH, Namath AF, Gentile C, Hwang SY, Brown PO, Davis RW (1997). "Yeast Microarranjos for genome wide parallel genetic and gene expression analysis". Proc Natl Acad Sci USA 94 (24): doi: /pnas PMID Navathe, S. B. and Elmasri, R.. Sistemas de banco de dados Fundamentos e aplicações. LTC: Philippe Lamy, Jakob Grove, Carsten Wiuf. A review of software for microarray Genotyping. HUMAN GENOMICS. VOL 5. NO MAY 2011 Babu, M. (2004) An Introduction to Microarranjo Data Analysis Manual de Referência do MySQL 4.1 This is a translation of the MySQL Reference Manual that can be found at dev.mysql.com. The original Reference Manual is in English, and this translation is not necessarily as up to date as the English version. Copyright MySQL AB Manual PHP Copyright The PHP Group Last updated: Mon Apr 16 01:41: UTC 47

59 Mark Schena, Renu A. Heller, Thomas P. Theriault, Ken Konrad, Eric Lachenmeier and Ronald W. Davis (1998). Microarranjos: biotechnlogy's discovery platform for functional genomics. Elsevier Science Ltd. PII: S (98) Martins T. M. V., Y-miniSTR: alternativa para a analise de amostras complicadas (2008). Dissertacao para a obtencao do grau de Mestre em Ciencias Forenses Barnes, M. Johannes Freudenberg, Susan Thompson, Bruce Aronow, Paul Pavlidis. Experimental comparison and cross-validation of gene expression analysis platforms Nucleic Acids Research, 2005, Vol. 33, No. 18 doi: /nar/gki890. Mockler T, Ecker,J: Applications of DNA tiling arrays for whole-genome analysis. Genomics, 85 (2005) 1-15 Moran G, Stokes C, Thewes S, Hube B, Coleman DC, Sullivan D (2004). "Comparative genomics using Candida albicans DNA Microarranjos reveals absence and divergence of virulence-associated genes in Candida dubliniensis". Microbiology 150 (Pt 10): doi: /mic PMID Oliveira, Rafael Martins. Análise do perfil transcricional de células dendríticas derivadas de monócitos utilizadas na vacina terapêutica anti-hiv-1. São Paulo, Tese de doutorado Faculdade de Medicina da Universidade de São Paulo. Rogojina AT, Orr WE, Song BK, Geisert EE Jr. Comparing the use of Affymetrix to spotted oligonucleotide Microarranjos using two retinal pigment epithelium cell lines. Mol Vis. 2003;9: Schena M, Shalon D, Davis RW, Brown PO (1995). "Quantitative monitoring of gene expression patterns with a complementary DNA Microarranjo". Science 270 (5235): doi: /science PMID Skotheim RI; Thomassen GO; Eken M; Lind GE; Micci F; Ribeiro FR; Cerveira N; Teixeira MR; Heim S; Rognes T; Lothe RA. A universal assay for detection of oncogenic fusion transcripts by oligo microarray analysis Tomotani, Barbara Mizumo. Aspectos Evolutivos do Splicing Alternativo Departamento de Fisiologia, Instituto de Biociências, 2010 USP Venkatasubbarao S. Microarranjos--status and prospects. Trends Biotechnol Dec;22(12): Vogel MJ, Peric-Hupkes D, van Steensel B (2007). "Detection of in vivo protein-dna interactions using DamID in mammalian cells". Nat Protoc 2 (6): doi: /nprot PMID

60 10 ANEXOS 10.1 Anexo A I. Insert_file.php 49

61 50

62 II. Count_call_code_interactions.php 51

63 III. count_call_code.php 52

64 IV. gscore.php 53

65 10.2 Anexo B I. tabelas_mean.php 54

66 II. gráficos.r 55

67 10.3 Anexo C I. Select para calcular as médias dos scores. 56

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE

DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE DESENVOLVIMENTO DE UM SOFTWARE NA LINGUAGEM R PARA CÁLCULO DE TAMANHOS DE AMOSTRAS NA ÁREA DE SAÚDE Mariane Alves Gomes da Silva Eliana Zandonade 1. INTRODUÇÃO Um aspecto fundamental de um levantamento

Leia mais

GARANTIA DA QUALIDADE DE SOFTWARE

GARANTIA DA QUALIDADE DE SOFTWARE GARANTIA DA QUALIDADE DE SOFTWARE Fonte: http://www.testexpert.com.br/?q=node/669 1 GARANTIA DA QUALIDADE DE SOFTWARE Segundo a NBR ISO 9000:2005, qualidade é o grau no qual um conjunto de características

Leia mais

Introdução à genética quantitativa usando os recursos do R

Introdução à genética quantitativa usando os recursos do R Introdução à genética quantitativa usando os recursos do R Marisa R. Cantarino 1 Julia M. P. Soler (orientadora) 2 1 Introdução Um dos principais desafios da pesquisa genética atualmente é estabelecer

Leia mais

STATGEN Plataforma web para análise de dados genéticos.

STATGEN Plataforma web para análise de dados genéticos. STATGEN Plataforma web para análise de dados genéticos. Diogo Gonçalves Neder 1 1 Introdução O melhoramento de plantas visa principalmente identificar combinações genotípicas com performance superior quando

Leia mais

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são Atividade extra Fascículo 2 Biologia Unidade 4 Questão 1 O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são chamados de genes. Assinale abaixo quais

Leia mais

DNA barcoding é um método que utiliza um trecho do DNA de cerca de 650 nucleotídeos como marcador para caracterizar espécies. Trata-se de uma sequência extremamente curta em relação à totalidade do genoma,

Leia mais

3 Classificação. 3.1. Resumo do algoritmo proposto

3 Classificação. 3.1. Resumo do algoritmo proposto 3 Classificação Este capítulo apresenta primeiramente o algoritmo proposto para a classificação de áudio codificado em MPEG-1 Layer 2 em detalhes. Em seguida, são analisadas as inovações apresentadas.

Leia mais

ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA 2007.1) PÁGINAS OCULTAS NO LIVRO DA VIDA

ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA 2007.1) PÁGINAS OCULTAS NO LIVRO DA VIDA ACESSO VESTIBULAR QUESTÕES DE PROCESSAMENTO DE RNA OU SPLICING 01. (MAMA 2007.1) PÁGINAS OCULTAS NO LIVRO DA VIDA Os biólogos supunham que apenas as proteínas regulassem os genes dos seres humanos e dos

Leia mais

PRIMAVERA RISK ANALYSIS

PRIMAVERA RISK ANALYSIS PRIMAVERA RISK ANALYSIS PRINCIPAIS RECURSOS Guia de análise de risco Verificação de programação Risco rápido em modelo Assistente de registro de riscos Registro de riscos Análise de riscos PRINCIPAIS BENEFÍCIOS

Leia mais

PCR Real-time thermal cycler Standard thermal cycler

PCR Real-time thermal cycler Standard thermal cycler PCR Real-time thermal cycler Standard thermal cycler Tópicos (1) Estratégias gerais de estudo de sequências de DNA específicas em populações de DNA complexas Requisitos da reacção de polimerização em cadeia

Leia mais

4 Segmentação. 4.1. Algoritmo proposto

4 Segmentação. 4.1. Algoritmo proposto 4 Segmentação Este capítulo apresenta primeiramente o algoritmo proposto para a segmentação do áudio em detalhes. Em seguida, são analisadas as inovações apresentadas. É importante mencionar que as mudanças

Leia mais

Técnicas de biologia molecular. da análise de genes e produtos gênicos únicos a abordagens em larga escala

Técnicas de biologia molecular. da análise de genes e produtos gênicos únicos a abordagens em larga escala Técnicas de biologia molecular da análise de genes e produtos gênicos únicos a abordagens em larga escala os mesmos genes, qual a diferença? Dogma central Localizando alvos Técnicas iniciais para evidenciar

Leia mais

PUCRS CURSO DE CIÊNCIAS BIOLÓGICAS Genética I AULA PRÁTICA APLICAÇÕES DAS TÉCNICAS DE PCR E ELETROFORESE DE DNA

PUCRS CURSO DE CIÊNCIAS BIOLÓGICAS Genética I AULA PRÁTICA APLICAÇÕES DAS TÉCNICAS DE PCR E ELETROFORESE DE DNA Analise a seguinte situação hipotética (1): Uma equipe de pesquisadores está realizando um inventário da biodiversidade de uma área tropical ainda inexplorada, porém já sofrendo grande impacto de fragmentação

Leia mais

ISO/IEC 12207: Gerência de Configuração

ISO/IEC 12207: Gerência de Configuração ISO/IEC 12207: Gerência de Configuração Durante o processo de desenvolvimento de um software, é produzida uma grande quantidade de itens de informação que podem ser alterados durante o processo Para que

Leia mais

Sequenciamento de DNA

Sequenciamento de DNA Sequenciamento de DNA Figure 8-50a Molecular Biology of the Cell ( Garland Science 2008) Método de Sanger Reação de síntese de DNA por uma DNA polimerase A incorporação de um dideoxinucleotídeo interrompe

Leia mais

MELHORAMENTO DE PLANTAS AUTÓGAMAS POR HIBRIDAÇÃO

MELHORAMENTO DE PLANTAS AUTÓGAMAS POR HIBRIDAÇÃO MELHORAMENTO DE PLANTAS AUTÓGAMAS POR HIBRIDAÇÃO 7 INTRODUÇÃO Vimos no capítulo anterior a utilização da seleção no melhoramento de espécies autógamas. O requisito básico para utilizarmos essa técnica

Leia mais

15 Computador, projeto e manufatura

15 Computador, projeto e manufatura A U A UL LA Computador, projeto e manufatura Um problema Depois de pronto o desenho de uma peça ou objeto, de que maneira ele é utilizado na fabricação? Parte da resposta está na Aula 2, que aborda as

Leia mais

deficiências gênicas em amostras de DNA, de seres humanos e/ou animais, o qual além

deficiências gênicas em amostras de DNA, de seres humanos e/ou animais, o qual além "PROCESSO DE IDENTIFICAÇÃO E INVESTIGAÇÃO DE DEFICIENCIAS GÊNICAS COM UTILIZAÇÃO DE FLUORESCÊNCIA, OU PROCESSO PCR MULTIPLEX FLUORESCENTE". Trata o presente relatório da descrição detalhada acompanhada

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008

Tabela de Símbolos. Análise Semântica A Tabela de Símbolos. Principais Operações. Estrutura da Tabela de Símbolos. Declarações 11/6/2008 Tabela de Símbolos Análise Semântica A Tabela de Símbolos Fabiano Baldo Após a árvore de derivação, a tabela de símbolos é o principal atributo herdado em um compilador. É possível, mas não necessário,

Leia mais

BIOTECNOLOGIA. 2. Conceito de clonagem molecular

BIOTECNOLOGIA. 2. Conceito de clonagem molecular BIOTECNOLOGIA 1. Introdução Até a década de 70, o DNA era o componente celular mais difícil de ser analisado. Sua seqüência de nucleotídeos de enorme tamanho e monotonia química era geralmente analisada

Leia mais

Gerenciamento de Riscos do Projeto Eventos Adversos

Gerenciamento de Riscos do Projeto Eventos Adversos Gerenciamento de Riscos do Projeto Eventos Adversos 11. Gerenciamento de riscos do projeto PMBOK 2000 PMBOK 2004 11.1 Planejamento de gerenciamento de riscos 11.1 Planejamento de gerenciamento de riscos

Leia mais

As bactérias operárias

As bactérias operárias A U A UL LA As bactérias operárias Na Aula 47 você viu a importância da insulina no nosso corpo e, na Aula 48, aprendeu como as células de nosso organismo produzem insulina e outras proteínas. As pessoas

Leia mais

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014 PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA 09/abril de 2014 Considerações Estatísticas para Planejamento e Publicação 1 Circularidade do Método

Leia mais

Replicação Quais as funções do DNA?

Replicação Quais as funções do DNA? Replicação Quais as funções do DNA? Aula nº 4 22/Set/08 Prof. Ana Reis Replicação O DNA é a molécula que contém a informação para todas as actividades da célula. Uma vez que as células se dividem, é necessário

Leia mais

DEMONSTRAÇÕES FINANCEIRAS COMBINADAS

DEMONSTRAÇÕES FINANCEIRAS COMBINADAS 24 DEMONSTRAÇÕES FINANCEIRAS COMBINADAS Os mercados de capitais na Europa e no mundo exigem informações financeiras significativas, confiáveis, relevantes e comparáveis sobre os emitentes de valores mobiliários.

Leia mais

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador>

FACULDADE DE ENGENHARIA DE COMPUTAÇÃO. PROJETO FINAL I e II PLANO DE TRABALHO <NOME DO TRABALHO> <Nome do Aluno> <Nome do Orientador> FACULDADE DE ENGENHARIA DE COMPUTAÇÃO PROJETO FINAL I e II PLANO DE TRABALHO O Trabalho de Conclusão de Curso (TCC) a ser desenvolvido

Leia mais

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe!

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe! Aula: 2 Temática: Ácidos Nucléicos Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe! Introdução: Os ácidos nucléicos são as moléculas com a função de armazenamento e expressão da informação

Leia mais

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: Drd. Mariana de F. G. Diniz

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: Drd. Mariana de F. G. Diniz MEDICINA VETERINÁRIA Disciplina: Genética Animal Prof a.: Drd. Mariana de F. G. Diniz Gene, é a unidade fundamental da hereditariedade. Cada gene é formado por uma sequência específica de ácidos nucléicos

Leia mais

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto Prof. Walter Cunha falecomigo@waltercunha.com http://waltercunha.com PMBoK Organização do Projeto Os projetos e o gerenciamento

Leia mais

Organização do Material Genético nos Procariontes e Eucariontes

Organização do Material Genético nos Procariontes e Eucariontes Organização do Material Genético nos Procariontes e Eucariontes Organização do Material Genético nos Procariontes e Eucariontes Procariontes Eucariontes Localização Organização Forma Disperso no citoplasma

Leia mais

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas PONTIFÍCIA UNIVERSIDADE CATÓLICA DE GOIÁS Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas CMP1132 Processo e qualidade de software II Prof. Me. Elias Ferreira Sala: 402 E Quarta-Feira:

Leia mais

Instalações Máquinas Equipamentos Pessoal de produção

Instalações Máquinas Equipamentos Pessoal de produção Fascículo 6 Arranjo físico e fluxo O arranjo físico (em inglês layout) de uma operação produtiva preocupa-se com o posicionamento dos recursos de transformação. Isto é, definir onde colocar: Instalações

Leia mais

5 Extraindo listas de produtos em sites de comércio eletrônico

5 Extraindo listas de produtos em sites de comércio eletrônico 5 Extraindo listas de produtos em sites de comércio eletrônico Existem diversos trabalhos direcionadas à detecção de listas e tabelas na literatura como (Liu et. al., 2003, Tengli et. al., 2004, Krüpl

Leia mais

Importância da normalização para as Micro e Pequenas Empresas 1. Normas só são importantes para as grandes empresas...

Importância da normalização para as Micro e Pequenas Empresas 1. Normas só são importantes para as grandes empresas... APRESENTAÇÃO O incremento da competitividade é um fator decisivo para a maior inserção das Micro e Pequenas Empresas (MPE), em mercados externos cada vez mais globalizados. Internamente, as MPE estão inseridas

Leia mais

Engenharia de Software III

Engenharia de Software III Engenharia de Software III Casos de uso http://dl.dropbox.com/u/3025380/es3/aula6.pdf (flavio.ceci@unisul.br) 09/09/2010 O que são casos de uso? Um caso de uso procura documentar as ações necessárias,

Leia mais

Sequenciamento de genomas

Sequenciamento de genomas Sequenciamento de genomas 1 o genoma completo vírus OX174 5.000 nt (Sanger et al. 1977) em 1977 1000 pb sequenciados por ano neste ritmo genoma E. coli K-12 4.6-Mbp levaria mais de 1000 anos para ser completo

Leia mais

LEI DE OHM. Professor João Luiz Cesarino Ferreira. Conceitos fundamentais

LEI DE OHM. Professor João Luiz Cesarino Ferreira. Conceitos fundamentais LEI DE OHM Conceitos fundamentais Ao adquirir energia cinética suficiente, um elétron se transforma em um elétron livre e se desloca até colidir com um átomo. Com a colisão, ele perde parte ou toda energia

Leia mais

Localização dos inquéritos de rua para Arroios e Gulbenkian

Localização dos inquéritos de rua para Arroios e Gulbenkian Project IAAPE Pedestrian Accessibility and Attractiveness Indicators: Tool for Urban Walkability Assessment and Management Working Paper No. WP-8 Localização dos inquéritos de rua para Arroios e Gulbenkian

Leia mais

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO QFD: CASA DA QUALIDADE - PASSO A PASSO 1 - INTRODUÇÃO Segundo Akao (1990), QFD é a conversão dos requisitos do consumidor em características de qualidade do produto e o desenvolvimento da qualidade de

Leia mais

QUALIDADE Noções iniciais

QUALIDADE Noções iniciais Este segmento do curso é baseado no livro: JURAN, J.M. A qualidade desde o projeto. São Paulo: Thomson, 1992. QUALIDADE Noções iniciais Questões de qualidade e gerenciamento de qualidade são preocupações

Leia mais

UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR

UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR UNIVERSIDADE FEDERAL DE ALAGOAS INSTITUTO DE CIÊNCIAS BIOLÓGICAS E DA SAÚDE SETOR DE BIOLOGIA CELULAR E MOLECULAR DISCIPLINA: BIOLOGIA CELULAR E MOLECULAR ESTUDO DIRIGIDO FLUXO DA INFORMAÇÃO GÊNICA págs:

Leia mais

Capacidade = 512 x 300 x 20000 x 2 x 5 = 30.720.000.000 30,72 GB

Capacidade = 512 x 300 x 20000 x 2 x 5 = 30.720.000.000 30,72 GB Calculando a capacidade de disco: Capacidade = (# bytes/setor) x (méd. # setores/trilha) x (# trilhas/superfície) x (# superfícies/prato) x (# pratos/disco) Exemplo 01: 512 bytes/setor 300 setores/trilha

Leia mais

Projeto Genoma e Proteoma

Projeto Genoma e Proteoma Projeto Genoma e Proteoma Grupo 3: *Artur S. Nascimento *Bárbara S. Costa *Beatrice Barbosa *Tamyres S. E. Guimarães *Yara Cavalcante O que é genoma? O genoma é o conjunto de todo o material genético que

Leia mais

Objetivos. Processos de Software. Tópicos abordados. O processo de software. Modelos genéricos de modelos de processo de software.

Objetivos. Processos de Software. Tópicos abordados. O processo de software. Modelos genéricos de modelos de processo de software. Processos de Software Objetivos Apresentar os modelos de processo de software Conjunto coerente de atividades para especificar, projetar, implementar e testar s de software Descrever os diferentes modelos

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Medida da velocidade de embarcações com o Google Earth

Medida da velocidade de embarcações com o Google Earth UNIVERSIDADE FEDERAL DO RIO DE JANEIRO Instituto de Física Programa de Pós-Graduação em Ensino de Física Mestrado Profissional em Ensino de Física Medida da velocidade de embarcações com o Google Earth

Leia mais

Conceitos e Princípios Básicos da Experimentação

Conceitos e Princípios Básicos da Experimentação UNIVERSIDADE FEDERAL DO PIAUÍ CENTRO DE CIÊNCIAS AGRÁRIAS NÚCLEO DE ESTUDOS EM GENÉTICA E MELHORAMENTO EXPERIMENTAÇÃO EM GENÉTICA E MELHORAMENTO Conceitos e Princípios Básicos da Experimentação Mestranda:

Leia mais

7.Conclusão e Trabalhos Futuros

7.Conclusão e Trabalhos Futuros 7.Conclusão e Trabalhos Futuros 158 7.Conclusão e Trabalhos Futuros 7.1 Conclusões Finais Neste trabalho, foram apresentados novos métodos para aceleração, otimização e gerenciamento do processo de renderização

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

Orientação a Objetos

Orientação a Objetos 1. Domínio e Aplicação Orientação a Objetos Um domínio é composto pelas entidades, informações e processos relacionados a um determinado contexto. Uma aplicação pode ser desenvolvida para automatizar ou

Leia mais

1) MANUAL DO INTEGRADOR Este documento, destinado aos instaladores do sistema, com informações de configuração.

1) MANUAL DO INTEGRADOR Este documento, destinado aos instaladores do sistema, com informações de configuração. O software de tarifação é uma solução destinada a rateio de custos de insumos em sistemas prediais, tais como shopping centers. O manual do sistema é dividido em dois volumes: 1) MANUAL DO INTEGRADOR Este

Leia mais

CHECK - LIST - ISO 9001:2000

CHECK - LIST - ISO 9001:2000 REQUISITOS ISO 9001: 2000 SIM NÃO 1.2 APLICAÇÃO A organização identificou as exclusões de itens da norma no seu manual da qualidade? As exclusões são relacionadas somente aos requisitos da sessão 7 da

Leia mais

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE LIBERAÇÃO

ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE LIBERAÇÃO 1 ADMINISTRAÇÃO DE ATIVOS DE TI GERENCIAMENTO DE LIBERAÇÃO 2 INTRODUÇÃO A cada dia que passa, cresce a pressão pela liberação para uso de novas tecnologias disponibilizadas pela área de TI, sob o argumento

Leia mais

1 http://www.google.com

1 http://www.google.com 1 Introdução A computação em grade se caracteriza pelo uso de recursos computacionais distribuídos em várias redes. Os diversos nós contribuem com capacidade de processamento, armazenamento de dados ou

Leia mais

Capítulo 4 - Gestão do Estoque Inventário Físico de Estoques

Capítulo 4 - Gestão do Estoque Inventário Físico de Estoques Capítulo 4 - Gestão do Estoque Inventário Físico de Estoques Celso Ferreira Alves Júnior eng.alvesjr@gmail.com 1. INVENTÁRIO DO ESTOQUE DE MERCADORIAS Inventário ou Balanço (linguagem comercial) é o processo

Leia mais

ATENÇÃO: * Arquivos com tamanho superior a 500 KB NÃO SERÃO ACEITOS * SOMENTE serão aceitos documentos do formato: PDF

ATENÇÃO: * Arquivos com tamanho superior a 500 KB NÃO SERÃO ACEITOS * SOMENTE serão aceitos documentos do formato: PDF TUTORIAL DE DIGITALIZAÇÃO DIRIGIDO AO USO DO PROCESSO ELETRÔNICO Adaptado do tutorial elaborado pelo colega MAICON FALCÃO, operador de computador da subseção judiciária de Rio Grande. Introdução Este tutorial

Leia mais

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual

Algoritmos: Lógica para desenvolvimento de programação de computadores. Autor: José Augusto Manzano. Capítulo 1 Abordagem Contextual Algoritmos: Lógica para desenvolvimento de programação de computadores Autor: José Augusto Manzano Capítulo 1 Abordagem Contextual 1.1. Definições Básicas Raciocínio lógico depende de vários fatores para

Leia mais

Qual é o risco real do Private Equity?

Qual é o risco real do Private Equity? Opinião Qual é o risco real do Private Equity? POR IVAN HERGER, PH.D.* O debate nos mercados financeiros vem sendo dominado pela crise de crédito e alta volatilidade nos mercados acionários. Embora as

Leia mais

Tópicos Abordados. Pesquisa de Mercado. Aula 1. Contextualização

Tópicos Abordados. Pesquisa de Mercado. Aula 1. Contextualização Pesquisa de Mercado Aula 1 Prof. Me. Ricieri Garbelini Tópicos Abordados 1. Identificação do problema ou situação 2. Construção de hipóteses ou determinação dos objetivos 3. Tipos de pesquisa 4. Métodos

Leia mais

Relatório Metodológico da Tipologia dos Colegiados de Gestão Regional CGR. O presente relatório tem por objetivo apresentar uma tipologia dos CGR

Relatório Metodológico da Tipologia dos Colegiados de Gestão Regional CGR. O presente relatório tem por objetivo apresentar uma tipologia dos CGR Relatório Metodológico da Tipologia dos Colegiados de Gestão Regional CGR Apresentação O presente relatório tem por objetivo apresentar uma tipologia dos CGR Colegiados de Gestão Regional do Brasil segundo

Leia mais

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como:

Referências internas são os artefatos usados para ajudar na elaboração do PT tais como: Plano de Teste (resumo do documento) I Introdução Identificador do Plano de Teste Esse campo deve especificar um identificador único para reconhecimento do Plano de Teste. Pode ser inclusive um código

Leia mais

Artigo Os 6 Mitos Do Seis Sigma

Artigo Os 6 Mitos Do Seis Sigma Artigo Os 6 Mitos Do Seis Sigma Celerant Consulting A metodologia do Seis Sigma a abordagem Definir, Medir, Analisar, Melhorar e Controlar (DMAIC) para resolução de problemas e as ferramentas a serem usadas

Leia mais

ESTE DOCUMENTO É UMA TRADUÇÃO LIVRE. EM CASO DE DIVERGÊNCIA, PREVELECE A INFORMAÇÃO ESPECÍFICA CONTIDA NO EDITAL ORIGINAL EM INGLÊS.

ESTE DOCUMENTO É UMA TRADUÇÃO LIVRE. EM CASO DE DIVERGÊNCIA, PREVELECE A INFORMAÇÃO ESPECÍFICA CONTIDA NO EDITAL ORIGINAL EM INGLÊS. ESTE DOCUMENTO É UMA TRADUÇÃO LIVRE. EM CASO DE DIVERGÊNCIA, PREVELECE A INFORMAÇÃO ESPECÍFICA CONTIDA NO EDITAL ORIGINAL EM INGLÊS. Seção 3a: Cronograma de Requisitos e Especificações Técnicas CONDIÇÕES

Leia mais

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause Núcleo Celular Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause Núcleo Celular Eucarioto: núcleo delimitado por membrana nuclear (carioteca) Portador dos fatores hereditários e controlador

Leia mais

Sistemas de Gestão Ambiental O QUE MUDOU COM A NOVA ISO 14001:2004

Sistemas de Gestão Ambiental O QUE MUDOU COM A NOVA ISO 14001:2004 QSP Informe Reservado Nº 41 Dezembro/2004 Sistemas de Gestão O QUE MUDOU COM A NOVA ISO 14001:2004 Material especialmente preparado para os Associados ao QSP. QSP Informe Reservado Nº 41 Dezembro/2004

Leia mais

Estabilizada de. PdP. Autor: Luís Fernando Patsko Nível: Intermediário Criação: 22/02/2006 Última versão: 18/12/2006

Estabilizada de. PdP. Autor: Luís Fernando Patsko Nível: Intermediário Criação: 22/02/2006 Última versão: 18/12/2006 TUTORIAL Fonte Estabilizada de 5 Volts Autor: Luís Fernando Patsko Nível: Intermediário Criação: 22/02/2006 Última versão: 18/12/2006 PdP Pesquisa e Desenvolvimento de Produtos http://www.maxwellbohr.com.br

Leia mais

Desenvolvimento de um software de gerenciamento de projetos para utilização na Web

Desenvolvimento de um software de gerenciamento de projetos para utilização na Web Resumo. Desenvolvimento de um software de gerenciamento de projetos para utilização na Web Autor: Danilo Humberto Dias Santos Orientador: Walteno Martins Parreira Júnior Bacharelado em Engenharia da Computação

Leia mais

MODELO CMM MATURIDADE DE SOFTWARE

MODELO CMM MATURIDADE DE SOFTWARE MODELO CMM MATURIDADE DE SOFTWARE O modelo CMM Capability Maturity Model foi produzido pelo SEI (Software Engineering Institute) da Universidade Carnegie Mellon (CMU), em Pittsburgh, EUA, por um grupo

Leia mais

4 Avaliação Econômica

4 Avaliação Econômica 4 Avaliação Econômica Este capítulo tem o objetivo de descrever a segunda etapa da metodologia, correspondente a avaliação econômica das entidades de reservas. A avaliação econômica é realizada a partir

Leia mais

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler

Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Tecnologia em Gestão Pública Desenvolvimento de Projetos - Aula 9 Prof. Rafael Roesler Introdução Objetivos da Gestão dos Custos Processos da Gerência de Custos Planejamento dos recursos Estimativa dos

Leia mais

Este documento foi elaborado sob a licença

Este documento foi elaborado sob a licença 1 2 Este documento foi elaborado sob a licença Atribuição - Não Comercial - Sem Trabalhos Derivados Brasil (CC BY-NC-ND 4.0) Sobre este documento, você tem o direito de: Compartilhar - reproduzir, distribuir

Leia mais

Abordagem de Processo: conceitos e diretrizes para sua implementação

Abordagem de Processo: conceitos e diretrizes para sua implementação QP Informe Reservado Nº 70 Maio/2007 Abordagem de Processo: conceitos e diretrizes para sua implementação Tradução para o português especialmente preparada para os Associados ao QP. Este guindance paper

Leia mais

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br Introdução O computador como ferramenta indispensável: Faz parte das nossas vidas; Por si só não faz nada de útil; Grande capacidade de resolução

Leia mais

Ancestralidade Materna polimorfismos matrilínea DNA Mitocondrial (mtdna).

Ancestralidade Materna polimorfismos matrilínea DNA Mitocondrial (mtdna). Ancestralidade Materna A atual população dos países latino-americanos foi gerada por um complexo processo de mistura genética entre ameríndios, europeus e africanos. As porcentagens relativas destas três

Leia mais

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio 32 3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio Este capítulo apresenta o framework orientado a aspectos para monitoramento e análise de processos de negócio

Leia mais

Feature-Driven Development

Feature-Driven Development FDD Feature-Driven Development Descrição dos Processos Requisitos Concepção e Planejamento Mais forma que conteúdo Desenvolver um Modelo Abrangente Construir a Lista de Features Planejar por

Leia mais

Processos Técnicos - Aulas 4 e 5

Processos Técnicos - Aulas 4 e 5 Processos Técnicos - Aulas 4 e 5 Trabalho / PEM Tema: Frameworks Públicos Grupo: equipe do TCC Entrega: versão digital, 1ª semana de Abril (de 31/03 a 04/04), no e-mail do professor (rodrigues.yuri@yahoo.com.br)

Leia mais

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda.

UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda. UNIDADE DE PESQUISA CLÍNICA Centro de Medicina Reprodutiva Dr Carlos Isaia Filho Ltda. Avaliação do risco de viés de ensaios clínicos randomizados pela ferramentada colaboração Cochrane Alan P. V. de Carvalho,

Leia mais

15/03/2010. Análise por pontos de função. Análise por Pontos de Função. Componentes dos Pontos de Função. Componentes dos Pontos de Função

15/03/2010. Análise por pontos de função. Análise por Pontos de Função. Componentes dos Pontos de Função. Componentes dos Pontos de Função Análise por pontos de função Análise por Pontos de Função Referência: Manual de práticas de contagem IFPUG Versão 4.2.1 Técnica que permite medir a funcionalidade de um software ou aplicativo, sob a visão

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. Conceitos relativos à Informação 1. Informação O que á a informação? Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado. 2. Dados Em informática designa-se

Leia mais

Avaliação molecular da macho-esterilidade citoplasmática em milho

Avaliação molecular da macho-esterilidade citoplasmática em milho Jornal Eletrônico da Embrapa Milho e Sorgo (Sete Lagoas-MG) Ano 04 - Edição 26 - Agosto / Setembro de 2010 Artigo Avaliação molecular da macho-esterilidade citoplasmática em milho por Sílvia Neto Jardim

Leia mais

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr. A Chave para o Sucesso Empresarial José Renato Sátiro Santiago Jr. Capítulo 1 O Novo Cenário Corporativo O cenário organizacional, sem dúvida alguma, sofreu muitas alterações nos últimos anos. Estas mudanças

Leia mais

LOGÍSTICA MADE DIFFERENT LOGÍSTICA

LOGÍSTICA MADE DIFFERENT LOGÍSTICA LOGÍSTICA MADE DIFFERENT LOGÍSTICA ENTREGA ESPECIAL Na economia globalizada 24/7 de hoje, a logística e a gestão de armazéns eficientes são essenciais para o sucesso operacional. O BEUMER Group possui

Leia mais

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart. Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart. Versão 1.6 15/08/2013 Visão Resumida Data Criação 15/08/2013 Versão Documento 1.6 Projeto Responsáveis

Leia mais

Modelo Cascata ou Clássico

Modelo Cascata ou Clássico Modelo Cascata ou Clássico INTRODUÇÃO O modelo clássico ou cascata, que também é conhecido por abordagem top-down, foi proposto por Royce em 1970. Até meados da década de 1980 foi o único modelo com aceitação

Leia mais

Mitocôndrias e Cloroplastos

Mitocôndrias e Cloroplastos Universidade Federal de Sergipe Centro de Ciências Biológicas e da Saúde Departamento de Morfologia Biologia Celular Mitocôndrias e Cloroplastos Características gerais de mitocôndrias e cloroplastos Mitocôndrias

Leia mais

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados 1. Introdução O governo é um dos maiores detentores de recursos da informação. Consequentemente, tem sido o responsável por assegurar que tais recursos estejam agregando valor para os cidadãos, as empresas,

Leia mais

GASTAR MAIS COM A LOGÍSTICA PODE SIGNIFICAR, TAMBÉM, AUMENTO DE LUCRO

GASTAR MAIS COM A LOGÍSTICA PODE SIGNIFICAR, TAMBÉM, AUMENTO DE LUCRO GASTAR MAIS COM A LOGÍSTICA PODE SIGNIFICAR, TAMBÉM, AUMENTO DE LUCRO PAULO ROBERTO GUEDES (Maio de 2015) É comum o entendimento de que os gastos logísticos vêm aumentando em todo o mundo. Estatísticas

Leia mais

A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA

A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA 553 A IMPORTÂNCIA DA GESTÃO DE CUSTOS NA ELABORAÇÃO DO PREÇO DE VENDA Irene Caires da Silva 1, Tamires Fernanda Costa de Jesus, Tiago Pinheiro 1 Docente da Universidade do Oeste Paulista UNOESTE. 2 Discente

Leia mais

Tecnologia para garantir qualidade e eficiência

Tecnologia para garantir qualidade e eficiência Tecnologia para garantir qualidade e eficiência 20 Fenacon em Serviços Julho/Agosto 2010 É cada vez maior o número de empresas que adotam a virtualização de documentos. Além de economia em tempo e papel,

Leia mais

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1

QUALIDADE DE SOFTWARE. Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1 QUALIDADE DE SOFTWARE Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 27 Slide 1 Objetivos Apresentar o processo de gerenciamento de qualidade e as atividades centrais da garantia de

Leia mais