Relatório de Projecto de Final de Curso Ano Lectivo 2005/2006. Exploração, filtragem e análise de dados laboratoriais



Documentos relacionados
Bioinformática Aula 01

EXAME DE BIOLOGIA Prova de Acesso - Maiores 23 Anos (21 de Abril de 2009)

As bactérias operárias

Equipe de Biologia. Biologia

Replicação Quais as funções do DNA?

Hoje estudaremos a bioquímica dos ácidos nucléicos. Acompanhe!

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: Drd. Mariana de F. G. Diniz

MEDICINA VETERINÁRIA. Disciplina: Genética Animal. Prof a.: D rd. Mariana de F. Gardingo Diniz

Núcleo Celular. Biomedicina primeiro semestre de 2012 Profa. Luciana Fontanari Krause

O DNA é formado por pedaços capazes de serem convertidos em algumas características. Esses pedaços são

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

Princípios moleculares dos processos fisiológicos

Organização do Material Genético nos Procariontes e Eucariontes

DO GENE À PROTEÍNA ALGUNS CONCEITOS BASICOS COMO SE ORGANIZAM OS NUCLEÓTIDOS PARA FORMAR O DNA?

O fluxo da informação é unidirecional

TIC Unidade 2 Base de Dados. Informação é todo o conjunto de dados devidamente ordenados e organizados de forma a terem significado.

Bases Moleculares da Hereditariedade

Bioinformática. Licenciaturas em Biologia, Bioquímica, Biotecnologia, Ciências Biomédicas, Engenharia Biológica. João Varela

GereComSaber. Disciplina de Desenvolvimento de Sistemas de Software. Sistema de Gestão de Serviços em Condomínios

- Ácido ribonucléico (ARN ou RNA): participa do processo de síntese de proteínas.

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Exercício 3 PCR Reação em Cadeia da Polimerase

Programa de Pós-Graduação Stricto Sensu em Biologia Computacional e Sistemas. Seleção de Mestrado 2012-B

Rock In Rio - Lisboa

Abordagem de Processo: conceitos e diretrizes para sua implementação

Análise de Sistemas. Conceito de análise de sistemas

DNA E SÍNTESE PROTEICA

> ESTUDO DO RNA. (C) O ácido nucléico I é DNA e o II, RNA. (D) O ácido nucléico I é RNA e o II, DNA. (E) I é exclusivo dos seres procariontes.

DEMONSTRAÇÕES FINANCEIRAS COMBINADAS

A VISTA BACKSTAGE PRINCIPAIS OPÇÕES NO ECRÃ DE ACESSO

GUIA PARA O PREENCHIMENTO DOS FORMULÁRIOS ENTIDADE GESTORA ERP PORTUGAL

Capítulo. Sistemas de apoio à decisão

Conceito. As empresas como ecossistemas de relações dinâmicas

PLANIFICAÇÃO MODULAR ANO LECTIVO 2015 / 2016

Criado e Desenvolvido por: RONNIELLE CABRAL ROLIM Todos os direitos são reservados

Figura 1 - O computador

SÍNTESES NUCLEARES. O DNA éo suporte da informação genética. Parte 1 Replicação

Guia de Estudo Folha de Cálculo Microsoft Excel

ICORLI. INSTALAÇÃO, CONFIGURAÇÃO e OPERAÇÃO EM REDES LOCAIS e INTERNET

GereComSaber. Desenvolvimento de Sistemas de Software. Universidade do Minho Conselho de Cursos de Engenharia Licenciatura em Engenharia Informática

Oficina de Multimédia B. ESEQ 12º i 2009/2010

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS (GRUPO INFORMÁTICA) Ano Letivo de 2014/2015 MÓDULO 1 FOLHA DE CÁLCULO

Base de Dados para Administrações de Condomínios

ÁCIDOS NUCLEÍCOS RIBOSSOMO E SÍNTESE PROTEÍCA

BANCO DE QUESTÕES - BIOLOGIA - 1ª SÉRIE - ENSINO MÉDIO ==============================================================================================

Painéis Do Organismo ao Genoma

ISEP. Instituto Superior de Engenharia do Porto. Análise de Sistemas Informáticos

Planificação Anual TIC 8º Ano 2012/ PERÍODO

Hardware & Software. SOS Digital: Tópico 2

Avaliação Curso de Formação Pós-Graduada da Biologia Molecular à Biologia Sintética 15 de Julho de 2011 Nome

QFD: Quality Function Deployment QFD: CASA DA QUALIDADE - PASSO A PASSO


ISO 9000:2000 Sistemas de Gestão da Qualidade Fundamentos e Vocabulário. As Normas da família ISO As Normas da família ISO 9000

)HUUDPHQWDV &RPSXWDFLRQDLV SDUD 6LPXODomR

Mestrado em Sistemas Integrados de Gestão (Qualidade, Ambiente e Segurança)

Relatório de Estágio

A Gestão, os Sistemas de Informação e a Informação nas Organizações

Direcção Regional de Educação do Algarve

Trabalhos Práticos. Programação II Curso: Engª Electrotécnica - Electrónica e Computadores

GESTÃO de PROJECTOS. Gestor de Projectos Informáticos. Luís Manuel Borges Gouveia 1

COMUNICAÇÃO DA INFORMAÇÃO NAS MOLÉCULAS DE DNA E RNA

Guia de recomendações para implementação de PLM em PME s

TECNOLOGIAS DE INFORMAÇÃO E COMUNICAÇÃO

DNA A molécula da vida. Prof. Biel Série: 9º ano

Aplicações de Escritório Electrónico

1. NÍVEL CONVENCIONAL DE MÁQUINA

Algoritmos e Programação (Prática) Profa. Andreza Leite andreza.leite@univasf.edu.br

GARANTIA DA QUALIDADE DE SOFTWARE

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Gestão dos Níveis de Serviço

Modelo Cascata ou Clássico

Engenharia de Software Sistemas Distribuídos

Orientação a Objetos

REAÇÃO EM CADEIA DA POLIMERASE (PCR)

Plataforma de Gestão de Actualizações de Software Descrição do Problema

Ácidos nucléicos. São polímeros compostos por nucleotídeos. Açúcar - pentose. Grupo fosfato. Nucleotídeo. Base nitrogenada

1. Ambiente de Trabalho

Microsoft Access: Criar consultas para um novo banco de dados. Vitor Valerio de Souza Campos

Engenharia de Software

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

Criado e Desenvolvido por: Todos os direitos são reservados

NP EN ISO 9001:2000 LISTA DE COMPROVAÇÃO

Ao longo do presente capítulo será apresentada uma descrição introdutória da tecnologia FPGA e dos módulos básicos que a constitui.

Escola Secundária Dr. Manuel Gomes de Almeida

ISO/IEC 12207: Gerência de Configuração

ISO 9001:2008. Alterações e Adições da nova versão

Feature-Driven Development

Resistência de Bactérias a Antibióticos Catarina Pimenta, Patrícia Rosendo Departamento de Biologia, Colégio Valsassina

Um Plano de Factores Humanos para a Gestão de Perigos Graves

PLANO DE ESTUDOS DE T.I.C. 7.º ANO

Arquitecturas de Software Licenciatura em Engenharia Informática e de Computadores

Programa de Parcerias e Submissão de Propostas 2014/15

Base de dados I. Uma base de dados é um simples repositório de informação relacionado com um determinado assunto ou finalidade

BIOLOGIA MOLECULAR. Prof. Dr. José Luis da C. Silva

NCE/11/01396 Relatório preliminar da CAE - Novo ciclo de estudos

Escola Secundária/3 da Maia Cursos em funcionamento Técnico de Electrónica, Automação e Comando

Transcrição:

Universidade de Aveiro Departamento de Electrónica, Telecomunicações e Informática Licenciatura em Engenharia Electrónica e Telecomunicações Relatório de Projecto de Final de Curso Ano Lectivo 2005/2006 Exploração, filtragem e análise de dados laboratoriais Orientadores: Prof. José Luís Oliveira Eng. Joel Arrais Autores: Francisco Castro Lopes nº mec. 21741 Hugo Luís de Melo Pais nº mec. 21053 Universidade de Aveiro, DETI/IEETA, 3810-193 Aveiro, Portugal Julho 2006

Índice: 1. Introdução...4 1.1. Contextualização do trabalho realizado...4 2. Objectivos...5 2.1. Actividades previstas...5 3. Resumo...6 4. Conceitos de Biologia e Tecnologia Microarray...7 4.1. Biologia Molecular...7 4.1.1. O Ácido Desoxirribonucleico (ADN)...9 4.1.2. Síntese Proteica o processo de formação de proteínas...10 4.1.3. Reacção em cadeia por polimerase (PCR Polymerase chain reaction)...11 4.2. Tecnologia Microarray...12 4.2.1. Como se fabrica e como funciona um Microarray...12 4.2.2. Microarrays o princípio de funcionamento...13 4.2.3. Construção do microarray...14 4.2.4. Desafios para a tecnologia Microarray...15 4.2.5. Desafios para a Bioinformática...16 5. Controlo de qualidade e análise de dados...17 5.1. Fases do ciclo experimental biológico...17 5.2. Controlo de qualidade...18 5.2.1. Técnicas para redução de efeitos indesejados (fontes de ruído)...19 5.2.2. Métodos usados para correcção de background e normalização...20 5.3. Análise de dados experimentais...21 5.4. Análise baseada em modelos e considerações sobre o design experimental 22 6. Sistema de Gestão de Informação Laboratorial (LIMS) da Universidade de Aveiro, MIND Microarray Information Database...25 6.1. O que é um LIMS?...25 6.2. O que é o Mind?...25 6.3. O que é um LIMS? Normas e Ontologias na base do sistema MIND...26 6.4. Arquitectura do MIND...27 7. Levantamento de Packages em R, Identificação de ferramentas e funcionalidades para análise de dados de experiências de Microarrays...29 7.1. Identificação e Levantamento de packages R, ferramentas Web e pacotes comerciais...29 7.1.1. SAM (Significance Analysis of Microarrays) versão 2.2.0...32 7.1.2. SMA (Statistics for Microarray Analysis) versão 0.5.13 (2003/08/15)...33 7.1.3. GeneTS (Gene Transcription) versão 2.8.0 (2005/08/15)...33 7.1.4. LIMMA (Linear Models for Microarray Data) versão 2.4.7 (2006/01/03)...34 7.1.5. YASMA (Yet Another Statistical Microarray Analysis) v 0.20...35 7.1.6. BIOCONDUCTOR...36 7.1.7. SNOMAD ( Standardization and NOrmalization of MicroArray Data )...37 7.1.8. Cap-Web (Cgh Array analysis Platform on the WEB)...38 7.1.9. GeneSpring gx 7.3...40 7.1.10. GeneSight v4.1...41 7.1.11. J-Express Pro 2.7...42 7.1.12. Rosetta Resolver...43 7.1.13. Spotfire DecisionSite System v8.2...44 7.1.14. S+ArrayAnalyzer...44 Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 2

8. Grafcreator...46 8.1. Objectivos...46 8.2. Ferramentas utilizadas...46 8.2.1. Tecnologia de desenvolvimento...46 8.2.2. Linguagem estatística utilizada...46 8.2.3. Interligação Java R...47 8.3. Sistema implementado...48 8.3.1. Diagrama de blocos...48 8.3.2. Diagrama de fluxo da aplicação...49 8.3.3. Diagrama de fluxo para o utilizador...50 8.3.4. Conversão dos ficheiros...54 9. Mind Controlo de qualidade e análise de dados...56 9.1. Objectivos...56 9.2. Análise ao sistema base (MIND)...56 9.2.1. Tecnologia de desenvolvimento...56 9.2.2. Modelo de dados...57 9.2.3. Formato dos ficheiros...58 9.3. Sistema Implementado...58 9.3.1. Diagrama de blocos...58 9.3.2. RLinker...59 9.3.3. Design Experimental...61 9.3.4. WorkFlow para o utilizador...64 9.3.5. WorkFlow Global...65 9.3.6. Funcionalidades...66 Conclusões...77 Bibliografia:...78 Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 3

1. Introdução Com a realização deste relatório pretende-se fazer uma descrição o mais detalhada possível do trabalho realizado pelos autores, no projecto final do curso da Licenciatura em Engenharia Electrónica e Telecomunicações da Universidade de Aveiro durante o ano lectivo de 2005/2006. 1.1. Contextualização do trabalho realizado Da aliança das duas ciências que mais evoluíram nos últimos anos, a biologia molecular e a informática, nasceu um novo campo do conhecimento: a Bioinformática. Na realidade, devido a avanços da ciência, a principal ferramenta deste novo biólogo deixou de ser o microscópio para passar a ser o computador o que gerou uma demanda de aplicações informáticas capazes de satisfazerem as suas necessidades. Na universidade de Aveiro, no laboratório de biologia molecular já se encontra em funcionamento com uma base de dados que tem vindo a acumular dados de experiências com relevante valor. No entanto, sem o auxílio de ferramentas informáticas que possibilitem o estudo dos dados existentes não é possível uma plena valorização dos mesmos. Como a quantidade de dados gerados numa experiência biológica, neste caso de microarrays, é enorme, não sendo possível de um modo empírico e simples fazer uma análise válida tanto da qualidade de dados armazenados com análise de interpretação dos mesmos, ou seja, os métodos tradicionais de análise não se adequam a tão grande escala, deste modo, surge a necessidade de desenvolver ferramentas que permitam efectuar análise de dados em colaboração com os sistemas desenvolvidos e em desenvolvimento nesta academia. Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 4

2. Objectivos O objectivo deste projecto é o de desenvolver uma aplicação Web, que em colaboração com os sistemas existentes, e de acordo com um workflow pré-definido, permita uma correcta exploração filtragem e análise de dados provenientes de experiências biológicas. Para o desenvolvimento deste projecto é necessário fazer uso das tecnologias de desenvolvimento Web, de tecnologias de base de dados, assim como de ferramentas que permitam geração de gráficos. 2.1. Actividades previstas o Estudo da arquitectura do sistema actual assim como o enquadramento do projecto (http://bioinformatics.ieeta.pt/mind); o Definição do workflow assim como do conjunto de ferramentas a desenvolver; o Desenvolvimento e teste das ferramentas de análise; o Desenvolvimento de uma aplicação Web que faça uso do workflow definido e que incorpore as ferramentas anteriormente desenvolvidas; o Integração do sistema desenvolvido no conjunto de sistemas já existentes; Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 5

3. Resumo Este documento tem como objectivo documentar o trabalho realizado durante a elaboração do Projecto Exploração, filtragem e análise de dados laboratoriais de forma a criar a uma ferramenta interligada com o sistema já existente que permita o controlo de qualidade e a análise de dados de uma experiência de microarrays. O trabalho desenvolvido segundo os seguintes pontos: I. Conceitos de Biologia Molecular e tecnologia Microarrays; II. Controlo de Qualidade e Análise de Dados; III. Estudo do Sistema existente Mind; IV. Levantamento ferramentas existentes úteis no desenvolvimento do projecto; V. GrafCreator Sistema Independente para Controlo de Qualidade de experiências de microarrays; VI. Mind Interligação de ferramentas de Controlo de Qualidade e Análise de Dados; VII. Conclusões. Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 6

4. Conceitos de Biologia e Tecnologia Microarray 4.1. Biologia Molecular O universo biológico apresenta-se aos olhos de um biólogo com uma espantosa diversidade, pois é constituído por plantas, animais e até criaturas microscópicas tais como as bactérias. Mas observando mais atentamente no fundo de toda esta biodiversidade existe uma poderosa constância, pois todos os sistemas biológicos ao mais baixo nível são compostos pelos mesmos tipos de moléculas químicas [7] usando princípios similares de organização celular. As células são a unidade estrutural e funcional de todos Figura 1 Cultura celular os organismos vivos, sendo por vezes chamado o bloco de construção da vida, a estrutura de todas as células é muito semelhante, mas a organização das células é o que distingue os seres vivos em dois grupos de organismos: eucariotas e procariotas. As células procariotas são distinguidas das células eucariotas na base da sua organização nuclear, especialmente devido a ausência da sua membrana nuclear. As procariotas também se caracterizam pela ausência da maioria das organelas intercelulares e estruturas que são características das células eucariotas (uma importante Figura 3 célula procariota excepção são os ribossomas que se encontram presentes tanto nas células procariotas como nas eucariotas). As funções das organelas, tais como a mitocôndria, cloroplastas e o aparato golgi, são substituídas pela membrana de plasma do procariota. A estrutura das células procariotas encontra-se dividida em três regiões arquitecturais: apêndices chamados flagella e pili que são proteínas ligadas á superfície da célula, a envolvente da célula que é constituída pela parede celular e a membrana de plasma e uma ultima região que é a região citoplásmica que Figura 2 célula contem o genóma da célula (DNA) os ribossomas e vários tipos de inclusões. As células eucariotas são tipicamente 10 vezes maiores do que o Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 7

tamanho de uma célula típica procariota, mas podem chegar a ter 1000 vezes o volume de uma célula procariota. A maior diferença entre os dois tipos de células consiste na existência de compartimentos circundados por uma membrana nas eucariotas, compartimentos estes onde ocorrem actividades metabólicas específicas. O mais importante destes compartimentos é o núcleo celular, que é um compartimento delimitado por uma membrana e que contem o DNA [7,8] da célula eucariota, este núcleo e o que da o nome a célula pois eucariota quer dizer núcleo verdadeiro. Figura 4 Árvore da vida filogenética As células procariotas dividem-se em dois subgrupos, as Archea e as Bactérias, por sua vez as eucariotas formam um grupo único que é constituído por todos os seres vivos restantes tais como todos os animais, plantas e fungos. Existem dois tipos de material genético o ADN (Ácido Desoxirribonucleico) e o RNA (Ácido Ribonucleico), a maioria dos organismos usam o ADN para armazenar a informação a longo prazo, mas alguns vírus (exemplo: retrovirus) têm RNA na sua informação genética. A informação biológica contida num organismo é codificada nas suas sequencias de ADN ou RNA. O RNA é também usado para transportar informação (exemplo: mrna) e para funções enzimáticas (exemplo: RNA ribosomal) em organismos que usam ADN para código genético em si. Figura 5-Primeiro esboço de Francis Crick s do padrão de dupla espiral do ácido desoxirribonucleico ADN Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 8

De modo a ser descodificada toda a informação genética para perceber o funcionamento de qualquer organismo é necessário compreender e estudar a sua Expressão Genética [7,8]. 4.1.1. O Ácido Desoxirribonucleico (ADN) O ADN é um ácido nucleíco, usualmente na forma de uma dupla espiral que contem instruções genéticas especificando o desenvolvimento biológico de todas as formas de vida celulares e alguns vírus. Este é um polímero de nucleótidos (um polinucleótido) e codifica a sequência de resíduos de aminoácidos em proteínas usando um código genético, um código de tripletos de nucleótidos. Cada elipse é uma cadeia de nucleótidos ligados quimicamente, em que cada um deles consiste de um açúcar (desoxirribose) [7], um fosfato e um de quatro tipos de bases. Porque as espirais de ADN são compostas por estas subunidades de nucleótidos, elas são chamadas de polímeros. A existência de uma diversidade de bases significa que existem quatro tipos de nucleótidos que normalmente são referenciados pelo primeiro carácter do nome que identifica as suas bases são estes: Adenina (A), Timina (T), Citosina (C) e a Guanina (G). A ordem ou sequência das bases ao longo da cadeia do ADN é variável existe um efeito que se denomina de Complementaridade [9], ou seja, cada Timina opõe-se sempre a uma Adenina e cada Guanina opõe-se sempre a uma Citosina. Figura 6 Estrutura geral de uma secção de ADN Figura 7 Complementaridade de bases azotadas Citando Watson e Crick na sua descrição do modelo de ADN, O modelo de ADN não é mais que uma longa sequência de nucleótidos, que estão emparelhados formando Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 9

uma longa cadeia dupla enrolada em espiral. Ou seja, cada molécula de ADN enrola-se em proteínas, formando estruturas chamadas cromossomas, em que cada porção determinada de ADN forma um gene, sendo os genes considerados como unidades indivisíveis dos cromossomas onde estão situados. Como unidade funcional do material genético os genes são unidades fundamentais de hereditariedade, contêm o código para a produção de proteínas, muitas das quais são enzimas químicas que possibilitam e controlam as reacções químicas das células. 4.1.2. Síntese Proteica o processo de formação de proteínas O processo de produção de proteínas denominado de síntese proteica ocorre em duas fases denominadas de tradução e transcrição. Durante o processo de transcrição [10] a hélice de ADN desenrola-se e as suas cadeias separam-se com uma das cadeias a servir de molde, produz-se uma molécula de mrna (RNA mensageiro) a partir dos nucleótidos livres, existentes no nucleoplasma, os quais se ligarão á cadeia molde segundo o principio da complementaridade de bases. No RNA é que ter em atenção que não existe a base azotada Timina, pois esta é substituída pela base Urucilo (U), ou seja a pentose de RNA é a ribose A cadeia de mrna anteriormente formada, desloca-se do núcleo da célula para Citoplasma da mesma, onde ocorre a tradução da informação genética. Figura 8 Esquema de transcrição do ADN. Legenda: X-ADN Y-mRNA O processo de Tradução [10] é um fenómeno que ocorre pela intervenção de um organito celular, o ribossoma, que se ligará à cadeia de mrna. Nesta cadeia, o conjunto de três bases azotadas é conhecido como codão e este especifica um aminoácido. O processo de tradução inicia-se pelo codão AUG (codão de iniciação), que traduz o aminoácido metionina. Cada um dos codões do mrna e os respectivos aminoácidos são incapazes de se reconhecerem directamente havendo então necessidade de existir um adaptador que faculte esse reconhecimento. A função de adaptador é efectuada pelo trna (RNA de transferência), ou seja, o trna é uma ponte entre os aminoácidos Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 10

e o mrna, para assim ser efectuada a tradução da informação codificada no mrna em proteína. Quando é atingido um codão de terminação, o ribossoma solta-se e a cadeia de aminoácidos é libertada, enrolando-se de modo a formar uma proteína completa, e o gene assim e traduzido numa proteína. 4.1.3. Reacção em cadeia por polimerase (PCR Polymerase chain reaction) A técnica PCR é uma técnica muito utilizada em investigação medica e biológica para uma variedade de funções, tais como a detecção de doenças hereditárias, identificação de impressões digitais genéticas, no diagnostico de doenças infecciosas, na clonagem de genes, testes de paternidade e computação de ADN e microarrays. A PCR é uma técnica da biologia molecular inventada por Kary B. Mullis, para replicar ADN enzimaticamente sem usar um organismo vivo, tais como E. coli. Esta técnica permite que uma pequena quantidade de ADN seja amplificada exponencialmente, todavia devido ao facto de ser uma técnica in vitro ela pode ser efectuada sem restrições na forma do ADN e pode ser extensivamente modificada de modo a fornecer uma grande quantidade de manipulações genéticas. Para ser executada a técnica PCR é necessário um conhecimento prévio da sequência do ácido nucleico que se deseja amplificar, ou seja ter-se conhecimento da sequência alvo. Partindo da sequência alvo, são desenhados dois iniciadores, também denominados de primers para se dar inicio ao processo numa área específica da sequência. O primer é uma pequena sequência de nucleotídos que híbrida no início de uma sequência alvo que se quer amplificar e da qual é complementar. Ao identificar o primer a polimerase sintetiza uma cópia complementar, respeitando a informação contida na sequência de ADN a ser sintetizado esta técnica precisa ainda de deoxinucleosideos trifosfatados (datp, dttp, dgtp, dctp) que são quatro componentes químicos que actuam como tijolos na construção da molécula de ADN. Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 11

4.2. Tecnologia Microarray A tecnologia de microarrays é uma tecnologia muito recente e actualmente apresentase como uma das tecnologias com maior potencial na produção de problemas e soluções para a Biologia no ramo da Genómica, tendo como grande vantagem um grande ritmo de obtenção de dados experimentais. A tecnologia utiliza arrays microscópicos (microarrays) de moléculas imobilizadas em superfícies sólidas para análise bioquímica, actualmente os microarrays podem ser usados para distintos tipos de análise como por exemplo análise de expressão genética, detecção de polimorfismos, re-sequenciação genética, genotipagem e escalagem genómica [1]. As técnicas habitualmente utilizadas para construir, analisar e processar dados são a fotolitografia, micro-spotting e impressão por jacto (tecnologia semelhante á utilizada nas impressoras de jacto de tinta), combinadas com técnicas sofisticadas de detecção por fluorescência, sendo a análise estatística e a bioinformática (elementos chave devido à quantidade de informação produzida). 4.2.1. Como se fabrica e como funciona um Microarray Na actualidade existem várias técnicas, para a realização de microarrays sendo elas: - Ilumina bead array (www.illumina.com); - Serial Analisys of Gene Expression (www.sagenet.org); - Nylon Membrane (www.schleicher-schuell.com); - Agilent: Long oligo Ink Jet (www.home.agilent.com) - GeneChip Affymetrix (www.affymetrix.com) - cdna microarrays; - Microarrays de proteínas e Oligo Microarrays; Apesar da existência de arrays de expressão genética em variados formatos, são usados com mais regularidade duas categorias, os microarrays de cdna compostos por cdna ou oligonucletotidos e também arrays de grande densidade produzidos comercialmente que contêm oligonucleotidos sintetizados [2]. O princípio pelo qual todos os arrays se regem é o da capacidade de uma sequência presa de nucleótidos se colar ou hibridar há sua sequência complementar e formar uma sequência dupla de ADN. Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 12

4.2.2. Microarrays o princípio de funcionamento Preparação das células Cultura de células Tratada Controlo Centrifugação Extracção de mrna Visualização do array cdna Braço robótico Marcação do cdna Misturar o cdna marcado Hibridação Impressão do array Figura 9 Esquema exemplificando a análise de expressão genética usando tecnologia de microarrays ( spoted microarrays ) Observando a (Figura 9), verifica-se que a produção de um microarray naquele caso específico é a seguinte, após colhidas as células do elemento que pretendemos analisar, são criadas culturas de células Normais/Controlos e Tratadas/células anormais (com alguma mutação) essas células em seguida serão transferidas para tubos de centrifugação. Então o RNA mensageiro mrna de cada tipo de célula é usado para gerar cdna marcado com um marcador fluorescente. O mrna de cada tipo de célula é marcado com um diferente tipo de fluoroforo de modo a poder haver comparação. Os dois cdna são então misturados e hibridados com um microarray de DNA preparado com métodos de spotting (ex. micro-spotting robótico ou jacto de tinta). No final os níveis de expressão genética são monitorizados através da medição da intensidade de luz usando ferramentas de visualização e programas computacionais. Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 13

Em maior detalhe, uma experiência com uma array de cdna tem cinco passos básicos: o O cdna é impresso num substrato sólido como por exemplo vidro ou plástico; o A amostra de RNA é isolada; o O cdna é sintetizado e marcado para posterior detecção o A sonda de cdna é hibridada de modo a aderir ao cdna no substrato, ou seja, quando uma amostra de DNA ou RNA é aplicada array qualquer sequência na amostra que encontre um o seu complementar irá ligar-se a um determinado spot do array; o Finalmente os resultados da hibridação são transformados numa imagem e analisados produzindo um ficheiro com as intensidades de luz dos spots quando expostos a determinados comprimentos de onda; 4.2.3. Construção do microarray Como já referido anteriormente, apesar de várias técnicas para construção de microarrays existirem na actualidade, têm-se destacado especialmente duas. No método mais utilizado estes são construídos agregando fisicamente fragmentos de DNA tais como uma livraria de clones ou reacção em cadeia por polymerase PCR (polymerase chain reaction). Ao usar um construtor de arrays robótico (Figura 10) e o princípio da capilaridade podem ser impressos arrays com tamanho até 23000 fragmentos de genes impressos numa lamela de microscópio. Figura 10 Spoter robótico, para impressão de microarrays Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 14

No outro método os arrays são construídos sintetizando uma camada única de oligonucleotidos in situ esta técnica usa técnicas de litografia [4] (Figura 11) esta técnica tem vantagens relativamente hás anteriormente apresentadas em que facilmente e de uma forma económica e flexível se construía um microarray com grande densidade, no caso da técnica de litografia a densidade é superior (>280000/ 1.28x1.28cm) [3] e elimina a necessidade de recolher e armazenar o DNA clonado ou os produtos resultantes da PCR (polymerase chain reaction). Figura 11 Spoter litográfico para impressão de microarrays; No caso de microarrays personalizados, que são muito comuns nos laboratórios de genómica, são construídos seleccionando os genes a serem impressos de bases de dados públicas (repositórios públicos) ou fontes institucionais, obtendo-se assim um desenho de um microarray adequado ao processo experimental em causa. Existem até empresas que efectuam a produção e desenho de experiências de microarrays como é o caso da Agilent Technologies (http://www.chem.agilent.com/). A preparação para a impressão de chips de cdna de grande densidade é apoiada normalmente em sistemas robóticos que cumprem o processo de produção de milhares de reacções PCR necessárias a elaboração dos microarrays. Após obtidos os produtos das reacções, estes são depositados em spots para um chip por um robot, que deposita aproximadamente um nano-litro de produto PCR para uma matriz numa ordem definida pelo design do mesmo array. A aderência do DNA ao slide é melhorada através de um tratamento com polylysine ou outras camadas químicas de químicos de crosslinking. 4.2.4. Desafios para a tecnologia Microarray No seu estado inicial, a tecnologia Microarray era limitada a empresas de biotecnologia com grandes recursos orçamentais. Mas com o passar do tempo a tecnologia começou a amadurecer, e esta começou a tornar-se mais acessível a Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 15

laboratórios académicos e a utilizadores comerciais, este processo tornou possível a instituições como a Universidade de Aveiro, e centros tecnológicos como BioCant a utilização de tal tecnologia para investigação em áreas de genómica e sequenciação. Contudo a tecnologia ainda tem as suas limitações [3], como a sua dificuldade técnica, especificidade e fiabilidade. O sucesso da tecnologia de microarrays gera também situações adversas que têm de ser resolvidas, acabando por gerar também desafios estruturantes a diferentes ramos de investigação, como a Bioinformática e a Estatística. Neste momento ainda não existem processos perfeitos de gestão e manuseamento de grandes quantidades conjuntos de dados complexos, pois o grande desafio neste momento não aparenta ser o modelo de produção de arrays, mas sim a manipulação e análise das matrizes de dados, sendo outro dos grandes problemas a ausência de um protocolo estandardizado para manuseamento de dados, embora este problema caminhe a passos largos para a sua resolução com a criação de grupos de trabalho como o MGED (Microarray Gene Expression Data Society - MGED Society) que procuram criar um processo de uniformização de manipulação e armazenamento de dados de expressão genética. 4.2.5. Desafios para a Bioinformática Os desafios que mais directamente se apresentam á Bioinformática neste momento são criar bibliotecas com anotações sobre os genes mais relevantes, de modo a facilitar a análise de estatística, através de clustering, etc. Ou seja os desafios futuros consistem de base de dados e algoritmos para análise de grandes quantidades de dados e métodos de visualização [5]. Sendo que os cientistas do Instituto Europeu de Bioinformática identificaram como tendência e caminho a seguir a criação de serviços presentes na World Wide Web, que cumpram os standards criados pelo MGED e forneçam dados em um ficheiro baseado em XML [6]. Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 16

5. Controlo de qualidade e análise de dados 5.1. Fases do ciclo experimental biológico As experiências biológicas neste caso de microarrays são divididas em vários estágios fundamentais para obtenção de resultados como se pode observar pelo diagrama funcional apresentado na figura seguinte. Questão Biológica Design Experimental Falhou Experiência Microarrays Controlo de Qualidade Passou Análise da Imagem Normalização Pré-processamento Análise Estimação Teste Clustering Descriminação Verificação Biológica e interpretação Figura 12 Ciclo de vida experimental de uma experiência biológica [11] O processo aparentemente, é muito linear e simples, pois após surgir uma questão biológica, parte-se para o desenho experimental e para a experiência de microarrays, mas a partir deste momento começam a surgir os desafios tanto em termos biológicos, estatísticos e informáticos. Na fase de pré-processamento surge uma questão fundamental em qualquer procedimento experimental que é o da qualidade dos dados gerados pela mesma, devido a esses problemas surge a necessidade de implementar uma metodologia que permita estabelecer parâmetros de filtragem dos dados. Após a fase do controlo de qualidade terão que existir procedimentos de normalização de dados de modo a tornar possível a eliminação ou pelo menos reduzir o efeito das fontes de ruído presentes em qualquer experiência, só após o cumprimento destes passos Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 17

se torna possível partir para uma a Análise experimental onde serão implementadas diversas técnicas, sendo escolhidas pelo investigador as que se apresentam como mais indicadas para a sua experiência. Cumprida esta fase poderá então o biólogo debruçar-se sobre a verificação biologia e interpretação dos resultados correndo o risco de o processo se ter que repetir sistematicamente até que seja respondida a questão biológica em causa. Olhando para o ciclo de vida biológico do ponto de vista de um informático, a necessidade de intervenção deste aparenta ser reduzida mas esse ponto é uma aparente ilusão pois este irá ter que intervir nos processos de controlo de qualidade e normalização e análise, através do desenvolvimento de aplicações que permitam a realização de uma forma sistemática e simples por forma a acelerar o processo experimental. 5.2. Controlo de qualidade O controlo de qualidade surge com questão pertinente, pois é necessário ter a capacidade de diferenciar os bons dos maus dados. No caso dos microarrays isto deve-se a quatro questões fundamentais [11]: o Dados de expressão genética em microarrays têm uma grande gama dinâmica (exemplo: [100...10 4 ]) figura ; o Existem múltiplas fontes de ruído: Correlacionadas, Sistemáticas e dependentes de factores experimentais; o Não existem unidades absolutas, apenas relativas, pois a calibração é em tudo diferente de array para array e muito diferente para diferentes setup s experimentais; o Grande variação espacial e temporal. Figura 13 Exemplo da variação de gama dinâmica de dados de microarrays Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 18

5.2.1. Técnicas para redução de efeitos indesejados (fontes de ruído) As fontes de ruído mais comuns numa experiência de microarrays são : Contaminação de amostras; o Degradação do RNA; o Eficiência da Amplificação; o Eficiência da transcrição reversa; o Eficiência e especificidade da Hibridação; o Eficiência de Spotting; o Quantificação do sinal; o Segmentação da Imagem; o Outros problemas relacionados com o fabrico dos arrays. Para reduzir a influência de tais fontes de ruído usualmente são utilizadas métodos de correcção de background (ajuste de sinal) e normalização. As técnicas de correcção de background têm entre outras funções, a importância de corrigir o ruído de background e efeitos de processamento dos arrays, como falhas de circularidade (Figura 14) nos spots, e nuvens de ruído biológico (Figura 15) resultantes de falhas no processo laboratorial, como por exemplo uma má eliminação de materiais residuais durante a lavagem do microarray. a) b) Figura 15 Exemplo de spot s: a) Estado ideal b) Estado experimental Figura 14 exemplo de array com mau background Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 19

De uma forma muito resumida a função da correcção de background é ajustar as ligações não específicas e ajustar os valores de expressão de modo a estarem dentro de uma gama apropriada. A outra técnica de correcção de redução da influência das fontes de ruído nos dados experimentais é a normalização pois Factores não biológicos podem contribuir para a variabilidade dos dados De modo a poder comparar dados de múltiplos arrays as diferenças de origem não biológica devem ser minimizadas 1. A razão fundamental para a utilização de tal técnica é a existência de factores experimentais que têm efeitos sistemáticos e não conseguem ser controlados com a tecnologia existente e prática laboratorial, pois embora a experiência possa ser realizada pelo mesmo investigador os resultados podem ser diferentes em diferentes execuções do mesmo protocolo experimental. Em suma a normalização vai reduzir a variação indesejada tanto dentro como entre arrays, podendo ser usada a informação de vários arrays em simultâneo. 5.2.2. Métodos usados para correcção de background e normalização Os métodos mais usados para a correcção de background são [13]: o Subtract; o Norm Exp; o Moving Gmin. Embora existam muitos outros. O método Subtract é recomendado para situações em que é pretendida uma análise simples dos dados, o que é efectuado por esta técnica é uma subtracção simples dos valores de foreground aos valores de background. Quanto ao método Norm Exp, é preferível quando é necessária uma análise de expressão diferencial, pois o que este método realiza é um ajuste da adaptabilidade do foreground para as intensidades de background, resultando disso apenas valores positivos e ajustados da intensidade, i.e., são evitados resultados nulos ou negativos de intensidade. O método Moving Gmin, o background estimado é substituído pelo background mínimo dos spots vizinhos, i. e., o background é substituido através da movimentação de uma matriz 3X3 á volta de cada spot determinando o mínimo valor da vizinhança. Francisco Castro Lopes (nº 21741) Hugo Luís de Melo Pais (nº 21053) 20