Análise de Dados de Expressão Gênica Ivan G. Costa Filho igcf@cin.ufpe.br Centro de Informática Universidade Federal de Pernambuco
Tópicos O que e expressão gênica? Como medir expressão gênica? Aspectos básicos da analise pré-processamento, expressão diferencial analise de agrupamento e classificação. desvendar mecanismos de regulação gênica http://www.cin.ufpe.br/~igcf/aeg.html
Disciplina Aulas - Marco a Abril introdução de conceitos básicos Seminários - Abril a Maio apresentação de artigos de analise de expressão gênica (individual) Projeto Maio a Junho analise de dados reais (de artigos discutidos) em grupo aulas práticas
Avaliação 50% - apresentação dos seminários avaliação pelos companheiros de classe e presença 50% - projeto (nota individual) cada grupo é responsável por descrever a participação
Bibliografia H. Causton, J. Quackebush, A. Brazma, Microarray Gene Expression Data Analysis, Blackwell publishing, 2003. Ver pagina para literatura especifica de cada aula http://www.cin.ufpe.br/~igcf/aeg.html
Biologia Molecular e Expressão Gênica
Entender a vida a nível celular Como a informação genética é herdada Como a informação genética influencia processos celulares Como genes trabalham juntos para realizar uma função celular
Informação Genética DNA DNA (ácido desoxirribonucleico) Cadeia de nucleotídeos 4 tipos: A;C;G;T forma fita dupla a partir da complementaridade. A=TeC=G
Dogma Central Transcrição Transcrição DNA para RNA RNA (acido ribonucléico) fita simples. 4 tipos: A;C;G;U Moléculas instáveis Transporte de informação do núcleo ao citoplasma
Dogma Central Transcrição Transcrição copia seqüência de bases do DNA para o RNA (com U ao invéss de T).
Dogma Central - Tradução Tradução RNA -> Proteínas realizada pelo ribossomo Código genético Proteínas cadeia de aminoácidos 20 tipos diferentes adquire uma estrutura tridimensional entidades funcionais da célula
Tradução - Código Genético Combinações de códons (3 bases) codificam um dos 20 aminoácidos.
Tradução Animação!
Dogma Central Dogma: fluxo de informação DNA mrna Proteína Gene: segmento de DNA codificando uma proteína. Transcrito: segmento de RNA transcrito de uma gene. Um gene corresponde a uma proteína e uma função celular.
Controle da Expressão Gênica Como se da o controle da expressão gênica? Certas proteínas, fatores de transcrição, se ligam ao DNA e são responsáveis por iniciar a transcrição.
Controle da Regulação Gênica
Controle da Regulação Gênica Animacao!
Expressão Gênica
Expressão Gênica e Organismos
Complexidade de Organismos Levedura: 6,000 genes Drosophila: 13,500 genes Camundongo: 22,000 genes Chimpanzé: 20,000 genes H. Sapiens: 20,000 genes
Complexidade Celular
Complexidade Organismos Celulas Regulação Transcripcional : Controla a quantidade e quais genes são transcritos. Splice alternativo: um gene codifica mais de uma proteína. Formação de complexos: Proteínas de agrupam em complexos para realizar uma tarefa celular. Epigenética, regulação póstranscripcional,
Biologia Molecular no tempo dos `- ômas Genoma: conjuntos de genes de um organismo seqüenciadores sanger, seqüenciadores de 2da geração Transcriptôma: quantidade de transcritos em uma célula micro-arranjos, SAGE, PCR, hibridização in-situ Proteôma - quantidade de proteínas em uma célula Espectrômetro de massa Interactôma conjunto de complexos de proteínas em uma célula `Yeast two-hybrid analysis, purificação de afinidade Regulômica, Epigenômica, Metabôlomica,
Biologia Computacional Desafio Desenvolvimento de técnicas computacionais/estatísticas para entender sistemas vivos a partir de dados de `omicas
Biologia Molecular no tempo dos `- ômas Genoma: conjuntos de genes de um organismo seqüenciadores sanger, seqüenciadores de 2da geração Transcriptôma: quantidade de transcritos em uma célula micro-arranjos, SAGE, PCR, hibridização in-situ Proteôma - quantidade de proteínas em uma célula Espectrômetro de massa Interactôma conjunto de complexos de proteínas em uma célula `Yeast two-hybrid analysis, purificação de afinidade Regulômica, Epigenômica, Metabôlomica,
Transcriptômica
Medindo Transcrição Hibridização Complementar
Medindo Transcrição Micro-arranjos Um experimento mede a expressão de 10.000 de genes. Problemas: qualidade dos dados
Analise de dados de Micro-arranjos Diagnostico Personalizado Dado a expressão de diversos tipos de câncer, qual o tipo de câncer de um paciente novo? Expressão diferencial Dado a expressão de pacientes com ou sem câncer indicar quais genes tem alta ou baixa expressão Detecção de Módulos Funcionais/Regulatorios Dado a expressão de uma célula em um determinado processo Divisão celular, desenvolvimento, tratamentos Quais genes tem o mesmo padrão de expressão?
Diagnostico Personalizado
Diagnostico Personalizado Usar metodos de aprendizagem de maquina para fazer a classificacao de pacientes Desafios: Normalmente existem poucos tecidos de cancer Retornar um padrao de confiaca Explicar decisoes do classificador Descoberta de novos sub-tipos de cancer Replicabilidade de experimentos
Expressão Diferencial Usar métodos estatísticos para listar genes ativos ou inativos em uma determinada celular Ie. câncer X não câncer Desafios: O que fazer quando mais de uma condição existe? Como definir limiar da lista de genes diferencias?
Detecção de Módulos Funcionais/Regulatorios Modulo Funcional: conjunto de genes associados a mesma função biológica genes tem o mesmo padrão de transcrição genes tem o mesmo reguladores Usar métodos de aprendizagem não supervisionada/clustering
Modulos Funcionais Estudo do Ciclo Celular da Levedura Processo de divisão celular Medir a expressão gênica de células ao decorrer do ciclo.
metodo de clustering Grupo 4Grupo 3 Grupo 2 genes Grupo 1 tempo YIR017C YJL118W YER019W YDR113C YJR043C YPL016W YBR156C YKR010C YPR141C... YDL093W YER016W YNL126W YKL053W YJL099W YDL198C YCR085W YBR043C YDR325W... ----- Gurpos de genes Modulos Funcional Ciclo Celular
Grupo 4Grupo 3 Grupo 2 Grupo 1 Modulo Regulatorios Ciclo Celular YIR017C YJL118W YER019W YDR113C YJR043C YPL016W YBR156C YKR010C YPR141C... YDL093W YER016W YNL126W YKL053W YJL099W YDL198C YCR085W YBR043C YDR325W... ----- ORF 3 UTR mir 181a mir 26a mir 142
Ferramentas para Analise de Expressão Gênica
Bancos de dados Gene Expression Omnibus (ncbi) http://www.ncbi.nlm.nih.gov/geo/ Stanford Microarray Database http://smd.stanford.edu/ Array Express http://www.ebi.ac.uk/microarray-as
Software Bioconductor (em R) www.bioconductor.org Pré-processamento, clustering, classificação GeneCluster eisen.lbl.gov/eisensoftware.html Clustering e Red-green plots MiDAs/MEV TIGR www.tigr.org/softlab Pre-processamento, clustering e classificação