I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária

Documentos relacionados
Árvores de decisão e seus refinamentos na predição genômica da resistência à ferrugem alaranjada em café arábica

Predição genômica de caracteres quantitativos por meio de Redes Neurais Artificias

Técnicas computacionais em probabilidade e estatística II

Modelos de regressão para dados correlacionados. Cibele Russo

Apresentação... Prefácio...

Avaliação genética. Os pais não transmitem o seu genótipo aos descendentes e sim uma amostra aleatória de genes.

MÉTODOS DE SELEÇÃO. Professor: Dr. Alexandre Leseur dos Santos Mestranda: Lurdes Rodrigues Estágio em Docência I Disciplina: Melhoramento Genético

NOÇÕES DE GENÉTICA QUANTITATIVA

CC-226 Aula 07 - Estimação de Parâmetros

Distribuições Amostrais e Estimação Pontual de Parâmetros

TACG GWAS utilizando Random Forest: estudo de caso em bovinos de corte

Estudo comparativo da Teoria Bayesiana: Aplicação de métodos bayesianos a dados genéticos Taís Aparecida ALVARENGA1 Márcio BALESTRE2

MELHORAMENTO GENÉTICO. Seleção Genômica

Cap. 4 - Estimação por Intervalo

μ = σ 2 g = 50.1 ApoE e colesterol em uma população canadense ε ε ε Genóti po Freq. H-W

Econometria em Finanças e Atuária

Estudo da diversidade com sequências de DNA

Análise Multivariada Aplicada à Contabilidade

Inferência Estatistica

RESOLUÇÃO Nº 01/2016

MOQ-13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Ralph S. Silva

Inteligência Artificial

Estimação e Testes de Hipóteses

Centro Internacional de Pobreza (PNUD/IPEA) Fabio Veras Soares. Estimação do Impacto de Múltiplos Tratamentos e do. Escore de Propensão Generalizado

Coeficiente de determinação R 2 no modelo de regressão linear normal

Variação ambiental Poligenes

p(x) Note que 1/p(x), que não depende de θ, funciona como uma constante normalizadora

Análise de Regressão Linear Simples e

A Metodologia de Box & Jenkins

MOQ 13 PROBABILIDADE E ESTATÍSTICA. Professor: Rodrigo A. Scarpel

Minera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33

Modelos Lineares Generalizados - Estimação em Modelos Lineares Generalizados

Econometria. Econometria MQO MQO. Resíduos. Resíduos MQO. 1. Exemplo da técnica MQO. 2. Hipóteses do Modelo de RLM. 3.

INTRODUÇÃO À CALIBRAÇÃO MULTIVARIADA

Distribuições Amostrais e Estimação Pontual de Parâmetros

Roteiro. PCC142 / BCC444 - Mineração de Dados Classicadores Bayesianos. Representação dos Dados. Introdução

PREVISÃO. Prever o que irá. acontecer. boas decisões com impacto no futuro. Informação disponível. -quantitativa: dados.

MAE0524: Análise Bayesiana de Dados

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

Intervalos de Confiança

Disciplina de Modelos Lineares Professora Ariane Ferreira

PREDIÇÃO SIMULTÂNEA DOS EFEITOS DE MARCADORES MOLECULARES E SELEÇÃO GENÔMICA AMPLA EM CAJUEIRO 1

Modelos Lineares Generalizados - Modelos log-lineares para tabelas de contingência

MAE0229 Introdução à Probabilidade e Estatística II

Quantitativos + Qualitativos 17/03/2016. Variabilidade Genética Como surgem as variações genéticas? Mutações! Controle Genética e Herdabilidade

Uma Avaliação do Erro Tipo II no Uso do Teste t-student

Métodos Estatísticos

Mapas de Ligação e de. Marcadores Moleculares a Programas de Melhoramento

Utilização da Genômica na Seleção de suínos

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Modelos Bayesianos. Ernesto F. L. Amaral Magna M. Inácio

GANHO GENÉTICO NA CULTURA DA SOJA. Ivan Schuster

Stela Adami Vayego DEST/UFPR

Inferência Bayesiana

3. Considere uma amostra aleatória de tamanho 7 de uma normal com média 18. Sejam X e S 2, a média e a variância amostral, respectivamente.

Estatística aplicada ao Melhoramento animal

Distribuições Amostrais - Tamanho da Amostra

Econometria. Econometria ( ) O modelo de regressão linear múltipla. O modelo de regressão linear múltipla. Aula 2-26/8/2010

MODELO DE DECISÃO PARA ESCOLHA DE PORTFOLIO DE INVESTIMENTOS

Genética Quantitativa I Capítulo 11. Seleção

Métodos Quantitativos para Ciência da Computação Experimental

Distribuições Amostrais e Estimação Pontual de Parâmetros

Aprendizagem Bayesiana

CONHECIMENTOS ESPECÍFICOS

Cap. 8 - Intervalos Estatísticos para uma Única Amostra

Universidade Federal do Pará Instituto de Tecnologia ESTATÍSTICA APLICADA. Campus de Belém Curso de Engenharia Mecânica

Aprendizagem de Máquina

Rafael Izbicki 1 / 38

Por quê? Variação ambiental Poligenes. Variação ambiental Poligenes. Normas de Reação. Fenótipo é qualquer característica mensurável.

RESUMO DO CAPÍTULO 3 DO LIVRO DE WOOLDRIDGE ANÁLISE DE REGRESSÃO MÚLTIPLA: ESTIMAÇÃO

Lucas Santana da Cunha e 30 de julho de 2018 Londrina

4 Modelos Lineares Generalizados

MÉTODOS QUANTITATIVOS PARA CIÊNCIA DA COMPUTAÇÃO EXPERIMENTAL

Tratamento Estatístico de Dados em Física Experimental

Universidade Federal do Pará Instituto de Tecnologia. Plano da Disciplina. Campus de Belém Curso de Engenharia Mecânica

Estudo da Variabilidade Genética com Apoio do R

Modelagem em Experimentos Mistura-Processo para Otimização de Processos Industriais 15

Testes de Hipótese para uma única Amostra - parte II

Análise Multivariada Aplicada à Contabilidade

Análise de regressão linear simples. Diagrama de dispersão

DELINEAMENTO INTEIRAMENTE CASUALIZADO. Profª. Sheila Regina Oro

Métodos Computacionais para inferência estatística

ESTATÍSTICA COMPUTACIONAL

CLASSIFICADORES BAEYSIANOS

Implementação do Best Linear Unbiased Prediction (BLUP) em Python para avaliação genética animal

APLICAÇÃO DE MARCADORES MOLECULARES NA HIBRIDAÇÃO DE EUCALIPTO

Definição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.

Avanços no entendimento da relação entre genótipo e fenótipo através de marcadores genéticos

Intervalos de Confiança

Capítulo 2. Distribuições de Probabilidade Estimativas de parâmetros e tempos-atéfalha. Flávio Fogliatto

Modelos Lineares Generalizados - Verificação do Ajuste do Modelo

3 Modelo Matemático Definições Iniciais. Denote-se, em geral, o desvio-padrão do processo por σ = γσ 0, sendo σ 0 o

Inferência Estatística:

INTRODUÇÃO INTRODUÇÃO INTRODUÇÃO 15/05/2014. Baixa produtividade. Variação na qualidade da carne. ±7,5 milhões de empregos

Distribuição Amostral e Estimação Pontual de Parâmetros

Transcrição:

I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária Camila Ferreira Azevedo Professora Departamento de Estatística - UFV Email: camila.azevedo@ufv.br 1

Colaboradores: 2

Um pouco sobre Seleção e Associação Genômica O que ocasiona a diferença entre os indivíduos? 3

Informações Fenotípicas y = 1,5 3,0 5,0 Informações Moleculares X = 1 1 0 2 2 0 4

Seleção Genômica (GWS) Associação Genômica (GWAS) Estimar o efeito de todos os marcadores simultaneamente no fenótipo: y = X መβ Identificar os indivíduos geneticamente com base no seu valor genômico estimado. Calcular medidas de acurácia e viés e estimar parâmetros genéticos de interesse (variância genética e herdabilidade). Identificar regiões cromossômicas relevantes não considerando significância estatística. Geralmente, os marcadores são estimados um a um ou por meio de regiões. Identificar variantes causais no genoma de um grande número de indivíduos para descobrir associações estatísticas significativas (pvalor) entre os marcadores e os fenótipos. Investigar as regiões cromossômicas em que estas variantes significativas se encontram e relacioná-las com funções biológicas acessando banco de dados genômicos. 5

Mas o que os procedimentos estatísticos da GWS e da GWAS tem em comum? Manipulação de bancos de dados de alta dimensionalidade A aplicação prática dessas metodologias é um desafio. Os softwares estatísticos existentes apresentam: Interfaces complicadas; Requerem conhecimento de linguagens de programação; Licença de uso. 6

SOFTWARE R R é uma linguagem e também um ambiente de desenvolvimento integrado para análises estatísticas e gráficos. Vantagens: Software livre (http://cran.r-project.org); Suporta a manipulação de grandes conjuntos de dados; Composto por módulos denominados de pacotes, os quais contemplam funções para análises estatísticas; Funções otimizadas; Geralmente, os pacotes estão associados a artigos científicos. 7

SOFTWARE R Desvantagens: Requerem o desenvolvimento de linhas de comando; Desafio para os usuários leigos e sem formação na área de programação. 8

O processo de programação do GenomicLand segue as principais diretrizes: Interface com o software R, permitindo o uso dos principais pacotes deste software; Interface intuitiva e de fácil acesso aos usuários; Permita que o usuário utilize todos os procedimentos estatísticos necessários para uma abordagem completa de seleção e associação genômica sem a necessidade de utilização de outro software. 9

10

GenomicLand Fase de teste e de sugestões; Sistemas Operacionais testados: Windows (7, 10 e Vista) Linux (Ubuntu) Estará disponível em breve para download no site do LICAE: https://licaeufv.wordpress.com/ O usuário necessita de ter o R instalado e os pacotes listados. 11

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Efeitos aleatórios Marcadores codificados em 0, 1 e 2 12

13

Controle de Qualidade 14

Controle de Qualidade Elimina-se os marcadores que tiverem MAF Valor definido; Elimina-se os marcadores que tiverem Call Rate Valor definido; Elimina-se os marcadores que tiverem suas frequências observadas desviando-se das esperadas pelo Equilíbrio de Hardy- Weinberg conforme o nível de significância desejado. Imputação pela média do marcador conforme o tipo (SNP ou DArT). 15

HELP 16

Outputs 17

Outputs i. Arquivo de frequências alélicas e Gráfico da MAF: Todos os arquivos são salvos em formato csv e separados por virgula. 18

Outputs ii. Arquivo de Call Rate e arquivo de marcadores após a limpeza: 19

Componentes Principais da Matriz G 20

HELP 21

ARQUIVOS DE DADOS Identificação dos indivíduos Efeitos Fixos Efeitos Aleatórios Fenótipos Marcadores 22

Outputs 23

Outputs i. Matriz de Parentesco Genômico (G): Parentesco entre os indivíduos: @52067200649406102410408632092221 e @52067200649406102410408632092214 24

Outputs ii. Componentes Principais (scores) da matriz G 25

Outputs iii. Gráfico dos dois primeiros Componentes Principais (scores) da matriz G 26

ARQUIVOS DE DADOS Identificação dos indivíduos População Fenótipos Efeitos Fixos Efeitos Aleatórios Marcadores 27

Outputs 28

Outputs iii. Gráfico dos dois primeiros Componentes Principais (scores) da matriz G 29

30

Modelos Mistos Genômico (G-BLUP) O modelo linear misto para valores genéticos genômicos aditivos (u a ), valores genéticos genômicos devido a desvios de dominância (u d ), valores genéticos genômicos epistáticos aditivo aditivo (u e ) é apresentado a seguir: y = Xb + Sf + Zu a + Zu d + Zu i + e Fenótipos Efeitos Fixos Efeitos Aleatórios Efeitos aleatórios epistáticos (ad ad) Efeitos aleatórios devido à dominância Efeitos aleatórios aditivos 31

Modelos Mistos Genômico (G-BLUP) As equações de modelo misto para predizer os valores genéticos aditivos, devido a dominância e epistáticos: X X X S X Z X Z X Z S X S S + I σ e 2 σ r 2 S Z S Z S Z Z X Z S Z Z + G a 1 σ e 2 σ a 2 Z Z Z Z Z X Z S Z Z Z Z + G d 1 σ e 2 σ d 2 Z Z Z X Z S Z Z Z Z Z Z + G i 1 σ e 2 σ i 2 b መf u a u d u i = X y S y Z y Z y Z y em que G a é a matriz de parentesco aditiva, G d é a matriz de parentesco devido à dominância e G i é a matriz de parentesco devido à epistasia. 32

33

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Efeitos aleatórios Marcadores codificados em 0, 1 e 2 34

Help 35

Outputs 36

Outputs por Fold Parte aditiva Total Parte devido à dominância 37

Parte aditiva Outputs Total Parte devido à dominância Medidas de qualidade de ajuste 38

39

Métodos Bayesianos Os métodos bayesianos são baseados no Teorema de Bayes para variáveis aleatórias. Sendo assim, tem-se: P θ Y = P Y θ P(θ) P(Y) = P Y θ P(θ) θ P(Y, θ)dθ = θ P Y θ P(θ) P Y θ P θ dθ em que θ é o parâmetro e Y os dados. Em termos de proporcionalidade, P θ Y P Y θ P(θ) Posteriori Verossimilhança Priori

Métodos Bayesianos Os métodos também são baseados em um modelo linear, no entanto, este modelo a nível de marcadores, ou seja: y = Xb + Zf + Wm a + Sm d + e Fenótipos Efeitos Fixos (Sistemáticos) Efeitos Aleatórios Efeitos aleatórios devido à dominância Efeitos aleatórios aditivos Para todos os efeitos acima é assumido uma distribuição de probabilidade, uma vez que são desconhecidos!! 41

Diferença entre os Métodos Bayesianos Regressão Ridge Bayesiana: m ai ~N(0, σ 2 ma ) e m di ~N(0, σ 2 md ) 2 BayesA: m ai ~N(0, σ mai 2 ) e m di ~N(0, σ mdi ) 2 BayesB: m ai ~πn 0, σ mai 2 m di ~πn 0, σ mdi 2 + (1 π)n(0, σ mai =0) 2 + (1 π)n(0, σ mdi =0) Determinado subjetivamente BayesCπ: m ai ~π a N 0, σ2 ma + (1 π a )N(0, σ2 ma = 0) 2 2 m di ~π d N 0, σ md + (1 π d )N(0, σ md = 0) Variável aleatória BLASSO: m ai λ a ~DE 0, σ λ a e m di λ a ~DE 0, σ λ d

43

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Efeitos aleatórios Marcadores codificados em 0, 1 e 2 44

Help 45

Outputs 46

Outputs 47

Outputs por Fold Parte aditiva 48

Outputs Parte aditiva Medidas de qualidade de ajuste Apresenta também as cadeias para os efeitos de marcadores, para a variância e para a média. 49

50

Métodos de Redução de Dimensionalidade Os métodos também são baseados em um modelo linear, no entanto, este modelo a nível de marcadores pode somente conter efeitos fixos, ou seja: y = Xb + Wm a + e Fenótipos Efeitos Fixos y = Tβ + e Efeitos fixos aditivos Os métodos de redução de dimensionalidade são baseados em variáveis latentes, denominados componentes. 51

Métodos de Redução de Dimensionalidade Componentes: T i = a 1 x 1i + a 2 x 2i + + a p x pi Efeitos fixos ambientais + b 1 w 1i + b 2 w 2i + + b n w ni Efeitos fixos aditivos A questão é: Determinar estes coeficientes a e b!! Isso é que vai diferenciar os métodos. PCR: Extraem os componentes que maximizam a Var(T). PLS: Extraem os componentes que maximizam a Cov(T, Y). ICR: Extraem os componentes que maximizam a independência entre eles. 52

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Marcadores codificados em 0, 1 e 2 53

Help 54

Outputs 55

Outputs Três critérios para determinar o número de componentes a serem incluídos no modelo. 56

Help 57

Outputs 58

59

Aprendizado de máquinas Árvore de regressão: Um método de análise de dados que recursivamente particiona dados em conjuntos, cada um dos quais é simplesmente modelado usando métodos de regressão. Nós internos SNP597 < 1.5 30.1700 SNP1957 < 0.5 34.2300 SNP1711 < 1.5 23.6300 SNP512 < 1.5 SNP1686 < 0.5 41.5300 44.7300 32.1600 31.8200 SNP1150 < 0.5 SNP900 < 1.5 25.0500 30.7400 19.6100 Nós terminais ou folhas da árvore 33.4000 36.7800 29.9100 SNP1148 < 1.5 26.7600 SNP1589 < 0.5 SNP87 < 0.5 22.1400 30.2800 8.7250 23.8200 28.3000 40.3800 SNP1003 < 1.5 SNP139 < 0.5 2.8140 8.4200-7.1520-0.8576 17.7000

Aprendizado de máquinas Bagging: Procedimento com a finalidade de reduzir a variância de um método estatístico de aprendizagem. Para aplicar o bagging às árvores de regressão, simplesmente construímos B árvores de regressão usando B amostras de treinamento bootstrap e tiramos a média das predições resultantes. Random Forest: Muito similar ao bagging, no entanto, força as divisões das árvores a considerarem apenas um subconjunto de preditores. Isso leva a: i) Variável mais importante não estará sempre no topo; ii) Árvores diferentes; iii) Predições menos correlacionadas; iv) Maior redução da variabilidade.

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Marcadores codificados em 0, 1 e 2 62

Help 63

Outputs 64

65

Associação genômica via marcas únicas A ideia é estimar um a um efeito de cada marcador no fenótipo e após a estimação verificar por meio de testes de hipótese se este efeito é significativo. Sendo assim, y = 1μ + Wm i + e Fenótipos Média Assume que o marcador afetará o caráter apenas se ele estiver em LD com o suposto QTL. Efeito fixo do i-ésimo marcador 66

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Marcadores codificados em 0, 1 e 2 67

Help 68

Outputs 69

Outputs i. Arquivo com o p-valor e q valor dos testes de hipótese e a proporção de explicação de cada marcador. 70

Outputs 71

Outputs 72

Perspectivas futuras: Sugestões do usuário: genomicland@gmail.com Atualizar o software com as sugestões do usuário para facilitar a sua utilização; Utilizar o software na disciplina de EST732 (Métodos Estatísticos na Seleção Genômica); Atualizar o software periodicamente com métodos inovadores. 73

AGRADECIMENTOS 74

Obrigada pela Atenção! https://licaeufv.wordpress.com/ 75