I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária

I Workshop em Inteligência Computacional e Aprendizado Estatístico Aplicados à Agropecuária Camila Ferreira Azevedo Professora Departamento de Estatística - UFV Email: camila.azevedo@ufv.br 1

Colaboradores: 2

Um pouco sobre Seleção e Associação Genômica O que ocasiona a diferença entre os indivíduos? 3

Informações Fenotípicas y = 1,5 3,0 5,0 Informações Moleculares X = 1 1 0 2 2 0 4

Seleção Genômica (GWS) Associação Genômica (GWAS) Estimar o efeito de todos os marcadores simultaneamente no fenótipo: y = X መβ Identificar os indivíduos geneticamente com base no seu valor genômico estimado. Calcular medidas de acurácia e viés e estimar parâmetros genéticos de interesse (variância genética e herdabilidade). Identificar regiões cromossômicas relevantes não considerando significância estatística. Geralmente, os marcadores são estimados um a um ou por meio de regiões. Identificar variantes causais no genoma de um grande número de indivíduos para descobrir associações estatísticas significativas (pvalor) entre os marcadores e os fenótipos. Investigar as regiões cromossômicas em que estas variantes significativas se encontram e relacioná-las com funções biológicas acessando banco de dados genômicos. 5

Mas o que os procedimentos estatísticos da GWS e da GWAS tem em comum? Manipulação de bancos de dados de alta dimensionalidade A aplicação prática dessas metodologias é um desafio. Os softwares estatísticos existentes apresentam: Interfaces complicadas; Requerem conhecimento de linguagens de programação; Licença de uso. 6

SOFTWARE R R é uma linguagem e também um ambiente de desenvolvimento integrado para análises estatísticas e gráficos. Vantagens: Software livre (http://cran.r-project.org); Suporta a manipulação de grandes conjuntos de dados; Composto por módulos denominados de pacotes, os quais contemplam funções para análises estatísticas; Funções otimizadas; Geralmente, os pacotes estão associados a artigos científicos. 7

SOFTWARE R Desvantagens: Requerem o desenvolvimento de linhas de comando; Desafio para os usuários leigos e sem formação na área de programação. 8

O processo de programação do GenomicLand segue as principais diretrizes: Interface com o software R, permitindo o uso dos principais pacotes deste software; Interface intuitiva e de fácil acesso aos usuários; Permita que o usuário utilize todos os procedimentos estatísticos necessários para uma abordagem completa de seleção e associação genômica sem a necessidade de utilização de outro software. 9

GenomicLand Fase de teste e de sugestões; Sistemas Operacionais testados: Windows (7, 10 e Vista) Linux (Ubuntu) Estará disponível em breve para download no site do LICAE: https://licaeufv.wordpress.com/ O usuário necessita de ter o R instalado e os pacotes listados. 11

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Efeitos aleatórios Marcadores codificados em 0, 1 e 2 12

Controle de Qualidade 14

Controle de Qualidade Elimina-se os marcadores que tiverem MAF Valor definido; Elimina-se os marcadores que tiverem Call Rate Valor definido; Elimina-se os marcadores que tiverem suas frequências observadas desviando-se das esperadas pelo Equilíbrio de Hardy- Weinberg conforme o nível de significância desejado. Imputação pela média do marcador conforme o tipo (SNP ou DArT). 15

HELP 16

Outputs 17

Outputs i. Arquivo de frequências alélicas e Gráfico da MAF: Todos os arquivos são salvos em formato csv e separados por virgula. 18

Outputs ii. Arquivo de Call Rate e arquivo de marcadores após a limpeza: 19

Componentes Principais da Matriz G 20

HELP 21

ARQUIVOS DE DADOS Identificação dos indivíduos Efeitos Fixos Efeitos Aleatórios Fenótipos Marcadores 22

Outputs 23

Outputs i. Matriz de Parentesco Genômico (G): Parentesco entre os indivíduos: @52067200649406102410408632092221 e @52067200649406102410408632092214 24

Outputs ii. Componentes Principais (scores) da matriz G 25

Outputs iii. Gráfico dos dois primeiros Componentes Principais (scores) da matriz G 26

ARQUIVOS DE DADOS Identificação dos indivíduos População Fenótipos Efeitos Fixos Efeitos Aleatórios Marcadores 27

Outputs 28

Outputs iii. Gráfico dos dois primeiros Componentes Principais (scores) da matriz G 29

Modelos Mistos Genômico (G-BLUP) O modelo linear misto para valores genéticos genômicos aditivos (u a ), valores genéticos genômicos devido a desvios de dominância (u d ), valores genéticos genômicos epistáticos aditivo aditivo (u e ) é apresentado a seguir: y = Xb + Sf + Zu a + Zu d + Zu i + e Fenótipos Efeitos Fixos Efeitos Aleatórios Efeitos aleatórios epistáticos (ad ad) Efeitos aleatórios devido à dominância Efeitos aleatórios aditivos 31

Modelos Mistos Genômico (G-BLUP) As equações de modelo misto para predizer os valores genéticos aditivos, devido a dominância e epistáticos: X X X S X Z X Z X Z S X S S + I σ e 2 σ r 2 S Z S Z S Z Z X Z S Z Z + G a 1 σ e 2 σ a 2 Z Z Z Z Z X Z S Z Z Z Z + G d 1 σ e 2 σ d 2 Z Z Z X Z S Z Z Z Z Z Z + G i 1 σ e 2 σ i 2 b መf u a u d u i = X y S y Z y Z y Z y em que G a é a matriz de parentesco aditiva, G d é a matriz de parentesco devido à dominância e G i é a matriz de parentesco devido à epistasia. 32

Help 35

Outputs 36

Outputs por Fold Parte aditiva Total Parte devido à dominância 37

Parte aditiva Outputs Total Parte devido à dominância Medidas de qualidade de ajuste 38

Métodos Bayesianos Os métodos bayesianos são baseados no Teorema de Bayes para variáveis aleatórias. Sendo assim, tem-se: P θ Y = P Y θ P(θ) P(Y) = P Y θ P(θ) θ P(Y, θ)dθ = θ P Y θ P(θ) P Y θ P θ dθ em que θ é o parâmetro e Y os dados. Em termos de proporcionalidade, P θ Y P Y θ P(θ) Posteriori Verossimilhança Priori

Métodos Bayesianos Os métodos também são baseados em um modelo linear, no entanto, este modelo a nível de marcadores, ou seja: y = Xb + Zf + Wm a + Sm d + e Fenótipos Efeitos Fixos (Sistemáticos) Efeitos Aleatórios Efeitos aleatórios devido à dominância Efeitos aleatórios aditivos Para todos os efeitos acima é assumido uma distribuição de probabilidade, uma vez que são desconhecidos!! 41

Diferença entre os Métodos Bayesianos Regressão Ridge Bayesiana: m ai ~N(0, σ 2 ma ) e m di ~N(0, σ 2 md ) 2 BayesA: m ai ~N(0, σ mai 2 ) e m di ~N(0, σ mdi ) 2 BayesB: m ai ~πn 0, σ mai 2 m di ~πn 0, σ mdi 2 + (1 π)n(0, σ mai =0) 2 + (1 π)n(0, σ mdi =0) Determinado subjetivamente BayesCπ: m ai ~π a N 0, σ2 ma + (1 π a )N(0, σ2 ma = 0) 2 2 m di ~π d N 0, σ md + (1 π d )N(0, σ md = 0) Variável aleatória BLASSO: m ai λ a ~DE 0, σ λ a e m di λ a ~DE 0, σ λ d

Help 45

Outputs 46

Outputs 47

Outputs por Fold Parte aditiva 48

Outputs Parte aditiva Medidas de qualidade de ajuste Apresenta também as cadeias para os efeitos de marcadores, para a variância e para a média. 49

Métodos de Redução de Dimensionalidade Os métodos também são baseados em um modelo linear, no entanto, este modelo a nível de marcadores pode somente conter efeitos fixos, ou seja: y = Xb + Wm a + e Fenótipos Efeitos Fixos y = Tβ + e Efeitos fixos aditivos Os métodos de redução de dimensionalidade são baseados em variáveis latentes, denominados componentes. 51

Métodos de Redução de Dimensionalidade Componentes: T i = a 1 x 1i + a 2 x 2i + + a p x pi Efeitos fixos ambientais + b 1 w 1i + b 2 w 2i + + b n w ni Efeitos fixos aditivos A questão é: Determinar estes coeficientes a e b!! Isso é que vai diferenciar os métodos. PCR: Extraem os componentes que maximizam a Var(T). PLS: Extraem os componentes que maximizam a Cov(T, Y). ICR: Extraem os componentes que maximizam a independência entre eles. 52

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Marcadores codificados em 0, 1 e 2 53

Help 54

Outputs 55

Outputs Três critérios para determinar o número de componentes a serem incluídos no modelo. 56

Help 57

Outputs 58

Aprendizado de máquinas Árvore de regressão: Um método de análise de dados que recursivamente particiona dados em conjuntos, cada um dos quais é simplesmente modelado usando métodos de regressão. Nós internos SNP597 < 1.5 30.1700 SNP1957 < 0.5 34.2300 SNP1711 < 1.5 23.6300 SNP512 < 1.5 SNP1686 < 0.5 41.5300 44.7300 32.1600 31.8200 SNP1150 < 0.5 SNP900 < 1.5 25.0500 30.7400 19.6100 Nós terminais ou folhas da árvore 33.4000 36.7800 29.9100 SNP1148 < 1.5 26.7600 SNP1589 < 0.5 SNP87 < 0.5 22.1400 30.2800 8.7250 23.8200 28.3000 40.3800 SNP1003 < 1.5 SNP139 < 0.5 2.8140 8.4200-7.1520-0.8576 17.7000

Aprendizado de máquinas Bagging: Procedimento com a finalidade de reduzir a variância de um método estatístico de aprendizagem. Para aplicar o bagging às árvores de regressão, simplesmente construímos B árvores de regressão usando B amostras de treinamento bootstrap e tiramos a média das predições resultantes. Random Forest: Muito similar ao bagging, no entanto, força as divisões das árvores a considerarem apenas um subconjunto de preditores. Isso leva a: i) Variável mais importante não estará sempre no topo; ii) Árvores diferentes; iii) Predições menos correlacionadas; iv) Maior redução da variabilidade.

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Efeitos Fixos Marcadores codificados em 0, 1 e 2 62

Help 63

Outputs 64

Associação genômica via marcas únicas A ideia é estimar um a um efeito de cada marcador no fenótipo e após a estimação verificar por meio de testes de hipótese se este efeito é significativo. Sendo assim, y = 1μ + Wm i + e Fenótipos Média Assume que o marcador afetará o caráter apenas se ele estiver em LD com o suposto QTL. Efeito fixo do i-ésimo marcador 66

ARQUIVOS DE DADOS Identificação dos indivíduos Fenótipos Marcadores codificados em 0, 1 e 2 67

Help 68

Outputs 69

Outputs i. Arquivo com o p-valor e q valor dos testes de hipótese e a proporção de explicação de cada marcador. 70

Outputs 71

Outputs 72

Perspectivas futuras: Sugestões do usuário: genomicland@gmail.com Atualizar o software com as sugestões do usuário para facilitar a sua utilização; Utilizar o software na disciplina de EST732 (Métodos Estatísticos na Seleção Genômica); Atualizar o software periodicamente com métodos inovadores. 73

AGRADECIMENTOS 74

Obrigada pela Atenção! https://licaeufv.wordpress.com/ 75