DESENVOLVIMENTO DE UMA FUNÇÃO NO R PARA ANÁLISE DE TRILHA Édimo F. A. Moreira 1 ; Luiz Alexandre Peternelli 2 ; Laís M. A. Barroso 1 RESUMO A análise de trilha é uma metodologia bastante útil para a identificação de genótipos produtivos baseados em características indiretas. Assim, o estudo de formas eficientes de realizar tais análises é de suma importância dentro dos programas de melhoramento genético de plantas. O objetivo desse trabalho é o desenvolvimento de uma função para a fácil realização da análise de trilha no software R, A vantagem de se desenvolver essa função no R é que este é um software livre e que permite que a análise possa ser realizada em computadores com qualquer sistema operacional. Essa função poderia, também, ser facilmente usada em trabalhos de simulação realizadas no R. Uma matriz de correlação, de qualquer natureza, apresentada pelo usuário é o ponto de partida para a execução da função, uma vez que a análise de trilha é uma decomposição do coeficiente de correlação em efeitos diretos e indiretos. O usuário simplesmente carrega a função no R, informa a matriz de correlação a ser usada e o número de variáveis de interesse. Os resultados obtidos incluem todos os coeficientes de trilha de interesse. A grande vantagem da realização de análise de trilha no R é a simplicidade e a praticidade com que esta pode ser feita, bastando carregar a função e usar alguns comandos bem simples. INTRODUÇÃO A análise de trilha, desenvolvida por Wright (1923) consiste no estudo dos efeitos diretos e indiretos de caracteres independentes explicativos sobre uma variável dependente principal básica, cujas estimativas são obtidas por meio de equações de regressão, em que as variáveis são padronizadas. A análise de trilha visa apontar as características mais adequadas para que seja feita uma seleção indireta de genótipos mais produtivos. Assim a análise de trilha surge como uma metodologia bastante útil para otimizar o processo de identificação de genótipos (ou indivíduos) promissores com base em características indiretas. Desta maneira, o estudo de formas eficientes de se realizar tais análises é de suma importância dentro dos objetivos dos programas de melhoramento de plantas, em especial da cana-de-açúcar. Viçosa (UFV); 2 Professor associado do Departamento de Estatística, UFV Página 1
O uso de pacotes estatísticos para a análise dados é de grande importância no que se refere á análise e interpretação dos resultados. Contudo observa-se que estes apresentam um custo de aquisição relativamente elevado. Atualmente é grande a procura e também os incentivos ao uso dos chamados softwares livres. Dentre os softwares de domínio público, livres, que podem ser utilizados para análise de dados em geral, encontra-se o R (www.r-project.org). Além de ser gratuito, apresenta código fonte aberto, podendo ainda ser modificado ou implementado. Além disso, o R pode ser utilizado em computadores com qualquer sistema operacional, e as funções podem ser facilmente usadas em trabalhos de simulação, quando muitas análises devem ser realizadas iterativamente. O objetivo desse trabalho é apresentar uma função na linguagem R de programação para a realização de análises de trilha usando valores fenotípicos de caracteres agronômicos importantes para os programas de melhoramento em geral. MATERIAL E MÉTODOS A função foi desenvolvida para realização da análise de trilha conforme metodologia apresentado em (CRUZ et al., 2004). Nesse caso, estimam-se as correlações e realiza-se a análise de trilha com base nesses valores. A matriz de correlação é uma matriz obtida com todas as variáveis em estudo. Ou seja, temos nesta matriz, a correlação entre a variável principal e as variáveis explicativas, e também, temos as correlações entre as variáveis explicativas. Esta matriz é o ponto de partida, uma vez que a análise de trilha é uma decomposição do coeficiente de correlação em efeitos diretos e indiretos. Para obtenção de um objeto que contém os coeficientes de trilha, necessitamos da matriz de correlação entre as variáveis explicativas, e de uma matriz que contenha os efeitos diretos. A matriz de correlação entre as variáveis explicativas, e a matriz de correlação da variável principal com as variáveis explicativas será obtida a partir da matriz de correlação inicial contendo as variáveis principais. Para a obtenção de um objeto que Viçosa (UFV); 2 Professor associado do Departamento de Estatística, UFV Página 2
contenha os efeitos diretos, basta inverter a matriz de correlação entre as variáveis explicativas e multiplicar pela matriz de correlação da variável principal com as variáveis explicativas. A partir da matriz que contém os efeitos diretos será obtida uma matriz de dimensão igual ao número de variáveis explicativas, onde cada coluna dessa matriz contém os efeitos diretos. Essa matriz multiplicada pela matriz de correlação entre as variáveis explicativas fornece um objeto (matriz) que contém os coeficientes de trilha. A função foi desenvolvida no Laboratório de Pesquisa em Estatística (LAPE) no Departamento de Estatística (DET) da Universidade Federal de Viçosa. Para verificação da validade das funções foram utilizados os dados da tabela 5.10 da página 330, da referência CRUZ, et. al. (2004). RESULTADOS E DISCUSSÃO A função que foi desenvolvida permite a realização da análise de trilha, e é apresentada a seguir: Analise.de.Trilha<function(matriz.de.correlacao,numero.de.variaveis) { m.cor<-matriz.de.correlacao n<-numero.de.variaveis r<-m.cor[2:n,n:n] a<-solve(r) b<-m.cor[1,2:n] x<-a%*%b y<-cbind(x,x,x,x) solucao<-y%*%r return(solucao) } Nesta função temos que, Viçosa (UFV); 2 Professor associado do Departamento de Estatística, UFV Página 3
Analise.de.Trilha<function(matriz.de.correlacao,numero.de.variaveis)# este comando informa que a análise de trilha, é feita, em função da matriz de correlação, e do número de variáveis. { - informa o início da função. m.cor<-matriz.de.correlacao # a matriz de correlação será chamada de m.cor. n<-numero.de.variaveis # n é o número de variáveis. r<-m.cor[2:n,n:n] # r é a matriz de correlação entre as variáveis explicativas. a<-solve(r) # a matriz inversa de r será chamada de a. b<-m.cor[1,2:n] # a matriz de correlação entre a variável principal e as explicativas será chamada de b. x<-a%*%b # o produto entre as matrizes a e b, será chamado de x, está é uma matriz que contém os efeitos diretos. y<-cbind(x,x,x,x) # y é uma matriz de mesma dimensão da matriz r, onde as colunas são compostas dos efeitos diretos. solucao<-y%*%r # o objeto que contém os coeficientes de trilha será chamado de solução. return(solucao) # indica que a função irá retornar o objeto solução } # informa o fim da função Com a função, o procedimento para a realização de análise de trilha está apresentado a seguir. Detalhes em como usar os comandos podem ser encontrados em Peternelli e Pupin (2011). 1) Entrar com o arquivo de dados O arquivo deve conter apenas as médias e a primeira coluna deve conter sempre a variável principal e as demais as variáveis explicativas. 2) Ler o arquivo de dados Viçosa (UFV); 2 Professor associado do Departamento de Estatística, UFV Página 4
Para a leitura do arquivo de dados usa-se a função read.table(), bastando fornecer o endereço do arquivo de dados. 3) Carregar a função no R 4) Obter a matriz de correlação A matriz de correlação entre médias é obtida calculando a correlação entre os dados, através do comando cor (dados). O objeto dados se refere ao arquivo lido pela função read.table(). 5) Informar o número de variáveis no estudo Na matriz resultante, os valores da diagonal principal são os efeitos diretos e os outros valores na coluna (fora do diagonal) são os efeitos indiretos. CONCLUSÃO A análise de trilha no R é realizada de maneira simples e prática, bastando carregar a função, e usar alguns comandos bem simples. Essa função pode ser facilmente usada em trabalhos de simulação, quando muitas análises necessitam ser realizadas iterativamente. REFERÊNCIAS BIBLIOGRÁFICAS PETERNELLI, L. A., PUPIN, M. Conhecendo o R: série didática. Viçosa: Ed. UFV, 2011, 185p. WRIGHT, S. The theory of path coefficients: a replay to Niles criticism. Genetics,v.8,n.3,p.239-255,1923. CRUZ, C. D. ; REGAZZI, A. J. ; CARNEIRO, P.C. S. Modelos biométricos aplicados ao melhoramento genético. v. 1. 3ª ed., Viçosa: Editora UFV, 2004, 480p. Viçosa (UFV); 2 Professor associado do Departamento de Estatística, UFV Página 5