PhyCon Manual do Usuário 1,3Karla S. C.Yotoko 2Tibério B. Vale 3Sandro L. Bonatto 1 Departamento de Biologia Geral, Universidade Federal de Viçosa; 2 Departamento de Astronomia, Instituto de Física, Universidade Federal do Rio Grande do Sul; 3 Laboratório de Biologia Genômica e Molecular, Pontifícia Universidade Católica do Rio Grande do Sul. Viçosa, Maio/2007 Generalidades sobre o PhyCon. O PhyCon é um script em Perl que permite a construção de árvores filogenéticas através da execução automática de diferentes programas amplamente utilizados neste tipo de análise. A atual versão do PhyCon utiliza o programa ClustalW para o alinhamento das seqüências, o ModelTest para a inferência de modelos de substituição e o PAUP* para a inferência de árvores filogenéticas utilizando os métodos de Máxima Verossimilhança e Máxima Parcimônia. A grande vantagem deste programa é que ele permite aos usuários não familiarizados com linguagens de programação a análise de diferentes partições gênicas com um único script, sem a intervenção constante do usuário. Também está disponível a opção de concatenar as seqüências e fazer uma única análise concatenada, método conhecido na literatura como (SUPERMATRIX). Como obter o PhyCon O PhyCon está disponível no ftp da Universidade Federal de Viçosa através do link ftp://ufv.br/dbg/phycon. Nesta pasta, além da versão mais atual do PhyCon, estão disponíveis arquivos de teste, este manual, um manual em inglês (help.txt) e um arquivo controle (ver seção arquivo controle para maiores detalhes). 1 Pré-requisitos para usar o PhyCon 1-a Perl: Para utilizar o PhyCon é preciso instalar um interpretador Perl em seu computador. Para isso acesse a página http://www.perl.org/ e faça o download do ActivePerl for AIX, HP-UX, Linux, Mac OS X, Solaris, and Windows. Peça o Free Download. Há vários interpretadores Perl disponíveis. Escolha o programa apropriado ao seu sistema
operacional (se tiver dificuldades em escolher, peça ajuda a alguém mais experiente). Se você for usuário do Windows, no link ftp://ufv.br/dbg/phycon/activeperl há uma versão do active Perl específica para este sistema operacional. 1-b Arquivos de entrada (Input files): Os arquivos de entrada devem ser um conjunto seqüências (alinhadas ou não) de um determinado grupo de organismos (OTUs). Cada arquivo deve conter a seqüência de apenas um segmento gênico em todas as OTUs a serem estudadas. Todos os arquivos devem conter as mesmas OTUs (Unidades Taxonômicas Operacionais), que devem ser fornecidas ao programa no formato FASTA (Box 1). Como os arquivos gerados no PhyCon serão preferencialmente utilizados no PAUP, recomenda-se que os nomes das OTUs não tenham nenhum espaço nem qualquer caractere diferente de letras ou números, com exceção do underline (_). Obs: Caso o usuário pretenda utilizar os arquivos gerados no PhyCon em outros programas, deve tomar o cuidado de nomear suas seqüências da forma mais geral possível: com no máximo 10 caracteres alfanuméricos, sem espaços e sem nenhum tipo de outro caractere. 2 Utilizando o Phycon modo gráfico: Dê duplo-clique no arquivo perl PhyCon.pl t Aparecerá uma tela, onde todas as opções do PhyCon ficam disponíveis (fig.1)
Para usar o PhyCon o usuário precisa apenas responder às questões apresentadas na interface gráfica. É extremamente recomendável copiar a pasta example que está no ftp://ufv.br/dbg/phycon e seguir todos os passos utilizando este exemplo, que é relativamente pequeno e pode ajudar a compreender o que o PhyCon efetivamente faz. Questões: 1) Select all FASTA files: pressione o botão Select Fasta Files para procurar, em seu computador, onde seus arquivos de entrada estão localizados. Você pode selecionar um ou vários arquivos FASTA, desde que eles tenham as mesmas OTUs. 2) Select sequences type: Indique apenas se você inseriu uma seqüência de aminoácidos ou de nucleotídeos (basta dar um clique com o mouse na opção desejada)
3) Align sequences in PhyCon? O PhyCon pode alinhar as suas seqüências ou não, depende das suas necessidades. Quando se trata de vários arquivos FASTA a serem avaliados de uma só vez (vários genes das mesmas OTUs), dificilmente será possível fazer alinhamentos que possam ser visualmente inspecionados. Por outro lado, quando o usuário estiver avaliando um pequeno número de seqüências, a inspeção visual é possível e extremamente recomendável. Assim, sempre que puder, alinhe suas seqüências da forma mais acurada possível e só depois utilize os alinhamentos no PhyCon (no formato FASTA). 4) Do these sequences codify proteins? Se você tiver optado por fazer o alinhamento com o PhyCon, deve especificar se suas seqüências são codificadoras de proteínas ou não. Em caso negativo, o PhyCon alinhará suas seqüências utilizando apenas as seqüências nucleotídicas utilizando o programa Clustalw. 5) Insert the genetic code filename: Se você respondeu Yes à pergunta anterior, o PhyCon pode traduzir suas seqüências e alinha-las através da seqüência de aminoácidos, o que garante um alinhamento mais seguro. O PhyCon contém um algoritmo que traduz suas seqüências, as alinha com o ClustalW, substitui os aminoácidos alinhados pelos nucleotídeos originais e retorna um alinhamento de nucleotídeos. Atenção, esta opção só deve ser utilizada se suas seqüências codificadoras estiverem completas e sem íntrons (no caso de eucariotos). 6) Building trees method to use: Nesta verão do PhyCon você pode optar por fazer uma análise de Máxima Parcimônia (MP) ou de Máxima Verossimilhança (MV). Basta clicar na opção escolhida. Se você optar por uma análise de MV, o PhyCon utilizará o programa ModelTest para inferir qual o modelo de substituição de nucleotídeos é o mais adequado para o seu alinhamento. Este procedimento pode ser um tanto demorado a depender do tamanho dos seus conjuntos de dados. Vale ressaltar que o PAUP não faz análises de MV para seqüências protéicas. 7) Which kind of analysis do you want to perform? O PhyCon pode produzir uma super-matriz (uma árvore contendo todas as seqüências concatenadas) ou várias árvores independentes, uma para cada arquivo FASTA. Ele pode ainda fazer ambas as análises. 8) Search tree method to use: Como a busca pela melhor árvore nem sempre é uma tarefa simples qualquer que seja o método utilizado, existem algoritmos de busca que devem ser utilizados. Como regra geral o branch and bound é um excelente algoritmo, que no entanto (por questões de tempo de execução) só pode ser utilizado em análises que contenham um pequeno número de OTUs (até 15 mais ou menos). Pela mesma razão o uso do branch and bound não é o mais apropriado para ser utilizado com a análise de Máxima Verossimilhança. A busca heurística, ou Heuristic Search pode e deve ser utilizada com conjuntos maiores de dados e com os dois métodos. 9) Swap algorithm to use: Se você optou pela busca heurística na questão 8, deve optar pelo algoritmo de busca. Como regra geral, é recomendável o uso do TBR (Tree Bissection Reconection), mas o NNI e o SPR podem ser utilizados para viabilizar as análises de conjuntos muito grandes de OTUs.
10) Perform a parametric bootstrap? Depois de completadas todas as opções, você também pode optar por fazer ou não um teste de bootstrap, que é uma reamostragem com repetições dos sítios homólogos das seqüências alinhadas. Este é um dos testes mais amplamente utilizados em filogenia, e algumas revistas não aceitam publicar artigos que contenham árvores que não foram testadas com o bootstrap. 11) Insert the number of replications: Coloque apenas quantas replicações de bootstrap você deseja fazer. Não há limites para este número no PhyCon. O limite possível fica por conta do poder de processamento do seu computador e do tempo que você tem para esperar que a análise fique pronta. 12) After preparing all scripts, do you wanto to run PAUP? O PhyCon pode executar o PAUP internamente. Para isso, basta que você responda Yes a esta questão. LOCAL PROGRAMS PATHS Para funcionar, o PhyCon requer que os três programas estejam devidamente instalados no seu computador. Dois deles são de distribuição gratuita, o ClustalW e o ModelTest, que também estão disponíveis em ftp://ufv.br/dbg/phycon caso você ainda não os tenha. O terceiro programa pode ser adquirido através do link http://paup.csit.fsu.edu/. Dentre os arquivos que são distribuídos com o PAUP, você precisa apenas do executável: win-paup4b10-console.exe. Esta é a versão do PAUP que deve ser executada no MS-DOS para os usuários do Windows. Se você é usuário do LINUX, utilize a versão apropriada para a distribuição que você utiliza. ATENÇÂO: mesmo que você opte por não construir as suas árvores utilizando o PhyCon (questão 12), mas tiver optado por fazer árvores de máxima verossimilhança, vai precisar deste executável do PAUP para inferir os modelos de substituição com o ModelTest. Além de instalar estes programas em seu computador, você deverá informar ao PhyCon os endereços nos quais estes arquivos estão instalados. A boa notícia é que você só precisa informar estes endereços uma vez, desde que não mude o PhyCon ou os outros programas de lugar. 3 Arquivos de Saída Uma vez respondidas todas as questões, o PhyCon cria um diretório de arquivos de saída PhyCon_output. Neste diretório há subdiretórios que contêm os resultados das análises feitas pelo PhyCon de maneira organizada. O subdiretório aln contém as seqüências alinhadas para posterior inspeção visual. O subdiretório meg contém dois arquivos, um com as seqüências alinhadas concatenadas e outro com as seqüências alinhadas em separado. Estes dois arquivos podem ser abertos no programa MEGA 3.1, que faz análises filogenéticas com os métodos de Evolução Mínima, Neighbor joining e Máxima Parcimônia. O subdiretório paup_input contém os scripts do PAUP gerados pelo PhyCon, que podem ser executados pelo usuário a qualquer momento. O subdiretório log contém os log files gerados pelo PAUP, de modo que o usuário pode inspecionar o que foi feito pelo PAUP em cada análise. Finalmente, o subdiretório tree contém as árvores produzidas pelo PhyCon.
4 Arquivos Controle Se você pretende executar várias análises com o mesmo conjunto de dados ou com conjuntos de dados diferentes, você pode utilizar o PhyCon para criar todas as suas árvores com uma única interação com o computador. Para isso, você deve utilizar um control_file.txt. Para utilizar este arquivo, você deve abrir uma janela do MS-DOS, e indicar o caminho path onde se encontra o PhyCon.pl. Depois disso, você deve digitar: >Perl PhyCon.pl c control_file.txt. Um exemplo de control_file foi distribuído juntamente com o PhyCon em ftp://ufv.br/dbg/phycon. Note que dentro deste há um bloco de respostas a todas as questões que devem ser respondidas para executar o PhyCon (Ver seção 2 Utilizando o PhyCon), mais uma última questão: Repeat Process? (os # servem para comentar a resposta, portanto uma linha que tem um # no início será descartada pelo programa). Caso você queira fazer várias análises, basta responder yes à última questão e preparar um novo bloco de respostas contendo a pasta onde se encontram os arquivos FASTA a serem avaliados na nova análise e trocando as respostas ao PhyCon para fazer uma análise diferente. ATENÇÃO: A última questão deve ser respondida como yes até o último bloco. No último bloco você deve responder No, sob pena do PhyCon não ser executado corretamente. 5 Problemas com o PhyCon? O PhyCon é uma ferramenta nova, que ainda está em fase de testes. Se você tentou executar o PhyCon e teve qualquer tipo de problema, mande um e-mail (karla@ufv.br; tiberio@if.ufrgs.br), nós tentaremos resolver o seu problema o mais rápido possível. Vale lembrar que o PhyCon é de distribuição gratuita e que a responsabilidade sobre os resultados obtidos cabe aos usuários e não aos autores do programa. Por isso é importante que sejam utilizadas seqüências adequadas e que, sempre que possível, o alinhamento seja inspecionado visualmente.