Avaliação dos Dados de Domínio de Análises Filogenéticas por Meio de Workflows Científicos e Mineração de Dados

Tamanho: px
Começar a partir da página:

Download "Avaliação dos Dados de Domínio de Análises Filogenéticas por Meio de Workflows Científicos e Mineração de Dados"

Transcrição

1 Avaliação dos Dados de Domínio de Análises Filogenéticas por Meio de Workflows Científicos e Mineração de Dados Lygia Marina Mendes da Costa Projeto de Graduação apresentado ao Curso de Engenharia de Computação e Informação da Escola Politécnica, Universidade Federal do Rio de Janeiro, como parte dos requisitos necessários à obtenção do título de Engenheiro. Orientadora: Kary Ann del Carmen Soriano Ocaña Orientadores: Rio de Janeiro Agosto de 2015

2 AVALIAÇÃO DOS DADOS DE DOMÍNIO DE ANÁLISES FILOGENÉTICAS POR MEIO DE WORKFLOWS CIENTÍFICOS E MINERAÇÃO DE DADOS Lygia Marina Mendes da Costa PROJETO DE GRADUAÇÃO SUBMETIDO AO CORPO DOCENTE DO CURSO DE ENGENHARIA DE COMPUTAÇÃO E INFORMAÇÃO DA ESCOLA POLITÉCNICA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE ENGENHEIRO DE COMPUTAÇÃO E INFORMAÇÃO. Examinada por: Profa. Kary Ann del Carmen Soriano Ocaña, D.Sc. Prof. Daniel Cardoso Moraes de Oliveira, D.Sc. Prof. Alexandre de Assis Bento Lima, D.Sc. RIO DE JANEIRO, RJ BRASIL Agosto de 2015

3 da Costa, Lygia Marina Mendes Avaliação dos Dados de Domínio de Análises Filogenéticas por meio de Workflows Científicos e Mineração de Dados / Lygia Marina Mendes da Costa. Rio de Janeiro: UFRJ/ Escola Politécnica, XIII, 64 p.: il.; 29,7 cm. Orientadora: Kary Ann del Carmen Soriano Ocaña Projeto de Graduação UFRJ/ Escola Politécnica/ Curso de Engenharia de Computação e Informação, Referências Bibliográficas: p Workflows Científicos 2. Análises Filogenéticas 3. Mineração de Dados 4. Dados de Domínio I. Ocaña, Kary Ann del Carmen Soriano. II. Universidade Federal do Rio de Janeiro, Escola Politécnica, Curso de Engenharia de Computação e Informação. III. Título. iii

4 Aos meus pais e ao meu irmão, por todo amor e apoio. iv

5 AGRADECIMENTOS Agradeço aos meus pais, Analucia e Carlos, por acreditarem em mim, sempre apoiando minhas escolhas, dando o melhor possível para que eu pudesse chegar até aqui com tranquilidade. Agradeço a eles por terem me educado e me mostrado que a vida é feita de escolhas e o sucesso de esforço e determinação, virtudes que me foram essenciais durante o curso de Engenharia. Agradeço ao meu irmão, Pedro, por ser o companheiro de todas as horas, me permitindo desabafar a respeito de todos os aborrecimentos, inseguranças e ansiedades. Obrigada, também, por sempre estar do meu lado, mesmo quando brigados. Agradeço ao meu namorado e melhor amigo, Nilton, por me permitir ocupar seu tempo discutindo assuntos acadêmicos. Não há outra pessoa que aceite discutir Aprendizado de Máquina em um bar, ou que me ensine Computação Gráfica na pizzaria. Obrigada, também, por sempre discordar de mim, enriquecendo nossas conversas e me ensinando muito mais do que imagina. Agradeço a todos os professores que fizeram parte da minha trajetória: aos professores de colégio que me deram base para me tornar aluna da UFRJ e aos professores de graduação pela dedicação. Em especial, obrigada Prof. Gerson Zaverucha e Juliana Bernardes, por me orientar durante a Iniciação Científica, despertando meu interesse em pesquisa. Agradeço à Profª. Kary Ocaña por aceitar me orientar nesse projeto final de graduação e tornar possível a conclusão do curso. Obrigada por todo seu tempo e conhecimento. Agradeço aos meus amigos, em especial àqueles que me acompanharam durante quase todo o curso, me proporcionando momentos descontraídos e a paz necessária para enfrentar cada período. Rodolfo Machado, Bernardo Narcizo, Luciano Leite, Rachel Castro, Janine Ma, Evana Carvalho, Bernardo Camilo, André Araújo, Thiago Vasconcelos e Pedro de Vasconcellos, muito obrigada pela amizade, de coração. A todos, muito obrigada. v

6 Resumo do Projeto de Graduação apresentação à Escola Politécnica/ UFRJ como parte dos requisitos necessários para a obtenção do grau de Engenheiro de Computação e Informação. Avaliação dos Dados de Domínio de Análises Filogenéticas por Meio de Workflows Científicos e Mineração de Dados Lygia Marina Mendes da Costa Agosto/2015 Orientadora: Kary Ann del Carmen Soriano Ocaña Orientadores: Curso: Engenharia de Computação e Informação Experimentos de análises filogenéticas são experimentos caracterizados pela construção de árvores filogenéticas utilizadas para representar relações evolutivas entre espécies. São experimentos que, normalmente, se utilizam de simulações computacionais custosas e de um grande número de dados de entrada. Assim, cientistas têm utilizado workflows científicos, uma vez que permite melhor gerenciamento das etapas e dados intermediários do experimento. Entretanto, a análise dos dados de domínio resultantes da execução do experimento deve ser feita diretamente pelo cientista e, muitas vezes, de forma manual. Concluir ou inferir sobre essas dados se torna inviável, portanto, à medida que se aumenta o número de entradas. Sob essa motivação, este projeto propõe uma nova versão de um workflow científico de análises filogenéticas que permita ao cientista inferir sobre um grande número de árvores filogenéticas por meio de uma técnica de mineração de dados e de representação de árvores em tabelas. Palavras-chave: Workflows Científicos, Dados de Domínio, Análises Filogenéticas, Mineração de Dados. vi

7 Abstract of Undergraduate Project presented to POLI/UFRJ as a partial fulfillment of the requirements for the degree of Computer and Information Engineer. Data Evaluation of Phylogenetic Analyses Domain using Scientific Workflows and Data Mining Lygia Marina Mendes da Costa Agosto/2015 Advisor: Kary Ann del Carmen Soriano Ocaña Advisors: Major: Computer and Information Engineering Phylogenetic analysis are experiments characterized by computing phylogenetic trees that represent evolutionary relationships between species. These are experiments that usually make use of expensive computer simulations and a large number of input data. Thus, scientists have been using scientific workflows, since it allows better management of the experiment' steps and data flow. However, analysing output data obtained from running the experiment must be made directly by the scientist and often manually. Concluding or inferring about these data is not feasible as the amount of input data increases. Under this motivation, this project proposes a new version of a scientific workflow of phylogenetic analysis that allow the scientist to infer about a large number of phylogenetic trees using data mining technique and tables for representing trees. Keywords: Scientific Workflows, Domain Data, Phylogenetic Analyses, Data Mining. vii

8 SUMÁRIO 1. Introdução Fundamentação Teórica Experimento Científico Dados de Proveniência Workflows Científicos Sistemas de Gerência de Workflows Científicos SciCumulus Bioinformática Análises Filogenéticas Mineração de Dados e Estruturas Subárvores Frequentes SciPhy: Um Workflow Científico para Análises Filogenéticas SciPhyTreeMiner: SciPhy e Representação e Mineração de Árvores Filogenéticas Representação de Árvores Filogenéticas em Tabelas Mineração de Árvores Filogenéticas Análise Experimental do SciPhyTreeMiner Consultas de Atividades Consultas de Representação de Árvores Filogenéticas Consultas de Mineração de Árvores Filogenéticas Avaliação de Desempenho do Workflow SciPhyTreeMiner Conclusão Referências Bibliográficas viii

9 ÍNDICE DE FIGURAS Figura 1 Ciclo de vida de um experimento científico. Adaptado de Mattoso et al. (2010)... 7 Figura 2 Motivação para uso de FST no lugar de MAST. Adaptado de Deepak et al. (2014) Figura 3 Tipos de União entre Árvores de mesma Classe Equivalente. Retirado de Deepak et al. (2014) Figura 4 Percurso Euler. D e U para descida e subida na árvore Figura 5 Aplicação de Cálculo de fingerprint (Karp e Rabin 1987) a Árvores Figura 6 Diagrama de Atividades de um Workflow SciPhy. RAxML e PhyML são programas destinados à mesma atividade Figura 7 Especificação de uma Atividade no XML do workflow Figura 8 SciPhyTreeMiner: Extensão do SciPhy Figura 9 Diagrama de Atividades do SciPhyTreeMiner: SciPhy com Representação e Mineração de Árvores Figura 10 Redução do Nome da Entrada Figura 11 Árvore Exemplo para Tabela de Adjacência (Tabela 1) Figura 12 - Resultados da Consulta SQL 1: Tempo de Execução de Atividades de wftreeminer_ Figura 13 Resultados da Consulta SQL 2: Tempo de Execução de Atividades de wftreeminer_ Figura 14 Resultados da Consulta SQL 3: Nós Ancestrais de uma Folha Figura 15 - Árvore Filogenética Construída pelo PhyML para a Entrada ORTHOMCL Figura 16 Resultados da Consulta SQL 4: Nós Ancestrais Comuns a duas Espécies. 36 Figura 17 - Resultados da Consulta SQL 6: Número de FSTs Maximais em Cada Execução Figura 18 Resultados da Consulta SQL 7: Número de Folhas das FSTs Maximais de cada Execução Figura 19 Resultados da Consulta SQL 8: FSTs Maximais de Máxima Frequência de cada Execução ix

10 ÍNDICE DE TABELAS Tabela 1 Atividades e Relações do Workflow SciPhyTreeMiner Tabela 2 Tabela de Adjacência de Árvore Tabela 3 Tabela de Registro de Árvores Filogenéticas em Banco de Dados Tabela 4 Cenário Experimental x

11 ÍNDICE DE GRÁFICOS Gráfico 1 Tempo Total de Execução do SciPhyTreeMiner Gráfico 2 Tempo Total de Execução das Atividades do SciPhyTreeMiner Gráfico 3 Tempo Médio de Execução das Atividades do SciPhyTreeMiner xi

12 ÍNDICE DE CONSULTAS SQL Consulta SQL 1 Retorna Tempo de Execução das Atividades da Execução wftreeminer_1-1 do SciPhyTreeMiner Consulta SQL 2 Retorna Tempo de Execução das Atividades da Execução wftreeminer_1-2 do SciPhyTreeMiner Consulta SQL 3 Retorna Nós Ancestrais da Espécie 8 na Árvore Inferida pelo RAxML Consulta SQL 4 Retorna Nós Ancestrais Comuns às Espécies 6 e 2 na Árvore Inferida pelo PhyML a partir da Entrada ORTHOMCL Consulta SQL 5 Retorna Tamanho do Caminho entre as Espécies 6 e 2 na Árvore Inferida pelo PhyML a partir de ORTHOMCL Consulta SQL 6 Retorna Número de Subárvores Frequentes Maximais em cada Execução Consulta SQL 7 Retorna o Número de Folhas nas Subárvores Maximais de cada Execução Consulta SQL 8 Retorna Nome de Referência das FSTs Maximais de Máxima Frequência de cada Execução xii

13 LISTA DE SIGLAS AMS Alinhamento Múltiplo de Sequências FSM Frequent Structure Mining FST Frequent Subtree MAST Maximum Agreement Subtree SGWfC Sistema de Gerenciamento de Workflow Científico SQL Structured Query Language XML Extensible Markup Language xiii

14 1. Introdução Experimentos científicos (Mattoso et al. 2010) podem ser descritos como a associação de tarefas controladas (e.g. programas), que ao serem executadas, consomem e geram dados contendo informações sobre um fenômeno, a fim de refutar ou não uma determinada hipótese. Sua modelagem, execução e análise podem chegar a ser tarefas custosas e complexas, em especial para os experimentos que tratam de dados científicos reais e utilizam simulação computacional em larga escala. A gerência desses experimentos científicos, bem como dos dados consumidos e gerados por eles, se torna mais complexa à medida que se escala. Assim, para auxiliar as etapas de um experimento científico, o cientista pode se utilizar de um workflow científico, que consiste em modelar o experimento como um encadeamento de atividades e um fluxo de dados, em que os dados gerados durante sua execução são comumente chamados de dados de proveniência (Mattoso et al. 2010). A utilização de workflows científicos na execução de experimentos científicos acoplados a um sistema de gerenciamento de workflows científicos (SGWfC) tornou possível a execução de diversas configurações de um mesmo experimento de uma maneira estruturada passível a ser melhor gerenciada. Assim, o cientista passa a não só analisar as informações relacionadas ao workflow ou às suas atividades, como também a fazer uma análise comparativa entre os dados de domínio resultantes de diversas entradas e de workflows científicos específicos de determinadas áreas da ciência (i.e., ciências biológicas, ciências da terra e exatas, etc). No entanto, na fase de análise do experimento científico, é necessária a análise manual por parte do cientista (i.e. especialista) para determinar quais arquivos do conjunto de saída contém as informações importantes a serem analisadas e quais arquivos 1

15 serão desconsiderados (e.g. arquivos intermediários). Desses arquivos eleitos, será de responsabilidade do cientista extrair as informações necessárias para as inferências evolutivas ou computacionais. Assim, em muitos casos, o cientista deve analisar manualmente uma grande quantidade de dados de domínio. Esse cenário é bastante comum em experimentos científicos na área de bioinformática (Pevsner 2009), como, por exemplo, experimentos de filogenia (Felsenstein 2004). Análises filogenéticas têm por objetivo a construção de árvores filogenéticas a fim de inferir as relações evolutivas e filogenéticas de um grupo de sequências homólogas, i.e. sequências que são evolutivamente originárias de um mesmo ancestral comum. Neste cenário, a comparação entre as várias árvores resultantes possíveis de diferentes entradas ou parâmetros é essencial para a avaliação e validação do experimento, desde o ponto de vista biológico ao computacional Nesse sentido, este projeto visa trazer para o ambiente de workflows científicos, atividades adicionais que apoiem mais na fase de análise do ciclo de vida de experimentos científicos de análises filogenéticas. Essas atividades de análise focam na mineração e representação de dados de domínio, mais especificamente de topologias. Uma característica importante é que essas atividades são independentes ao SGWfC e podem consumir arquivos com árvores provenientes das diferentes variações de workflows do mesmo experimento. Dessa forma, o cientista deve ser capaz de analisar os dados de domínio de um grupo de arquivos sem a necessidade de acessar a cada diretório do experimento ou utilizar programas externos para visualização. Uma dessas atividades diz respeito a uma representação dos dados de domínio das árvores filogenéticas que permita a consulta às topologias por meio de SQL. Sua implementação consiste em reescrever os dados utilizando tabelas de adjacência entre entidades, como em grafos (Cormen 2009). 2

16 Outra atividade consiste na mineração das árvores a fim de retornar subárvores frequentes, ou seja, subárvores que sejam comuns a uma maioria de dados resultantes de análises filogenéticas. A implementação dessa última terá como base um algoritmo proposto por Deepak et al. (2014), que consiste na utilização de uma forma canônica da árvore filogenética, e da técnica de fingerprint (Karp e Rabin 1987) para busca de estruturas frequentes. Para isso, foi realizado o reaproveitamento e a reestruturação de workflows científicos de filogenia previamente definidos (i.e. SciPhy, Ocaña et al. 2011), uma vez que, além do desenvolvimento das novas atividades, foi necessário entender o fluxo de atividades e o consumo/geração de dados do SciPhy para a inserção das atividades propostas. Além disso, propõe-se a utilização de variações do workflow SciPhy, para o qual ele foi modificado na última atividade construção de árvores filogenéticas originalmente executado com RAxML e agora executado com o PhyML. Dessa forma, foram obtidas variações de árvores geradas, o que permite uma melhor avaliação dos dados de proveniência que apoie à comparação dos dados de domínio correspondentes. Em relação à adaptação de workflows científicos, foi realizada uma condensação dos workflows SciPhy-RAxML e SciPhy-PhyML em um único a fim de melhorar a representação e a execução, uma vez que eles se diferem apenas na última atividade. Assim, a execução das diversas variações de workflow científico de um mesmo experimento são reduzidas à execução de um único workflow. Essa abordagem será apresentada detalhadamente no decorrer desta monografia que está dividida em oito capítulos, sendo o primeiro esta introdução. No Capítulo 2, são apresentados os conceitos teóricos necessários para a compreensão do projeto como um todo. No Capítulo 3, é apresentado o workflow científico de análises filogenéticas adaptado à variações dos programas, bem como suas implementações. No Capítulo 4, é 3

17 apresentado a especificação e implementação do novo workflow proposto, bem como das atividades de representação e mineração de árvores filogenéticas. No Capítulo 5, é apresentada a análise experimental, com a execução do novo workflow científico e das novas atividades para análise de dados de filogenia. O Capítulo 6 analisa o desempenho e o nível de contribuição do novo workflow proposto. Por fim, no Capítulo 8, o trabalho é concluído. 4

18 2. Fundamentação Teórica Esse capítulo tem por objetivo apresentar conceitos e noções teóricas necessárias para o desenvolvimento e a compreensão deste projeto. A seção 2.1 apresenta conceitos de bioinformática e análises filogenéticas, essenciais para compreensão do contexto em que este projeto está inserido. A seção 2.2 apresenta o conceito de experimento científico, que está diretamente ligado à motivação deste projeto. A seção 2.3 e suas subseções apresentam os conceitos de workflow científico e seus elementos, definem Sistemas de Gerência de Workflows Científicos (SGWfC) e apresentam o SciCumulus como um SGWfC, base para os workflows científicos de análises filogenéticas utilizados neste projeto. Por fim, a seção 2.4 apresenta conceitos de mineração de dados e estruturas, bem como a técnica aplicada neste projeto: busca de subárvores frequentes Experimento Científico De acordo com Mattoso et al. (2010), um experimento científico consiste em um teste realizado em ambiente controlado que tem como finalidade verificar a validade de uma hipótese, demonstrar uma verdade conhecida ou a validade de algo não testado anteriormente. Portanto, como concluído por Mattoso et al. (2010), um experimento científico corresponde a um conjunto de ações controladas contento testes diversos cujos resultados podem ser comparados entre si a fim de se aceitar ou refutar uma hipótese. Um experimento científico deve ser reproduzível a fim de permitir que diversos cientistas verifiquem a validade do mesmo, verificando seus resultados. Dessa forma, é importante manter registro das atividades que o compõem para que possa ser utilizado a posteriori em uma análise mais detalhada do experimento, bem como dos resultados. 5

19 A configuração do ambiente de execução do experimento e das interações define o tipo de experimento científico. Quando realizado totalmente em ambiente computacional, o experimento é classificado como in silico (Travassos e Barros 2003). Assim, qualquer experimento científico baseado em simulaçõec computacionais é um experimento in silico. As etapas presentes no processo de experimento científico podem ser descritas por um ciclo de vida (Mattoso et al. 2010), tal que se mantenha controle das informações geradas a partir das etapas do experimento, organizando tarefas a serem executadas por cientistas no decorrer do experimento. Nesse contexto, o experimento científico possui três fases de acordo com Mattoso et al. (2010): composição, que diz respeito à definição das atividades e dos tipos de dados; execução, que consiste em materializar as concepções da fase anterior, e análise, que consite no estudo dos dados obtidos durante as fases anteriores. A fase de composição pode ser entendida como a fase da abstração, uma vez que se trata da fase em que o experimento será transcrito em atividades e parâmetros. Consiste na definição de workflows abstratos, definindo, também, tipos de dados de entrada e saída e os parâmetros a serem utilizados no experimento. A modelagem do experimento em um workflow diz respeito ao processo de concepção da fase de composição, onde pode haver a utilização de workflows previamente modelados a fim de adaptá-los ao novo experimento, o que corresponde ao processo de reuso (Cardoso, de Souza, e Marques 2002; E. Ogasawara et al. 2009; D. de Oliveira, Ogasawara, Seabra, et al. 2010; F. T. de Oliveira et al. 2008). 6

20 Composição Concepção Reuso Dados de Proveniência Análise Consulta Visualização Distribuição Monitoramento Execução Figura 1 Ciclo de vida de um experimento científico. Adaptado de Mattoso et al. (2010) Na fase de execução, o modelo de workflow concebido na fase anterior é transformado em executável levando em conta os valores de parâmetros e dados de entrada definidos inicialmente, bem como a infraestrutura computacional a ser utilizada. O processo de distribuição de atividades organiza as atividades a serem executadas de forma a otimizar recursos computacionas, podendo utilizar ambientes distribuídos e paralelos. Além disso, há o processo de monitoramento, responsável por verificar e gerenciar o estado de execução de cada atividade. Por fim, a fase de análise consiste em avaliar toda a informação gerada durante as fases anteriores por meio de proveniência de dados. Nela, o cientista pode consultar e visualizar, por meio de gráficos ou mapas, resultados do experimento e metadados do workflow, que contém informações a respeito da concepção e execução do mesmo. Dessa forma, o cientista pode analisar os resultados do experimento a fim de confirmar ou 7

21 refutar as hipóteses do experimento, recomeçar o ciclo com outros parâmetros a fim de verificar o funcionamento do experimento em diversos cenários, ou recriar o experimento gerando outros workflows Dados de Proveniência Dados de proveniência consistem em dados gerados durante todo o ciclo de vida de um experimento científico (Mattoso et al. 2010). Esse conjunto de dados engloba dados referentes à especificação e execução do experimento, bem como dados de domínio consumidos e/ou gerados por cada atividade executada durante o experimento. Os dados de domínio dizem respeito aos dados específicos da área da ciência em que o experimento está inserido. Os dados de entrada, assim como os resultados do experimento, portanto, configuram dados de domínio de um experimento específico Workflows Científicos Workflows científicos consistem em abstrações do experimento científico de maneira estruturada. Pode ser visto como um teste do experimento a fim de avaliar uma ação controlada (Mattoso et al. 2010). Portanto, um conjunto de execuções distintas de workflows científicos apoia na definição de um experimento científico (Mattoso et al. 2010). Devido à sua característica de modelar etapas a serem executadas de um experimento científico, os workflows científicos se tornaram padrão para a modelagem de experimentos científicos que se utilizam de simulação computacional (Mattoso et al. 2010). Dessa forma, o workflow científico pode ser visto como um conjunto de atividades que representam programas e scripts a serem executados sequencialmente de acordo com 8

22 dependências, gerando dados de entrada para atividades posteriores dependentes. Os dados gerados pelas atividades podem ser propagados até o final do workflow científico se for interessante para a análise do experimento científico ou se forem necessários para atividades não imediatamente posteriores. O experimento, no entanto, pode ser complexo de forma que os workflows científicos que o compõem possuam atividades que sejam dependentes ou gerem dados heterogêneos, não estruturados ou de grande tamanho cuja execução tenha alto custo computacional. Assim, os workflows científicos podem usufruir de técnicas de computação de alto desempenho, distribuindo e paralelizando atividades Sistemas de Gerência de Workflows Científicos Sistemas de Gerenciamento de Workflows Científicos (SGWfC) (Deelman e Chervenak 2008) foram desenvolvidos a fim de gerenciar a especificação, execução e o monitoramento de workflows científicos. Assim, o SGWfC pode ser utilizado em todo o ciclo de vida do experimento científico, desde a concepção dos workflows e gerenciamento de suas execuções até consulta de resultados. Dessa forma, a gerência e monitoramento das execuções das atividades pode ser realizada por completo por parte do SGWfC, permitindo que o cientista se concentre em atividades de domínio do experimento científico, como a composição e análise final dos workflows científicos, atividades apoiadas pelo SGWfC (Deelman et al. 2009). Alguns exemplos de SGWfC mais utilizados são: VisTrails (Callahan et al. 2006), Kepler (Altintas et al. 2004), Pegasus (Deelman et al. 2007) e Swift (Zhao et al. 2007), onde cada um possui características diferentes podendo ser vantajosos para algumas aplicações específicas. 9

23 SciCumulus O SciCumulus é um SGWfC projetado para o gerenciamento de workflows científicos executados em paralelo e em ambientes em nuvem. Ele é responsável pela distribuição, controle e monitoramento das atividades de workflows científicos que se utilizam de técnicas de computação de alto desempenho (D. de Oliveira, Ogasawara, Baião, et al. 2010). O SciCumulus, possui uma estrutura básica de fluxo de atividades e workflows, contendo relação de dependência entre atividades. Cada atividade está associada a um tipo de operação algébrica (E. S. Ogasawara et al. 2011) que determina, por exemplo, como os dados são consumidos e produzidos pela atividade. Essas operações podem ser do tipo Map, SplitMap, Reduce, Filter, SRQuery e JoinQuery. A operação Map diz respeito a um mapeamento 1:1 entra a relação de entrada e de saída da atividade, em que para cada tupla de dados de entrada da relação de entrada é gerada apenas uma tupla de dados de saída. A operação SplitMap diz respeito a um mapeamento 1:m, em que m tuplas de dados de saída são geradas para cada tupla de dados de entrada. A operação Reduce é a operação inversa à operação de SplitMap, uma vez que consiste em gerar uma única tupla de dados de saída para n tuplas de dados de entrada, sendo, portanto, um mapeamento n:1. A operação Filter está relacionada com atividades de filtro, em que cada tupla de dados de entrada é copiada para a relação de saída da atividade caso a atividade permita, representando uma relação de 1:(0-1). As duas últimas operações (SRQuery e JoinQuery) definem uma relação entre a entrada e a saída de n:m. A operação SRQuery permite a execução de uma expressão algébrica relacional sobre os dados de entrada da atividade, gerando m tuplas de saída a partir de n tuplas de entrada. Já a operação JoinQuery permite a geração de uma única relação de saída a partir de um conjunto de n relações de entrada. 10

24 No gerenciamento de workflows com execução em paralelo, cabe ressaltar o conceito de ativação. Ativação consiste em uma execução de uma atividade do worklfow que consomte um conjunto de tuplas específico. Em um workflow científico, cada atividade é composta por um conjunto de ativações a serem executadas em máquinas distintas, configurando a execução em paralelo da atividade. Cada ativação carrega consigo informações necessárias para sua execução, como dados de entrada e parâmetros da atividade à qual pertence. A estrutura do SciCumulus pode ser divida em quatro camadas distintas, são elas: cliente, distribuição, execução e dados (D. de Oliveira, Ogasawara, Baião, et al. 2010; D. Oliveira et al. 2012). A primeira, camada cliente, é responsável por enviar as atividades ao ambiente de execução, podendo ser um ambiente em nuvem. A camada de distribuição distribui as atividades a serem executadas entre as máquinas que compõem o ambiente de execução. A camada de execução é responsável pela execução dessas atividades, bem como de qualquer programa requisitado por elas, mantendo registro de dados de proveniência ao longo da execução. Por fim, a camada de dados é responsável pela alocação de dados de entrada e saída, extraindo dados a serem alocados no banco de dados do workflow, além de manter registro de toda informação referente ao ambiente distribuído de execução Bioinformática Bioinformática diz respeito à área da ciência responsável por aplicar conceitos e técnicas de tecnologia da informação a estudos de biologia molecular (Lengauer 2001). De acordo com Luscombe, Greenbaum, e Gerstein (2001), bioinformática é conceitualizar a biologia em termos de moléculas e aplicar técnicas de informática, provenientes das áreas de matemática aplicada, ciência da computação e estatística, a fim 11

25 de compreender e organizar a informação associada a essas moléculas em larga escala. Provê, portanto, meios para que possam ser feitas inferências a respeito da evolução, função e estrutura de sistemas biológicos. Atualmente, a bioinformática é uma área que manipula grande quantidade de dados, principalmente devido ao avanço dos métodos de sequenciamento de nova geração das estruturas moleculares, como proteínas e genoma. Dessa forma, armazenar e manipular os dados se tornou um grande desafio dentro da área de bioinformática, uma vez que gerenciar experimentos científicos na área exige muito recurso computacional (Stevens, Zhao, e Goble 2007; D. de Oliveira et al. 2013). A quantidade de recursos computacionais aumenta com a complexidade do problema de biologia que se pretende resolver, com a quantidade de dados consumidos e gerados e com os programas executados sobre esses dados. Uma solução para esse cenário é a utilização de técnicas de processamento paralelo e sistemas de gerência de experimentos em larga escala. Assim, esse tipo de experimento científico pode ser fortemente apoiado pelos workflows científicos e os SGWfC descritos na subseção 2.2 desta seção, o que justifica a ampla utilização de workflows científicos na área de bioinformática. O biólogo ou bioinformata pode, então, utilizar o SciCumulus descrito na subseção 2.2 desta seção, tal e como demonstrado nas recentes publicações relacionadas (Ocaña et al. 2011) Análises Filogenéticas Experimentos de análise filogenética visam a construção de árvores filogenéticas que representem as relações evolutivas entre espécies organismos obtidas a partir do processamento de alinhamentos múltiplos de sequências (AMS). 12

26 Análises filogenéticas têm como objetivo analisar ocorrência de diferenciação entre organismos ao longo da evolução, bem como compreender as relações entre ancestrais e descendentes. Dessa forma, a análise é feita processando-se uma grande quantidade de sequências genômicas, com uso de algoritmos evolutivos computacionais já bem conceituados na área, como por exemplo, o método de máxima verossimilhança do programa RAxML (Stamatakis 2014) para a construção de árvores utilizado no SciPhy. Cabe mencionar que o processo de obtenção de árvores filogenéticas por esse método de máxima verossimilhança é normalmente custoso computacionalmente. No fim do processo, se espera obter a árvore mais representativa e/ou poder comparar essa árvore com um conjunto de outras árvores possíveis geradas com diferentes configurações de parâmetros, algoritmos ou programas para poder inferir hipóteses sobre as relações evolutivas e filogenéticas dos organismos em estudo. Nesse contexto, o experimento científico de análises filogenéticas pode ser representado por meio de workflows científicos e de SGWfC (i.e. SciPhy) nas suas quatro atividades principais referentes à construção de AMS, formatação de arquivos, escolha do melhor modelo evolutivo e construção das árvores. Uma implementação desse workflow científico, SciPhy, é descrita na seção Mineração de Dados e Estruturas Mineração de dados consiste no processo de extração de informação implícita presente em um conjunto de dados (Olafsson, Li, e Wu 2008). É uma área que vem crescendo cada vez mais devido ao aumento de dados armazenados, bem como sua complexidade, na medida em que se torna interessante a extração de informação de um conjunto extenso de dados (Da San Martino e Sperduti 2010). 13

27 Uma técnica muito utilizada no processo de mineração de dados é a detecção de ocorrências frequentes na base de dados a fim de se extrair um padrão. Para dados mais complexos, como ávores e grafos, a informação a ser minerada está relacionada à estrutura, de forma que subestruturas frequentes (Frequent Structure Mining FSM) na base de dados sugerem um padrão presente nos dados (Da San Martino e Sperduti 2010). A técnica consiste em contar de maneira eficiente a frequência de todas as ocorrências e registrar apenas as ocorrências com frequência maior que uma tolerância. No contexto deste projeto, a mineração de dados se dará sobre dados de domínio referentes e atribuídos às árvores filogenéticas. Assim, o objetivo é obter subárvores frequentes (Frequent SubTree FST) a fim de detectar algum padrão de relação evolutiva nos dados filogenéticos Subárvores Frequentes Em análises filogenéticas, a análise dos resultados está relacionada principalmente à inferência das relações evolutivas, à análise das estatísticas obtidas e à comparação entre árvores. Em geral, experimentos de análises filogenéticas resultam em uma coleção de árvores que representam as relações evolutivas e filogenéticas de um conjunto de espécies (Swenson et al. 2012). Assim, uma análise importante poderia ser feita sobre os dados de entrada (e.g. sequências biológicas) e saída (e.g. resultados estatísticos e árvores), relacionando, quando possível, informações de domínio específicas comuns contidas nos arquivos de uma ou mais árvores presentes em uma coleção. Muitas vezes, esta comparação é realizada manualmente pelo cientista e exige o conhecimento do especialista da área a respeito da importância do dado de domínio representativo (e.g. subárvores) a ser extraído, armazenado, comparado e/ou analisado. 14

28 Dessa forma, pode-se computar uma subárvore de máxima concordância (Maximum Agreement Subtree MAST) que corresponde à maior subárvore comum a todas as árvores dadas como entrada. Quanto mais distintas são as árvores de entrada, menor é a MAST, uma vez que a similaridade entre as árvores é menor. Assim, para casos em que as árvores são muito distintas, a MAST não representa o máximo de informação que pode ser extraída da coleção (Deepak et al. 2014), como exemplificado na Figura 2. Nesse contexto, então, o mais adequado seria computar as FSTs, como no algoritmo construtivo proposto por Deepak et al. (2014) utilizado neste projeto, já que não precisam ser comuns a todas as árvores, mas conseguem representar relações evolutivas frequentemente encontradas na coleção de árvores filogenéticas (Deepak et al. 2014). (a) Árvores de entrada (b) MAST (c) FSTs Figura 2 Motivação para uso de FST no lugar de MAST. Adaptado de Deepak et al. (2014) O algoritmo EvoMiner de Deepak et al. (2014) visa computar FSTs a partir de árvores filogenéticas enraizadas, ou seja, árvores que contém um nó não-folha raíz. A ideia central do algoritmo está relacionada com o fato de que uma subávore de k folhas é frequente se e somente se suas subárvores de k 1 folhas também são frequentes. Portanto, a obtenção de uma subárvore frequente de k folhas deve ser a partir da união de duas subárvores de k 1 folhas. 15

29 Figura 3 Tipos de União entre Árvores de mesma Classe Equivalente. Retirado de Deepak et al. (2014) Nesse contexto, Deepak et al. (2014) introduz o conceito de árvore prefixa como sendo a árvore obtida com a remoção da folha mais à direita e o conceito de classe equivalente, que consiste em um conjunto de árvores que compartilham a mesma árvore prefixa. Assim, as subárvores frequentes de k folhas podem ser geradas pela união de duas subárvores T x e T y da mesma classe equivalente, tendo T x como sua árvore prefixa. Essa união pode ser realizada de quatro formas diferentes, conforme a Figura 3. Cada árvore gerada é, então, processada de forma a garantir que todas as suas subárvores de k 1 folhas são frequentes, uma vez que se alguma subárvore não for frequente, então a árvore gerada também não será. Se todas forem, no entanto, o algoritmo deve checar de a árvore de k folhas também é frequente. O processo de computar se todas as subárvores de k 1 folhas são frequentes é chamado de Downward-Closure e diz respeito à etapa mais custosa de um algoritmo construtivo de FSTs. Assim, (Deepak et al. 2014) utiliza uma representação em string 16

30 canônica das árvores e subárvores visando a aplicação do conceito de fingerprint introduzido por Karp e Rabin (1987). Dessa forma, uma árvore de k folhas pode ser representada em string obtida por um percurso Euler (Henzinger e King 1999) na árvore, conforme exemplo na Figura 4, e as strings de suas subárvores de k 1 folhas podem ser obtidas pela remoção de caracteres na string DD1UD2UUDD3UD4UU Figura 4 Percurso Euler. D e U para descida e subida na árvore. A fingerprint de cada subárvore de k 1 folhas pode ser, então, obtida a partir de uma fórmula matemática utilizando a fingerprint da árvore de k folhas e a fingerprint de substrings prefixas calculadas previamente, como mostra o exemplo na Figura 5. No entanto, é preciso conhecimento prévio de qual substring deve ser removida da string original para que represente a nova árvore. Logo, é preciso buscar, na string, substrings do tipo DiU e analisar sua posição levando em conta que a string possui uma estrutura aninhada de Ds e Us para a remoção de D e U no caso em que a remoção da folha resulta em contração de nós na árvore, como no exemplo da Figura 5. Assim, é possível calcular a fingerprint da nova string em um passo dado que são conhecidas as substrings a serem removidas, bem como suas posições na string original. 17

31 Uma vez calculadas as fingerprints de cada subárvore, classificá-las como frequentes consiste em verificar se essas fingerprints estão presentes em uma tabela hash de subárvores frequentes previamente construída, ou seja, verificar se são fingerprints já calculadas na iteração anterior, em que foram obtidas subárvores frequentes de k 1 folhas. Esse método evita a comparação direta entre estruturas de árvores que são, normalmente, computacionalmente custosas. F p DD1UD2UUD4U = F p DD1UD2UUDD3UD4U len D4U F p DD1UD2UUDD3U 2 len D4U + F p DD1UD2UU 2 Figura 5 Aplicação de Cálculo de fingerprint (Karp e Rabin 1987) a Árvores Assim, a comparação direta entre árvores é necessária apenas para cálculo da frequência das subárvores de k folhas resultantes do processo de união cujas subárvores de k 1 folhas são frequentes. Esse processo é realizado para todos os tipos de árvores de k folhas provenientes do processo de união. Dessa forma, o algoritmo EvoMiner (Deepak et al. 2014) pode ser resumido como um processo construtivo de subárvores frequentes que está dividido em três etapas principais: Geração de subárvores candidatas de k folhas por meio de união de subárvores k 1 folhas 18

32 Verificação da frequência mínima de todas subárvores de k 1 folhas contidas nas subárvores candidatas de k folhas Verificação da frequência mínima das subárvores candidatas de k folhas Cada classe equivalente de subárvores de k folhas é obtida por um conjunto de iterações compostas pelas etapas descritas acima. Dessa forma, ao final da execução do algoritmo EvoMiner, há N classes equivalentes, em que a última classe equivalente possui as maiores subárvores frequentes do conjunto de árvores de entrada. As subárvores presentes nas classes equivalentes resultantes são diretamente influenciadas pelo valor de frequência mínima exigida. Assim, para uma entrada de tamanho N e frequência mínima de 1 N, o último conjunto de classes equivalentes de subárvores de k folhas possui como subárvores frequentes todas as árvores de entrada do processo de mineração. O valor de frequência mínima é, portanto, um parâmetro a ser ajustado pelo cientista que possui conhecimento a respeito do estudo a ser realizado. 19

33 3. SciPhy: Um Workflow Científico para Análises Filogenéticas SciPhy (Ocaña et al. 2011) é um workflow científico desenvolvido para a análise filogenética de sequências genômicas, implementado utilizando o SciCumulus para sua execução paralela em nuvem, embora o workflow possa ser executado localmente. Os dados de domínio de saída do workflow são árvores filogenéticas representativas dos AMSs gerados no início da execução do workflow científico, podendo variar o algoritmo utilizado nas atividades, em especial os algoritmos de construção de árvores filogenéticas. O SciPhy é composto por cinco atividades: seleção de dados, AMS, eleição do melhor modelo evolutivo a partir do AMS, formatação de arquivos e construção de árvores filogenéticas (Figura 6). Algumas atividades podem ser consideradas auxiliares (i.e. seleção de dados e formatação de arquivos), uma vez que são utilizadas para filtragem ou conversão de formato de dados, não realizando qualquer operação de transformação. Assim, as demais atividades (i.e. AMS, eleição do melhor modelo evolutivo e construção de árvores filogenéticas) podem ser consideradas atividades principais. (1) Seleção de Dados de Entrada dataselection (2) Alinhamento Múltiplo de Sequências MAFFT mafft (4) Seleção de Modelo Ótimo ModelGenerator modelgenerator (3) Adaptação de Formato de Dado readseq (5) Construção de Árvores Filogenéticas com Máxima Verossimilhança RAxML PhyML Figura 6 Diagrama de Atividades de um Workflow SciPhy. RAxML e PhyML são programas destinados à mesma atividade. 20

34 A especificação de cada atividade do workflow, bem como do workflow como um todo, é feita através de um XML, conforme a Figura 7, em que são especificados informações sobre o ambiente de execução, dependência entre atividades, arquivos de execução e extração, além de especificar a maneira como os dados extraídos são registrados no bando de dados. A especificação de cada atividade contém relações e campos a serem interpretados para a implementação do banco de dados do workflow pelo SGWfC. Figura 7 Especificação de uma Atividade no XML do workflow A atividade de seleção de dados é responsável por receber os dados de entrada do workflow e extrair informações como o nome do arquivo de entrada e o caminho do arquivo. O SGWfC, então, propaga os dados de entrada, bem como as informações extraídas deles para a próxima atividade do workflow: a atividade de AMS. A atividade de AMS recebe os dados da atividade anterior e executa o programa de alinhamento mútiplo MAFFT 7.1 sobre as sequências de entrada provenientes da atividade de seleção de dados. O caminho para o arquivo de saída é registrado no banco de dados do workflow cientítifico junto com os dados propagados da atividade anterior. A atividade de adaptação do formato dos dados executa o programa ReadSeq que converte o formato FASTA (do AMS retornado pelo MAFFT) para o formato PHYLIP, 21

35 uma vez que o programa utilizado pela atividade de seleção do melhor modelo evolutivo, ModelGenerator, requer um formato PHYLIP. Após a seleção do melhor modelo evolutivo a partir dos alinhamentos múltiplos, os dados de domínio de saída dessa atividade são passados para a atividade seguinte: a atividade de construção de árvores filogenéticas. Essa atividade é responsável por eleger uma árvore filogenética representativa e pode ser executada com diversos programas. Neste projeto, serão utilizados os programas RAxML e PhyML 3.0, que utilizam o conceito de máxima verossimilhança para seleção da árvore mais representativa. Esses programas normalmente têm como saída arquivos contendo árvores filogenéticas em formato Newick, que consiste em representação da árvore em parênteses aninhados, e precisam de um programa auxiliar para melhor visualização. A atividade de construção de árvores filogenéticas registra os dados propagados pelas atividades anteriores, alguns dados numéricos utilizados na construção da árvore (e.g. valores de replicação de bootstrap e comprimento de ramos) e o caminho para o arquivo de dado de domínio resultante. Dessa forma, o cientista pode consultar diretamente os arquivos contento as árvores filogenéticas resultantes para análise do experimento científico, bem como seus respectivos dados de domínio. Todas as atividades do SciPhy utilizam uma técnica de mapeamento para registrar os dados extraídos das saídas no banco de dados do workflow científico. Assim, cada atividade gera apenas uma entrada nas tabelas do banco de dados para cada entrada do workflow científico. Essa especificação é identificada no arquivo XML como atividades do tipo MAP. 22

36 4. SciPhyTreeMiner: SciPhy e Representação e Mineração de Árvores Filogenéticas A execução de um ou mais workflows científicos do experimento científico de análise filogenética, em geral, retorna uma grande quantidade de árvores filogenéticas a serem analisadas manualmente pelo cientista. Por se tratar de dados de domínio em árvore, o SciPhy não possui estrutura adequada para a representação desses dados a fim de permitir consultas e comparações através do banco de dados do workflow científico. Os dados de domínio, nesse caso, são registrados no banco de dados como caminhos para os arquivos de saída no sistema. Assim, para análise desses dados, o cientista deve consultar o caminho no banco de dados do workflow e, manualmente, abrir os arquivos de dados de domínio a serem analisados. Nesse sentido, foi desenvolvido um novo workflow científico, SciPhyTreeMiner, como extensão do SciPhy (Figura 8), a fim de auxiliar a análise dos resultados de um experimento científico de análise filogenética, de forma a permitir que o cientista possa consultar e comparar os dados de domínio diretamente pelo banco de dados do workflow. Para isso, foram desenvolvidas duas atividades descritas nas seções 4.1 e 4.2: representação de árvores em formato tabular, a fim de permitir a consulta por meio de SQL à topologia da árvore filogenética, e mineração de árvores, a fim de retornar topologias frequentes evitando a comparação par a par entre árvores filogenéticas. SciPhy Representação de Árvores Mineração de Árvores Figura 8 SciPhyTreeMiner: Extensão do SciPhy 23

37 O workflow SciPhyTreeMiner (Figura 9) foi formulado de forma a permitir que o cientista analise dados de domínio gerados tanto de entradas distintas quanto de programas de construção de árvores filogenéticas diferentes (e.g. RAxML e PhyML). Nesse sentido, além das atividades de mineração e representação, foi necessária a adição de duas atividades auxiliares: merge, que é responsável por unir dados das diferentes atividades de construção de árvores filogenéticas, e evoreduce, que é responsável por unir as árvores provenientes de todas as entradas em uma única entrada para o processo de mineração. Assim, as árvores filogenéticas de diferentes programas de construção de árvores são concatenadas para cada entrada pela atividade (7), representadas pela atividade (8) e concatenadas totalmente pela atividade (9). Em seguida, a atividade (10) é responsável pela mineração e a atividade (11) pela representação das subárvores frequentes obtidas na atividade (10). (1) Seleção de Dados de Entrada dataselection (6) PhyML phyml (8) Representação treeparser (2) MAFFT mafft (3) Conversão de Formato de Dado readseq (4) ModelGenerator modelgenerator (5) RAxML raxml (7) Merge SQL merge (9) Reduce evoreduce (10) Mineração evominer_multiple (11) Representação evotreeparser Figura 9 Diagrama de Atividades do SciPhyTreeMiner: SciPhy com Representação e Mineração de Árvores 24

38 A atividade (9) evoreduce tem como finalidade concatenar as múltiplas entradas em uma única entrada de forma que possa ser repassada à atividade de mineração. Essa atividade é dispensável na medida em que a operação de reduce pode ser realizada diretamente na atividade de mineração. No entanto, para melhor organização dos dados, foi inserida a atividade auxiliar evoreduce que, além de reduzir as entradas, gera um novo nome de identificação da entrada, conforme a Figura 10. ENTRADA-1 ENTRADA-N ENTRADA- 1_ENTRADA-N_N Figura 10 Redução do Nome da Entrada As atividades do SciPhyTreeMiner estão listadas na Tabela 1, bem como seus nomes de identificação e suas relações de entrada e saída. Uma atividade adicional em relação à Figura 9 é a atividade adddummyewkfid que consiste em copiar a coluna de identificação da execução do workflow para que seja utilizada como operando na atividade (9) de forma que todas as tuplas referentes à mesma execução sejam entradas da atividade (10). Tabela 1 Atividades e Relações do Workflow SciPhyTreeMiner Atividade Identificação Relação de Relação de Entrada Saída (1) Seleção de Dados dataselection idataselection odataselection (2) MAFFT mafft imafft omafft (3) Adaptação de Formato readseq ireadseq oreadseq (4) Seleção de Modelos Ótimos modelgenerator imodelgenerator omodelgenerator (5) Construção de Árvores com RAxML raxml iraxml oraxml (6) Construção de Árvores com PhyML phyml iphyml ophyml 25

39 (7) Agrupamento de Relações (8) Representação de Árvores Clonagem de ID de Execução (9) União de Entradas Reduce (10) Mineração de Árvores (11) Representação de FSTs merge iphytree_raxml iphytree_phyml omerge treeparser itreeparser otreeparser adddummyewkfid idummy_ewkfid odummy_ewkfid evoreduce ievoreduce oevoreduce evominer_multiple ievominer oevominer evotreeparser ievotreeparser oevotreeparser 4.1. Representação de Árvores Filogenéticas em Tabelas A primeira extensão realizada no SciPhy consiste na adição de uma atividade que permita a consulta às topologias das árvores através do banco de dados do workflow, atividade (8) da Figura 9. Uma vez que o workflow se utiliza de banco de dados relacionais, a atividade deve, então, converter a árvore filogenética para um formato tabular. Tendo em vista que uma árvore é um tipo particular de grafo (Cormen 2009), podemos utilizar representação de grafos para representar árvores filogenéticas. Assim, uma árvore filogenética pode ser representada por uma tabela de adjacência (Cormen 2009) adaptada, em que cada linha representa um nó da árvore contendo informações como taxonomia, identificação de nó e identificação de nó pai, como exemplificado pela tabela e figura abaixo. Tabela 2 Tabela de Adjacência de Árvore Taxonomia ID_Nó ID_Pai * 0 * Azul 1 0 * 2 0 Vermelho 3 2 Amarelo 4 2 * = sem valor Figura 11 Árvore Exemplo para Tabela de Adjacência (Tabela 1) 26

40 A fim de se aproveitar o SciCumulus, a extensão para representação dos dados de domínio se dará como uma atividade adicional ao workflow SciPhy. A atividade adicional, então, é responsável por reescrever os dados de domínio em forma tabular e por fornecer ao SciCumulus um extrator que permita a leitura e escrita dessas tabelas no banco de dados. Embora essa adaptação pudesse ser realizada como o desenvolvimento de um novo extrator da atividade de construção de árvores, a adição de uma nova atividade permite que a representação seja feita em uma única atividade quando utilizado vários métodos de construção de árvores (Figura 9). Assim, é gerada apenas uma tabela contendo todos os dados de domínio de construção de árvores, facilitando as consultas SQL aos dados de domínio. Essa configuração permite, também, que o registro de outros dados resultantes da atividade de construção de árvores, como valores de parâmetros ou dados numéricos, sejam mantidos como registros da execução da atividade, uma vez que cada atividade ocupa uma tabela relacional no banco de dados. A atividade treeparser, então, é responsável por traduzir o formato Newick das árvores filogenéticas em um formato tabular como o descrito nesta seção. O formato tabular é, então, registrado no banco de dados por meio de um extrator, fazendo com que a tabela referente a essa atividade seja uma tabela de adjacência de árvores, como na Tabela 3. Tabela 3 Tabela de Registro de Árvores Filogenéticas em Banco de Dados ID tree_reference taxon_name node_id parent_id 0 Tree_1 None 0 None 1 Tree_1 Taxon_ Tree_1 None Tree_1 Taxon_ Tree_1 Taxon_

41 5 Tree_2 None 0 None 6 Tree_2 Taxon_ Tree_2 None Tree_2 Taxon_ Tree_2 None Tree_2 Taxon_ Tree_2 Taxon_4 6 4 A primeira coluna, tree_reference, guarda o nome da árvore filogenética convertida para o formato tabular. É necessário carregar a referência da árvore uma vez que a execução do workflow científico para várias entradas resulta na representação de várias árvores filogenéticas. As demais colunas (i.e. taxon_name, node_id e parente_id) dizem respeito às colunas da Tabela 1, descrita no início desse capítulo. A taxonomia é necessária para manter o acesso à filogenia da árvore, e as identificações de nó e nó pai são necessárias para consulta das relações entre nós. O campo taxon_name de um nó interno recebe o valor None por se tratar de um nó sem taxonomia. Essa atividade, então, permite que o cientista realize consultas SQL a respeito das topologias representadas na tabela. Na Tabela 3, por exemplo, pode-se consultar irmãos de Taxon_2 na árvore Tree_1 selecionando ocorrências que possuam parente_id igual ao parente_id de Taxon_2 e que tenham tree_reference igual a Tree_1. Maiores detalhes a respeito de consultas SQL a serem realizadas sobre esse tipo de tabela são apresentados no capítulo 5, onde é realizada uma análise experimental do SciPhyTreeMiner. Em relação à implementação, foi utilizado Python 2.7 e Dendropy v4.0 (Sukumaran e Holder 2010) para o programa a ser executado na atividade (8). Essa, por sua vez, foi adicionada ao XML do workflow no SciCumulus com suas especificações. Trata-se de uma atividade do tipo SplitMap (E. S. Ogasawara et al. 2011), uma vez que para cada entrada de dado do workflow, são necessárias várias entradas na tabela do banco de dados, 28

42 onde cada uma representa um nó de cada árvore filogenética de entrada. Assim, o resultado é semelhante à Tabela 3 já descrita Mineração de Árvores Filogenéticas A segunda extensão realizada no SciPhy consiste na adição de um conjunto de atividades que permita ao cientista a consulta a topologias frequentes no conjunto de árvores filogenéticas proveniente das atividades de construção de árvores filogenéticas. Assim, para retornar topologias frequentes, este projeto utiliza o algoritmo EvoMiner proposto por Deepak et al. (2014) que utiliza a ideia construtiva de subárvores frequentes, bem como a ideia de fingerprint proposto por Karp e Rabin (1987), conforme descrito no capítulo 2. Para este projeto, o algoritmo EvoMiner foi implementado utilizando Python 2.7 e Dendropy v4.0 (Sukumaran e Holder 2010). É esperado como entrada, um arquivo contendo os destinos das árvores a serem mineradas, bem como seus nomes de referência. As árvores filogenéticas de entrada, então, são forçadas a serem enraizadas. A forma como a raíz é defnida é diretamente influenciada pela forma como a árvore está escrita no formato Newick. Dessa forma, todas as árvores são inseridas ao processo de mineração como árvores enraizadas a fim de manter as garantias feitas por Deepak et al. (2014). O algoritmo inicia o processo iterativo e construtivo a partir de subárvores frequentes de três folhas computadas por força bruta em um passo inicial. As subárvores frequentes subsequentes são, então, computadas seguindo os passos do algoritmo já descrito. O programa retorna, então, dois arquivos contendo subárvores frequentes: um contendo todas as subárvores frequentes obtidas separadas por número de folhas e outro contendo somente as subárvores frequentes com o número máximo de folhas alcançado pelo algoritmo. 29

43 Dessa forma, a saída da atividade (10), evominer_multiple, também pode ser utilizada como entrada para o algoritmo de representação de árvores filogenéticas descrito anteriormente, auxiliando a visualização das subárvores frequentes obtidas. A atividade de representação, no entanto, precisa ser adaptada para suportar a coluna da tabela referente à frequência das árvores, resultando em uma nova atividade (11) evotreeparser (Figura 9). 30

44 5. Análise Experimental do SciPhyTreeMiner O primeiro cenário experimental a ser descrito consiste em duas execuções do workflow SciPhyTreeMiner realizadas em apenas uma máquina local para dois conjuntos distintos de entradas contendo duas entradas distintas cada. Assim, é possível avaliar o comportamento do workflow para múltiplas entradas e múltiplas execuções. A Tabela 4 resume o cenário inicial da análise experimental do workflow proposto SciPhyTreeMiner. Tabela 4 Cenário Experimental Workflow SciPhyTreeMiner Tag do Workflow Tag de Execução Nº de Entradas Nome das Entradas sciphytreeminer wftreeminer_1-1 2 ORTHOMCL337 ORTHOMCL358 sciphytreeminer wftreeminer_1-2 2 ORTHOMCL256 ORTHOMCL320 A análise do workflow consiste em consultas SQL à base de dados de proveniência do SciCumulus referentes ao workflow SciPhyTreeMiner. Essas consultas podem ser classificadas em: (i) consultas de desempenho (e.g. tempo de execução do workflow e suas atividades), (ii) consultas de monitoramento (e.g. da execução runtime das atividades do workflow), e (iii) consultas analíticas, referentes aos dados de domínio. Cabe mencionar que este projeto tem foco nas consultas relacionadas às atividades (8) e (10), bem como aos dados de domínio. Nesse caso, as consultas aos dados de domínio serão feitas sobre os dados referentes às atividades (8) e (10) Consultas de Atividades O workflow SciPhyTreeMiner possui algumas atividades adicionais em relação ao SciPhy, o que torna interessante a análise da execução dessas atividades a fim de verificar o impacto de sua adição na performance do workflow científico. 31

45 As consultas a seguir utilizam as tabelas de registro de dados de execução eworkflow e eactivity a fim de retornar o tempo de execução de cada atividade. São tabelas que contém informações referentes à execuções de cada atividade e do workflow como um todo. São utilizados, principalmente, os campos ewkfid e wkfid, que corresponde à identificação de cada execução do workflow nas tabelas eworkflow e eactivity respectivamente, e os campos tag e tagexec da tabela eworkflow que correspondem aos nomes do workflow e de cada execução do workflow respectivamente. Consulta SQL 1 e Consulta SQL 2 descrevem o código em SQL correspondente a essa consulta, em que cada consulta retorna o tempo das atividades de cada execução do workflow: wftreeminer_1-1 e wftreeminer_1-2. Figura 12 e Figura 13 contém os resultados das consultas abaixo. SELECT act.tag, ewf.tagexec, EXTRACT ('epoch' FROM(act.endtime-act.starttime)) AS duration FROM eworkflow ewf, eactivity act WHERE ewf.ewkfid = act.wkfid AND ewf.tag = 'sciphytreeminer' AND ewf.tagexec = 'wftreeminer_1-1' ORDER BY duration Consulta SQL 1 Retorna Tempo de Execução das Atividades da Execução wftreeminer_1-1 do SciPhyTreeMiner SELECT act.tag, ewf.tagexec, EXTRACT ('epoch' FROM(act.endtime-act.starttime)) AS duration FROM eworkflow ewf, eactivity act WHERE ewf.ewkfid = act.wkfid AND ewf.tag = 'sciphytreeminer' AND ewf.tagexec = 'wftreeminer_1-2' ORDER BY duration Consulta SQL 2 Retorna Tempo de Execução das Atividades da Execução wftreeminer_1-2 do SciPhyTreeMiner 32

46 Figura 12 - Resultados da Consulta SQL 1: Tempo de Execução de Atividades de wftreeminer_1-1 Figura 13 Resultados da Consulta SQL 2: Tempo de Execução de Atividades de wftreeminer_1-2 As consultas acima permitem verificar que a atividade que mais demanda tempo é a atividade de seleção de modelos ótimos representada pela atividade modelgenerator. As atividades adicionais evominer_multiple, treeparser, evoreduce, evotreeparser e adddummyewkfid possuem tempo de execução visivelmente menor que a atividade 33

47 modelgenerator para esse cenário. A atividade adicional que mais consome tempo é a atividade referente à mineração dos dados de domínio: evominer_multiple. As atividades de representação de árvores filogenéticas treeparser e evotreeparser possuem, para esse caso, pouca influência no tempo total de execução do workflow Consultas de Representação de Árvores Filogenéticas A atividade de representação de árvores filogenéticas foi inserida no workflow a fim de permitir que o cientista possa consultar a estrutura das árvores inferidas utilizando consultas SQL à base de dados que armazena os dados de domínio dos workflows científicos. Assim, foram elaboradas algumas consultas a serem realizadas nos dados gerados a partir da atividade de representação das árvores filogenéticas inferidas pelos programas RAxML e PhyML durante as execuções do workflow SciPhyTreeMiner. A Consulta SQL 3 retorna todos os ancestrais de uma folha específica dentro de uma árvore especificada. No caso, a consulta retorna todos os nós ancestrais da folha de taxonomia 8 na árvore proveniente da construção de árvores com o programa RAxML a partir da entrada ORTHOMCL320. A Figura 14 contém os resultados. WITH RECURSIVE qr AS ( SELECT etable.tree_reference, etable.taxon_name, etable.node_id, etable.parent_id FROM sciphytreeminer.otreeparser AS etable WHERE etable.tree_reference LIKE '%ORTHOMCL320%RAxML' AND etable.taxon_name = '8' UNION ALL SELECT etable.tree_reference, etable.taxon_name, etable.node_id, etable.parent_id FROM sciphytreeminer.otreeparser AS etable JOIN qr ON qr.parent_id = etable.node_id AND qr.tree_reference = etable.tree_reference) SELECT * FROM qr Consulta SQL 3 Retorna Nós Ancestrais da Espécie 8 na Árvore Inferida pelo RAxML 34

48 Figura 14 Resultados da Consulta SQL 3: Nós Ancestrais de uma Folha A Consulta SQL 3 pode ser variada de forma a obter os ancestrais da mesma espécie em mais árvores. O percurso utilizado para construir a representação treeparser foi um percurso em nível, de forma que o campo parente_id tem sempre valor menor que o campo node_id. A forma como a árvore é percorrida influencia apenas no valor de identificação dos nós, mas a relação entre eles é mantida. Assim, a árvore pode ser facilmente reconstruída. No contexto de ancestralidade, é comum o cientista ter interesse em consultar nós ancestrais comuns entre duas ou mais espécies na árvore filogenética. A Consulta SQL 4 retorna ancestrais comuns às espécies 2 e 6 na árvore inferida pelo PhyML a partir da entrada ORTHOMCL337. A Figura 16 mostra os resultados que podem ser verificados através da árvore representada na Figura 15, em que os ancestrais comuns estão marcados por um círculo preto. id 1 id 4 Figura 15 - Árvore Filogenética Construída pelo PhyML para a Entrada ORTHOMCL337 35

49 SELECT X.tree_reference, X.node_id FROM (WITH RECURSIVE qr AS ( SELECT t.tree_reference, t.taxon_name, t.node_id, t.parent_id FROM sciphytreeminer.otreeparser AS t WHERE t.tree_reference LIKE '%ORTHOMCL337%phyml%' AND t.taxon_name = '2' UNION ALL SELECT t.tree_reference, t.taxon_name, t.node_id, t.parent_id FROM sciphytreeminer.otreeparser AS t JOIN qr ON qr.parent_id = t.node_id AND qr.tree_reference = t.tree_reference) SELECT * FROM qr) X WHERE X.node_id IN (SELECT node_id FROM (WITH RECURSIVE q AS ( SELECT t.tree_reference, t.taxon_name, t.node_id, t.parent_id FROM sciphytreeminer.otreeparser AS t WHERE t.tree_reference LIKE '%ORTHOMCL337%phyml%' AND t.taxon_name = '6' UNION ALL SELECT t.tree_reference, t.taxon_name, t.node_id, t.parent_id FROM sciphytreeminer.otreeparser AS t JOIN q ON q.parent_id = t.node_id AND q.tree_reference = t.tree_reference) SELECT * FROM q) AS X) Consulta SQL 4 Retorna Nós Ancestrais Comuns às Espécies 6 e 2 na Árvore Inferida pelo PhyML a partir da Entrada ORTHOMCL337 Figura 16 Resultados da Consulta SQL 4: Nós Ancestrais Comuns a duas Espécies Outra consulta de interesse a ser feita sobre uma árvore filogenética é o tamanho do caminho entre duas espécies na árvore. Essa consulta poderia ser realizada utilizando a Consulta SQL 4 como ponto de partida. Nesse caso, basta contar as entradas retornadas 36

50 pela Consulta SQL 3 a partir do menor ancestral comum obtido pela Consulta SQL 4, que poderia ser obtido restringindo a consulta à primeira entrada encontrada. Identificando esse resultado como LCA 2,6, a Consulta SQL 5 mostra o código necessário para a obtenção do tamanho do caminho entre as espécies 2 e 6. O resultado da consulta, no caso, é de 3. WITH RECURSIVE q AS ( SELECT t. tree_reference, t.node_id, t.parent_id FROM sciphytreeminer.otreeparser AS t WHERE t.tree_reference LIKE '%ORTHOMCL337%phyml%' AND t.node_id = LCA(2,6) UNION ALL SELECT t.tree_reference, t.node_id, t.parent_id FROM sciphytreeminer.otreeparser AS t JOIN q ON q.node_id = t.parent_id AND q.tree_reference = t.tree_reference AND q.node_id IN (SELECT s.node_id FROM (WITH RECURSIVE qr AS ( SELECT t.tree_reference, t.node_id, t.parend_id FROM sciphytreeminer.otreeparser AS t WHERE t.tree_reference LIKE '%ORTHOMCL337%phyml%' AND t.taxon_name = '6' UNION ALL SELECT t.tree_reference, t.node_id, t.parent_id FROM sciphytreeminer.otreeparser AS t JOIN qr ON qr.parent_id = t.node_id AND qr.tree_reference = t.tree_reference) SELECT * FROM qr) AS s)) SELECT COUNT(*) FROM q Consulta SQL 5 Retorna Tamanho do Caminho entre as Espécies 6 e 2 na Árvore Inferida pelo PhyML a partir de ORTHOMCL337 A atividade de representação de árvores filogenéticas, portanto, permite ao cientista consultar toda a estrutura das árvores utilizando consultas à base de dados direcionadas para o tipo de informação desejada. Dessa forma, o cientista não mais precisa acessar 37

51 diretamente o sistema de arquivos do experimento e obtém as informações de forma mais prática e limpa Consultas de Mineração de Árvores Filogenéticas A atividade de mineração de árvores retorna um conjunto de subárvores frequentes que podem ser armazenas e consultadas através da atividade de representação. Dessa forma, as consultas referentes à topologia das subárvores frequentes se assemelham às consultas realizadas e propostas na seção 5.2. A execução dessa atividade gera dois arquivos, que podem ser adaptados como entrada para a atividade de representação. Por conveniência, apenas a saída contendo as maiores subárvores frequentes foram extraídas para o banco de dados. A tabela resultante é semelhante à retornada pela atividade treeparser e é identificada como evotreeparser para se referir à representação das árvores filogenéticas provenientes da mineração de árvores. Para análise, foi considerado o valor de frequência mínima como sendo 0,5, de forma que as maiores subárvores frequentes não são iguais às árvores filogenéticas de entrada. Assim, além das consultas realizadas na seção 5.2, o cientista pode ter interesse em saber quantas subárvores frequentes maximais foram obtidas. A Consulta SQL 6, portanto, retorna quantas subárvores frequentes maximais há na tabela por execução e a Consulta SQL 7 retorna o tamanho em folhas das subárvores maximais. Figura 17 e Figura 18 contêm os resultados dessas consultas. 38

52 SELECT ewf.tagexec, evocount.maximum_fsts FROM (SELECT ev.ewkfid, COUNT(*) AS maximum_fsts FROM (SELECT DISTINCT evo.ewkfid, evo.tree_reference FROM schiphytreeminer.oevotreeparser AS evo) AS ev GROUP BY ev.ewkfid) AS evocount INNER JOIN eworkflow AS ewf ON ewf.ewkfid = evocount.ewkfid Consulta SQL 6 Retorna Número de Subárvores Frequentes Maximais em cada Execução Figura 17 - Resultados da Consulta SQL 6: Número de FSTs Maximais em Cada Execução SELECT ewf.tagexec, evocount.tree_reference, evocount.n_leaves FROM (SELECT ewf.ewkfid, tree.tree_reference, tree.n_leaves FROM (SELECT evo.tree_reference, COUNT(evo.taxon_name) AS n_leaves FROM sciphytreeminer.oevotreeparser AS evo WHERE evo.taxon_name!= 'None' GROUP BY evo.tree_reference) AS tree INNER JOIN (SELECT DISTINCT evo.ewkfid, evo.tree_reference FROM sciphytreeminer.oevotreeparser AS evo) AS ewf ON ewf.tree_reference = tree.reference) AS evocount INNER JOIN eworkflow AS ewf ON ewf.ewkfid = evocount.ewkfid Consulta SQL 7 Retorna o Número de Folhas nas Subárvores Maximais de cada Execução 39

53 Figura 18 Resultados da Consulta SQL 7: Número de Folhas das FSTs Maximais de cada Execução Além das consultas relacionadas à quantidade de subárvores frequentes maximais e o tamanho delas, é possível, também, realizar consultas relacionadas à frequência de cada subárvore frequente maximal. A Consulta SQL 8 retorna os nomes de referência das subárvores frequentes maximais de maior frequência. A Figura 19 contém os resultados e mostra que, nesse cenário experimental, as maiores subárvores frequentes com frequência mínima de 0,5 possuem frequência igual à mínima tolerada. SELECT ewf.tagexec, evocount.tree_reference, evocount.n_leaves FROM (SELECT ewf.ewkfid, tree.tree_reference, tree.n_leaves FROM (SELECT DISTINCT evo.tree_reference, evo.frequency FROM sciphytreeminer.oevotreeparser AS evo INNER JOIN (SELECT mevo.tree_reference, MAX(mevo.frequency) FROM sciphytreeminer.oevotreeparser AS mevo GROUP BY mevo.tree_reference) AS maxevo ON evo.frequency = maxevo.frequency) AS tree INNER JOIN (SELECT DISTINCT evo.ewkfid, evo.tree_reference FROM sciphytreeminer.oevotreeparser AS evo) AS ewf ON ewf.tree_reference = tree.reference) AS evocount INNER JOIN eworkflow AS ewf ON ewf.ewkfid = evocount.ewkfid Consulta SQL 8 Retorna Nome de Referência das FSTs Maximais de Máxima Frequência de cada Execução 40

54 Figura 19 Resultados da Consulta SQL 8: FSTs Maximais de Máxima Frequência de cada Execução O quão rígido é o valor de frequência mínima depende das entradas do workflow, bem como do número de entradas. As árvores filogenéticas inferidas nas execuções possuem 10 espécies, de forma que subárvores frequentes maximais de 7 folhas em 50% das árvores inferidas pode resultar em maior confiança sobre a inferência dessas relações. É provável que essa ocorrência de subárvores frequentes em 50% esteja relacionada às árvores inferidas a partir da mesma entrada e por programas de construção de árvores diferentes, uma vez que se espera que os programas de construção de árvores retornem, para uma mesma entrada, árvores filogenéticas similares. Entretanto, são conclusões a respeito dos dados de domíno que devem ser realizadas por parte dos cientistas. É possível realizar as consultas 6, 7, 8 a partir das subárvores frequentes e detectar ancestrais comuns ou caminhos mais frequentes na coleção de árvores de entrada. A combinação das duas atividades de mineração e representação, portanto, permite uma análise direta das relações evolutivas mais recorrentes entre as árvores filogenéticas estudadas, sem que seja feita a análise comparativa manual entre as árvores inferidas. Dessa forma, para um caso de múltiplas entradas, ter acesso a relações recorrentes simplifica a análise dos dados de domínio, bem como permite a detecção de informações inalcançáveis manualmente. 41

3 Estratégia para o enriquecimento de informações

3 Estratégia para o enriquecimento de informações 34 3 Estratégia para o enriquecimento de informações Podemos resumir o processo de enriquecimento de informações em duas grandes etapas, a saber, busca e incorporação de dados, como ilustrado na Figura

Leia mais

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO

UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO UNIVERSIDADE FEDERAL DE SANTA MARIA CENTRO DE TECNOLOGIA AULA 14 PROFª BRUNO CALEGARO Santa Maria, 01 de Novembro de 2013. Revisão aula passada Projeto de Arquitetura Decisões de projeto de Arquitetura

Leia mais

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE Fabiana Gomes Marinho Faculdade Lourenço Filho Resumo: Na UML, a modelagem conceitual dos dados é descrita pelo diagrama de classes, que através

Leia mais

Sumário. Introdução ao Microsoft Project. 1 Microsoft Project, gerenciamento de projetos e você 3. 2 Visão geral do Project 11.

Sumário. Introdução ao Microsoft Project. 1 Microsoft Project, gerenciamento de projetos e você 3. 2 Visão geral do Project 11. Sumário Introdução... xiii A quem se destina este livro...xiii Como o livro está organizado...xiii Como baixar os arquivos de prática...xiv Suas configurações no Project...xv Suporte técnico...xvi Parte

Leia mais

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20

Manual do Usuário - ProJuris Web - Biblioteca Jurídica Página 1 de 20 As informações contidas neste documento estão sujeitas a alterações sem o prévio aviso, o que não representa um compromisso da Virtuem Informática. As pessoas, organizações ou empresas e eventos de exemplos

Leia mais

FAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO!

FAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO! FAZEMOS MONOGRAFIA PARA TODO BRASIL, QUALQUER TEMA! ENTRE EM CONTATO CONOSCO! DEFINIÇÃO A pesquisa experimental é composta por um conjunto de atividades e técnicas metódicas realizados para recolher as

Leia mais

Capítulo 2. Processos de Software. 2011 Pearson Prentice Hall. Todos os direitos reservados. slide 1

Capítulo 2. Processos de Software. 2011 Pearson Prentice Hall. Todos os direitos reservados. slide 1 Capítulo 2 Processos de Software slide 1 Tópicos apresentados Modelos de processo de software. Atividades de processo. Lidando com mudanças. Rational Unified Process (RUP). Um exemplo de um processo de

Leia mais

Capítulo 13 Pastas e Arquivos

Capítulo 13 Pastas e Arquivos Capítulo 13 Pastas e Arquivos À medida que a tecnologia avança, os dispositivos móveis vão ganhando cada vez mais funções e características que antes só pertenciam aos computadores pessoais. Com a expansão

Leia mais

agility made possible

agility made possible RESUMO DA SOLUÇÃO Utilitário ConfigXpress no CA IdentityMinder a minha solução de gerenciamento de identidades pode se adaptar rapidamente aos requisitos e processos de negócio em constante mudança? agility

Leia mais

3.1 Definições Uma classe é a descrição de um tipo de objeto.

3.1 Definições Uma classe é a descrição de um tipo de objeto. Unified Modeling Language (UML) Universidade Federal do Maranhão UFMA Pós Graduação de Engenharia de Eletricidade Grupo de Computação Assunto: Diagrama de Classes Autoria:Aristófanes Corrêa Silva Adaptação:

Leia mais

BSI Letramento Digital Prof. André Di Thommazo. Organização pessoal

BSI Letramento Digital Prof. André Di Thommazo. Organização pessoal Organização pessoal Os cursos de graduação exigem que os alunos cursem diversas disciplinas ao mesmo tempo e em alguns semestres a carga horária é grande. Em geral o aluno de ensino a distância tem outras

Leia mais

BACHARELADO EM SISTEMAS DE INFORMAÇÃO EaD UAB/UFSCar Sistemas de Informação - prof. Dr. Hélio Crestana Guardia

BACHARELADO EM SISTEMAS DE INFORMAÇÃO EaD UAB/UFSCar Sistemas de Informação - prof. Dr. Hélio Crestana Guardia O Sistema Operacional que você usa é multitasking? Por multitasking, entende-se a capacidade do SO de ter mais de um processos em execução ao mesmo tempo. É claro que, num dado instante, o número de processos

Leia mais

Aula 2 Revisão 1. Ciclo de Vida. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW

Aula 2 Revisão 1. Ciclo de Vida. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW. Processo de Desenvolvimento de SW Ciclo de Vida Aula 2 Revisão 1 Processo de Desenvolvimento de Software 1 O Processo de desenvolvimento de software é um conjunto de atividades, parcialmente ordenadas, com a finalidade de obter um produto

Leia mais

TRABALHO DE BANCO DE DADOS POSTGRES MINI-MUNDO: BD PARA GERENCIAMENTO DE UNIDADES DE CONSERVAÇÃO

TRABALHO DE BANCO DE DADOS POSTGRES MINI-MUNDO: BD PARA GERENCIAMENTO DE UNIDADES DE CONSERVAÇÃO UERJ Universidade do Estado do Rio de Janeiro Mestrado em Engenharia da Computação Geomática Docente: Oscar Luiz Monteiro de Farias Disciplina: Banco de Dados Alunos: Elisa Santos de Oliveira Teixeira

Leia mais

4- PROJETO DE BANCO DE DADOS

4- PROJETO DE BANCO DE DADOS 4- PROJETO DE BANCO DE DADOS OBJETIVOS DE ENSINO: 4 - Empregar a técnica da modelagem de dados no projeto de banco de dados. OBJETIVOS OPERACIONAIS Ao final desta unidade o aluno será capaz de: 4.1 - Definir

Leia mais

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores Conceitos Básicos de Rede Um manual para empresas com até 75 computadores 1 Conceitos Básicos de Rede Conceitos Básicos de Rede... 1 A Função de Uma Rede... 1 Introdução às Redes... 2 Mais Conceitos Básicos

Leia mais

Manual do Usuário. Protocolo

Manual do Usuário. Protocolo Manual do Usuário Protocolo Índice de capítulos Parte I - Processos............................... 01 1 - Buscar................................ 01 2 - Listar................................ 02 3 - Abertura..............................

Leia mais

Preparação do Trabalho de Pesquisa

Preparação do Trabalho de Pesquisa Preparação do Trabalho de Pesquisa Ricardo de Almeida Falbo Metodologia de Pesquisa Departamento de Informática Universidade Federal do Espírito Santo Pesquisa Bibliográfica Etapas do Trabalho de Pesquisa

Leia mais

O Processo de Engenharia de Requisitos

O Processo de Engenharia de Requisitos UNIVERSIDADE ESTADUAL PAULISTA INSTITUTO DE BIOCIÊNCIAS, LETRAS E CIÊNCIAS EXATAS DEPARTAMENTO DE CIÊNCIAS DE COMPUTAÇÃO E ESTATÍSTICA O Processo de Engenharia de Requisitos Engenharia de Software 2o.

Leia mais

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO DESENVOLVENDO UM PROJETO 1. Pense em um tema de seu interesse ou um problema que você gostaria de resolver. 2. Obtenha um caderno

Leia mais

ATIVIDADES PRÁTICAS SUPERVISIONADAS

ATIVIDADES PRÁTICAS SUPERVISIONADAS ATIVIDADES PRÁTICAS SUPERVISIONADAS Engenharia Mecânica 9ª Série Fabricação Assistida por Computador A atividade prática supervisionada (ATPS) é um método de ensinoaprendizagem desenvolvido por meio de

Leia mais

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle.

Computador E/S, Memória, Barramento do sistema e CPU Onde a CPU Registradores, ULA, Interconexão interna da CPU e Unidade de controle. Introdução Os principais elementos de um sistema de computação são a unidade central de processamento (central processing unit CPU), a memória principal, o subsistema de E/S (entrada e saída) e os mecanismos

Leia mais

CENTRO ESTADUAL DE EDUCAÇÃO TECNOLOGICA PAULA SOUZA ETEC DR. EMLIO HERNANDEZ AGUILAR

CENTRO ESTADUAL DE EDUCAÇÃO TECNOLOGICA PAULA SOUZA ETEC DR. EMLIO HERNANDEZ AGUILAR CENTRO ESTADUAL DE EDUCAÇÃO TECNOLOGICA PAULA SOUZA ETEC DR. EMLIO HERNANDEZ AGUILAR ÁLVARO JOSÉ PIAZON JUNIOR ANDERSON DA SILVA SPERA DÉBORA VICENTE DE OLIVEIRA MANUAL DE ORIENTAÇÃO PARA DESENVOLVIMENTO

Leia mais

SIE - SISTEMA DE INFORMAÇÕES PARA O ENSINO CADASTRO DE FUNCIONÁRIOS

SIE - SISTEMA DE INFORMAÇÕES PARA O ENSINO CADASTRO DE FUNCIONÁRIOS SIE - SISTEMA DE INFORMAÇÕES PARA O ENSINO CADASTRO DE FUNCIONÁRIOS SANTA MARIA FATECIENS 2008 Este manual tem por finalidade apresentar as especificações detalhadas da aplicação de Cadastro de Funcionários,

Leia mais

Guia passo a passo. Como se tornar um pequeno produtor certificado FSC

Guia passo a passo. Como se tornar um pequeno produtor certificado FSC Guia passo a passo Como se tornar um pequeno produtor certificado FSC INTRODUÇÃO AO FSC O que é o FSC? O FSC é uma organização independente, não governamental e sem fins lucrativos criada para promover

Leia mais

Diretrizes para determinação de intervalos de comprovação para equipamentos de medição.

Diretrizes para determinação de intervalos de comprovação para equipamentos de medição. Diretrizes para determinação de intervalos de comprovação para equipamentos de medição. De acordo com a Norma NBR 1001, um grande número de fatores influência a freqüência de calibração. Os mais importantes,

Leia mais

5.1. Análise Comparativa

5.1. Análise Comparativa 5 Conclusões O objetivo desta dissertação foi apresentar o ambiente de autoria Composer, o qual é voltado para a criação de programas NCL, versão 3.0, para TV digital interativa. Da mesma forma que no

Leia mais

Projuris Enterprise Visão Geral da Arquitetura do Sistema

Projuris Enterprise Visão Geral da Arquitetura do Sistema Projuris Enterprise Visão Geral da Arquitetura do Sistema Março/2015 Página 1 de 17 Projuris Enterprise Projuris Enterprise é um sistema 100% Web, com foco na gestão de contencioso por empresas ou firmas

Leia mais

Autoria:Aristófanes Corrêa Silva Adaptação: Alexandre César M de Oliveira

Autoria:Aristófanes Corrêa Silva Adaptação: Alexandre César M de Oliveira Unified Modeling Language (UML) Universidade Federal do Maranhão UFMA Pós Graduação de Engenharia de Eletricidade Grupo de Computação Assunto: Introdução Autoria:Aristófanes Corrêa Silva Adaptação: Alexandre

Leia mais

Especificação Operacional.

Especificação Operacional. Especificação Operacional. Para muitos sistemas, a incerteza acerca dos requisitos leva a mudanças e problemas mais tarde no desenvolvimento de software. Zave (1984) sugere um modelo de processo que permite

Leia mais

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios Cronograma das Aulas. Hoje você está na aula Semana

Leia mais

LISTA DE VERIFICAÇAO DO SISTEMA DE GESTAO DA QUALIDADE

LISTA DE VERIFICAÇAO DO SISTEMA DE GESTAO DA QUALIDADE Questionamento a alta direção: 1. Quais os objetivos e metas da organização? 2. quais os principais Produtos e/ou serviços da organização? 3. Qual o escopo da certificação? 4. qual é a Visão e Missão?

Leia mais

2 Gerenciamento de Log 2.1 Definições básicas

2 Gerenciamento de Log 2.1 Definições básicas 2 Gerenciamento de Log 2.1 Definições básicas Os logs são fontes riquíssimas de informação e são gerados pelos servidores e pelas aplicações conforme eventos significativos acontecem. Em [1], log é definido

Leia mais

MAPEAMENTO OBJETO RELACIONAL: UM ESTUDO DE CASO

MAPEAMENTO OBJETO RELACIONAL: UM ESTUDO DE CASO MAPEAMENTO OBJETO RELACIONAL: UM ESTUDO DE CASO UTILIZANDO O HIBERNATE Rafael Laurino GUERRA, Dra. Luciana Aparecida Martinez ZAINA Faculdade de Tecnologia de Indaiatuba FATEC-ID 1 RESUMO Este artigo apresenta

Leia mais

Transformação de um Modelo de Empresa em Requisitos de Software

Transformação de um Modelo de Empresa em Requisitos de Software Transformação de um Modelo de Empresa em Requisitos de Software Fábio Levy Siqueira 1 and Paulo Sérgio Muniz Silva 2 1 Programa de Educação Continuada da Poli-USP, São Paulo, Brazil 2 Escola Politécnica

Leia mais

Sistemas Operacionais Arquivos. Carlos Ferraz (cagf@cin.ufpe.br) Jorge Cavalcanti Fonsêca (jcbf@cin.ufpe.br)

Sistemas Operacionais Arquivos. Carlos Ferraz (cagf@cin.ufpe.br) Jorge Cavalcanti Fonsêca (jcbf@cin.ufpe.br) Sistemas Operacionais Arquivos Carlos Ferraz (cagf@cin.ufpe.br) Jorge Cavalcanti Fonsêca (jcbf@cin.ufpe.br) Copyright Carlos Ferraz Cin/UFPE Implementação do Sistema de Arquivos Sistemas de arquivos são

Leia mais

IMPLANTAÇÃO DOS PILARES DA MPT NO DESEMPENHO OPERACIONAL EM UM CENTRO DE DISTRIBUIÇÃO DE COSMÉTICOS. XV INIC / XI EPG - UNIVAP 2011

IMPLANTAÇÃO DOS PILARES DA MPT NO DESEMPENHO OPERACIONAL EM UM CENTRO DE DISTRIBUIÇÃO DE COSMÉTICOS. XV INIC / XI EPG - UNIVAP 2011 IMPLANTAÇÃO DOS PILARES DA MPT NO DESEMPENHO OPERACIONAL EM UM CENTRO DE DISTRIBUIÇÃO DE COSMÉTICOS. XV INIC / XI EPG - UNIVAP 2011 Rogério Carlos Tavares 1, José Luis Gomes da Silva² 1 Universidade de

Leia mais

A TEORIA DOS GRAFOS NA ANÁLISE DO FLUXOGRAMA DO CURSO DE ENGENHARIA DE PRODUÇÃO DA UFF

A TEORIA DOS GRAFOS NA ANÁLISE DO FLUXOGRAMA DO CURSO DE ENGENHARIA DE PRODUÇÃO DA UFF RELATÓRIOS DE PESQUISA EM ENGENHARIA DE PRODUÇÃO, v.13, Série B. n.3, p. 20-33. A TEORIA DOS GRAFOS NA ANÁLISE DO FLUXOGRAMA DO CURSO DE ENGENHARIA DE PRODUÇÃO DA UFF Pedro Henrique Drummond Pecly Universidade

Leia mais

ASSUNTO DA APOSTILA: SISTEMAS DE INFORMAÇÃO E AS DECISÕES GERENCIAIS NA ERA DA INTERNET

ASSUNTO DA APOSTILA: SISTEMAS DE INFORMAÇÃO E AS DECISÕES GERENCIAIS NA ERA DA INTERNET AULA 01 ASSUNTO DA APOSTILA: SISTEMAS DE INFORMAÇÃO E AS DECISÕES GERENCIAIS NA ERA DA INTERNET JAMES A. O BRIEN CAPÍTULO 01 Páginas 03 à 25 1 A mistura de tecnologias da Internet e preocupações empresariais

Leia mais

Conectar diferentes pesquisas na internet por um menu

Conectar diferentes pesquisas na internet por um menu Conectar diferentes pesquisas na internet por um menu Pré requisitos: Elaboração de questionário Formulário multimídia Publicação na internet Uso de senhas na Web Visualização condicionada ao perfil A

Leia mais

Integrando o Framework I* com a Gerência de Risco

Integrando o Framework I* com a Gerência de Risco Integrando o Framework I* com a Gerência de Risco Jean Poul Varela¹, Jaelson Castro¹, Victor F. A. Santander² ¹Centro de Informática, Universidade Federal de Pernambuco, Recife, Brasil. {jpv, jbc}@cin.ufpe.br

Leia mais

Análise e Projeto de Software

Análise e Projeto de Software Análise e Projeto de Software 1 Mundo Real Modelagem Elicitação Análise Problemas Soluções Gap Semântico Mundo Computacional Elicitação de Requisitos Análise de Requisitos Modelagem dos Requisitos 2 Projeto

Leia mais

Bem-vindo ao tópico sobre consultas no SAP Business One.

Bem-vindo ao tópico sobre consultas no SAP Business One. Bem-vindo ao tópico sobre consultas no SAP Business One. 1 Neste tópico, você aprenderá a criar consultas SQL utilizando as ferramentas de consulta do SAP Business One Assistente de consultas e Gerador

Leia mais

Guia de utilização da notação BPMN

Guia de utilização da notação BPMN 1 Guia de utilização da notação BPMN Agosto 2011 2 Sumário de Informações do Documento Documento: Guia_de_utilização_da_notação_BPMN.odt Número de páginas: 31 Versão Data Mudanças Autor 1.0 15/09/11 Criação

Leia mais

Modelo de Trabalho de Culminação de Estudos na Modalidade de Projecto de Pesquisa

Modelo de Trabalho de Culminação de Estudos na Modalidade de Projecto de Pesquisa UNIVERSIDADE EDUARDO MONDLANE Faculdade de Letras e Ciências Sociais Departamento de Arqueologia e Antropologia Curso de Licenciatura em Antropologia Modelo de Trabalho de Culminação de Estudos na Modalidade

Leia mais

Bem-vindo ao tópico sobre administração de listas de preços.

Bem-vindo ao tópico sobre administração de listas de preços. Bem-vindo ao tópico sobre administração de listas de preços. Nesse tópico, você aprenderá a administrar listas de preços no SAP Business One. Sua empresa atualiza múltiplas listas de preços para fornecer

Leia mais

LED BACKUP. Para realizar Backups e Transmitir arquivos para Ledware, basta acessar o Menu Gerenciamento, Efetuar / Recuperar Backup:

LED BACKUP. Para realizar Backups e Transmitir arquivos para Ledware, basta acessar o Menu Gerenciamento, Efetuar / Recuperar Backup: LED BACKUP Para realizar Backups e Transmitir arquivos para Ledware, basta acessar o Menu Gerenciamento, Efetuar / Recuperar Backup: Em seguida abrirá a Tela para Efetuar / Recuperar Backup: MÉTODOS DE

Leia mais

UFG - Instituto de Informática

UFG - Instituto de Informática UFG - Instituto de Informática Especialização em Desenvolvimento de Aplicações Web com Interfaces Ricas EJB 3.0 Prof.: Fabrízzio A A M N Soares professor.fabrizzio@gmail.com Aula 6 EJB Enterprise Java

Leia mais

PMBoK Comentários das Provas TRE-PR 2009

PMBoK Comentários das Provas TRE-PR 2009 PMBoK Comentários das Provas TRE-PR 2009 Comentário geral: As provas apresentaram grau de dificuldade médio. Não houve uma preocupação da banca em aprofundar os conceitos ou dificultar a interpretação

Leia mais

Passo a Passo do Cadastro Funcionários no SIGLA Digital

Passo a Passo do Cadastro Funcionários no SIGLA Digital Passo a Passo do Cadastro Funcionários no SIGLA Digital Funcionários Página 1 de 12 O cadastro de funcionários permite cadastrar o usuário que vai utilizar o SIGLA Digital e também seus dados pessoais.

Leia mais

Soluções via.net para otimização de processos paramétricos com Autodesk Inventor.

Soluções via.net para otimização de processos paramétricos com Autodesk Inventor. Soluções via.net para otimização de processos paramétricos com Autodesk Inventor. Michel Brites dos Santos MAPData A parametrização quando possível já é uma forma de otimizar o processo de criação na engenharia.

Leia mais

Nesta seção apresentamos protótipos que desenvolvemos com o objetivo de levantar os requesitos necessários para um sistema para apresentações

Nesta seção apresentamos protótipos que desenvolvemos com o objetivo de levantar os requesitos necessários para um sistema para apresentações 3 Protótipos Nesta seção apresentamos protótipos que desenvolvemos com o objetivo de levantar os requesitos necessários para um sistema para apresentações multimídia distribuídas. Os protótipos auxiliaram

Leia mais

2 Fundamentação Conceitual

2 Fundamentação Conceitual 2 Fundamentação Conceitual 2.1 Computação Pervasiva Mark Weiser define pela primeira vez o termo Computação Ubíqua ou Computação Pervasiva (Ubiquitous Computing) em (10). O autor inicia o trabalho com

Leia mais

18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB

18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB 18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE UM MODELO DE TESTE DE APLICAÇÕES WEB Autor(es) HARLEI MIGUEL DE ARRUDA LEITE Orientador(es) PLÍNIO ROBERTO SOUZA VILELA Apoio Financeiro PIBIC/CNPQ

Leia mais

CENTRO UNIVERSITÁRIO DE ENSINO SUPERIOR DO AMAZONAS - CIESA CENTRO DE PROCESSAMENTO DE DADOS CPD MANUAL DE UTILIZAÇÃO DO MOODLE 2.

CENTRO UNIVERSITÁRIO DE ENSINO SUPERIOR DO AMAZONAS - CIESA CENTRO DE PROCESSAMENTO DE DADOS CPD MANUAL DE UTILIZAÇÃO DO MOODLE 2. CENTRO UNIVERSITÁRIO DE ENSINO SUPERIOR DO AMAZONAS - CIESA CENTRO DE PROCESSAMENTO DE DADOS CPD MANUAL DE UTILIZAÇÃO DO MOODLE 2.8 PERFIL ALUNO Versão 1.0 2015 CENTRO UNIVERSITÁRIO DE ENSINO SUPERIOR

Leia mais

Sistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3

Sistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3 Sistemas de Arquivos NTFS, FAT16, FAT32, EXT2 e EXT3 Os sistemas de arquivos é a parte do SO responsável pelo gerenciamento dos arquivos (estrutura, identificação, acesso, utilização, proteção e implementação).

Leia mais

Melhore a tomada de decisões com insight das informações Soluções de governança da informação da Veritas

Melhore a tomada de decisões com insight das informações Soluções de governança da informação da Veritas Melhore a tomada de decisões com insight das informações Soluções de governança da informação da Veritas A informação pode ser sua maior aliada. Porém, sem saber, para a maioria das organizações, ela se

Leia mais

compreensão ampla do texto, o que se faz necessário para o desenvolvimento das habilidades para as quais essa prática apresentou poder explicativo.

compreensão ampla do texto, o que se faz necessário para o desenvolvimento das habilidades para as quais essa prática apresentou poder explicativo. 9 Conclusão Neste estudo, eu me propus a investigar os efeitos de práticas de Língua Portuguesa no aprendizado de leitura e como esses efeitos se diferenciam conforme o ano de escolaridade dos alunos e

Leia mais

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001

Figura 5.1.Modelo não linear de um neurônio j da camada k+1. Fonte: HAYKIN, 2001 47 5 Redes Neurais O trabalho em redes neurais artificiais, usualmente denominadas redes neurais ou RNA, tem sido motivado desde o começo pelo reconhecimento de que o cérebro humano processa informações

Leia mais

ORGANIZAÇÃO DE COMPUTADORES MÓDULO 1

ORGANIZAÇÃO DE COMPUTADORES MÓDULO 1 ORGANIZAÇÃO DE COMPUTADORES MÓDULO 1 Índice 1. Introdução...3 1.1. O que é um Computador?... 3 1.2. Máquinas Multiníveis... 3 2 1. INTRODUÇÃO 1.1 O QUE É UM COMPUTADOR? Para estudarmos como um computador

Leia mais

GBD PROF. ANDREZA S. AREÃO

GBD PROF. ANDREZA S. AREÃO GBD PROF. ANDREZA S. AREÃO Dado, Informação e Conhecimento DADO: Estímulos captados pelos sentidos humanos; Símbolos gráficos ou sonoros; Ocorrências registradas (em memória, papel, etc.); Indica uma situação

Leia mais

TRANSIÇÃO DAS CERTIFICAÇÕES DOS SISTEMAS DE GESTÃO DA QUALIDADE E SISTEMAS DE GESTÃO AMBIENTAL, PARA AS VERSÕES 2015 DAS NORMAS.

TRANSIÇÃO DAS CERTIFICAÇÕES DOS SISTEMAS DE GESTÃO DA QUALIDADE E SISTEMAS DE GESTÃO AMBIENTAL, PARA AS VERSÕES 2015 DAS NORMAS. TRANSIÇÃO DAS CERTIFICAÇÕES DOS SISTEMAS DE GESTÃO DA QUALIDADE E SISTEMAS DE GESTÃO AMBIENTAL, PARA AS VERSÕES 2015 DAS NORMAS. As novas versões das normas ABNT NBR ISO 9001 e ABNT NBR ISO 14001 foram

Leia mais

CONSTRUÇÃO DE UM FRAMEWORK PARA O DESENVOLVIMENTO DE APLICAÇÕES WEB

CONSTRUÇÃO DE UM FRAMEWORK PARA O DESENVOLVIMENTO DE APLICAÇÕES WEB ISBN 978-85-61091-05-7 V EPCC Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 CONSTRUÇÃO DE UM FRAMEWORK PARA O DESENVOLVIMENTO DE APLICAÇÕES WEB Lincoln Fernandes Paulino

Leia mais

Engenharia de Software II

Engenharia de Software II Engenharia de Software II Aula 28 Revisão para a Prova 2 http://www.ic.uff.br/~bianca/engsoft2/ Aula 28-28/07/2006 1 Matéria para a Prova 2 Gestão de projetos de software Conceitos (Cap. 21) Métricas (Cap.

Leia mais

3 Gerenciamento de Projetos

3 Gerenciamento de Projetos 34 3 Gerenciamento de Projetos Neste capítulo, será abordado o tema de gerenciamento de projetos, iniciando na seção 3.1 um estudo de bibliografia sobre a definição do tema e a origem deste estudo. Na

Leia mais

SOCIEDADE DE EDUCAÇÃO E CULTURA DE GOIANIA LTDA FACULDADE PADRÃO SUMÁRIO CAPÍTULO I 4 DA ORGANIZAÇÃO 4 CAPÍTULO II 5 DOS FUNCIONÁRIOS 5

SOCIEDADE DE EDUCAÇÃO E CULTURA DE GOIANIA LTDA FACULDADE PADRÃO SUMÁRIO CAPÍTULO I 4 DA ORGANIZAÇÃO 4 CAPÍTULO II 5 DOS FUNCIONÁRIOS 5 SUMÁRIO CAPÍTULO I 4 DA ORGANIZAÇÃO 4 CAPÍTULO II 5 DOS FUNCIONÁRIOS 5 CAPÍTULO III 5 DA INFRAESTRUTURA 5 Seção I 6 Das Dependências 6 Seção II 6 Do Hardware e Software 6 Seção III 7 Das Manutenções 7

Leia mais

Journal of Transport Literature

Journal of Transport Literature JTL RELIT www.transport-literature.org ISSN 2238-1031 Journal of Transport Literature JTL Regras de formatação de Artigos 1. Aspectos Gerais Todos os artigos devem ser acompanhados do preenchimento de

Leia mais

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP Planejamento - 7 Planejamento do Gerenciamento do Risco Identificação dos riscos 1 O que é risco? Evento que representa uma ameaça ou uma oportunidade em potencial Plano de gerenciamento do risco Especifica

Leia mais

Bem-vindo ao curso delta Gerenciamento de peso para a versão 9.1. Este curso aborda a nova solução de peso introduzida nessa versão.

Bem-vindo ao curso delta Gerenciamento de peso para a versão 9.1. Este curso aborda a nova solução de peso introduzida nessa versão. Bem-vindo ao curso delta Gerenciamento de peso para a versão 9.1. Este curso aborda a nova solução de peso introduzida nessa versão. Você deve ter bons conhecimentos de estoque, UM e administração de posições

Leia mais

Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento

Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento Relatório Trabalho Prático 2 : Colônia de Formigas para Otimização e Agrupamento Ramon Pereira Lopes Rangel Silva Oliveira 31 de outubro de 2011 1 Introdução O presente documento refere-se ao relatório

Leia mais

Gerenciamento de custos do projeto

Gerenciamento de custos do projeto PMBOK Visão Geral O PMBOK (Project Management Body of Knowledge) é um guia do Conjunto de Conhecimentos em de Projetos, o qual inclui práticas comprovadas que são amplamente aplicadas na gestão de s, além

Leia mais

Microsoft Access INTRODUÇÃO. Sumário INTRODUÇÃO INTRODUÇÃO INTRODUÇÃO INTRODUÇÃO. O que é Banco de Dados?

Microsoft Access INTRODUÇÃO. Sumário INTRODUÇÃO INTRODUÇÃO INTRODUÇÃO INTRODUÇÃO. O que é Banco de Dados? Microsoft Access Sumário 1. 2. ABRINDO UM BANCO DE DADOS PRONTO 3. ASSISTENTE DE BANCO DE DADOS 4. NAVEGANDO PELO BANCO DE DADOS 5. CRIANDO UM BANCO DE DADOS DESDE O INÍCIO 6. CRIANDO COSULTAS 7. CRIANDO

Leia mais

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística

Aula 4 Conceitos Básicos de Estatística. Aula 4 Conceitos básicos de estatística Aula 4 Conceitos Básicos de Estatística Aula 4 Conceitos básicos de estatística A Estatística é a ciência de aprendizagem a partir de dados. Trata-se de uma disciplina estratégica, que coleta, analisa

Leia mais

DALUA: BIBLIOTECA PARA APLICAÇÕES DISTRIBUÍDAS

DALUA: BIBLIOTECA PARA APLICAÇÕES DISTRIBUÍDAS DALUA: BIBLIOTECA PARA APLICAÇÕES DISTRIBUÍDAS Aluno: Ricardo Gomes Leal Costa Orientadora: Noemi de la Rocque Rodriguez Introdução A biblioteca DALua [1], fruto do projeto anterior, tem por objetivo oferecer

Leia mais

Estudo de técnicas de rastreamento de objetos aplicadas à detecção de múltiplas larvas

Estudo de técnicas de rastreamento de objetos aplicadas à detecção de múltiplas larvas Estudo de técnicas de rastreamento de objetos aplicadas à detecção de múltiplas larvas Guilherme de Oliveira Vicente Orientador: Prof. Dr. Hemerson Pistori Coorientador: Prof. Me. Kleber Padovani de Souza

Leia mais

COORDENAÇÃO DE EAD MANUAL DE UTILIZAÇÃO DO MOODLE 2.6 PERFIL ALUNO. Versão 1.0

COORDENAÇÃO DE EAD MANUAL DE UTILIZAÇÃO DO MOODLE 2.6 PERFIL ALUNO. Versão 1.0 COORDENAÇÃO DE EAD MANUAL DE UTILIZAÇÃO DO MOODLE 2.6 PERFIL ALUNO Versão 1.0 2015 SUMÁRIO 1. O MOODLE 3 2. Acesso à Plataforma 3 2.1. Cadastrar-se em uma disciplina 4 2.2. Página Inicial do Curso 5 3.

Leia mais

sendo bastante acessível e compreendido pelos usuários que o utilizarem.

sendo bastante acessível e compreendido pelos usuários que o utilizarem. APLICATIVO WEB PARA O SETOR DE EXTENSÃO IFC VIDEIRA Claudiléia Gaio Bandt 1 ; Tiago Heineck 2 ; Patrick Kochan 3 ; Leila Lisiane Rossi 4 ; Angela Maria Crotti da Rosa 5 INTRODUÇÃO Este artigo descreve

Leia mais

Gerenciamento de Qualidade. Paulo C. Masiero Cap. 24 - SMVL

Gerenciamento de Qualidade. Paulo C. Masiero Cap. 24 - SMVL Gerenciamento de Qualidade Paulo C. Masiero Cap. 24 - SMVL Introdução Melhoria nos níveis gerais de qualidade de software nos anos recentes. Diferenças em relação ao gerenciamento da qualidade na manufatura

Leia mais

Trabalho sobre No-breaks

Trabalho sobre No-breaks Trabalho sobre No-breaks Grupo: Leandro Porto Cristiano Porto Diego Martins Diogo Rubin Os nobreaks protegem os equipamentos contra quatro problemas principais causados pela variação da energia elétrica.

Leia mais

Introdução à. Engenharia de Software. Givanaldo Rocha de Souza givanaldo.rocha@ifrn.edu.br http://docente.ifrn.edu.

Introdução à. Engenharia de Software. Givanaldo Rocha de Souza givanaldo.rocha@ifrn.edu.br http://docente.ifrn.edu. "Antes de imprimir pense em sua responsabilidade e compromisso com o MEIO AMBIENTE." Engenharia de Software Introdução à Engenharia de Software Givanaldo Rocha de Souza givanaldo.rocha@ifrn.edu.br http://docente.ifrn.edu.br/givanaldorocha

Leia mais

natureza do projeto e da aplicação métodos e ferramentas a serem usados controles e produtos que precisam ser entregues

natureza do projeto e da aplicação métodos e ferramentas a serem usados controles e produtos que precisam ser entregues Modelo De Desenvolvimento De Software É uma representação abstrata do processo de desenvolvimento que define como as etapas relativas ao desenvolvimento de software serão conduzidas e interrelacionadas

Leia mais

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ UTFPR COORDENAÇÃO DE ENGENHARIA ELETRÔNICA - COELE ENGENHARIA ELETRÔNICA RENAN AUGUSTO TABORDA

UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ UTFPR COORDENAÇÃO DE ENGENHARIA ELETRÔNICA - COELE ENGENHARIA ELETRÔNICA RENAN AUGUSTO TABORDA UNIVERSIDADE TECNOLÓGICA FEDERAL DO PARANÁ UTFPR COORDENAÇÃO DE ENGENHARIA ELETRÔNICA - COELE ENGENHARIA ELETRÔNICA RENAN AUGUSTO TABORDA RELATÓRIO DE ESTÁGIO OBRIGATÓRIO TOLEDO 2013 i RENAN AUGUSTO TABORDA

Leia mais

Primeiros passos das Planilhas de Obra v2.6

Primeiros passos das Planilhas de Obra v2.6 Primeiros passos das Planilhas de Obra v2.6 Instalação, configuração e primeiros passos para uso das planilhas de obra Elaborado pela Equipe Planilhas de Obra.com Conteúdo 1. Preparar inicialização das

Leia mais

Esse documento tem como finalidade instruir o usuário de como utilizar e compreender o sistema da Multwear The Best Brands.

Esse documento tem como finalidade instruir o usuário de como utilizar e compreender o sistema da Multwear The Best Brands. TUTORIAL DE SISTEMA INTRODUÇÃO Esse documento tem como finalidade instruir o usuário de como utilizar e compreender o sistema da Multwear The Best Brands. O material didático a seguir, apesar da fácil

Leia mais

Agenda Semântica. Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo

Agenda Semântica. Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo Universidade Federal do Espírito Santo Inteligência Artificial Agenda Semântica Grupo: Francisco Rodrigues Júnior Guilherme Daher Ferreira Luana Vieira Morellato Renan Rigo Vitória 2007/02 Agenda Semântica

Leia mais

MODELAGEM DE PROCESSOS USANDO BPMN (BUSINESS PROCESS MODEL AND NOTATION) E IOT (INTERNET DAS COISAS)

MODELAGEM DE PROCESSOS USANDO BPMN (BUSINESS PROCESS MODEL AND NOTATION) E IOT (INTERNET DAS COISAS) WHITE PAPPER Rafael Fazzi Bortolini Diretor, Cryo Technologies Orquestra BPMS rafael@cryo.com.br Internet das Coisas e Gerenciamento de Processos de Negócio (BPM) são duas disciplinas ou tendências à primeira

Leia mais

Introdução a Banco de Dados Aula 03. Prof. Silvestri www.eduardosilvestri.com.br

Introdução a Banco de Dados Aula 03. Prof. Silvestri www.eduardosilvestri.com.br Introdução a Banco de Dados Aula 03 Prof. Silvestri www.eduardosilvestri.com.br Arquiteturas de Banco de Dados Arquiteturas de BD - Introdução Atualmente, devem-se considerar alguns aspectos relevantes

Leia mais

Relatório de Inteligência Emocional. Nome: Jane Smith

Relatório de Inteligência Emocional. Nome: Jane Smith Relatório de Inteligência Emocional Nome: Jane Smith Data: 8 maio 2008 Relatório de Inteligência Emocional (IE) Este relatório descreve as competências-chave para o da Inteligência Emocional (IE), que

Leia mais

Simulador Virtual para Treinamento em Visão de Máquina com LabVIEW

Simulador Virtual para Treinamento em Visão de Máquina com LabVIEW Simulador Virtual para Treinamento em Visão de Máquina com LabVIEW "Esse ambiente pode ser usado para simular e explorar as possibilidades e alcances de uma solução empregando visão de máquina, testar

Leia mais

A ÁLGEBRA NO ENSINO FUNDAMENTAL: RELATO DE UMA EXPERIÊNCIA DE INTERVENÇÃO

A ÁLGEBRA NO ENSINO FUNDAMENTAL: RELATO DE UMA EXPERIÊNCIA DE INTERVENÇÃO A ÁLGEBRA NO ENSINO FUNDAMENTAL: RELATO DE UMA EXPERIÊNCIA DE INTERVENÇÃO Vilmara Luiza Almeida Cabral UFPB/Campus IV Resumo: O presente relato aborda o trabalho desenvolvido no projeto de intervenção

Leia mais

APERFEIÇOAMENTO DE PROCEDIMENTOS ESTATÍSTICOS PARA AVALIAÇÃO INSTITUCIONAL ONLINE: IMPLANTAÇÃO DE RELATÓRIOS ARMAZENÁVEIS

APERFEIÇOAMENTO DE PROCEDIMENTOS ESTATÍSTICOS PARA AVALIAÇÃO INSTITUCIONAL ONLINE: IMPLANTAÇÃO DE RELATÓRIOS ARMAZENÁVEIS APERFEIÇOAMENTO DE PROCEDIMENTOS ESTATÍSTICOS PARA AVALIAÇÃO INSTITUCIONAL ONLINE: IMPLANTAÇÃO DE RELATÓRIOS ARMAZENÁVEIS Marina Pasquali Marconato Mancini CER, DEs, UFSCar 1 2 Anderson Luiz Ara-Souza

Leia mais

UM MODELO DE DADOS VOLTADO AO SERVIÇO DE INTELIGÊNCIA POLICIAL. 1. Introdução. 2. Problemática

UM MODELO DE DADOS VOLTADO AO SERVIÇO DE INTELIGÊNCIA POLICIAL. 1. Introdução. 2. Problemática UM MODELO DE DADOS VOLTADO AO SERVIÇO DE INTELIGÊNCIA POLICIAL 1. Introdução Herbson de Carvalho O uso de um Banco de Dados na atividade de Inteligência Policial possibilita aos agentes envolvidos desempenharem

Leia mais

ADMINISTRAÇÃO GERAL ANALISTA E TÉCNICO ADMINISTRATIVO DA ANTT PROFESSOR: BERNARDO CONRADO

ADMINISTRAÇÃO GERAL ANALISTA E TÉCNICO ADMINISTRATIVO DA ANTT PROFESSOR: BERNARDO CONRADO Olá Pessoal, Aos meus alunos e aos que acessam o Ponto, segue a correção da prova de Administração Geral da ANTT que aconteceu neste final de semana do dia 11/08 de acordo com a minha visão. Infelizmente

Leia mais

CAPÍTULO 2. Grafos e Redes

CAPÍTULO 2. Grafos e Redes CAPÍTULO 2 1. Introdução Um grafo é uma representação visual de um determinado conjunto de dados e da ligação existente entre alguns dos elementos desse conjunto. Desta forma, em muitos dos problemas que

Leia mais

TechProf Documento de Arquitetura

TechProf Documento de Arquitetura TechProf Projeto SuporteProf Versão 1.0 15 de junho de 2016 Responsáveis: Adelson Santos de Melo Filho, Edvaldo Nicolau da Silva, Moisés Luis da Silva Histórico de Revisões Data Versão Descrição Autor

Leia mais

Medição tridimensional

Medição tridimensional A U A UL LA Medição tridimensional Um problema O controle de qualidade dimensional é tão antigo quanto a própria indústria, mas somente nas últimas décadas vem ocupando a importante posição que lhe cabe.

Leia mais

Gerenciamento de Dutos Utilizando SIG Caso GLPDUTO URUCU-COARI

Gerenciamento de Dutos Utilizando SIG Caso GLPDUTO URUCU-COARI Gerenciamento de Dutos Utilizando SIG Caso GLPDUTO URUCU-COARI O caráter multifinalitário de um SIG tem por concepção a geração de uma ferramenta de apoio à tomada de decisão, relacionada aos aspectos

Leia mais

ADMINISTRAÇÃO GERAL GESTÃO DE PROCESSOS

ADMINISTRAÇÃO GERAL GESTÃO DE PROCESSOS ADMINISTRAÇÃO GERAL GESTÃO DE PROCESSOS Atualizado em 21/12/2015 GESTÃO DE PROCESSOS Um processo é um conjunto ou sequência de atividades interligadas, com começo, meio e fim. Por meio de processos, a

Leia mais