Open Source Data Warehousing e Business Intelligence

Tamanho: px
Começar a partir da página:

Download "Open Source Data Warehousing e Business Intelligence"

Transcrição

1 Instituto Politécnico de Coimbra Instituto Superior de Engenharia de Coimbra Departamento de Engenharia Informática e de Sistemas Open Source Data Warehousing e Business Intelligence Pedro Miguel Ribeiro Mestrado em Informática e Sistemas Coimbra, Dezembro 2010

2

3 Instituto Politécnico de Coimbra Instituto Superior de Engenharia de Coimbra Departamento de Engenharia Informática e de Sistemas Open Source Data Warehousing e Business Intelligence Pedro Miguel Ribeiro Orientador: Prof. Doutor Jorge Bernardino ISEC - Instituto Superior de Engenharia de Coimbra Mestrado em Informática e Sistemas Coimbra, Dezembro 2010

4

5 À minha esposa, e aos meus filhos.

6

7 Resumo O software de Business Intelligence (BI) ajuda a tomar decisões com base em dados operacionais concretos, através de indicadores, agregados e relatórios. O mercado desta área de software tem sido dominado pelas soluções proprietárias de grandes empresas, mas as alternativas Open Source têm vindo a melhorar as suas características e a aproximar-se das soluções proprietárias. Por outro lado, os programas Open Source, devido à natureza do seu licenciamento podem ser alterados para se ajustarem às necessidades dos seus utilizadores, permitindo obter benefícios económicos e de flexibilidade. A motivação para este trabalho teve como base a determinação da viabilidade de implementação das plataformas de BI Open Source por parte das Pequenas ou Médias Empresas (PMEs) e a determinação da exequibilidade de serem efectuadas alterações em software Open Source para implementar características importantes, mas não existentes. Foram avaliadas três plataformas BI Open Source (Pentaho, SpagoBI e OpenI) e foi determinada a validade destas plataformas como alternativas válidas para implementação por parte de uma PME. Foi implementada a funcionalidade de Vistas Materializadas no servidor de base de dados MySQL, de modo a avaliar o ganho de performance na execução de queries. Determinámos que, em certas condições, poderão ser obtidos ganhos superiores a 99% no tempo de execução. No âmbito deste trabalho foram ainda publicados dois artigos em conferências, um na conferência internacional E-ALT2010 (E-Activity and Learning Technologies) e um outro no workshop WACI 10 (Workshop on Applications of Computacional Intelligence). Palavras-Chave Business Intelligence Pequenas e Médias Empresas (PMEs) Data Warehousing Open Source iii

8

9 Abstract Business Intelligence (BI) software helps the decision maker to make decisions based on operational data, through indicators, aggregations and reports. The BI market has been dominated by the large multinational proprietary offerings, but Open Source alternatives are getting better and closer to the proprietary solutions. On the other hand, the Open Source licenses allow software modification by anyone who desires, in any way deemed necessary, giving more than economical benefits. With this work we try to find the feasibility of implementing a BI Open Source suite on a Small or Medium Enterprise (SME) and also to determine the possibility of modifying Open Source software in order to implement unexistant interesting characteristics. Three Open Source BI suites were evaluated (Pentaho, SpagoBI and OpenI) and we determined the feasibility of these suites as alternative to proprietary solutions, for a SME. Materialized Views were implemented on the Data Base Server MySQL, in order to check the performance gain of query execution. We determined that, under the proper conditions, more than 99% reduction of query execution time can be achieved. Related to this work, two papers were published, one on the E-ALT2010 international conference and other on the WACI 10 workshop. Keywords Business Intelligence Small and Medium Enterprises (SMEs) Data Warehousing Open Source v

10

11 Agradecimentos Ao meu orientador, Professor Jorge Bernardino, pela disponibilidade e interesse demonstrados ao longo de todo o trabalho desenvolvido, bem como pela ajuda preciosa na elaboração dos artigos submetidos à E-ALT2010, em Oviedo e ao WACI 10, em Coimbra. Aos meus amigos, pelo apoio e incitamento demonstrados. Finalmente, agradeço à minha família, esposa e filhos, pois sem o seu precioso apoio não teria sido possível chegar a bom porto na realização deste trabalho. vii

12

13 Conteúdo 1. Introdução Organização da Tese Software de Código Aberto Diferenças entre Software Livre e Software Open-Source Outras Definições e Licenças Vantagens e desvantagens Data Warehousing Arquitectura genérica de uma Data Warehouse Dados Operacionais Processos de ETL Repositório de Dados Software Analítico Open Source Business Intelligence Servidores OLAP Clientes OLAP Data Mining Criação de Relatórios Dashboards Análise de Plataformas Business Intelligence Open Source Obtenção das plataformas Instalação Pentaho Business Intelligence Server Community Edition SpagoBI OpenI ix

14 5.6. Resumo das plataformas Usabilidade das Plataformas Pentaho Business Intelligence Server SpagoBI OpenI Actividade das equipas de desenvolvimento Utilzação das plataformas em PMEs Modificação de sofwtare open-source Vistas Materializadas Conjunto de Testes Avaliação Experimental Conclusões Conclusões e Trabalho Futuro 51 A. Queries usadas no teste do MySQL 53 B. Queries para criar as Vistas Materializadas 63 C. Artigo publicado na conferência E-ALT D. Artigo publicado na conferência WACI x

15 Lista de Figuras 3.1. Cubo de quantidade vendida de um Produto a um Cliente numa determinada data (Tempo) Arquitectura genérica de uma Data Warehouse Esquema em Estrela Esquema em Floco de Neve Dimensões Partilhadas Interface de login do Pentaho Business Intelligence Server Interface da Pentaho Administration Console Diálogo de opções relativas às tabelas OLAP Editor de query MDX do Pentaho Opções de gráficos do Pentaho Exemplo de ligação do Pentaho ao serviço Google Maps Arquitectura do SpagoBI Interface de login do SpagoBI Página principal após login válido na aplicação Página de dashboard do SpagoBI Propriedades de um documento SpagoBI Login no OpenI Exemplo de análise no OpenI Edição de um documento no Pentaho Design Studio Resultado do documento de teste no Pentaho Edição de um documento no SpagoBI Studio Resultado do documento de teste no SpagoBI Edição de um relatório no JasperSoft ireport Designer Resultado do documento de teste no OpenI Lançamentos do Pentaho em 2009 e xi

16 5.21. Lançamentos do SpagoBI em 2009 e Lançamentos de desenvolvimento da série 2.0 do OpenI, em 2009 e Esquema em estrela da base de dados de testes Query 2.1 (Q2.1) executada sobre a estrela de teste Query 2.1 (Q2.1) re-escrita para ser executada sobre uma Vista Materializada. 48 xii

17 Lista de Tabelas 2.1. Liberdades essenciais do software livre Licenças mais usadas no software livre Programas disponíveis no repositório da Pentaho Componentes da plataforma SpagoBI Características das plataformas Open Source BI Resumo dos resultados de execução dos testes de Vistas Materializadas xiii

18

19 Abreviaturas BI Business Intelligence DW Data Warehouse PME Pequena e Média Empresa OLAP On-Line Analytical Processing ROLAP Relational OLAP MOLAP Multidimensional OLAP ETL Extract-Transform-Load (Extracção-Transformação-Carregamento) OSI Open Source Initiative FSF Free Software Foundation RAM Random Access Memory xv

20

21 1. Introdução O software de Business Intelligence (BI) ajuda todos os decisores de uma empresa ou organização, sejam a gestão de topo ou ocupem funções mais baixas na hierarquia, a tomar decisões com base em dados operacionais concretos, através de indicadores, agregados e relatórios que mostram de um modo rápido e fácil o comportamento da organização ao longo do tempo. O suporte para este tipo de software é dado por uma Data Warehouse, literalmente um armazém de dados, que junta dados provenientes de múltiplas fontes existentes na empresa e mesmo de fontes externas à organização. Estes documentos podem ser provenientes de relações comerciais com clientes e fornecedores ou relatórios de análise de mercado produzidos por organismos estatais, e são agregados num conjunto de tabelas capazes de fornecer os dados necessários para calcular os indicadores e relatórios de uma forma eficaz. De acordo com a literatura [TDWI, 2009, Veese, 2009, White, 2010], o mercado está dominado pelas plataformas de BI das grandes multinacionais, que são muito dispendiosas para que uma PME as possam adquirir. Um dos modelos de distribuição e licenciamento de software, contempla a distribuição não só dos programas em formato binário executável, mas também do respectivo código-fonte, dando permissão aos utilizadores para o explorarem, analisarem, modificarem e redistribuírem. O software distribuído de acordo com esta filosofia é conhecido como Software Livre, Software Open Source ou Software de Código Aberto. O Software Livre tem sido utilizado pelas empresas, especialmente no âmbito dos sistemas operativos de servidor (Linux), servidores web (Apache), browsers de Internet (Mozilla Firefox), suites de produtividade (OpenOffice.org) entre outros, no entanto existem outras áreas em que a utilização de Software Livre é menor. Na área de Business Intelligence (BI), as empresas que têm implementado um sistema de informação de apoio a esta função, recorrem principalmente às tradicionais soluções das empresas multinacionais, tais como a SAP, Oracle, IBM ou Microsoft. Sendo uma das áreas com maior crescimento nos últimos anos, importa saber se existem alternativas baseadas em Software Livre e se estas são capazes de proporcionar as funcionalidades 1

22 1. Introdução necessárias à função de BI, especialmente em Pequenas e Médias Empresas (PMEs). Algumas plataformas de BI em Software Livre, ou Open Source, já possuem características que as tornam candidatas ao uso por parte das PMEs como alternativa às plataformas comerciais. A principal motivação deste trabalho é pois identificar e avaliar as eventuais alternativas de Software Livre às tradicionais plataformas de BI das empresas tradicionais, no sentido de determinar a sua validade como alternativa realista. Neste trabalho foram estudadas algumas das plataformas com maior relevância nesta área tendo sido escolhidas as seguintes: Pentaho BI Server Community Edition 3.5 [Pentaho, 2010a], SpagoBI 2.4[Spago, 2010a] e OpenI 2.0 [OpenI, 2010]. Para cada uma das plataformas foi obtida a versão de demonstração disponível no respectivo site web, instalada e executada, notando os diversos requisitos e problemas. Foram avaliadas as funcionalidades oferecidas, as capacidades de cada plataforma e os respectivos pontos fortes e fracos. Foi também criado um documento de teste em cada uma das plataformas de modo a avaliar a usabilidade das mesmas. As plataformas de BI baseadas em Sofware Livre podem ser uma alternativa viável aos produtos comerciais, para implementação em PMEs. O seu baixo preço e conjunto de características tornam estas soluções atractivas para empresas e organizações com baixos orçamentos para investimento em Tecnologias de Informação. No entanto, a atitude perante este tipo de software tem necessariamente que ser diferente, pois os verdadeiros benefícios do Software Livre só são percebidos e aproveitados quando há um envolvimento mais sério entre os utilizadores e a respectiva comunidade. Uma outra vertente deste estudo incidiu na hipótese de melhorar um programa relevante nesta área. Foi escolhido implementar Vistas Materializadas no servidor de base de dados MySQL, pois este é o servidor de base de dados mais usado em plataformas de Business Intelligence Open Source. As Vistas Materializadas podem trazer grandes benefícios de performance a queries executadas sobre os dados de uma Data Warehouse, embora tragam também algumas desvantagens, como sejam a necessidade de mais espaço e de maior esforço de manutenção do lado do servidor de base de dados. No âmbito do trabalho desenvolvido, foram publicados dois artigos, apresentados nos anexos C e D, um publicado na conferência internacional E-ALT E-Activity and Leading Technologies 2010 e outro no workshop WACI 10-5 th Workshop on Applications of Computational Intelligence. As principais contribuições desta tese foram as seguintes: 2

23 1.1. Organização da Tese Avaliar a maturidade das plataformas BI open-source para poderem ser utilizadas em ambientes empresariais de PMEs. Demonstrar a exequibilidade de alterar um programa complexo para aumentar a performance numa área de interesse Organização da Tese Além deste capítulo da introdução, esta tese está organizada do seguinte modo: no capítulo 2 é efectuado um pequeno resumo sobre a evolução histórica do Software Livre. No capítulo 3 são introduzidos os principais conceitos de Data Warehousing. No capítulo 4 é efectuada uma introdução aos sistemas de Business Intelligence Open Source, com referência aos principais programas existentes nesta área. O capítulo 5 descreve em detalhe as plataformas Business Intelligence Open Source e respectiva avaliação. A alteração do servidor de base de dados MySQL é descrita no capítulo 6 e as conclusões e propostas de trabalho futuro são apresentadas no Capítulo 7. Em anexos, apresentam-se os dois artigos derivados do trabalho efectuado no âmbito deste estudo e também todas as queries relativas aos testes realizados com o servidor MySQL alterado conforme se descreve no capítulo 6. 3

24

25 2. Software de Código Aberto Na lógica de desenvolvimento fechado do software comercial, o resultado deste esforço de desenvolvimento é tipicamente fornecido como programas em formato executável, para uma plataforma específica, em troca de um pagamento pelo direito de uso. Os utilizadores do software desenvolvido deste modo não têm, em condições normais, acesso ao funcionamento interno nem podem influenciar o desenvolvimento de novas funcionalidades ou correcção de bugs existentes, excepto nos casos em que existe um programa de "betatesting"promovido pela empresa que desenvolve o software. Não podem, também estudar o modo como os problemas são resolvidos ou adaptar o software às suas necessidades, excepto nos casos em que essa adaptação for prevista pelo criador do software. O software desenvolvido segundo este modelo e licenciado desta forma é conhecido como "software proprietário"e é, actualmente, o modelo que impera na criação e distribuição de software comercial. No entanto, no início da indústria informática, o cenário era muito diferente. Nas décadas de 1950 a 1960 a maioria do software era desenvolvido na academia e localmente pelos clientes dos grandes sistemas computacionais, conhecidos como mainframes, nomeadamente para correcção de bugs e implementação de características úteis que não faziam parte do sistema operativo fornecido pelos fabricantes do hardware. Nesta época o sistema operativo, também conhecido nesta altura como "programa monitor", era normalmente fornecido sob a forma de código-fonte. Os clientes alteravam frequentemente o sistema operativo para resolver problemas e implementar funcionalidades desejadas. O sistema operativo, ou mesmo grande parte do restante software, não era visto como tendo um valor comercial intrínseco. Os diversos grupos de pessoas que se dedicavam a melhorar e adaptar o software do sistema depressa se organizaram em grupos de utilizadores, destinados a partilhar ideias e ao intercâmbio de programas desenvolvidos pelos seus membros. Um dos mais antigos, e que ainda existe, é o grupo de utilizadores de mainframes IBM, SHARE, criado em 1955 [Share, 2010]. Outro exemplo é o grupo de utilizadores de sistemas da DEC - Digital Equipment Corporation, DE- CUS que surgiu em Enquanto o primeiro ainda subsiste como entidade independente, o 5

26 2. Software de Código Aberto segundo foi incorporado, através da compra da DEC pela Compaq e desta pela HP, nos grupos de utilizadores da HP. O software desenvolvido pelos membros destes grupos resultou em bibliotecas de software disponíveis para uso livre. Foram estes grupos os primeiros impulsionadores do "Software de código aberto". Richard Stallman constatou, em 1971, ao iniciar o seu trabalho no MIT (Massachussets Institute of Technology) Media Lab, que havia uma "comunidade vibrante de hackers 1 "que partilhavam software e ideias, não só entre eles, mas também com outros grupos semelhantes. No início dos anos 1980 esta comunidade estava muito menos activa, devido à migração de alguns dos seus membros para outras empresas e também devido a mudanças na própria indústria informática. Nesta altura surgiram alguns mini-computadores, como o VAX (da DEC) que, embora poderosos para a época, usavam sistemas operativos licenciados de forma muito diferente do que até aí tinha sido a prática comum. Estas novas máquinas eram distribuídas com sistemas desenvolvidos pelas empresas que os criaram e que viam este software como mais uma fonte de rendimento. Ao mesmo tempo, criaram licenças desenhadas para forçar o utilizador a não tentar modificar, adaptar ou melhorar o software [GNU, 2010a]. Em 1976, Bill Gates, sócio da Microsoft, escreveu uma carta aberta à comunidade hacker em que acusava a comunidade de roubo e enormes prejuízos pessoais. Defendia assim a ideia que todo o software, sem excepção, deveria ser pago. Esta tendência fortaleceu-se, do lado dos sistemas disponíveis para o grande público, com o advento dos computadores pessoais, em 1981, distribuídos com o sistema operativo MS-DOS, licenciado pela Microsoft e, do lado dos grandes sistemas empresariais pelo anúncio da política de OCO - Object Code Only, da IBM que pôs fim à distribuição de software sob a forma de código-fonte por parte desta empresa. Nesta altura, Richard Stallman criou o Projecto GNU (GNU é um acrónimo recursivo de GNU s Not Unix) e começou a desenvolver o respectivo software que iria fazer parte de um "sistema operativo livre". Definiu também os termos em que considerava que determinado software era ou não livre e o conceito de Copyleft, em oposição ao tradicional conceito de Copyright 2, materializado na licença GNU GPL (General Public License) [GNU, 2010b]. 1 O termo hacker é aqui usado no seu significado original de interessado por um sistema, por resolver um problema ou por programação. Actualmente a palavra hacker tem conotações negativas devido ao uso dado pelos media a este termo como sinónimo de alguém que quebra mecanismos de segurança. Embora esta também seja uma actividade praticada por alguns hackers, existe uma ética em torno da comunidade hacker que promove o bom uso do conhecimento adquirido ao contornar a segurança de um sistema, por exemplo, alertando o responsável do mesmo para as falhas encontradas de modo a que possam ser resolvidas. Ao longo de todo este texto será seguido o significado original da palavra hacker. 2 O termo Copyleft é um jogo de palavras com o termo Copyright, que, segundo Richard Stallman, limita a liberdade que os utilizadores têm de usar o software. Por oposição, o termo Copyleft funciona "na outra direcção", 6

27 2.1. Diferenças entre Software Livre e Software Open-Source 2.1. Diferenças entre Software Livre e Software Open-Source Richard Stallman criou em 1985 a Free Software Foundation (FSF), como suporte de financiamento do Projecto GNU e para promover a filosofia do software livre. De acordo com Stallman, e para evitar a confusão entre os dois significados de "Free", "livre"e "gratuito", deve pensar-se no "Free Software"como "Free as in speech, not as in beer", e pensar neste conceito como um conceito social e não tecnológico. De facto, ao iniciar a sua actividade como programador de software livre, Richard Stallman deixou o seu trabalho no MIT de modo a não ter interferências e potenciais conflitos de interesses. Para estar de acordo com os princípios do software livre, algumas garantias têm que ser dadas através da licença sob a qual o software é distribuído. A FSF definiu 4 pontos, chamados "as liberdades essenciais do software livre"que determinam se um determinado programa pode ou não ser classificado como "Livre". Estas liberdades estão descritas na Tabela 2.1 Liberdade n o 0 Liberdade n o 1 Liberdade n o 2 Liberdade n o 3 Tabela 2.1.: Liberdades essenciais do software livre Liberdade para executar o software para qualquer propósito. Liberdade para estudar o programa e modificá-lo como desejar. Liberdade para distribuir cópias do programa. Liberdade para distribuir as próprias modificações. O anúncio do primeiro conjunto de liberdades apareceu no primeiro número do Boletim da GNU, em 1986 e desde então tem sido refinado e melhorado, tornando-se na definição oficial do Software Livre, de acordo com a FSF. As liberdades associadas ao Software Livre, estão desenvolvidas para que não seja legalmente complicado utilizar e modificar o software e para que não seja possível restringir essas mesmas liberdades ao criar um trabalho derivado. Para que as liberdades n o 1 e n o 3 sejam garantidas, pressupõe-se que o código-fonte esteja disponível num formato editável. Assim, a disponibilidade do código-fonte é uma condição obrigatória para que um determinado software seja classificado como "Livre". Desde cedo, esta posição por parte da FSF foi tida como algo radical e demasiado ideológica por alguns membros da comunidade hacker, que tinham uma visão mais pragmática. Além do mais, alguma preocupação com a associação do movimento a causas mais políticas e o receio ou seja, garante a liberdade de uso aos utilizadores do software. 7

28 2. Software de Código Aberto que este tipo de associação fosse prejudicial para o software de código aberto no geral, levou à criação no início de 1998 do termo "Open Source"por um grupo de hackers, incluindo Eric S. Raymond e John "Maddog"Hall, e, logo em seguida, foi fundada a organização "Open Source Initiative"(OSI) [OSI, 2010] por Eric S. Raymond, Bruce Perens e Ian Murdock entre outros, de modo a promover o software considerado "Open Source". Tal como "Free Software", o conceito de "Open Source"está intimamente ligado à livre partilha de conhecimentos e trabalho colaborativo. Com a evolução da Internet, as possibilidades de partilha e oportunidades de colaboração em projectos, mesmo que os participantes estejam geograficamente muito afastados, aumentaram enormemente, dando origem a uma profusão de projectos colaborativos, em praticamente todas as áreas de software. As orientações seguidas pela OSI derivam das "Debian Free Software Guidelines"(DFSG), criadas no ano anterior por Bruce Perens com o apoio da comunidade Debian GNU/Linux. Actualmente, a principal diferença entre os termos "Open Source"e "Free Software"traduz-se na abordagem e filosofia das respectivas organizações de suporte, OSI e FSF. No entanto, para a maioria dos casos práticos, o resultado final é idêntico Outras Definições e Licenças No âmbito do software de código aberto, existe mais de meia centena de licenças usadas por milhares de projectos. Cada uma destas licenças pode ser "aprovada"pela OSI ou pela FSF como "Open Source"ou "Free Software", respectivamente. Muitas licenças estão incluídas nas listas de licenças aprovadas das duas organizações. Um outro documento que ajuda a determinar o grau de liberdade oferecido por uma determinada licença é o documento intitulado "Debian Free Software Guidelines", que serviu de modelo à definição da OSI e que serve de guia para ajudar a determinar a inclusão ou exclusão do software no repositório oficial do projecto Debian. O projecto Debian tem como objectivo incluir apenas Software Livre na sua distribuição, e como tal, usa este guia para determinar o grau de liberdade e, portanto, a possibilidade de inclusão ou não na distribuição Debian. Uma das licenças mais conhecidas e usadas pelos projectos de software livre é a General Public License da GNU, conhecida como GPL. Esta licença é usada por projectos tão mediáticos como o kernel Linux, MySQL ou o compilador GCC. Na Tabela 2.2 estão referidas as seis licenças mais usadas em projectos de software livre, bem como alguns exemplos de projectos que usam essas licenças. 8

29 2.3. Vantagens e desvantagens Licença Tabela 2.2.: Licenças mais usadas no software livre Exemplos de projectos que usam a licença General Public License (GPL) Artistic License Lesser GPL BSD License MIT License Apache License Kernel Linux, MySQL, GCC Perl OpenOffice.org Kernel BSD X Window System Servidor http Apache 2.3. Vantagens e desvantagens O modelo de negócio tradicional do software proprietário tenta aumentar o lucro das empresas que fornecem software através da criação de restrições artificiais à disponibilidade dos programas, seja através do modelo de licenciamento ou seja através de dispositivos mais ou menos complexos para impedir a cópia ou uso do software em mais máquinas que o previamente acordado. O software de código aberto, por outro lado, não impõe este tipo de restrições ao uso dos programas. As empresas que têm o seu negócio centrado em plataformas Open-Source baseiam os seus rendimentos em outras actividades, como consultoria, formação e serviços de suporte. O uso do software de código aberto está normalmente associado a alguns benefícios: Ciclos de produto curtos: Ao permitir que qualquer programador possa ler, alterar e distribuir livremente o software, o público vai ter mais hipóteses de utilizar e testar as diferentes funcionalidades, reportando mais fácil e rapidamente as falhas que possam existir. Este efeito tem o nome de "Lei de Linus"e é habitualmente enunciado como "given enough eyeballs, all bugs are shallow"[raymond, 2000]. Como o software de código aberto não tem custos de licenciamento, os utilizadores estão mais receptivos a testar as novas versões; Confiança e segurança: Uma vez que toda a gente pode ver o código-fonte, as possíveis falhas de segurança ou mesmo algoritmos menos robustos podem ser facilmente identificados e corrigidos. Também o modo de operação do software pode ser escrutinado para garantir que os resultados obtidos são os esperados; Libertação do bloqueio em relação ao vendedor: Pela sua natureza, os programas de código aberto não permitem que exista um bloqueio do cliente em relação ao vendedor. 9

30 2. Software de Código Aberto No caso de um utilizador ter que trocar de fornecedor de serviços, o novo fornecedor pode facilmente analisar o código-fonte para prosseguir o trabalho. Sem custos de vendas e licenciamento: O software de código aberto não tem, normalmente, custos de licenciamento ou vendas que encarecem o produto. Todo o orçamento disponível pode ser aplicado no desenvolvimento da solução, formação e outros investimentos. Esta característica também facilita o teste e análise de diversas versões ou produtos concorrentes. Claro que nem tudo são vantagens, uma vez que a simples capacidade de escolha apresentada a um utilizador, torna o cenário muito diferente das habituais relações de cliente-fornecedor presentes na indústria. Muitas vezes, também, existe a noção que o Software Livre é uma espécie de bálsamo para todas as maleitas ou que se comporta exactamente como os programas de código fechado que substitui. A expectativa em relação às melhorias que o Software Livre pode trazer podem ser demasiadas, levando a que a utilização deste tipo de soluções acabe por ser frustrante. Quando se considera a adopção de Software Livre numa empresa, é conveniente ter algum aconselhamento por alguém com experiência na utilização desta classe de Software e também com alguma prática de análise de licenças. Para além dos aspectos legais, é benéfico para o potencial utilizador ter alguns conhecimentos, ou recorrer a alguém com conhecimentos, técnicos nas linguagens e tecnologias adoptadas pelos programas a usar. Deste modo, consegue-se obter maiores vantagens e aproveitar mais profundamente as potencialidades do software. 10

31 3. Data Warehousing Os sistemas de gestão comuns nas empresas e organizações estão desenvolvidos para permitir o registo de todas as operações necessárias e relevantes para o dia a dia da actividade empresarial. Nalguns casos existem sistemas integrados que cobrem todas as áreas de actividade de uma empresa (Recursos Humanos, Financeira, Aprovisionamentos, Produção, etc.), mas por vezes existem sistemas diferentes para funções específicas ou áreas com requisitos distintos. Embora estes sistemas guardem todas as informações relevantes para o negócio, é por vezes complicado responder às perguntas que os decisores precisam de realizar, como por exemplo "Qual foi o artigo com mais devoluções, por anos, dos nossos 10 maiores clientes?"ou "Em que área geográfica os artigos X e Y estão associados em termos de vendas?". O facto dos diversos sistemas em uso poderem ter dados não concordantes, ou não terem todos os dados necessários para responder às necessidades dos decisores, torna muito difícil usar apenas os sistemas ERP (Enterprise Resource Planning) para análise e apoio a tomadas de decisão. É necessário um sistema que apoie os processos de tomada de decisão de uma forma melhor que os ERP tradicionais. Na década de 1960 começaram a ser estudadas algumas propriedades e conceitos sobre Sistemas de Apoio à Decisão (Decision Support Systems), como eram então conhecidos e na primeira metade da década de 1990 foram publicados dois dos livros mais importantes nesta área, um de Bill Inmon [Inmon, 2002] e outro escrito por Ralph Kimball [Kimball, 1996]. Estes dois autores abordam a temática do Data Warehousing, desde a sua concepção até à fase de utilização e desenvolvem alguns conceitos como Tabela de Factos e Tabelas de Dimensões, Cubos, Processos de Extracção-Transformação-Carregamento (ETL - Extract-Transform-Load) e actualização da Data Warehouse. Uma Data Warehouse é um repositório de informação de uma empresa ou organização que centraliza, regulariza, limpa, cataloga e disponibiliza essa informação aos seus utilizadores, que são os decisores da organização. A interacção dos utilizadores com a data warehouse fazse através de programas de análise e exploração de dados, os chamados sistemas de Business Intelligence. 11

32 3. Data Warehousing Ao contrário dos sistemas transaccionais, que estão desenhados para recolher a informação de uma forma contínua, estruturada, e de acordo com as regras estabelecidas por Codd para o desenho e desenvolvimento de bases de dados relacionais, uma data warehouse é projectada para armazenar dados temporais, ou seja, a data warehouse deve conseguir fornecer uma "fotografia"dos dados num determinado momento para ser possível, no futuro, analisar diferenças e comparar o estado da organização com outros períodos. Para conseguir esta fotografia do estado da organização tão correcta quanto possível, uma Data Warehouse deve alimentar-se no maior número possível de fontes de informação, não só nos sistemas transaccionais mas também em outras fontes como ficheiros de folhas de cálculo, processadores de texto e mesmo imagens e fontes multimédia. Os dados são copiados das diversas fontes para a Data Warehouse através de processos de extracção e transformação de dados. As regras que servem de orientação ao desenvolvimento deste tipo de bases de dados são substancialmente diferentes das enunciadas por Codd para as bases de dados relacionais, e não atendem a problemas de normalização, mas antes a questões de performance para fornecer os dados requisitados. De um modo conceptual, os dados existentes numa Data Warehouse seguem um modelo em "cubo"de n-dimensões, em que as dimensões do cubo representam as características dos factos e na intersecção entre as dimensões estão os valores em análise. Na figura 3.1 apresenta-se um exemplo de um cubo que armazena valores de quantidade vendida em função do produto, cliente e tempo. Os cubos assim definidos têm frequentemente mais de três dimensões, embora, por razões óbvias, não seja possível representá-los facilmente numa folha de papel. Figura 3.1.: Cubo de quantidade vendida de um Produto a um Cliente numa determinada data (Tempo) 12

33 3.1. Arquitectura genérica de uma Data Warehouse A disposição dos dados em cubos torna simples a agregação dos mesmos ao longo das dimensões, sendo esta operação da maior importância para o desempenho da Data Warehouse Arquitectura genérica de uma Data Warehouse Uma Data Warehouse engloba não só o repositório de dados, mas sim todas as fontes de dados, processos de tratamento de dados e também todo o software de análise e exploração de dados. Portanto, uma Data Warehouse é um conjunto de programas e sistemas com diferentes funções, cujo objectivo é levar os dados das respectivas fontes até aos utilizadores. Estes diversos programas e sistemas são normalmente divididos nas seguintes categorias: Sistemas Operacionais e outras fontes de informação Processos de Extracção,Transformação e Carregamento de Dados (ETL). Reposítório de Dados Software Analítico Todas estas áreas estão encadeadas e os dados circulam desde os "Sistemas Operacionais"até ao "Software Analítico", conforme mostrado na Figura 3.2. Os dados originalmente presentes num ou mais sistemas de suporte às operações quotidianas da empresa e noutras fontes de dados consideradas relevantes para a análise da situação, passam por um processo global de extracção dos dados, transformação e carregamento no repositório, usualmente chamado processo de ETL (Extraction-Transformation-Load). Após o carregamento, o repositório de dados alimenta o software analítico usado para as tomadas de decisão. Vamos agora, nas secções seguintes, abordar com mais detalhe estas quatro áreas Dados Operacionais Os dados operacionais são todos os dados, contidos nos diversos sistemas de apoio, em Bases de Dados Relacionais e, por vezes, em sistemas antigos com Bases de Dados não Relacionais (Legacy Systems) e documentos não estruturados (Folhas de Cálculo, Documentos textuais diversos, imagens, etc...). É necessário analisar com cuidado a relevância de cada uma destas fontes para o processo de criação de uma Data Warehouse, já que cada uma delas implica geralmente algum tipo de 13

34 3. Data Warehousing Figura 3.2.: Arquitectura genérica de uma Data Warehouse processo de extracção único. Nesta fase, embora se deseje um processo tão automático quanto possível, pode ter que se recorrer, por vezes, à intervenção do operador para validar os dados e ajudar o processo de extracção. De todas as fontes de informação, as mais facilmente integráveis numa Data Warehouse são os sistemas de Bases de Dados Relacionais. Estes sistemas têm alguma estrutura e muitas vezes guardam os dados necessários à resposta das perguntas feitas pelos decisores. O facto da linguagem SQL ser dominante em sistemas de gestão de bases de dados relacionais torna simples a criação de queries SQL que extraiam os dados dos sistemas operacionais para o repositório da Data Warehouse Processos de ETL Os processos de ETL têm como objectivo normalizar as informações em termos de correcção de erros ou inconsistências. Por exemplo, duas fontes de dados distintas podem ter uma política diferente para armazenar moradas, onde um deles arquiva a morada completa enquanto outro divide a morada em dois ou mais campos. O objectivo dos processos de ETL, neste caso, é obrigar a que todas as moradas sigam a mesma norma. Não é necessário que seja coincidente com qualquer um dos sistemas originais. Estes processos devem ser criados cuidadosamente, de modo a que os dados provenientes das diversas fontes de informação não sejam adulterados, nem se introduzam dados incorrectos no repositório da Data Warehouse. Além dos processos de ETL serem frequentemente complicados de definir e implementar, 14

35 3.4. Repositório de Dados a sua execução tende a ser demorada. No entanto, são um dos mais importante aspectos de desenvolvimento de uma Data Warehouse. O resultado dos processos de ETL é então carregado no Repositório de Dados, normalmente segundo um horário previamente definido, de acordo com o tempo de execução dos ditos processos e com a tolerância da actualidade de informação necessária ao software analítico. A informação constante do repositório tem que ser periodicamente actualizada, de acordo com os tempos de execução dos processos de ETL relativos à actualização da informação, embora também existam alguns trabalhos sobre actualizações em tempo real [Santos, 2006] Repositório de Dados O repositório de dados de uma Data Warehouse pode residir numa Base de Dados Relacional, ou numa Base de Dados MOLAP (Multidimensional Online Analytical Processing). Ao contrário das Bases de Dados de suporte aos sistemas operacionais, o repositório de uma Data Warehouse não segue as regras de Codd da normalização de Bases de Dados, mas sim um esquema em Estrela ou Floco-de-Neve, em que a Tabela de Factos (que guarda os factos relevantes, como vendas, preços, quantidades) é o centro da estrela ou floco de neve, e as dimensões (Clientes, Produtos, etc...) são as "pontas"da estrela ou os "braços"do floco-de-neve. Estes dois esquemas estão representados na Figuras 3.3 e 3.4. Uma vez que o esquema em Floco-de-Neve resulta da normalização das dimensões do esquema em Estrela, vamos abordar apenas este. Figura 3.3.: Esquema em Estrela. Dim1 a Dim3 são as tabelas de Dimensões e Factos a Tabela de Factos Num repositório de Data Warehouse, existem uma ou mais tabelas de Factos, que contêm as medidas numéricas do processo ou negócio a ser analisado. Estas medidas numéricas do negócio podem ser, por exemplo, a quantidade vendida de um produto numa determinada transacção, o custo de uma matéria prima num dado momento, a duração de uma certa operação, etc... 15

36 3. Data Warehousing Figura 3.4.: Esquema em Floco de Neve. Neste esquema, as dimensões são normalizadas, por exemplo as Dimensões Dim1 e Dim2 foram normalizadas através das sub-dimensões SD1.1 e SD 2.1, respectivamente Ligadas à tabela de Factos, estão as tabelas de Dimensões. Estas são as tabelas que descrevem os aspectos importantes dos factos. No caso da tabela de Factos incluir informação sobre vendas, podem existir a dimensão Cliente (que inclui todas as informações pertinentes para a identificação dos clientes), a dimensão Produto (com todas as informações relativas aos diversos produtos), a dimensão Tempo (que define os dias e informações adicionais sobre os dias, como feriado, dia da semana, etc...). Como a Data Warehouse é um registo temporal do estado da organização, é essencial que exista uma dimensão Tempo. As dimensões podem ser partilhadas por mais que uma tabela de factos, como se ilustra na Figura 3.5. De facto, uma das características das Data Warehouses definidas à custa dos requisitos dos vários departamentos e áreas de negócio de uma empresa é a existência de dimensões partilhadas entre as diversas tabelas de factos. Estas dimensões são também chamadas de "Dimensões Conformes". Figura 3.5.: A dimensão 1 é partilhada pelas tabelas de factos 1 e 2. Este esquema em estrela é o que normalmente é aplicado em ao armazenar os dados num Sistema Relacional. O armazenamento dos cubos apenas é efectuado de modo directo em sistemas MOLAP. 16

37 3.5. Software Analítico 3.5. Software Analítico A utilidade de uma Data Warehouse está directamente relacionada com a qualidade e quantidade de análises e estudos que se podem realizar aos dados nela contidos, através do uso de programas específicos, que podem ser simples programas de folha de cálculo até uma completa suite de Business Intelligence, que permite a definição de análises, geração de relatórios, criação e acompanhamento de KPI (Key Performance Indicators) entre outras utilizações. Os programas integrados de Business Intelligence permitem a exploração dos dados armazenados na Data Warehouse, através de uma interface que procura ser intuitiva e simples de utilizar por parte de utilizadores não técnicos. No próximo capítulo analisaremos em mais pormenor esta categoria. 17

38

39 4. Open Source Business Intelligence A expressão "Business Intelligence"indica um conjunto de aplicações que promovem a execução de análise de dados, através da disponibilização dos dados desde as Data Warehouses até aos programas que os utilizadores finais vão usar para criar relatórios, análises e indicadores. Deste conjunto de software fazem parte servidores OLAP, clientes OLAP, programas de Data Mining, programas de criação de relatórios e dashboards. Alguns destes programas estão disponíveis de forma isolada enquanto outros estão incluídos em plataformas ou grupos de programas. O trabalho desta tese centrou-se sobre as plataformas de Business Intelligence publicadas como Open Source 1, pois consideramos que são estas as que estão melhor adaptadas para utilização pelas Pequenas e Médias Empresas (PMEs). Usar uma plataforma de Business Intelligence em vez de implementar as mesmas funcionalidades através de uma colecção de programas, permite que se poupe recursos na integração dos vários componentes. Uma plataforma já fornece esta integração, permitindo concentrar esforços na implementação da solução de Business Intelligence Servidores OLAP Do ponto de vista da Business Intelligence, os dados existem sob a forma de cubos, como descrito na Figura 3.1. No entanto, o armazenamento tradicional dos dados que servem de base aos programas de Business Intelligence é quase sempre feito em sistemas de gestão de bases de dados relacionais. O armazenamento dos dados num sistema relacional permite armazenar uma imensa quantidade de informação, porque, ao contrário dos sistemas MOLAP, que criam os cubos em memória, estão limitados pela memória do RAM do sistema onde estiver instalado o servidor. Tipicamente, o tamanho disponível para armazenamento em disco é cerca de uma centena a um milhar de vezes maior que o tamanho da memória RAM. 1 Para que um qualquer programa, ou conjunto de programas, seja considerado Open Source, basta que os autores do programa o publiquem sob uma das licenças aprovadas pela OSI, ou pela FSF. 19

40 4. Open Source Business Intelligence Um servidor OLAP é parte do conjunto de aplicações de Business Intelligence e tem como missão permitir o acesso aos dados através da criação dos cubos e armazenamento destes num sistema Relacional ou Multidimensional. No primeiro caso chama-se ROLAP, e no segundo caso MOLAP. Dos vários produtos existentes, apenas dois são distribuídos sob licenças Open Source: o Mondrian OLAP Server e o Jedox Palo OLAP Server. O servidor Mondrian é um produto ROLAP que está integrado no portfolio da Pentaho, sendo usado também por outros projectos nesta área. Criado pela empresa Jedox, o Jedox Palo OLAP Server é um produto MOLAP, que guarda os cubos OLAP em memória e pode ser acedido através de folhas de cálculo, que servem assim como ferramentas de análise e exploração de dados. Pode também ser integrado noutros programas através de interfaces com diversas linguagens Clientes OLAP Qualquer programa que consiga ligar-se a um servidor OLAP e recolher dados, pode ser considerado um cliente OLAP. Assim, podemos considerar que esta classe de software inclui todos os programas que de algum modo acedem aos dados de um cubo OLAP. Alguns clientes dignos de referência são o Jpivot (programa de criação de gráficos e tabelas) [JPivot, 2010], Eclipse BIRT (programa de criação de relatórios) [BIRT, 2010] e o JasperReports (também dedicado à criação de relatórios) [Jasper, 2010] Data Mining Para descobrir novos padrões de dados e relações entre conjuntos de dados é usado software de Data Mining. Este tipo de software implementa diversos algoritmos que permitem a análise de dados. Os algoritmos tipicamente implementados incluem redes neuronais, árvores de decisão, clustering e algoritmos genéticos. Um notável exemplo de software de Data Mining publicado sob uma licença Open Source é o RapidMiner [RapidMiner, 2010].Como muitos outros programas nesta área, é escrito em Java e pode, portanto, ser executado em qualquer sistema que disponha de uma Máquina Virtual Java. Pode também ser facilmente incluído noutros programas desenvolvidos nesta linguagem. Este tipo de software é normalmente usado isolado em vez de incluído numa suite. A sua utilização está mais orientada para analistas de dados que decisores. No entanto, pode servir como fonte de dados para alimentar um dashboard. 20

41 4.4. Criação de Relatórios 4.4. Criação de Relatórios As bibliotecas de "Reporting"JasperReports, JPivot e BIRT são alguns dos exemplos de produtos Open Source usados para criar, armazenar, modificar e apresentar Relatórios de Business Intelligence. As suas capacidades gráficas permitem a criação de uma variedade de formas de representação de dados que ajudam a interpretar os indicadores relevantes. Todas estas bibliotecas são usadas tanto em programas de Código Aberto como em programas comerciais de código fechado. Estas bibliotecas representam uma das mais importantes funcionalidades dos sistemas de Business Intelligence, já que permitem a visualização rápida e concisa de grandes quantidades de informação, bem como a criação de relatórios executivos directamente a partir das ferramentas de exploração de dados Dashboards Os dashboards são outra das funcionalidades muito apreciadas pelos utilizadores de Business Intelligence, pois permitem, num só écran, acompanhar um conjunto de indicadores e valores de referência. A criação do dashboard deve ser pessoal, isto é, cada utilizador do sistema de Business Intelligence deve ter permissão para criar o seu dashboard pessoal, com as variáveis e indicadores que lhe interessarem mais para o tipo de análises que normalmente usa. Devem ser desenvolvidos e desenhados para uma utilização rápida e simples que forneça uma visão global da empresa ou organização. As suites de Business Intelligence incluem algum tipo de dashboards, enquanto que a utilização isolada deste tipo de software é menos comum. Além das funcionalidades integradas em suites de BI ou noutros projectos de Código Aberto, não são comuns os projectos de Open Source exclusivamente dedicados a esta área. Os componentes destinados à criação de gráficos e relatórios são muitas vezes usados para acrescentar funcionalidade de dashboard a uma qualquer aplicação. 21

42

43 5. Análise de Plataformas Business Intelligence Open Source O Linux, o Apache, o MySQL e o OpenOffice.org 1, entre outros, são já rotineiramente usados em diversas empresas e organizações. Ao contrário destes, as soluções de Business Intelligence, apenas agora começam a mostrar todo o seu potencial e a tornar-se uma alternativa viável às tradicionais soluções comerciais. A maior atracção das soluções de Business Intelligence em código aberto é a poupança obtida, tanto financeiramente como em tempo de desenvolvimento, mas além do preço existe a possibilidade de fazer evoluir uma solução de Business Intelligence e integrá-la com a restante infraestrutura da empresa ou organização, de um modo que nunca será possível com as plataformas comerciais tradicionais. No âmbito deste trabalho foi feita uma análise a algumas plataformas de Business Intelligence Open Source. Para escolher as plataformas a estudar, fez-se uma pesquisa bibliográfica do estado da arte neste domínio, identificando as plataformas com maior potencial. A plataforma Pentaho tem mais de downloads na soma das diversas versões estáveis lançadas em 2010 (mais de 2700 downloads/mês), e o fórum de suporte conta já com mais de tópicos com quase mensagens (3,7 mensagens por tópico) desde 25 de Maio de 2005 (54 mensagens/dia). Os dados para o SpagoBI são mais difíceis de obter, uma vez que o número de downloads não é divulgado no respectivo repositório, no entanto, os números do fórum incluem mais de 1600 tópicos com cerca de 5500 mensagens (3,4 mensagens / tópico), desde 11 de Outubro de 2005 (3 mensagens / dia). O OpenI teve já 8600 downloads (mais de 350 download/mês, ao longo de 2009 e 2010), só das versões de desenvolvimento e apresenta 600 tópicos com 1500 mensagens (2,5 mensagems/tópico) desde 1 de Maio de 2005 (0,7 mensagens / dia). Os trabalhos de Matteo Golfarelli [Golfarelli, 2009] e de Christian Thomsen e Torben Pe- 1 O nome do projecto e do programa é "OpenOffice.org"devido ao facto de "OpenOffice"ser uma marca registada na Holanda (ver e na Alemanha (ver No entanto, em linguagem falada pode pronunciar-se como "OpenOffice".[OpenOffice, 2006]. 23

44 5. Análise de Plataformas Business Intelligence Open Source dersen [Thomsen, 2005, Thomsen, 2008] constituíram um importante ponto de partida para o estudo desta área. A escolha das plataformas em análise recaiu sobre o Pentaho BI Server Community Edition [Pentaho, 2010a], o SpagoBI Server [Spago, 2010a] e o OpenI server [OpenI, 2010], uma vez que na análise prévia efectuada foram aquelas que considerámos mais populares ou com maior potencial Obtenção das plataformas De acordo com a prática comum no mundo Open Source, todos os programas analisados estão disponíveis para download a partir dos respectivos sites. Além dos programas, estão disponíveis também para download o código-fonte e demonstrações pré-configuradas. As versões disponíveis incluem não só as mais recentes, mas também algumas versões mais antigas. As demonstrações incluem os programas, alguns dados de teste e um servidor de aplicações já pré-configurado e pronto a ser executado. Foi feito o download tanto das demonstrações como dos programas e procedeu-se à respectiva instalação e execução no sentido de avaliar as características de cada uma das plataformas Instalação Todas as plataformas analisadas são escritas na linguagem Java e usam a tecnologia JSP para serem executadas num servidor de aplicações, como o Apache Tomcat [Tomcat, 2010] ou o Jboss [JBoss, 2010]. A instalação das plataformas depende, pois, do servidor de aplicações a usar para as executar. Uma vez que todas as demonstrações pré-configuradas usam o Apache Tomcat, essa foi também a plataforma usada para as instalações das plataformas não configuradas. Nenhuma das demonstrações pré-configuradas que estão disponíveis para download inclui um servidor de base de dados, mas apresenta os dados já pré-processados em cubos Mondrian. Usando os drivers JDBC (disponibilizados pela plataforma ou acrescentados posteriormente), podemos ligar a qualquer sistema de base de dados. Existem drivers JDBC para todos os sistemas de gestão de base de dados mais comuns, incluindo Oracle, Microsoft SQL Server, MySQL, Postgresql e IBM DB2 e ainda um driver de ligação JDBC-ODBC que permite a ligação a bases de dados em sistemas sem drivers JDBC mas com drivers ODBC. 24

45 5.3. Pentaho Business Intelligence Server Community Edition Convém relembrar que para acedermos a um sistema de bases de dados temos que garantir que estão instalados os drivers necessários. As plataformas foram executadas num computador portátil com um processador Intel Core2 Duo T58700, sob os sistemas operativos Debian GNU/Linux e Microsoft Windows 7, com 4GB de RAM e um disco de 320 GB. Foi necessário garantir que o ambiente de execução Java, JRE, estava devidamente instalado e que as variáveis de ambiente necessárias (JRE_HOME e JAVA_HOME) estavam definidas. O início e o fim da execução das plataformas de demonstração é conseguido com a ajuda de dois scripts incluídos nos pacotes de software (start-pentaho e stop-pentaho no Pentaho, startopeni e stop-openi no OpenI e startup e shutdown no SpagoBI). Após o início da demonstração, basta apontar o browser para o porto 8080 da máquina onde estiver a correr o programa e se tudo estiver em condições, podemos autenticar-nos na aplicação e começar a exploração das plataformas. Quando se instala uma destas plataformas fora do âmbito destes pacotes de demonstração, o arranque e finalização dos programas fica ao cargo dos métodos usuais para iniciar e terminar serviços, dependente do sistema operativo em uso. A avaliação das diversas aplicações incidiu particularmente na identificação das principais características de cada plataforma e do interface com o utilizador Pentaho Business Intelligence Server Community Edition A Pentaho é uma empresa que desenvolve uma plataforma de Business Intelligence segundo um modelo de "Open Source Comercial". De acordo com este modelo de negócio, existe uma versão de código aberto, distribuída sob uma licença Open Source (por vezes com algumas restrições à alteração e redistribuição do software) e disponível para download na Internet, e existe uma versão comercial, com capacidades adicionais, disponibilizada em conjunto com alguns serviços (formação, instalação, suporte técnico, consultoria) sob a forma de um produto em tudo idêntico a um produto proprietário não livre. Deste modo o programa Pentaho Business Intelligence Server é distribuído em duas edições a Community Edition, e a Enterprise Edition, sendo que a primeira é a versão de código aberto e a segunda a versão proprietária com componentes de código fechado. A versão analisada no âmbito deste trabalho foi a Community Edition. Esta plataforma apresenta um pacote de demonstração pré-configurado que inclui o Business 25

46 5. Análise de Plataformas Business Intelligence Open Source Intelligence Server Community Edition, alguns dados de exemplo (designados como Foodmart Database), o servidor de aplicações Apache Tomcat, a aplicação de controlo e administração do servidor, Administration Console e o ambiente de execução Java, JRE, necessário para executar o Apache Tomcat e respectivas aplicações web. A Figura 5.1 apresenta o interface de login do Pentaho Business Intelligence Server, e na Figura 5.2 mostra-se o interface principal da Administration Console, a consola de administração do servidor de Business Intelligence. Figura 5.1.: Interface de login do Pentaho Business Intelligence Server O Pentaho Business Server inclui o motor OLAP Mondrian, o componente de integração de dados Pentaho Data Integration (anteriormente designado como Kettle), o motor de relatórios JFreeReport e o módulo de Data Mining Weka. Figura 5.2.: Interface da Pentaho Administration Console Todos estes componentes estão também disponíveis como aplicações isoladas e podem, portanto, ser executados fora do contexto da solução integrada de Business Intelligence, além disso, podem também ser integrados noutros projectos. A interface de utilizador do Pentaho apresenta uma árvore dos documentos disponíveis, separados em projectos e categorias. Ao visualizar um documento, é dada a possibilidade do utilizador alterar alguns parâmetros OLAP, editar a query MDX ou opções do gráfico. Nas Figuras 5.3 a 5.5 apresentam-se alguns dos diálogos de controlo destas opções. 26

47 5.3. Pentaho Business Intelligence Server Community Edition Figura 5.3.: Diálogo de opções relativas às tabelas OLAP A Figura 5.3 mostra opções relativas às tabelas OLAP, nomeadamente a possibilidade de criar filtros ou ordenar os dados e a Figura 5.4 apresenta o editor de queries MDX que permite modificar a query relacionada com a tabela de dados em exibição. Figura 5.4.: Editor de query MDX do Pentaho A Figura 5.5 mostra o diálogo de opções de formatação de gráficos, desde os tipos de gráficos disponíveis (na lista pendente) até às diversas opções de escala e legenda de eixos Através destas opções podemos definir o tipo e apresentação do gráfico que estamos a visualizar. Na lista pendente (Chart Type) temos os diversos tipos de gráfico, como por exemplo, de barras verticais, de barras horizontais ou gráficos de linhas. As restantes opções aplicam-se ao tipo escolhido e permitem definir escalas, títulos do gráfico e dos eixos e legenda. É ainda possível escolher a cor de fundo do gráfico. O pacote de demonstração inclui também um script auxiliar, de nome set-pentaho-java para garantir que determinadas variáveis de ambiente (relacionadas com a execução do ambiente Java) estão bem definidas. Além deste pacote de demonstração, estão ainda disponíveis no mesmo repositório on-line algumas outras ferramentas que podem ajudar à utilização e configuração da solução de Business Intelligence, nomeadamente, na criação de relatórios, agregados e processos de ETL. Estas ferramentas estão sumariamente descritas na Tabela 5.1 A interface do Pentaho está disponível em vários idiomas (Inglês, Espanhol, Francês, Alemão e Japonês), mas apenas para utilizadores com permissões de administrador. Para os utilizadores 27

48 5. Análise de Plataformas Business Intelligence Open Source Figura 5.5.: Opções de controlo dos gráficos, mostrando as diversas opções disponíveis à esquerda e os diversos tipos de gráficos disponíveis na lista pendente. Programa Tabela 5.1.: Programas disponíveis no repositório da Pentaho Função Pentaho Report Designer Pentaho Data Integration Pentaho Design Studio Pentaho Metadata Editor Mondrian Schema Workbench Mondrian Aggregation Designer Pentaho Report Engine Weka Data Mining Desenho de relatórios e criação de "Action Sequences" ETL Editor e depurador de relatórios e "Action Sequences" Editor de metadados conformes com o modelo Common Data Warehouse Editor de Schemas OLAP do Mondrian Editor de tabelas de agregação Executa e mostra relatórios Componente de Data Mining 28

49 5.4. SpagoBI regulares, não existe um modo óbvio de alterar o idioma, ficando a interface com o idioma pré-definido, Inglês. É possível a ligação dos relatórios, análises ou dashboards com serviços externos e é apresentado um exemplo de uma ligação ao serviço Google Maps. Este caso é ilustrado na Figura 5.6 Figura 5.6.: Exemplo de ligação do Pentaho ao serviço Google Maps Os relatórios e análises podem ser exportados para diversos formatos, incluindo PDF e Microsoft Excel. Na demonstração estão incluídas também algumas amostras de desenvolvimento de relatórios, análises, dashboards e serviços web. Num ambiente de produção, devem usar-se os programas disponíveis no repositório da Pentaho para desenvolver as soluções necessárias. No que se refere a ajuda disponível via Internet, existe um fórum [Pentaho, 2010b], um wiki [Pentaho, 2010c], uma newsletter [Pentaho, 2010d] e um FAQ [Pentaho, 2010e], bem como uma grande comunidade de utilizadores dispostos a partilhar o conhecimento SpagoBI A plataforma SpagoBI é uma das que segue um modelo de licenciamento puramente Open Source, o que significa que existe apenas uma edição livre da plataforma. Criado pela empresa Ingegneria Informatica S.p.A. [Eng, 2010], de Itália, é desenvolvido por uma comunidade de programadores aberta a todos os que estejam interessados em dar o seu contributo. Tal como o Pentaho, esta plataforma é desenvolvida na linguagem Java e usa a tecnologia Java Server Pages para criar a sua interface. Pode ser executada em qualquer servidor de aplicações Java, como o Apache Tomcat ou o RedHat JBoss. O servidor OLAP incluído nesta plataforma 29

50 5. Análise de Plataformas Business Intelligence Open Source é também o Mondrian, e as funcionalidades de Data Mining estão entregues ao Weka. Esta plataforma inclui os clientes OLAP JPivot e JPalo. O cliente JPivot pode ainda ser combinado com um servidor XMLA (XML for Analysis), incluindo, por exemplo, o Microsoft Analysis Services. O SpagoBI tem uma arquitectura muito modular, apresentando diversos componentes, chamados "motores"que tratam das diversas funcionalidades da plataforma, desde o acesso aos dados à apresentação de relatórios, passando pelo Data Mining e processos de Extracção, Transformação e Carregamento de dados. Os diversos módulos ou motores são aplicações distintas, que podem ser executadas per si num servidor de aplicações e que estão integrados na plataforma SpagoBI. A Figura 5.7 mostra a arquitectura do SpagoBI Server, onde os diversos componentes estão integrados no "Analytical Engine", que, por sua vez, assenta no "Behavioural Model", responsável pela autenticação dos utilizadores e verificação das respectivas permissões. Abaixo do "Behavioural Model"existe a camada de "Data & Metadata"que interage com a Data Warehouse e fontes externas de dados e acima do "Analytical Engine"aparecem as funcionalidades relacionadas com a interface de utilizador. Figura 5.7.: Arquitectura do SpagoBI Devido ao modo como são implementados os diversos componentes e motores existentes na plataforma SpagoBI, é possível desactivar qualquer um dos módulos pelo administrador da aplicação. Em teoria, é também possível adicionar novos componentes à plataforma SpagoBI, embora esta funcionalidade em particular não tenha sido testada no decorrer do trabalho. Na área de motores de criação e apresentação de relatórios, o SpagoBI inclui o BIRT, o 30

51 5.4. SpagoBI JasperReports e o GeoReports, este último dedicado a relatórios que apresentem informação geo-referenciada. A capacidade de Extracção, Transformação e Carregamento de dados (ETL - Extract-Transform-Load) fica a cargo do Talend Open Studio, integrado no SpagoBI sob a forma de um motor de execução de trabalhos de ETL, chamado SpagoBITalendEngine. Juntamente com todos estes componentes, o pacote de demonstração do SpagoBI inclui o Apache Tomcat, os dados de exemplo do FoodMart database, tendo o utilizador que disponibilizar o ambiente de execução Java. A administração desta solução está incluída no mesmo executável e fica disponível de acordo com o nível de permissões do utilizador que inicia a sessão. Nas figuras 5.8 a 5.11 estão representados alguns aspectos desta plataforma. Na Figura 5.8 está representada a interface de login do SpagoBI. Figura 5.8.: Interface de login do SpagoBI A Figura 5.9 mostra uma possível página de abertura, logo após o login, mostrando diversos KPIs. Os KPI, ou Key Performance Indicators, são indicadores considerados chave para a análise do negócio. Podem ser, por exemplo, o tempo médio de cobrança de facturas, ou a percentagem de stock não vendido no mês anterior. Esta página é configurável através das opções de configuração do menu, disponível para os administradores. Estas opções permitem também alterar as opções disponíveis no menu principal para os utilizadores. Um outro exemplo de página do SpagoBI que pode ser configurada como página de entrada, está representado na Figura 5.10, que mostra um dashboard típico, com os seus diversos medidores e gráficos. Este dashboard mostra quatro gráfico tipo "velocímetro"onde são mostrados alguns indicadores com uma escala de cores que ajuda a determinar se o valor do indicador está dentro dos limites aceitáveis (verde) ou fora desses limites (vermelho). Além dos "velocímetros", este dashboard apresenta também duas tabelas de valores e um gráfico. Na nossa modesta 31

52 5. Análise de Plataformas Business Intelligence Open Source Figura 5.9.: Página principal após login válido na aplicação opinião, pensamos que no geral a interface do SpagoBI tem um aspecto visual menos cuidado que a do Pentaho, embora seja também bastante funcional. Figura 5.10.: Página de dashboard do SpagoBI Os documentos do SpagoBI podem ser personalizados e as suas propriedades consultadas e alteradas na própria aplicação. No entanto, para o desenvolvimento de soluções de BI completas, recomenda-se a utilização do SpagoBI Studio, o programa dedicado à edição e criação de relatórios e outros documentos capazes de ser integrados no SpagoBI Server. Na Figura 5.11 mostra-se a interface de alteração das propriedades dos documentos a partir do 32

53 5.4. SpagoBI SpagoBI Server. Nesta interface as propriedades são apresentadas à esquerda (Nome e descrção do documento, tipo de documento, motor responsável pela respectiva execução, estado e outras) e à direita é mostrada uma árvore onde o documento pode ser colocado. Essa árvore é depois apresentada aos utilizadores. Figura 5.11.: Propriedades de um documento SpagoBI Do ponto de vista das análises, as capacidades oferecidas pelo SpagoBI são as mesmas do Pentaho, já que ambos usam o mesmo componente (JPivot) para mostrar os resultados. É, portanto, possível editar queries MDX, opções de gráficos e alterar os parâmetros dos cubos OLAP a partir da tabela de dados. Embora possam ser definidos novos documentos a partir da interface da aplicação, esta operação é confusa, pois exige um grande número de etapas em que se vão definindo os diversos componentes de um relatório (por exemplo) até se conseguir definir o relatório com base nesses componentes. Um componente presente nesta plataforma e que não aparece nas outras plataformas avaliadas, é um motor de QbE (Query-by-Example) que permite definir uma consulta a partir de dados de exemplo. Todos estes pacotes, tanto dos componentes como do SpagoBI Studio, estão disponíveis para download no repositório do SpagoBI. A Tabela 5.2 apresenta os componentes da solução SpagoBI Quanto aos idiomas disponíveis, o SpagoBI oferece o Italiano, Inglês, Francês e Espanhol., disponíveis para todos os utilizadores. Em termos de ajuda ou apoio disponíveis na Internet, 33

54 5. Análise de Plataformas Business Intelligence Open Source Tabela 5.2.: Componentes da plataforma SpagoBI Componente Função BIRT Report Engine Geo Engine GeoReport Engine JasperReport Engine JPalo JPivot JPXMLA Engine Mondrian Open Talend Studio QbE Engine Weka Engine Execução e apresentação de relatórios Tratamento de informação geo-referenciada Execução e apresentação de relatórios com informação geo-referenciada Execução e apresentação de relatórios Cliente OLAP Cliente OLAP Servidor OLAP baseado em XMLA Servidor OLAP Criação de processos de ETL Permite o desenvolvimento de queries de um modo intuitivo Componente de Data Mining existe um Wiki [Spago, 2010b], um Fórum [Spago, 2010c], o gestor de bugs [Spago, 2010d] e uma lista de correio [Spago, 2010e] OpenI 2.0 Este projecto é o resultado da publicação em 2005 do código de uma anterior aplicação de BI sob uma licença Open Source. Posiciona-se como uma solução particularmente adaptada ao mercado SaaS (Software as a Service) e o seu desenvolvimento não é coordenado por uma empresa, mas sim por um conjunto de programadores através do SourceForge. Tal como o SpagoBI, esta plataforma apresenta apenas uma edição do software. Mais uma vez, são usadas a linguagem Java e a tecnologia JSP para desenvolver a plataforma, como tal, necessita de um servidor de aplicações Java como o Apache Tomcat ou o RedHat JBoss para ser executada. Ao contrário das outras plataformas, a equipa de desenvolvimento da plataforma OpenI não desenvolve nenhuma ferramenta associada para criar relatórios ou desenvolver os processos de ETL. Esta plataforma também não inclui nenhum componente de ETL nem de Data Mining, mas inclui o servidor OLAP Mondrian e o motor de relatórios JasperReports. Para desenvolver os relatórios e análises pode ser usado, por exemplo, o Jasper Report Designer [Jasper, 2010]. O conjunto de idiomas disponíveis também é fora do comum, apresentando o Inglês, o Hindi 34

55 5.5. OpenI 2.0 e o Português Brasileiro como alternativas linguísticas de interface, justificadas pela nacionalidade dos programadores de referência do projecto. A Figura 5.12 apresenta a interface de login na plataforma OpenI. Figura 5.12.: Login no OpenI A principal diferença em termos de interface do OpenI para as outras plataformas advém da incapacidade deste programa apresentar os dados e o respectivo gráfico simultaneamente na mesma janela. Esta limitação torna o seu uso como plataforma interactiva de análise de dados um pouco mais complicado que as outras alternativas. Na Figura 5.13 mostra-se um exemplo de análise, em que se nota a distinção entre a vista de "Gráfico"e a de "Tabela". As propriedades das análises estão disponíveis para inspecção e alteração, assim como a query MDX subjacente, já que, como as outras plataformas incluídas nesta análise, o OpenI usa o JPivot e o JFreeChart. Ao contrário das outras plataformas, a exportação dos dados a partir do OpenI contempla apenas os formatos PDF e Microsoft Excel. No repositório do OpenI estão disponíveis, além do pacote de demonstração, duas versões da plataforma optimizadas para cada um dos servidores de aplicações Apache Tomcat e Redhat JBoss, e o código-fonte da plataforma. Os pacotes disponíveis não incluem os componentes em separado, mas apenas o código-fonte do conjunto da plataforma. A demonstração inclui 35

56 5. Análise de Plataformas Business Intelligence Open Source Figura 5.13.: Exemplo de análise no OpenI. Nota-se a distinção entre "Dados"e "Gráfico"em cima e à esquerda do gráfico. o Apache Tomcat e o ambiente de execução Java, tanto para Microsoft Windows como para Linux, e vem pré-definida apenas com o utilizador de administração Resumo das plataformas A Tabela 5.3 mostra algumas características das três plataformas em análise. Muito do código é partilhado entre as plataformas devido à partilha de componentes, seja por inclusão directa do código, seja por aquisição do componente a outra equipa. Como exemplo do primeiro, temos a integração do Talend Open Studio na plataforma SpagoBI, como exemplo do segundo, podemos referir o desenvolvimento do Pentaho Data Integration a partir do projecto Kettle. Esta partilha de código e até de conceitos e ideias é um dos fundamentos do movimento Open Source e cria standards de facto no universo das plataformas Open Source de Business Intelligence, sendo o melhor exemplo o servidor OLAP Mondrian. Mesmo o uso quase em exclusivo da linguagem de programação Java e das Java Server Pages mostram a troca de experiências entre os diversos projectos Usabilidade das Plataformas Além da apreciação das demonstrações pré-configuradas, foi também testada a criação de documentos adicionais, ligados a uma fonte de dados diferente da que está incluída na demonstração 36

57 5.7. Usabilidade das Plataformas Tabela 5.3.: Características das plataformas Open Source BI Característica OpenI Pentaho SpagoBI Licença Open Source (GPL) Duplo licenciamento: Open Source (GPL) comercial e Open Source Linguagem de Java Java Java desenvolvimento Servidor de Apache Tomcat, Apache Tomcat, Apache Tomcat, aplicações Redhat JBoss Oracle Glassfish, Oracle Glassfish, Redhat JBoss Redhat JBoss Servidor OLAP Mondrian Mondrian Mondrian Ferramenta de ETL nenhuma Pentaho Data Integration Talend Open Studio Motor de relatórios Jasper Reports JFree Reports BIRT e JasperReports Data Mining nenhuma Weka Weka no sentido de descobrir a plataforma mais simples de usar por parte de utilizadores não técnicos ou com pouca experiência nesta área. Como já foi referido, num ambiente de produção é aconselhado o uso de aplicações externas para desenvolver os documentos e publicá-los no servidor de Business Intelligence. Antes de desenvolver os documentos, foi criada uma base de dados de exemplo, constituída por uma tabela de factos para armazenar valores de quantidade vendida e valor de venda e três dimensões, Cliente, Produto e Tempo. Estes dados de exemplo foram guardados num servidor MySQL a correr no mesmo computador do servidor de Business Intelligence. A criação dos documentos de análise (relatórios, gráficos, dashboards) varia conforme a plataforma em causa e foi testada nas três plataformas. Para a criação dos documentos foram usadas as versões de demonstração, uma vez que o código dos servidores de Business Intelligence é o mesmo das versões "stand-alone"e estão já configurados com alguns dados de exemplo, tornando mais simples a sua utilização e adaptação para usar o servidor de base de dados referido anteriormente como fonte de dados Pentaho Business Intelligence Server Antes de criar os documentos e respectivas queries de suporte, é necessário criar a ligação de dados que vai permitir o acesso aos dados por parte do servidor de Business Intelligence. Para esta tarefa é necessário aceder à opção "Database Connections"na aplicação de administração do servidor, "Administration Console", e definir o nome pelo qual esta ligação será posteriormente 37

58 5. Análise de Plataformas Business Intelligence Open Source conhecida e os parâmetros necessários (servidor, base de dados, utilizador e palavra-chave). Ao iniciar o "Pentaho Design Studio", a ferramenta recomendada pela Pentaho para desenvolver as soluções de Business Intelligence ligadas as servidor Pentaho, tem que definir-se um espaço de trabalho (workspace) que deverá corresponder à localização no sistema de ficheiros onde estão alojados os documentos analíticos. Neste espaço de trabalho pode depois criar-se um documento que se deseje e publicá-lo no servidor. A operação de publicação tem como objectivo torná-lo visível para os utilizadores da solução de Business Intelligence. Após a publicação, o documento aparece na árvore de documentos e pode ser visualizado com um duplo-clique no nome. Na Figura 5.14 apresenta-se um aspecto da edição de documentos no "Pentaho Design Studio". Figura 5.14.: Edição de um documento no Pentaho Design Studio No âmbito do teste das plataformas, foi criada uma "Action Sequence"(um documento do Pentaho) com o objectivo de mostrar o resultado de uma query de um modo visual através da representação em forma de gráfico tipo "velocímetro". O documento foi criado e publicado no servidor com sucesso, embora a visualização não tenha sido conseguida como pretendido, apenas se conseguindo visualizar o resultado da query de forma textual, como se mostra na Figura Em resumo, o método de criação de documentos não é muito complicado, embora tenha algumas particularidades que possam criar problemas, especialmente porque algumas opções mais avançadas apenas podem ser configuradas editando o ficheiro XML directamente, contornando a interface de desenvolvimento, o que obriga ao conhecimento completo da especificação do 38

59 5.7. Usabilidade das Plataformas Figura 5.15.: Resultado do documento de teste no Pentaho formato de XML válido SpagoBI Na criação de documentos do SpagoBI usam-se funcionalidades da plataforma e também uma aplicação externa, chamada "SpagoBI Studio"que permite o design dos documentos. As funcionalidades da plataforma necessárias incluem a criação de ligações às Bases de Dados, criação de "DataSets"e outros objectos de base necessários à criação do documento final. Estas funcionalidades estão disponíveis na interface do SpagoBI ao fazer-se o login com um utilizador com permissões de administrador. Devem criar-se os objectos de base antes de tentar criar o documento propriamente dito, nomeadamente as ligações às Bases de Dados ("Data Sources") e queries necessárias ("Data Sets"). O documento é criado com a ajuda do SpagoBI Studio, embora possa ser editado aprenas com um editor de texto, uma vez que se trata de ficheiros XML. O SpagoBI Studio consegue criar relatórios nos formatos BIRT (para serem apresentados através do SpagoBIBirtReportEngine) e Jasper (SpagoBIJasperReportEngine), relatórios com informação georeferenciada (para o SpagoBIGeoReportEngine), dashboards e gráficos de vários tipos, bem como documentos compostos por outros documentos. O processo de criação de relatórios do formato Jasper exige a presença do programa "ireport", os outros tipos de documentos podem ser editados directamente no SpagoBI Studio. Na Figura 5.16 apresenta-se um aspecto do SpagoBI Studio. Após a criação do documento é necessário copiá-lo para o servidor, para que apareça dispo- 39

60 5. Análise de Plataformas Business Intelligence Open Source Figura 5.16.: Edição de um documento no SpagoBI Studio nível na lista de documentos. Foi tentada a criação de um documento de análise que pretendia mostrar de modo visual (sob a forma de gráfico "velocímetro") o resultado de uma query simples executada sobre os dados de exemplo. O resultado final, embora melhor que o obtido no Pentaho, ficou ainda assim aquém do esperado, pois apareceram alguns "artefactos"na escala do gráfico. Com uma análise mais completa ao formato do ficheiro XML e verificação cuidada das respectivas propriedades, poder-se-ia ter obtido um resultado mais satisfatório. Na Figura 5.17 apresenta-se o resultado da execução deste documento. Figura 5.17.: Resultado do documento de teste no SpagoBI 40

61 5.7. Usabilidade das Plataformas Na plataforma SpagoBI o processo de criação de documentos é muito semelhante ao Pentaho, não sendo complicado mas podendo exigir alguma edição dos ficheiros XML para algum caso mais específico. Tanto o SpagoBI Studio como o Pentaho Design Studio são baseados no popular editor Eclipse [Eclipse,2010] OpenI Para criar um documento no OpenI, começa-se por configurar a ligação à Base de Dados, através do menu "Preferências", opção "Data Sources". Uma vez que esta plataforma não oferece a capacidade de criar dashboards a partir de fontes de dados relacionais, foi tentada a criação de um relatório que apresente o resultado de uma query. Os dados e a query usados foram os mesmos que nas outras duas plataformas. De acordo com a documentação da plataforma, é recomendado usar o programa JasperSoft ireport Designer [Jasper, 2010] para a criação do relatório. Após a criação do relatório nesse programa (é uma operação relativamente simples, pois dispõe-se de um wizard para ajudar nesta tarefa), a publicação do documento faz-se através da interface web da plataforma, opção "Gerenciar Arquivos"do menu "Preferências". Na Figura 5.18 mostra-se um aspecto da edição de um relatório no JasperSoft ireport Designer. Figura 5.18.: Edição de um relatório no JasperSoft ireport Designer Nesta plataforma, o resultado obtido correspondeu às expectativas, não havendo necessidade de editar o ficheiro XML manualmente. É necessário apenas confirmar a fonte de dados associada ao relatório através da interface da plataforma, estando o resultado obtido representado na Figura Em resumo, embora a plataforma OpenI não tenha as mesmas capacidades de visualização de informação que as outras duas plataformas, é muito simples criar relatórios. 41

62 5. Análise de Plataformas Business Intelligence Open Source Figura 5.19.: Resultado do documento de teste no OpenI No global, é relativamente simples criar documentos nas várias plataformas, embora nem sempre os resultados sejam os melhores. A ligação a fontes de dados relacionais é fácil de efectuar, sendo um processo simples em todas as plataformas. A criação de novos cubos OLAP no servidor Mondrian incluído na demonstração das várias plataformas revelou-se complicada e não se obtiveram resultados que permitissem criar documentos que obtivessem os dados nesses cubos OLAP Actividade das equipas de desenvolvimento. Ao optar por uma plataforma de Business Intelligence Open Source, é fundamental que se tenha um conhecimento seguro da actividade da respectiva equipa de desenvolvimento e dos tempos habituais para lançamento de versões. Normalmente os projectos desenvolvidos por uma empresa, de acordo com o modelo do Pentaho, têm um calendário de lançamentos mais regular, ao passo que os projectos desenvolvidos pela comunidade têm períodos de actividade mais irregulares, com momentos de grande actividade e outras alturas menos produtivas. Esta situação verifica-se também em relação a estas três plataformas, se observarmos os seus calendários de lançamento em 2009 e Nestes últimos dois anos, a plataforma Pentaho teve 5 lançamentos, com intervalos de cerca de três meses entre cada um, passando da versão para a 3.6.0, a equipa do SpagoBI realizou o lançamento de dez versões, com intervalos que oscilam entre alguns dias e quatro meses, avançando da versão para a e o OpenI não teve senão 4 lançamentos de versões de desenvolvimento da série 2.0 com o lançamento mais recente a ocorrer em Setembro de As figuras 5.20 a 5.22 mostram uma linha de tempo dos lançamentos de cada uma das plataformas. A Figura 5.20 apresenta os lançamentos das cinco versões estáveis do Pentaho. 42

63 5.8. Actividade das equipas de desenvolvimento. Figura 5.20.: Lançamentos do Pentaho em 2009 e 2010 Entre as versões 2.x e 3.x houve alterações a nível de arquitectura do servidor e componentes incluídos na distribuição, nomeadamente a nível de componentes para mostrar gráficos em Flash e no componente de ETL. Ao longo das versões 3.x, as alterações consistem essencialmente em correcção de problemas ("bugs") e melhorias ao nível de interface, idiomas suportados e integração com os servidores de aplicações. Na Figura 5.21 são apresentados os lançamentos do SpagoBI em 2009 e 2010, totalizando dez versões estáveis. Figura 5.21.: Lançamentos do SpagoBI em 2009 e 2010 A transição entre as versões 1.9.x e 2.0 incidiu especialmente em novos motores (incluindo o motor de informação geo-referenciada), mudanças na arquitectura da plataforma e implementação de funcionalidades independentes da plataforma onde é executado. Ao longo das versões 2.x, foram sendo implementadas melhorias nos motores existentes e também nas aplicações de apoio, como o SpagoBI Studio. Na Figura 5.22 mostram-se os lançamentos do OpenI. Como esta plataforma não teve lançamentos oficiais em 2009 e 2010, apresentam-se os lançamentos de desenvolvimento da série 2.0. Figura 5.22.: Lançamentos de desenvolvimento da série 2.0 do OpenI, em 2009 e 2010 A plataforma OpenI sofreu uma completa remodelação, tanto em termos de características 43

64 5. Análise de Plataformas Business Intelligence Open Source como de escrita de código entre a versão (lançada em Fevereiro de 2007) e a versão 2.0 (praticamente estável em termos de características, mas ainda sem lançamento oficial). Dos vários conjuntos de valores é de notar a pouca actividade que a plataforma OpenI tem tido ao longo do ano de Tanto o Pentaho como o Spago foram alvo de grandes esforços de desenvolvimento lançando um total de 15 versões estáveis em dois anos Utilzação das plataformas em PMEs A pouca actividade de desenvolvimento, aliada à menor capacidade da interface gráfica, torna a plataforma OpenI uma escolha menos recomendada para uma PME que deseje implementar uma solução de Business Intelligence. Entre as plataformas Spago e Pentaho, a escolha será muito influenciada por factores subjectivos como o aspecto gráfico. As ferramentas associadas a cada uma das soluções podem também fazer a diferença pois enquanto a equipa de desenvolvimento do Pentaho cria também alguns programas auxiliares para criação das soluções (Pentaho Data Integration para ETL,. Pentaho Metadata Editor para criação do modelo da DW e Pentaho Design Studio para a criação de documentos como relatórios, análises e dashboards), o Spago usa programas genéricos para algumas funções, como por exemplo o Talend Open Studio para ETL, e também alguns desenvolvidos pela equipa do Spago, como o SpagoBI Studio para criação dos documentos e análises. Um factor a ter em conta, mas que não foi revisto neste trabalho prende-se com a disponibilidade de suporte comercial disponível para apoio a este tipo de implementação. 44

65 6. Modificação de sofwtare open-source Por vezes o software disponível não implementa determinadas características necessárias ou desejadas para um melhor desempenho de um sistema. Esta situação acontece tanto com software proprietário como com software livre, mas se no caso do software proprietário um cliente pouco pode fazer a não ser pedir à empresa de desenvolvimento que integre as funcionalidades pretendidas, já no caso do software livre essas alterações são possíveis, e até encorajadas pela comunidade de desenvolvimento, e pelas licenças sob as quais o software é normalmente publicado. Para demonstrar esta situação, foi efectuada uma implementação de uma característica importante, em termos de performance, para a área de Data Warehousing, mas que não está ainda implementada no código oficial do MySQL. Este servidor com esta alteração poderia ser usado como plataforma preferencial para armazenar e disponibilizar os dados de uma das plataformas de Business Intelligence Open Source aqui estudadas. As Vistas Materializadas são muito utilizadas em ambientes de Data Warehousing porque podem permitir aumentar o desempenho de forma exponencial, podendo diminuir o tempo de respostas das queries em 99%. Nesta secção será descrito o trabalho efectuado e os resultados obtidos na implementação de Vistas Materializadas no MySQL Vistas Materializadas O padrão de utilização das bases de dados relacionais num ambiente de Data Warehousing revela a execução de queries longas, ou seja, uma query à base de dados envolve o processamento de grandes quantidades de dados. demorando muito tempo a ser executada. Este padrão contrasta com típico dos sistemas OLTP (Sistemas Operacionais), onde existem muitas queries, mas com pouco processamento associado à sua execução. Por outro lado, enquanto que as que- 45

66 6. Modificação de sofwtare open-source ries típicas dos sistemas OLTP são conhecidas a priori aquando da implementação do sistema, as queries envolvidas num ambiente de Business Intelligence e Data Warehousing são maioritariamente queries ad hoc definidas pelo utilizador do sistema conforme as suas necessidades do momento e evoluem com a actividade da organização. Esta diferença de padrões de utilização leva a que, enquanto um sistema OLTP seja relativamente simples de optimizar em relação à performance, o mesmo não acontece com sistemas OLAP (Data Warehouses e sistemas de Business Intelligence). A rapidez de resposta de uma base de dados assenta essencialmente na criação dos índices correctos e no armazenamento dos agregados pré-calculados e resultados de queries previamente executadas. No âmbito da utilização em Data Warehousing, o armazenamento de resultados pré-calculados, ou Vistas Materializadas é considerado uma boa ajuda ao aumento da performance da base de dados. Infelizmente, nenhuma das comuns bases de dados open-source (MySQL, PostgreSQL) suporta esta funcionalidade. As Vistas Materializadas actuam como Vistas comuns, no sentido em que são definidas a partir de uma query, e não de uma expressão de criação de tabelas, mas, ao contrário das Vistas, são de facto armazenadas fisicamente no disco do sistema de base de dados. A manutenção das Vistas Materializadas deve ser o mais automática possível, sendo as alterações aos dados existentes nas Tabelas reflectidas no conteúdo das Vistas Materializadas sem que o utilizador ou administrador da Base de Dados tenham que executar qualquer acção. As Vistas Materializadas apresentam também algumas desvantagens, a nível do espaço ocupado e da manutenção necessária. Como uma Vista Materializada armazena os dados fisicamente no disco, há que acrescentar o espaço necessário para as Vistas Materializadas às necessidades de espaço da Base de Dados. Esta diferença no espaço ocupado pode ser bastante significativa, especialmente se se criar Vistas Materializadas sobre tabelas com muitos dados, ou se a condição de criação das Vistas incluir ligações entre duas ou mais tabelas. Se, por exemplo, for criada uma Vista Materializada que inclua todos os dados de uma tabela que ocupe 100MB, será necessário reservar mais 100MB para armazenar a Vista Materializada. Para manter as Vistas Materializadas actualizadas, é necessário que após cada alteração dos dados constantes das tabelas subjacentes sejam actualizados os índices e os dados associados à Vista Materializada. Estas operações de actualização implicam que cada inserção, actualização ou eliminação de dados seja seguida pela opção equivalente em relação à Vista, ou Vistas, que incluam os dados afectados. No âmbito deste trabalho foi iniciada a implementação de Vistas Materializadas na base de dados MySQL, pois este é o servidor de bases de dados mais usado nas plataformas de Business 46

67 6.2. Conjunto de Testes Intelligence Open Source. A base de código usada foi a mais recente versão disponível na altura, a versão (de desenvolvimento). Apenas foi implementada a sintaxe de criação de Vistas Materializadas, através de uma extensão do parser de SQL para permitir um comando do tipo "CREATE MATERIALIZED VIEW"que aceita uma query SQL como definição da vista e cria uma tabela regular com os dados relevantes. Outras funcionalidades, como apagar, alterar e actualizar as Vistas Materializadas não foram implementadas. Esta alteração serviu, no entanto, para demonstrar a viabilidade de execução das alterações e também para recolher alguns dados sobre o aumento de performance obtido com estas alterações Conjunto de Testes Os testes foram realizados numa base de dados de exemplo, criada com auxílio de um programa gerador de dados, dbgen [DBGen,2010], de acordo com a especificação de benchmarks TPC- H adaptada para um tipo de utilização OLAP, por investigadores da Universidade de Boston [O Neil, 2009], e com um tamanho de dados de 1 Gigabyte. O esquema da base de dados é uma estrela com uma tabela de factos ("LINEORDER") e 4 dimensões ("CUSTOMER", "SUPPLIER", "PART"e "DATE"). A Figura 6.1 mostra esta estrela. Figura 6.1.: Esquema em estrela da base de dados de testes As queries de teste em relação a esta estrela são as constantes de [O Neil, 2009], divididas em quatro grupos, apresentando-se a query 2.1 (Q2.1) na Figura

68 6. Modificação de sofwtare open-source SELECT SUM( LO_REVENUE), D_YEAR, P_BRAND1 FROM LINEORDER, DATE, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = MFGR#12 AND S_REGION = AMERICA GROUP BY D_YEAR, P_BRAND1 ORDER BY D_YEAR, P_BRAND1 ; Figura 6.2.: Query 2.1 (Q2.1) executada sobre a estrela de teste As restantes queries estão incluídas no Anexo A. Além desta estrela, foram criadas 3 Vistas Materializadas de acordo com as necessidades das queries a executar. As queries de criação das Vistas Materializadas são apresentadas no Anexo B. As queries foram também alteradas para ser executadas sobre as Vistas Materializadas, pois a re-escrita de queries não foi implementada no servidor. Na Figura 6.3 mostra-se a query 2.1 alterada (Q2.1). SELECT REVENUE, YEAR, BRAND FROM MV_REVENUE_BY_YEAR_BRAND_REGION WHERE CATEGORY = MFGR#12 AND REGION = AMERICA GROUP BY YEAR, BRAND ORDER BY YEAR, BRAND; Figura 6.3.: Query 2.1 (Q2.1) re-escrita para ser executada sobre uma Vista Materializada 6.3. Avaliação Experimental O conjunto de queries referido na secção anterior foi executado primeiro sobre a estrela com os dados de exemplo, e medido o tempo de resposta de cada query. O conjunto de queries adaptadas foi depois executado sobre as vistas materializadas e medido também o tempo de resposta. Os testes foram realizados num computador portátil com 2 GB de RAM, 160 GB de Disco e sistema operativo Debian GNU/Linux, usando-se o comando time, incluído no Linux, para aferir o tempo de execução de cada query. Repetiu-se dez vezes a execução do lote de queries e determinou-se a o tempo médio de execução de cada uma. Por fim, compararam-se os resultados obtidos para cada query quando executada em relação às tabelas regulares com os 48

69 6.3. Avaliação Experimental resultado quando executadas em relação às vistas materializadas. Entre cada ciclo de execução foi reiniciado o servidor MySQL de modo a que as caches fossem limpas e não houvesse interferência com os resultados da execução. Na Tabela 6.1 apresentam-se os resultados resumidos destes testes. Tabela 6.1.: Resumo dos resultados de execução dos testes de Vistas Materializadas Query Tempo de execução Tempo de execução Ganho (%) sobre tabelas sobre Vistas regulares (s) Materializadas (s) Q1.1 18,507 18,524-0,092 Q1.2 1,600 1,647-2,969 Q1.3 0,369 0,365 1,018 Q ,404 0,015 99,988 Q ,500 0,014 99,991 Q ,492 0,014 99,990 Q ,698 0,765 99,309 Q3.2 18,583 0,548 97,049 Q3.3 4,579 0,631 86,227 Q3.4 4,578 0,493 89,242 Q ,500 1,058 99,025 Q ,235 1,039 99,040 Q4.3 21,540 0,891 95,862 Da análise destes resultados torna-se evidente o ganho obtido por codificar as queries de modo a usar vistas materializadas. Este ganho pode chegar aos 99.99% do tempo de execução. Os resultados das queries Q1.1 a Q1.3 podem ser explicados pelo motivo destas queries não terem sido modificadas já que são suficientemente simples para obter os dados a partir apenas da tabela de factos, e, portanto, não estão ao mesmo nível das queries dos outros grupos. Como as Vistas Materializadas exigem que a base de dados cresça de tamanho, o tempo de execução das queries deste grupo poderá ser prejudicado pela necessidade de pesquisar os dados num conjunto de maior tamanho. Tendo estes resultados sido obtidos sobre uma versão de desenvolvimento e através de uma implementação nada optimizada das Vistas Materializadas, podemos supor que o resultado final de uma possível implementação mais cuidada seria ainda mais rápido. 49

70 6. Modificação de sofwtare open-source 6.4. Conclusões O ganho obtido pela utilização de Vistas Materializadas e queries alteradas para as usar é muito significativo, nunca inferior a 85% nos nossos testes e em diversos casos acima de 99%, como por exemplo, na query Q2.2 onde o tempo de execução baixou de mais de 2 minutos e meio para menos de 2 centésimos de segundo. A correcta definição de Vistas Materializadas e das queries, pode levar, portanto, a uma significativa melhoria dos tempos de resposta dos sistemas de Business Intelligence. Não foram estudadas nem a influência do tipo de motor de armazenamento (Storage Engine) do MySQL nem a concorrência de acessos às vistas materializadas. Como não foram implementadas funcionalidades de gestão automática de Vistas Materializadas, também não foi possível aferir o comportamento das mesmas em relação a actualizações dos dados nas tabelas subjacentes. Serviu no entanto, este teste, para demonstrar a viabilidade de alteração de um programa no sentido de o tornar mais rápido. Esta alteração, embora tecnicamente não muito complicada, só é possível graças à licença sob a qual é distribuída o MySQL. 50

71 7. Conclusões e Trabalho Futuro As ferramentas de Business Intelligence são cada vez mais necessárias para a gestão das organizações por forma a dotá-las da eficiência e agilidade nos seus processos de tomada de decisão. Neste trabalho foram abordados dois problemas distintos, embora relacionados. Por um lado apreciaram-se algumas plataformas de Business Intelligence Open Source existentes no mercado de modo a verificar a sua adequação à implementação em Pequenas e Médias Empresas (PMEs). Por outro lado, demonstrou-se a viabilidade e facilidade de alterar um software Open Source, conhecido no mercado, no sentido de o melhorar de acordo com as exigências do ambiente de Data Warehousing. No âmbito das plataformas de Business Intelligence Open Source concluímos que a sua usabilidade, embora ainda inferior à dos programas proprietários, está a melhorar e que podem ser implementados, com algum esforço, por parte de PMEs. O facto de serem plataformas que não implicam o pagamento de licenças torna ainda possível a uma PME explorar as diversas soluções, sem grandes investimentos, e permitindo escolher a melhor plataforma para a sua situação. Para implementar com sucesso uma destas plataformas é vantajoso que exista, do lado da empresa interessada, algum conhecimento da linguagem Java e servidores de aplicações (Apache Tomcat ou RedHat JBoss). Do ponto de vista de alteração de software open source, neste caso do MySQL, demonstrámos que podem ser efectuadas pequenas alterações no sentido de o tornar melhor em relação ao uso pretendido. Um pequeno esforço de implementação leva a que enormes ganhos de performance possam ser obtidos, no nosso caso, com melhorias até 99% no tempo de execução de queries. Como trabalho futuro propomos a continuação da avaliação das plataformas BI Open Source, através da criação de um protótipo de utilização típica de uma PME. Sugerimos também efectuar um estudo de mercado sobre a disponibilidade de empresas de consultoria prestarem serviços a PMEs nesta área, de modo a determinar custos e facilidade de obtenção de suporte profissional em relação a uma destas plataformas. No âmbito da modificação de software, sugerimos a implementação de Vistas Materializadas de um modo mais aprofundado e a execução de testes incluindo acessos concorrentes e diferen- 51

72 7. Conclusões e Trabalho Futuro tes motores de armazenamento, usando para o efeito uma Data Warehouse real, por exemplo, de uma empresa. 52

73 A. Queries usadas no teste do MySQL Queries iniciais, executadas em relação è estrela original Query 1.1 (Q1.1) SELECT FROM WHERE SUM( LO_EXTENDEDPRICE LO_DISCOUNT) AS REVENUE LINEORDER, DATE LO_ORDERDATE = D_DATEKEY AND D_YEAR = 1993 AND LO_DISCOUNT BETWEEN 1 AND 3 AND LO_QUANTITY < 2 5 ; Query 1.2 (Q1.2) SELECT FROM WHERE SUM( LO_EXTENDEDPRICE LO_DISCOUNT) AS REVENUE LINEORDER, DATE LO_ORDERDATE = D_DATEKEY AND D_YEARMONTHNUM = AND LO_DISCOUNT BETWEEN 4 AND 6 AND LO_QUANTITY BETWEEN 26 AND 35 ; Query 1.3 (Q1.3) SELECT FROM WHERE SUM( LO_EXTENDEDPRICE LO_DISCOUNT) AS REVENUE LINEORDER, DATE LO_ORDERDATE = D_DATEKEY 53

74 A. Queries usadas no teste do MySQL AND D_WEEKNUMINYEAR = 6 AND D_YEAR = 1994 AND LO_DISCOUNT BETWEEN 5 AND 7 AND LO_QUANTITY BETWEEN 26 AND 3 5 ; Query 2.1 (Q2.1) SELECT SUM( LO_REVENUE), D_YEAR, P_BRAND1 FROM LINEORDER, DATE, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_CATEGORY = MFGR#12 AND S_REGION = AMERICA GROUP BY D_YEAR, P_BRAND1 ORDER BY D_YEAR, P_BRAND1 ; Query 2.2 (Q2.2) SELECT SUM( LO_REVENUE), D_YEAR, P_BRAND1 FROM LINEORDER, DATE, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_BRAND1 BETWEEN MFGR#2221 AND MFGR#2228 AND S_REGION = ASIA GROUP BY D_YEAR, P_BRAND1 ORDER BY D_YEAR, P_BRAND1 ; Query 2.3 (Q2.3) SELECT SUM( LO_REVENUE), D_YEAR, P_BRAND1 FROM LINEORDER, DATE, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY 54

75 AND LO_PARTKEY = P_PARTKEY AND LO_SUPPKEY = S_SUPPKEY AND P_BRAND1 = MFGR#2221 AND S_REGION = EUROPE GROUP BY D_YEAR, P_BRAND1 ORDER BY D_YEAR, P_BRAND1 ; Query 3.1 (Q3.1) SELECT C_NATION, S_NATION, D_YEAR, SUM( LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATE WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION= ASIA AND S_REGION= ASIA AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_NATION, S_NATION, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC; Query 3.2 (Q3.2) SELECT C_CITY, S_CITY, D_YEAR, SUM( LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATE WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND C_NATION= UNITED STATES AND S_NATION= UNITED STATES AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC; 55

76 A. Queries usadas no teste do MySQL Query 3.3 (Q3.3) SELECT C_CITY, S_CITY, D_YEAR, SUM( LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATE WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND ( C_CITY= UNITED KI1 OR C_CITY= UNITED KI5 ) AND ( S_CITY= UNITED KI1 OR S_CITY= UNITED KI5 ) AND D_YEAR >= 1992 AND D_YEAR <= 1997 GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC; Query 3.4 (Q3.4) SELECT C_CITY, S_CITY, D_YEAR, SUM( LO_REVENUE) AS REVENUE FROM CUSTOMER, LINEORDER, SUPPLIER, DATE WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_ORDERDATE = D_DATEKEY AND ( C_CITY= UNITED KI1 OR C_CITY= UNITED KI5 ) AND ( S_CITY= UNITED KI1 OR S_CITY= UNITED KI5 ) AND D_YEARMONTH = Dec1997 GROUP BY C_CITY, S_CITY, D_YEAR ORDER BY D_YEAR ASC, REVENUE DESC; Query 4.1 (Q4.1) SELECT D_YEAR, C_NATION, SUM(LO_REVENUE LO_SUPPLYCOST) AS PROFIT FROM DATE, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY 56

77 AND C_REGION= AMERICA AND S_REGION= AMERICA AND (P_MFGR= MFGR#1 OR P_MFGR= MFGR#2 ) GROUP BY D_YEAR, C_NATION ORDER BY D_YEAR, C_NATION ; Query 4.2 (Q4.2) SELECT D_YEAR, S_NATION, P_CATEGORY, SUM(LO_REVENUE LO_SUPPLYCOST) AS PROFIT FROM DATE, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION= AMERICA AND S_REGION= AMERICA AND (D_YEAR = 1997 OR D_YEAR=1998) AND (P_MFGR= MFGR#1 OR P_MFGR= MFGR#2 ) GROUP BY D_YEAR, S_NATION, P_CATEGORY ORDER BY D_YEAR, S_NATION, P_CATEGORY Query 4.3 (Q4.3) SELECT D_YEAR, S_CITY, P_BRAND1, SUM(LO_REVENUE LO_SUPPLYCOST) AS PROFIT FROM DATE, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY AND C_REGION= AMERICA AND S_NATION= UNITED STATES AND (D_YEAR = 1997 OR D_YEAR=1998) AND P_CATEGORY= MFGR#14 57

78 A. Queries usadas no teste do MySQL GROUP BY D_YEAR, S_CITY, P_BRAND1 ORDER BY D_YEAR, S_CITY, P_BRAND1 ; Queries modificadas, executadas em relação às vistas materializadas Query 1.1 (Q1.1) modificada SELECT FROM WHERE SUM( LO_EXTENDEDPRICE LO_DISCOUNT) AS REVENUE LINEORDER, DATE LO_ORDERDATE = D_DATEKEY AND D_YEAR = 1993 AND LO_DISCOUNT BETWEEN 1 AND 3 AND LO_QUANTITY < 2 5 ; Query 1.2 (Q1.2) modificada SELECT FROM WHERE SUM( LO_EXTENDEDPRICE LO_DISCOUNT) AS REVENUE LINEORDER, DATE LO_ORDERDATE = D_DATEKEY AND D_YEARMONTHNUM = AND LO_DISCOUNT BETWEEN 4 AND 6 AND LO_QUANTITY BETWEEN 26 AND 35 ; Query 1.3 (Q1.3) modificada SELECT FROM WHERE SUM( LO_EXTENDEDPRICE LO_DISCOUNT) AS REVENUE LINEORDER, DATE LO_ORDERDATE = D_DATEKEY AND D_WEEKNUMINYEAR = 6 AND D_YEAR = 1994 AND LO_DISCOUNT BETWEEN 5 AND 7 AND LO_QUANTITY BETWEEN 26 AND 3 5 ; 58

79 Query 2.1 (Q2.1) modificada SELECT REVENUE, YEAR, BRAND FROM MV_REVENUE_BY_YEAR_BRAND_REGION WHERE CATEGORY = MFGR#12 AND REGION = AMERICA GROUP BY YEAR, BRAND ORDER BY YEAR, BRAND; Query 2.2 (Q2.2) modificada SELECT REVENUE, YEAR, BRAND FROM MV_REVENUE_BY_YEAR_BRAND_REGION WHERE BRAND BETWEEN MFGR#2221 AND MFGR#2228 AND REGION = ASIA GROUP BY YEAR, BRAND ORDER BY YEAR, BRAND; Query 2.3 (Q2.3) modificada SELECT REVENUE, YEAR, BRAND FROM MV_REVENUE_BY_YEAR_BRAND_REGION WHERE BRAND = MFGR#2221 AND REGION = EUROPE GROUP BY YEAR, BRAND ORDER BY YEAR, BRAND; Query 3.1 (Q3.1) modificada SELECT C_NATION, S_NATION, YEAR, SUM(REVENUE) AS REVENUE FROM MV_REVENUE_BY_YEARMONTH_CITY WHERE C_REGION= ASIA AND S_REGION= ASIA AND YEAR >=

80 A. Queries usadas no teste do MySQL AND YEAR <= 1997 GROUP BY C_NATION, S_NATION, YEAR ORDER BY YEAR ASC, REVENUE DESC; Query 3.2 (Q3.2) modificada SELECT C_CITY, S_CITY, YEAR, SUM(REVENUE) AS REVENUE FROM MV_REVENUE_BY_YEARMONTH_CITY WHERE C_NATION= UNITED STATES AND S_NATION= UNITED STATES AND YEAR >= 1992 AND YEAR <= 1997 GROUP BY C_CITY, S_CITY, YEAR ORDER BY YEAR ASC, REVENUE DESC; Query 3.3 (Q3.3) modificada SELECT C_CITY, S_CITY, YEAR, SUM(REVENUE) AS REVENUE FROM MV_REVENUE_BY_YEARMONTH_CITY WHERE ( C_CITY= UNITED KI1 OR C_CITY= UNITED KI5 ) AND ( S_CITY= UNITED KI1 OR S_CITY= UNITED KI5 ) AND YEAR >= 1992 AND YEAR <= 1997 GROUP BY C_CITY, S_CITY, YEAR ORDER BY YEAR ASC, REVENUE DESC; Query 3.4 (Q3.4) modificada SELECT C_CITY, S_CITY, YEAR, SUM(REVENUE) AS REVENUE FROM MV_REVENUE_BY_YEARMONTH_CITY WHERE ( C_CITY= UNITED KI1 OR C_CITY= UNITED KI5 ) AND ( S_CITY= UNITED KI1 OR S_CITY= UNITED KI5 ) AND YEARMONTH = Dec1997 GROUP BY C_CITY, S_CITY, YEAR 60

81 ORDER BY YEAR ASC, REVENUE DESC; Query 4.1 (Q4.1) modificada SELECT YEAR, C_NATION, PROFIT FROM MV_PROFIT_YEAR_NATION_MFGR_CATEGORY WHERE C_REGION= AMERICA AND S_REGION= AMERICA AND (MFGR= MFGR#1 OR MFGR= MFGR#2 ) GROUP BY YEAR, C_NATION ORDER BY YEAR, C_NATION ; Query 4.2 (Q4.2) modificada SELECT YEAR, S_NATION, CATEGORY, PROFIT FROM MV_PROFIT_YEAR_NATION_MFGR_CATEGORY WHERE C_REGION= AMERICA AND S_REGION= AMERICA AND (YEAR = 1997 OR YEAR=1998) AND (MFGR= MFGR#1 OR MFGR= MFGR#2 ) GROUP BY YEAR, S_NATION, CATEGORY ORDER BY YEAR, S_NATION, CATEGORY ; Query 4.3 (Q4.3) modificada SELECT YEAR, CITY, BRAND, PROFIT FROM MV_PROFIT_YEAR_NATION_MFGR_CATEGORY WHERE C_REGION= AMERICA AND S_NATION= UNITED STATES AND (YEAR = 1997 OR YEAR=1998) AND CATEGORY= MFGR#14 GROUP BY YEAR, CITY, BRAND ORDER BY YEAR, CITY, BRAND ; 61

82

83 B. Queries para criar as Vistas Materializadas MV_REVENUE_BY_YEAR_BRAND_REGION CREATE MATERIALIZED VIEW MV_REVENUE_BY_YEAR_BRAND_REGION AS SELECT SUM( LO_REVENUE) AS REVENUE, D_YEAR AS YEAR, P_BRAND1 AS BRAND, P_CATEGORY AS CATEGORY, S_REGION AS REGION FROM LINEORDER, DATE, PART, SUPPLIER WHERE LO_ORDERDATE = D_DATEKEY AND LO_PARTKEY=P_PARTKEY AND LO_SUPPKEY=S_SUPPKEY GROUP BY YEAR, BRAND, CATEGORY, REGION ; MV_REVENUE_BY_YEARMONTH_CITY CREATE MATERIALIZED VIEW MV_REVENUE_BY_YEARMONTH_CITY AS SELECT SUM( LO_REVENUE) AS REVENUE, MAX( D_YEAR) AS YEAR, D_YEARMONTH AS YEARMONTH, MAX( C_REGION) AS C_REGION, MAX( S_REGION ) AS S_REGION, MAX( C_NATION) AS C_NATION, MAX( S_NATION) AS S_NATION, C_CITY, 63

84 B. Queries para criar as Vistas Materializadas S_CITY FROM LINEORDER, DATE, CUSTOMER, SUPPLIER WHERE LO_ORDERDATE=D_DATEKEY AND LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY GROUP BY YEARMONTH, C_CITY, S_CITY ; MV_PROFIT_YEAR_NATION_MFGR_CATEGORY CREATE MATERIALIZED VIEW MV_PROFIT_YEAR_NATION_MFGR_CATEGORY AS SELECT D_YEAR AS YEAR, SUM(LO_REVENUE LO_SUPPLYCOST) AS PROFIT, C_REGION, C_NATION, S_CITY AS CITY, S_REGION, S_NATION, P_MFGR AS MFGR, P_CATEGORY AS CATEGORY, P_BRAND1 AS BRAND FROM DATE, CUSTOMER, SUPPLIER, PART, LINEORDER WHERE LO_CUSTKEY = C_CUSTKEY AND LO_SUPPKEY = S_SUPPKEY AND LO_PARTKEY = P_PARTKEY AND LO_ORDERDATE = D_DATEKEY GROUP BY YEAR, C_REGION, C_NATION, CITY, S_REGION, S_NATION, MFGR, CATEGORY, BRAND ; 64

85 C. Artigo publicado na conferência E-ALT

86 C. Artigo publicado na conferência E-ALT2010 Analysis of Open Source Business Intelligence Suites Pedro Ribeiro, Jorge Bernardino Abstract Organizations are all looking to increase revenue, lower expenses, and improve profitability by improving efficiency and effectiveness in their business processes and overall performance. Business Intelligence tools and technologies form the major components of the foundation that supports and enables such competitive differentiation. Open source software has become a force in the commercial software industry and open source business intelligence has matured to the point where organizations can evaluate to see whether it meets basic requirements, particularly when providing a low-cost solution. Recently, Open Source BI (Business Intelligence) platforms have also been gaining attention, as users of proprietary BI applications face increasing licensing costs. This paper explores open source approach to Business Intelligence, evaluating and comparing three of the most used open source business intelligence suites: OpenI, Pentaho and SpagoBI. Index Terms Business Intelligence, Open source, Cost-benefit analysis 1 INTRODUCTION I nformation is considered the most valuable asset of any organization regardless of the size of the organization. Every operation that organizations perform generates lots of raw data. This raw data must be converted into useful information for decision makers in order to improve the performance of the organization. A Data Warehouse (DW) is an information repository that aggregates the information scattered throughout the organization in a convenient way to query and explore. Business Intelligence handles the exploration of the data stored in a Data Warehouse in order to support the decision making process. Nowadays, there are some mature open source business applications and platforms, in the sales, finance and operational areas [1]. In the process of developing a DW solution, one important factor to consider is the output of that solution, namely, the Business Intelligence (BI) platform to use. Without the BI part, the DW is mostly useless. The variety and features of the Open Source Business Intelligence platforms have greatly evolved in the last five years [2], [3]. The quantity and, P. Ribeiro is with the IPC/ISEC - Instituto Superior de Engenharia de Coimbra, Dept. de Engenharia Informática e Sistemas, Rua Pedro Nunes, Coimbra, Portugal. deis.isec.pt. J. Bernardino is with IPC/ISEC - Instituto Superior de Engenharia de Coimbra, Dept. de Engenharia Informática e de Sistemas, Rua Pedro Nunes, Coimbra, Portugal. more important, the quality of available open source packages have increased and they are now a viable alternative to common commercial solutions. An open source BI platform is a unified system that lets the user feels like using a single BI solution, while reducing the overhead for the development and management of each application [4]. Some of the open source BI platforms follow a model called Commercial Open Source, also known as Open Core, in which the most advanced features are coded under a closed source license. This model usually gives birth to two or more editions of the same product: the Community edition which includes only the open sourced functionalities and the Enterprise or Full edition, including all the features, and sold, like any other commercial product. Other open source BI platforms follow the so-called Free and Open Source model, FLOSS (Free/Libre/Open Source Software), in which all the functionalities are available under an open source license, like GNU Public License (GPL) or a BSD-style license. These platforms don't usually have more than one edition. In this paper we concentrate our work on the evaluation of FLOSS model solutions and the Community Edition of open source BI platforms. The evaluated platforms are Pentaho Business Intelligence Server Community Edition (Pentaho), SpagoBI (Spago) and OpenI 2.0 (OpenI). All of them were tested using the demos and packages available at the respective web sites. The remainder of this paper is organized as

87 follows. In section 2, we describe the Business Intelligence platforms. Section 3 presents the evaluation of the three demo packages of the BI suites: OpenI, Pentaho and SpagoBI. Section 4 presents the experiments with the standard packages of the different suites. Section 5 reviews related work in open source Business topic. Finally, section 6 contains concluding remarks and future work. 2 OPEN SOURCE BUSINESS INTELLIGENCE PLATFORMS In this section, a description of the three open source BI platforms tested is presented, and a summary is offered, focusing on the public available demos. Open Source Software / Free Software (OSS/FS) (also abbreviated as FLOSS) has risen to great prominence. Briefly, FLOSS programs are those whose license allows the user to run and modify the program at will, including the right to redistribute copies of both the original and the modified versions. This kind of license usually require that copyright notices are maintained but don't require royalty payments [5]. There are a multitude of FLOSS licences, with varying degrees of openness or freedom, but all those licenses give open source software the possibility of being freely downloaded and used for any purpose that the user wishes, even if the developers never intended or predicted such uses. Redistribution, modification and unrestricted access to source code are also some possibilities present in every FLOSS license. Nowadays, if a business enterprise has the needed skills to implement, use and maintain the desired application, there are almost certainly one or two options of enterpriseclass open source software. Some common benefits associated with open source software include: Short Product Cycle: Software evolves most quickly when there are no restrictions to what programmers are allowed to do with the source code for a piece of software. If programmers can read, modify and redistribute software at will, and more users are allowed to try that software, improvements, bug corrections and general feature adoption tend to happen faster. This effect is sometimes called Linus' Law and usually postulated as Given enough eyeballs, all bugs are shallow [6]. The short product cycle and the fact that this software doesn't have license costs allows users to test and try new versions, and give feedback to developers more quickly than with traditional commercial software. Reliable and Secure: By giving access to source code to anyone, the chances that a security flaw is exposed increase, and that flaws can't be easily covered up and made secret. Fixes are also more easily obtained because one doesn't need to wait for an official release or such mechanism common in proprietary software. Anybody with the proper knowledge can devise a fix and patch the software. Freedom from Vendor Lock-In: Free and open source licenses, by their very nature, turns vendor lock-in in a non-issue. Allowing each and everyone to review the source code, assures the user that if some vendor vanishes other people can follow the work. No Sales or License Costs: There are no costs, regarding software licensing, allowing users to evaluate the software nearly for free. If companies have internal knowledge they can achieve a nearly cost-free implementation of the desired software. If a company needs to contract external services, their budget is not impacted by software acquisition costs, typical of commercial applications. Thus, the money saved can be invested in other services, like training, hardware or other business requests. While Linux, Apache, MySQL, and other open source software are routinely deployed in the enterprise, open source BI solutions are just at the point where they are sufficient mature to satisfy user requirements. The major attraction of open source is to save time and money, but there s an extra dimension to open source BI open source BI allows interaction and evolution in a way that proprietary BI does not. We tested the public available demos, which can be downloaded through each platform website OpenI [7], Pentaho [8] and SpagoBI [9]. It must be noted that none of the open source BI platforms evaluated provides a Database Management System (DBMS). The example data on the demo is stored in a SQLite database [10], but connectors to several DBMS are available. Being a Java based application one can use any JDBC driver to access other data sources, including Oracle, Microsoft SQLServer, MySQL and PostgreSQL

88 C. Artigo publicado na conferência E-ALT Pentaho Business Intelligence Server Community Edition This platform follows the Commercial Open Source model of development. Its implementation is controlled by Pentaho Corporation [8], and is distributed in two distinct editions: The Community Edition, and the Enterprise Edition. The Community Edition is the Open Source version while the Enterprise Edition is a commercial product that includes not only all the features of the Community Edition, but also some more advanced tools to help the development of Business Intelligence Models and Reports and a contract support. The available demo includes the Business Intelligence Server Community Edition, some sample data (the Foodmart Database), the Apache Tomcat Application Server and other required software needed to run the demo. The only piece of software the user needs to provide is the Java Runtime. Besides the Business Intelligence Server, the demo also includes the Administration Console, a separate application to manage the BI Server. They are both web applications running on top of the Apache Tomcat. Other Java Application Server platforms, like JBoss are also supported. Other main components of the Pentaho solution are the Mondrian OLAP engine, the Pentaho Data Integration (former Kettle) ETL software, the JFreeReport Reporting Engine and the Weka Data Mining modules. After installation, the user should check whether the environment variables related to the Java Runtime are properly set and only then execute the script to start the application. To stop the demo, the user runs another of the scripts provided in the package. This demo, and other Pentaho software is available on Pentaho's project page in SourceForge [11]. Furthermore are offered other open source components: Report Designer, Design Studio, Metadata Editor, Schema Workbench and Aggregation Designer. These components can be downloaded from Pentaho's site [8] and are succinctly described in Table 1. TABLE 1 PENTAHO OPEN SOURCE COMPONENTS Component Report Designer [12] Function Design reports and create Pentaho Action Sequences (Pentaho BI platform executables). Data Integration Design Studio Metadata Editor Schema Workbench ETL component. Editor and debugger of reports and Action Sequences. Edits data warehouse metadata conforming to the Common Data Warehouse model. Designer for Mondrian OLAP Schemas Aggregation Designer Utility to design and generate aggregate tables. Report Engine Executes and displays the reports. OLAP Server Mondrian OLAP Server [13] Weka DataMining [14] Data Mining Component 2.2 SpagoBI SpagoBI is one of the platforms that follow the FLOSS model of development, so, there is only one edition of the program. The SpagoBI project is backed by an Italian company: Ingegneria Informatica S.p.A. [15], but developed by an open community around the world. Like Pentaho, this project is based on the Java language and JSP technology and uses Apache Tomcat or JBoss as the Application Server, Mondrian as the OLAP server and Weka for Data Mining. Coupled with Mondrian, we can find JPivot or JPalo OLAP clients. JPivot can also be used with a range of XMLA (XML for Analysis) Servers, for example Microsoft Analysis Services. SpagoBI includes both BIRT [16] and JasperReports [17] reporting engines, and also a reporting engine, developed in-house, with georeferencing capabilities, GeoReport [9]. The Extract-Transform-Load (ETL) functions are provided by Talend Open Studio [18]. The available demo includes, in addition to all of these components, the Apache Tomcat server, some example data and pre-made reports and dashboards. The user must provide the Java Runtime. To start and stop SpagoBI demo, the user runs the relevant scripts included in the package. The administration of this BI solution is included in the main program, through the use of a predefined user ( biadmin ) and the user view is available through the use of the technical user login ( biuser ). The repository for SpagoBI can be found at [19], and includes not only the demo, but also

89 the SpagoBI Server and all the components described in Table 2. Component BIRT Report Engine Geo Engine GeoReport Engine JasperReport Engine JPalo/Mondrian Engine JPivot/Mondrian Engine JPXMLA Engine QbE Engine Open Talend Studio Weka Engine 2.3 OpenI 2.0 TABLE 2 SPAGOBI COMPONENTS Function Reporting engine. Geographic referencing component. Allows the development of GIS applications. Reporting engine. Mondrian-based OLAP Server Mondrian-based OLAP Server. XMLA-based OLAP Server. Allows the development of queries in a graphical approach. The ETL component. The Data Mining component. This project is the result of the release of a previous BI application under an Open-Source license in 2005, and is the less known project. Not like Pentaho and SpagoBI there is no company backing OpenI, and all the development is handled through SourceForge [20]. The development model followed by the OpenI project is also the FLOSS model, so there is only one edition of the software. Programmed in Java and using JSP technology, the components used by OpenI include the ubiquitous Mondrian OLAP server and the JasperReports reporting engine. OpenI doesn't include an ETL tool, or a Data Analysis component. The development team of this platform was more focused in the Software as a Service, SaS concept than in the more usual Business Intelligence fullfledged application. Like the other platforms analyzed in this paper, OpenI runs on top of an application server. However, it only supports Apache Tomcat and JBoss. The available demo includes the server software, the OLAP engine, the Reporting engine, some example data and also the needed Java Runtime (both the Linux and Windows versions are present in the downloadable package). Like SpagoBI, the administration is available through a special administration user. The available demo only includes this special user as a login option. In the OpenI software repository [20], we can only find the OpenI server. Neither code nor binaries are available for the individual components, only for the whole bundle. 2.4 Platform s summary Table 3 shows the main modules that comprise the three platforms under analysis concerning to: the development model, language, application server, ETL tool, OLAP server, Reporting engine and Data Mining component. Many of the modules are shared, some of them are evolutions of a different open source project, others have been developed internally and belong to the same software house that is charge of the platform (JasperReport is the most widespread modules for BI reporting, while GEO is the module developed by SpagoBI team for georeferenced analysis) - reusing and sharing underlie open source software development. Table 3 also shows that some modules are standard de facto within open source BI: in particular the Mondrian OLAP engine and the JPivot graphical interface are the standard solutions for OLAP, while Weka is the standard data mining module. Development Model TABLE 3 SUMMARY OF PLATFORMS OpenI Pentaho SpagoBI Full Open Commercial Full Open Source Open Source Source Language Java Java Java Application Tomcat, Tomcat, Server JBoss Glassfish, JBoss ETL tool none Pentaho Data Integration Tomcat, Glassfish, JBoss Open Talend Studio OLAP server Mondrian Mondrian Mondrian Reporting engine Data Mining component Jasper Reports 3 PLATFORMS' EVALUATION JFree Reports BirtReport and JasperRe ports none Weka Weka In the current work we only report and summarize the evaluations concerning the platforms, while we do not study in depth all the characteristics of each single BI. The

90 C. Artigo publicado na conferência E-ALT2010 comparison is centred on the following key aspects: user interface, features and usability criteria. The demos were run on a laptop computer, under the Debian GNU/Linux operating system, with an Intel Core2 Duo T5550 processor and a Hitachi 160 GB hard drive. We used the demos downloaded from each project s repository and set up according to the installation instructions. To run the demo, it was necessary to execute the included relevant script. As the Pentaho and SpagoBI demos require a Java Runtime Engine provided by the user, care must be taken in order to check the setting of the relevant environment variables, namely the JAVA_HOME or JRE_HOME variables, since these variables control the Java Environment that the demos will use. Since all demos are distributed with the Apache Tomcat application server, after the demo starts, the user can point a web browser to port 8080 of the machine ( localhost ) to login into the program. As all the evaluated platforms use the same OLAP engine and example data, no performance tests were made. Fig. 2. Screenshot of SpagoBI demo login screen. 3.1 User Interface Although the three applications are web applications, and the user interface shares common concepts, there are also substantial differences among the three. Starting at the login screen, each platform philosophy is evident, as shown in Figures 1, 2 and 3. Fig. 1. Screenshot of OpenI demo login screen. Fig. 3. Screenshot of Pentaho demo login screen. OpenI presents a simple login form (see Figure 1), with only the administrative user as a choice, and Pentaho (see Figure 3) displays a more complex login form with drop-downs to choose from a variety of users in the roles of user or administrator. SpagoBI also shows a traditional login form (see Figure 2), but allows the user to choose a role as administrator or technical user. After logging in the platforms, the main options are shown to the user. OpenI and Pentaho offer a more traditional web-oriented interface, with the menu running down the left side, while SpagoBI take a more desktoporiented approach by putting the menu at the top. OpenI is different from the other suites, since it cannot display the data table and the chart for an analysis at the same time. The user interface of all the platforms is internationalized and allows a set of few languages. OpenI provides English, Hindi and Brazilian Portuguese as available languages. Pentaho offers English, German, French, Spanish and Japanese, but only in the

Pentaho: Inteligência de Negócios utilizando Software Livre

Pentaho: Inteligência de Negócios utilizando Software Livre Pentaho: Inteligência de Negócios utilizando Software Livre CONSEGI 2010 BRASÍLIA-DF 20 DE AGOSTO DE 2010 Por que Pentaho? Funciona; Tecnologia Java; Código Aberto; Robusto; Confiável; Gratuito; Apoio

Leia mais

Uma Ferramenta Web para BI focada no Gestor de Informação

Uma Ferramenta Web para BI focada no Gestor de Informação Uma Ferramenta Web para BI focada no Gestor de Informação Mikael de Souza Fernandes 1, Gustavo Zanini Kantorski 12 mikael@cpd.ufsm.br, gustavoz@cpd.ufsm.br 1 Curso de Sistemas de Informação, Universidade

Leia mais

PENTAHO. História e Apresentação

PENTAHO. História e Apresentação PÓS-GRADUAÇÃO LATO SENSU Curso: Banco de Dados Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan Unidade 2 2012 Crédito dos Slides: Clever Junior 2 PENTAHO História

Leia mais

Web OLAP, Exploração de Sistemas OLAP via Web

Web OLAP, Exploração de Sistemas OLAP via Web Web OLAP, Exploração de Sistemas OLAP via Web Afonso Arriaga e Pedro Marques Departamento de Informática, Universidade do Minho http://di.uminho.pt/ afonso.arriaga@gmail.com, pcmarkes@gmail.com Resumo.

Leia mais

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence Juntamente com o desenvolvimento desses aplicativos surgiram os problemas: & Data Warehouse July Any Rizzo Oswaldo Filho Década de 70: alguns produtos de BI Intensa e exaustiva programação Informação em

Leia mais

Como é o desenvolvimento de Software?

Como é o desenvolvimento de Software? Como é o desenvolvimento de Software? Fases do Desenvolvimento Modelo Cascata Define atividades seqüenciais Outras abordagens são baseadas nesta idéia Especificação de Requisitos Projeto Implementação

Leia mais

OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional

OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional João Silva and José Saias m5672@alunos.uevora.pt, jsaias@di.uevora.pt Mestrado em Engenharia Informática, Universidade

Leia mais

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP.

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. Eduardo Cristovo de Freitas Aguiar (PIBIC/CNPq), André Luís Andrade

Leia mais

Conteúdo SOFTWARE LIVRE. Terminologia. Histórico de Software Livre. Terminologia: Software livre. Terminologia: Software livre

Conteúdo SOFTWARE LIVRE. Terminologia. Histórico de Software Livre. Terminologia: Software livre. Terminologia: Software livre Conteúdo SOFTWARE LIVRE SCE 186 - Engenharia de Software Profs. José Carlos Maldonado e Elisa Yumi Nakagawa 2 o semestre de 2002 Histórico de Software Livre Terminologia Fases do Licença de Software Livre

Leia mais

OPEN SOURCE SOFTWARE. 1. Introdução. 2. Clarificação do Conceito

OPEN SOURCE SOFTWARE. 1. Introdução. 2. Clarificação do Conceito OPEN SOURCE SOFTWARE por Alexandre João Petetim Leal Ferreira Departamento de Engenharia Informática Universidade de Coimbra 3030 Coimbra, Portugal ajfer@student.dei.uc.pt Sumário. Pretendem-se apresentar

Leia mais

Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar

Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar Projeto de Data Warehousing sobre Informações em Saúde para dar Suporte a Análise de Faturamento Hospitalar Newton Shydeo Brandão Miyoshi Joaquim Cezar Felipe Grupo de Informática Biomédica Departamento

Leia mais

Paulo Trezentos (Paulo.Trezentos@iscte.pt) 29/9/2005

Paulo Trezentos (Paulo.Trezentos@iscte.pt) 29/9/2005 Open-Source na Administração Pública Accenture Paulo Trezentos (Paulo.Trezentos@iscte.pt) 29/9/2005 Agenda / Terminologia / Contexto open source Modelos de desenvolvimento Estratégia Empresarial Razões

Leia mais

CONHECENDO O SOFTWARE LIVRE

CONHECENDO O SOFTWARE LIVRE CONHECENDO O SOFTWARE LIVRE Reinaldo Candido da Costa 1 * Rosaria Ferreira Otoni dos Santos* Resumo O presente artigo busca instigar a reflexão dos usuários dos meios de comunicação e disseminação da informação

Leia mais

O que é software livre

O que é software livre O que é software livre Publicado por brain em Sáb, 2006-03-25 17:12. :: Documentação [http://brlinux.org/linux/taxonomy/term/13] por Augusto Campos Este artigo responde a diversas dúvidas comuns de novos

Leia mais

Uma Introdução ao Pentaho Business Intelligence e Business Analytics Open Source. Marcio Junior Vieira marcio @ ambientelivre.com.

Uma Introdução ao Pentaho Business Intelligence e Business Analytics Open Source. Marcio Junior Vieira marcio @ ambientelivre.com. Uma Introdução ao Pentaho Business Intelligence e Business Analytics Open Source Marcio Junior Vieira marcio @ ambientelivre.com.br Palestrante CEO da Ambiente Livre Tecnologia. Desenvolvedor de Software,Trabalha

Leia mais

Carla Morais e João Paiva. Software Educativo 2009/2010

Carla Morais e João Paiva. Software Educativo 2009/2010 Carla Morais e João Paiva Software Educativo 2009/2010 Os conceitos: Software livre e Open Source O conceito de Software livre (Free Software, no original), anterior ao de Open source, foi cunhado por

Leia mais

Softwares de Sistemas e de Aplicação

Softwares de Sistemas e de Aplicação Fundamentos dos Sistemas de Informação Softwares de Sistemas e de Aplicação Profª. Esp. Milena Resende - milenaresende@fimes.edu.br Visão Geral de Software O que é um software? Qual a função do software?

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Software de sistema Software aplicativo

Software de sistema Software aplicativo SOFTWARE O que é Software? Software, logicial ou programa de computador é uma sequência de instruções a serem seguidas e/ou executadas, na manipulação, redireccionamento ou modificação de um dado/informação

Leia mais

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

1. Introdução ao. Crystal Reports

1. Introdução ao. Crystal Reports 1. Introdução ao Crystal Reports Como é sabido e geralmente aceite por todos nós, vivemos um período onde a complexidade dos negócios é cada vez maior, tal como o prova a intensificação da concorrência,

Leia mais

Projecto SDAC 2010. Sistema Operativo Open Source. Curso: Técnico de Gestão de Equipamentos Informáticos

Projecto SDAC 2010. Sistema Operativo Open Source. Curso: Técnico de Gestão de Equipamentos Informáticos Projecto SDAC 2010 Sistema Operativo Open Source Curso: Técnico de Gestão de Equipamentos Informáticos Disciplina: Sistemas Digitais e Arquitectura de Computadores Professores: Catarina Santos/Paulo Guimarães

Leia mais

Business Intelligence & Performance Management

Business Intelligence & Performance Management Como medir a evolução do meu negócio? Tenho informação para esta decisão? A medição da performance é uma dimensão fundamental para qualquer actividade de gestão. Recorrentemente, qualquer gestor vê-se

Leia mais

Informação legal... 4 Frequently Asked Questions (FAQ)... 6 Quickstart Tutorial... 9

Informação legal... 4 Frequently Asked Questions (FAQ)... 6 Quickstart Tutorial... 9 Índice Introdução ao ELMS e ao MSDNAA... 3 Informação legal... 4 Frequently Asked Questions (FAQ)... 6 Quickstart Tutorial... 9 O presente documento destina se a auxiliar todos os alunos que sejam beneficiários

Leia mais

Plataforma Pentaho. Fagner Fernandes

Plataforma Pentaho. Fagner Fernandes Plataforma Pentaho Fagner Fernandes Sobre a Pentaho Fundada em 2004 por 5 fundadores Foco em Integração de Dados e Análise de Negócio Diferentes versões de sua Suite: Pentaho Enterprise Edition Pentaho

Leia mais

Chapter 3. Análise de Negócios e Visualização de Dados

Chapter 3. Análise de Negócios e Visualização de Dados Chapter 3 Análise de Negócios e Visualização de Dados Objetivos de Aprendizado Descrever a análise de negócios (BA) e sua importância par as organizações Listar e descrever brevemente os principais métodos

Leia mais

Open source como estratégia

Open source como estratégia Open source como estratégia Introdução Objectivo Discussão do Open Source como estratégia no mundo empresarial; Diferentes abordagens; Exemplos; Introdução Introdução O que entendem sobre o uso de Open

Leia mais

FTIN Formação Técnica em Informática Módulo Sistema Proprietário Windows AULA 01. Prof. André Lucio

FTIN Formação Técnica em Informática Módulo Sistema Proprietário Windows AULA 01. Prof. André Lucio FTIN Formação Técnica em Informática Módulo Sistema Proprietário Windows AULA 01 Prof. André Lucio Competências do modulo Introdução ao sistema operacional Windows Instalação e configuração do sistema

Leia mais

Gestão em Sistemas de Informação. Profa.: Me. Christiane Zim Zapelini E-mail: christianezapelini@nwk.edu.br

Gestão em Sistemas de Informação. Profa.: Me. Christiane Zim Zapelini E-mail: christianezapelini@nwk.edu.br Gestão em Sistemas de Informação Profa.: Me. Christiane Zim Zapelini E-mail: christianezapelini@nwk.edu.br Gestão em Sistemas de Informação Aula 34 Software livre e código aberto Aula 34 2 Gestão em Sistemas

Leia mais

São programas de computador com a função de interagir a maquina com o usuário. Licenciados Livres - Gratuitos ou uso limitados 18/10/2010 1

São programas de computador com a função de interagir a maquina com o usuário. Licenciados Livres - Gratuitos ou uso limitados 18/10/2010 1 Softwares São programas de computador com a função de interagir a maquina com o usuário Tipos : Licenciados Livres - Gratuitos ou uso limitados 18/10/2010 1 Licenciados São software autorizados, cedidos

Leia mais

Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar

Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar Mikael de Souza Fernandes 1, Gustavo Zanini Kantorski 12 mikael@cpd.ufsm.br, gustavoz@cpd.ufsm.br 1 Curso de Sistemas de Informação, Universidade

Leia mais

Business Intelligence Conceitos, Metodologia de Desenvolvimento e Exemplos de BI

Business Intelligence Conceitos, Metodologia de Desenvolvimento e Exemplos de BI Matriz: Av. Caçapava, 527 CEP 90.460-130 Tecnopuc: Av. Ipiranga, 6681 Prédio 32 Sala 109 CEP 90.619-900 Porto Alegre - RS, Brasil Contate-nos: +55 (51) 3330.7777 contato@dbccompany.com.br www.dbccompany.com.br

Leia mais

Distribuições de Linux embarcado. O mercado de Linux embarcado. Distribuição Linux: desktop x embarcados. Projeção do mercado de Linux embarcado

Distribuições de Linux embarcado. O mercado de Linux embarcado. Distribuição Linux: desktop x embarcados. Projeção do mercado de Linux embarcado Linux Sistemas Embarcados Introdução ao Linux embarcado e aspectos de software livre Aula 02 É um núcleo, não um sistema operacional Altamente modulável usado desde servidores a equipamentos dedicados

Leia mais

Manifesto Software Livre

Manifesto Software Livre Manifesto Software Livre Histórico iniciou com a elaboração de um documento denominado: " Manifesto GNU " por Richard Stallman 1.984; marco histórico do surgimento de uma nova forma de criação de Software;

Leia mais

Conteúdo. Uma visão social. O que é? Dá certo? Custos. Recomendações. Apresentação Ricardo Gazoni Semiotic Systems. Software Livre Junho de 2011

Conteúdo. Uma visão social. O que é? Dá certo? Custos. Recomendações. Apresentação Ricardo Gazoni Semiotic Systems. Software Livre Junho de 2011 Conteúdo Uma visão social O que é? Dá certo? Custos Recomendações Apresentação Ricardo Gazoni Semiotic Systems Página 2 Uma visão social História da computação: o começo de tudo 1936 década de 40 Máquina

Leia mais

ÍNDICE. www.leitejunior.com.br 06/10/2009 10:21 Leite Júnior

ÍNDICE. www.leitejunior.com.br 06/10/2009 10:21 Leite Júnior ÍNDICE SOFTWARE LIVRE / OPEN SOURCE...2 PROPRIEDADE INTELECTUAL...2 GRAUS DE RESTRIÇÃO EM LICENÇAS DE SOFTWARE...2 LICENÇAS DE SOFTWARE...2 OPEN SOURCE...2 SOFTWARE LIVRE...2 GNU GPL...4 GNU LGPL...4 SOFTWARE

Leia mais

BUSINESS INTELLIGENCE -Inteligência nos Negócios-

BUSINESS INTELLIGENCE -Inteligência nos Negócios- UNIVERSIDADE SÃO FRANCISCO CENTRO DE CIÊNCIAS JURÍDICAS, HUMANAS E SOCIAIS BUSINESS INTELLIGENCE -Inteligência nos Negócios- Curso: Administração Hab. Sistemas de Informações Disciplina: Gestão de Tecnologia

Leia mais

Introdução a Computação

Introdução a Computação Introdução a Computação 08 - Licenças, Tipos de Softwares, Tradutores. Linguagens de Máquina, de Baixo Nível e de Alto Nível Márcio Daniel Puntel marcio.puntel@ulbra.edu.br Software Livre GPL BSD Software

Leia mais

Software Livre e Inovação Tecnológica

Software Livre e Inovação Tecnológica Software Livre e Inovação Tecnológica Fábio Olivé (fabio.olive@gmail.com) Tópicos O que significa Livre em Software Livre? De onde veio e quem usa Software Livre? A qualidade diferenciada do Software Livre

Leia mais

O que é software livre

O que é software livre CAMPOS, Augusto. O que é software livre. BR-Linux. Florianópolis, março de 2006. Disponível em . Consultado em 16 de Dezembro de 2008. O que é software livre

Leia mais

A versão básica disponibiliza a informação criada no Microsoft Navision em unidades de informação

A versão básica disponibiliza a informação criada no Microsoft Navision em unidades de informação O Business Analytics for Microsoft Business Solutions Navision ajuda-o a ter maior controlo do seu negócio, tomar rapidamente melhores decisões e equipar os seus funcionários para que estes possam contribuir

Leia mais

AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP.

AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP. AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP. Luan de Souza Melo (Fundação Araucária), André Luís Andrade Menolli (Orientador), Ricardo G. Coelho

Leia mais

TABELA 3.1 Requisitos do Windows Server 2008 Standard

TABELA 3.1 Requisitos do Windows Server 2008 Standard 3 3INSTALAÇÃO DE UM SERVIDOR 2008 Feita a apresentação das funcionalidades do Windows Server 2008, eis que chega a hora mais desejada: a da implementação do nosso servidor. No entanto não é de todo recomendável

Leia mais

Informática I. Aula 26. http://www.ic.uff.br/~bianca/informatica1/ Baseada no Capítulo 2 do Livro Introdução a Informática Capron e Johnson

Informática I. Aula 26. http://www.ic.uff.br/~bianca/informatica1/ Baseada no Capítulo 2 do Livro Introdução a Informática Capron e Johnson Informática I Aula 26 Baseada no Capítulo 2 do Livro Introdução a Informática Capron e Johnson http://www.ic.uff.br/~bianca/informatica1/ Aula 26-17/07/06 1 Ementa Histórico dos Computadores Noções de

Leia mais

ERP: Pacote Pronto versus Solução in house

ERP: Pacote Pronto versus Solução in house ERP: Pacote Pronto versus Solução in house Introdução Com a disseminação da utilidade e dos ganhos em se informatizar e integrar os diversos departamentos de uma empresa com o uso de um ERP, algumas empresas

Leia mais

3. O CASO PARTICULAR DO FÓRUM DYN3W

3. O CASO PARTICULAR DO FÓRUM DYN3W 3. O CASO PARTICULAR DO FÓRUM DYN3W 3.1. DESCRIÇÃO DA FERRAMENTA E SUAS APLICAÇÕES Dyn3W é um fórum desenvolvido especialmente para ser utilizado na educação. O seu desenvolvimento iniciou-se em meados

Leia mais

Enunciado de apresentação do projecto

Enunciado de apresentação do projecto Engenharia de Software Sistemas Distribuídos 2 o Semestre de 2009/2010 Enunciado de apresentação do projecto FEARSe Índice 1 Introdução... 2 2 Cenário de Enquadramento... 2 2.1 Requisitos funcionais...

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

O Valor do Licenciamento do SQL Server 2012 Versus Oracle Database

O Valor do Licenciamento do SQL Server 2012 Versus Oracle Database White Paper Publicado em: Janeiro de 2012 Aplica-se ao: SQL Server 2012 O Valor do Licenciamento do SQL Server 2012 Versus Oracle Database Resumo: As mudanças no produto e no licenciamento da Microsoft

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto OLPT x OLAP Roteiro OLTP Datawarehouse OLAP Operações OLAP Exemplo com Mondrian e Jpivot

Leia mais

DELEGAÇÃO REGIONAL DO ALENTEJO CENTRO DE FORMAÇÃO PROFISSIONAL DE ÉVORA REFLEXÃO 4

DELEGAÇÃO REGIONAL DO ALENTEJO CENTRO DE FORMAÇÃO PROFISSIONAL DE ÉVORA REFLEXÃO 4 REFLEXÃO 4 Módulos 0776, 0780, 0781, 0786 e 0787 1/10 8-04-2013 Esta reflexão tem como objectivo partilhar e dar a conhecer o que aprendi nos módulos 0776 - Sistema de informação da empresa, 0780 - Aplicações

Leia mais

Ferramentas Livres de Armazenamento e Mineração de Dados

Ferramentas Livres de Armazenamento e Mineração de Dados Ferramentas Livres de Armazenamento e Mineração de Dados JasperBI, Pentaho, Weka 09/2009 Eng. Pablo Jorge Madril pmadril@summa.com.br Summa Technologies www.summa.com.br Eng. Pablo Jorge Madril pmadril@summa.com.br

Leia mais

manual instalação e configuração v13 1

manual instalação e configuração v13 1 manual instalação e configuração v13 1 Conteúdo Introdução... 3 Conteúdo do DVD:... 3 Instalação e configuração do ERP... 4 Instalação do ERP... 4 Configuração do ERP... 6 Como actualização de versão...

Leia mais

Bases de Dados. O que é uma Base de Dados? Pós-Grduação em SIG

Bases de Dados. O que é uma Base de Dados? Pós-Grduação em SIG Bases de Dados O que é uma Base de Dados? Dados Pode-se começar por tentar dar uma definição do que são Dados. Os dados são factos em bruto, que não são necessáriamente relevantes para qualquer coisa que

Leia mais

ISEP. Instituto Superior de Engenharia do Porto. Análise de Sistemas Informáticos

ISEP. Instituto Superior de Engenharia do Porto. Análise de Sistemas Informáticos ISEP Instituto Superior de Engenharia do Porto Análise de Sistemas Informáticos Armazenamento de Dados em Rede A Revolução do Armazenamento Partilhado A crise económica e a crescente necessidade de armazenamento

Leia mais

Wall Street Institute resolve necessidades complexas de e-mail com solução Microsoft Exchange Online

Wall Street Institute resolve necessidades complexas de e-mail com solução Microsoft Exchange Online Wall Street Institute resolve necessidades complexas de e-mail com solução Microsoft Exchange Online Além da poupança na infra-estrutura física dos servidores e do preço das licenças, há reduções de custos

Leia mais

Instituto Politécnico de Beja. Escola Superior de Tecnologia e Gestão. Licenciatura em Engenharia Informática. Relatório de Portfólio.

Instituto Politécnico de Beja. Escola Superior de Tecnologia e Gestão. Licenciatura em Engenharia Informática. Relatório de Portfólio. Instituto Politécnico de Beja Escola Superior de Tecnologia e Gestão Licenciatura em Engenharia Informática Relatório de Portfólio GNU / Linux Nº 3113 Beja 2007 1 Índice Índice... 2 Resumo... 3 A Actividade...

Leia mais

DSPACE GESTÃO DE. Características e requisitos técnicos REPOSITÓRIOS INSTITUCIONAIS WHITE PAPER SERIES

DSPACE GESTÃO DE. Características e requisitos técnicos REPOSITÓRIOS INSTITUCIONAIS WHITE PAPER SERIES DSPACE GESTÃO DE REPOSITÓRIOS INSTITUCIONAIS Características e requisitos técnicos WHITE PAPER SERIES Sobre o documento Identificador WP11173 Autor Miguel Ferreira Contribuição Luís Miguel Ferros Distribuição

Leia mais

Bem-vindo à apresentação do SAP Business One.

Bem-vindo à apresentação do SAP Business One. Bem-vindo à apresentação do SAP Business One. Neste tópico, responderemos à pergunta: O que é o Business One? Definiremos o SAP Business One e discutiremos as opções e as plataformas disponíveis para executar

Leia mais

MOODLE é o acrónimo de "Modular Object-Oriented Dynamic Learning Environment. Executado em um AVA - Ambiente Virtual de Apresendizagem;

MOODLE é o acrónimo de Modular Object-Oriented Dynamic Learning Environment. Executado em um AVA - Ambiente Virtual de Apresendizagem; MOODLE é o acrónimo de "Modular Object-Oriented Dynamic Learning Environment Software livre, de apoio à aprendizagem; Executado em um AVA - Ambiente Virtual de Apresendizagem; A expressão designa ainda

Leia mais

RESUMO DA SOLUÇÃO CA ERwin Modeling. Como eu posso gerenciar a complexidade dos dados e aumentar a agilidade dos negócios?

RESUMO DA SOLUÇÃO CA ERwin Modeling. Como eu posso gerenciar a complexidade dos dados e aumentar a agilidade dos negócios? RESUMO DA SOLUÇÃO CA ERwin Modeling Como eu posso gerenciar a complexidade dos dados e aumentar a agilidade dos negócios? O CA ERwin Modeling fornece uma visão centralizada das principais definições de

Leia mais

Data Warehouse Processos e Arquitetura

Data Warehouse Processos e Arquitetura Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997)

Leia mais

Cronograma Nem só de nerds e geeks vive o Software-Livre

Cronograma Nem só de nerds e geeks vive o Software-Livre FLISOL 2011 Como organismos biológicos, feitos de matéria, somos sujeitos às leis da física e da biologia; como pessoas conscientes, que criam nossa própria história, somos livres para decidir como esta

Leia mais

Office 2010 e SharePoint 2010: Produtividade Empresarial no Seu Melhor. Folha de Factos

Office 2010 e SharePoint 2010: Produtividade Empresarial no Seu Melhor. Folha de Factos Office 2010 e SharePoint 2010: Produtividade Empresarial no Seu Melhor Folha de Factos A informação contida neste documento representa a visão actual da Microsoft Corporation sobre os assuntos discutidos,

Leia mais

OpenConsulting. Especializada em Pentaho Open Source Business Intelligence treinamento, consultoria e suporte

OpenConsulting. Especializada em Pentaho Open Source Business Intelligence treinamento, consultoria e suporte OpenConsulting Especializada em Pentaho Open Source Business Intelligence treinamento, consultoria e suporte INFORMATIVO Treinamento Desenvolvendo Aplicações Analíticas com Pentaho Business Analytics Campo

Leia mais

Trabalho de TI. Elaborado por: Francisco Gonçalves João Pias

Trabalho de TI. Elaborado por: Francisco Gonçalves João Pias Trabalho de TI Elaborado por: Francisco Gonçalves João Pias índice Introdução Freeware o que é? Shareware o que é? Open source Download o que é? Upload o que é? Peer to peer Programas de download Emule

Leia mais

PRIMAVERA P6 ANALYTICS DA ORACLE

PRIMAVERA P6 ANALYTICS DA ORACLE PRIMAVERA P6 ANALYTICS DA ORACLE O Primavera P6 Analytics da Oracle é um pacote de solução de inteligência de negócios que fornece percepções valiosas sobre seus projetos e portfólios no Primavera P6 Enterprise

Leia mais

Uma peça estratégica para o seu negócio

Uma peça estratégica para o seu negócio Uma peça estratégica para o seu negócio INFORMAÇÃO GERAL DA EMPRESA CASO DE SUCESSO EM IMPLEMENTAÇÃO BI PERGUNTAS E RESPOSTAS Fundada em 1997, Habber Tec é uma empresa especializada na oferta de soluções

Leia mais

Business Intelligence e ferramentas de suporte

Business Intelligence e ferramentas de suporte O modelo apresentado na figura procura enfatizar dois aspectos: o primeiro é sobre os aplicativos que cobrem os sistemas que são executados baseados no conhecimento do negócio; sendo assim, o SCM faz o

Leia mais

A plataforma. Sistemas de Gestão de Aprendizagem. Carlos Nunes csmnunes@gmail.com

A plataforma. Sistemas de Gestão de Aprendizagem. Carlos Nunes csmnunes@gmail.com A plataforma Sistemas de Gestão de Aprendizagem Carlos Nunes csmnunes@gmail.com O que é o Moodle? É um Sistema de Gestão de Aprendizagem (LMS) e de trabalho colaborativo, acessível através da Internet

Leia mais

Arquitetura Cliente/Servidor. Uma visão. analítica sobre Bancos de Dados. Banco de Dados. Prof. Enzo Seraphim

Arquitetura Cliente/Servidor. Uma visão. analítica sobre Bancos de Dados. Banco de Dados. Prof. Enzo Seraphim Arquitetura Cliente/Servidor Uma visão Banco de Dados analítica sobre Bancos de Dados Prof. Enzo Seraphim Modelo Cliente Servidor Protocolo Cliente Faz pedido de serviços ao Servidor Servidor Processa

Leia mais

Licenças Livres. Terry Laundos Aguiar

Licenças Livres. Terry Laundos Aguiar Licenças Livres Terry Laundos Aguiar "Quando nos referimos a software livre, estamos nos referindo a liberdade e não a preço." Licença GPL Licenças de Softwares Comprar um software, geralmente, é como

Leia mais

Relatório Técnico do projecto ARIADNE. Interface de utilizador do NewsSearch

Relatório Técnico do projecto ARIADNE. Interface de utilizador do NewsSearch Relatório Técnico do projecto ARIADNE Praxis XXI Interface de utilizador do NewsSearch Carlos Correia Norman Noronha Daniel Gomes Junho de 2000 Índice 1. INTRODUÇÃO...3 1.1 MOTIVAÇÃO...3 1.2 PROPOSTO...3

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

ANEXO 1. Formulário de Candidatura da Instituição Projecto Final de Curso de IGE/ETI. Instituição de acolhimento. Supervisor nomeado pela instituição

ANEXO 1. Formulário de Candidatura da Instituição Projecto Final de Curso de IGE/ETI. Instituição de acolhimento. Supervisor nomeado pela instituição INSTITUTO SUPERIOR DE CIÊNCIAS DO TRABALHO E DA EMPRESA Departamento de Ciências e Tecnologias de Informação DCTI Formulário de Candidatura da Instituição Projecto Final de Curso de IGE/ETI ANEXO 1 Instituição

Leia mais

Data Warehousing e OLAP

Data Warehousing e OLAP Data Warehousing e OLAP Jornadas de Engenharia Informática Instituto Politécnico da Guarda Henrique Madeira Departamento de Engenharia Informática Faculdade de Ciências e Tecnologia Universidade de Coimbra

Leia mais

Bases de Dados II 6638: BSc in Information Systems and Technologies. Cap. 1 Arquitectura de Sistemas de Bases de Dados. Module Introduction

Bases de Dados II 6638: BSc in Information Systems and Technologies. Cap. 1 Arquitectura de Sistemas de Bases de Dados. Module Introduction Bases de Dados II 6638: BSc in Information Systems and Technologies Cap. 1 Module Introduction Objectivos O propósito e a origem da arquitectura de base de dados a três níveis. O conteúdo dos níveis externo,

Leia mais

ILM e as Arquitecturas Empresariais por Pedro Sousa

ILM e as Arquitecturas Empresariais por Pedro Sousa ILM e as Arquitecturas Empresariais por Pedro Sousa Neste artigo clarifica-se os objectivos do ILM (Information Life Cycle Management) e mostra-se como estes estão dependentes da realização e manutenção

Leia mais

PREPARATÓRIO RIO PARA CAIXA ECONÔMICA

PREPARATÓRIO RIO PARA CAIXA ECONÔMICA PREPARATÓRIO RIO PARA CAIXA ECONÔMICA O que é Software Livre? Software Livre (Free Software) é o software disponível com a permissão para qualquer um usá-lo, copiá-lo, e distribuí-lo, seja na sua forma

Leia mais

Informática Instrumental

Informática Instrumental 1º PERÍODO.: GRADUAÇÃO EM REDES DE COMPUTADORES :. Madson Santos madsonsantos@gmail.com 2 Unidade I Unidade I Software 3 Software o é uma sentença escrita em uma linguagem de computador, para a qual existe

Leia mais

A história dos sistemas operacionais

A história dos sistemas operacionais A história dos sistemas operacionais Atualmente, os sistemas operacionais (SO) estão cada vez mais fáceis de usar, possuindo interfaces muito simples e bonitas. Contudo, todas estas funcionalidades não

Leia mais

UNIVERSIDADE DE LISBOA Faculdade de Ciências Departamento de Informática

UNIVERSIDADE DE LISBOA Faculdade de Ciências Departamento de Informática UNIVERSIDADE DE LISBOA Faculdade de Ciências Departamento de Informática DESENVOLVIMENTO DE UMA FRAMEWORK DE BUSINESS PERFORMANCE MANAGEMENT João Tiago Ribeiro Mendes Natálio PROJECTO MESTRADO EM ENGENHARIA

Leia mais

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO

TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO. SISTEMAS DE GESTÃO DE BASE DE DADOS Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO Microsoft Access TECNOLOGIAS DA INFORMAÇÃO E COMUNICAÇÃO CONCEITOS BÁSICOS 1 Necessidade das base de dados Permite guardar dados dos mais variados tipos; Permite

Leia mais

Sistemas de Informação no sector da Construção. João Poças Martins, FEUP/GEQUALTEC, 2011 1

Sistemas de Informação no sector da Construção. João Poças Martins, FEUP/GEQUALTEC, 2011 1 Sistemas de Informação no sector da Construção João Poças Martins, FEUP/GEQUALTEC, 2011 1 Sistemas de Informação no sector da Construção 1. SI na Construção. Introdução 2. ERP 3. BIM 4. Outras aplicações

Leia mais

Instalar o Projeto Colibri RCP 7.0.2 no Ubuntu 12.04

Instalar o Projeto Colibri RCP 7.0.2 no Ubuntu 12.04 Instalar o Projeto Colibri RCP 7.0.2 no Ubuntu 12.04 O Sistema Operativo Linux, embora com uma baixíssima quota de mercado, quando comparado com Windows e OS X, no que refere a computadores pessoais, e

Leia mais

UNIVERSIDADE POSITIVO ESPECIALIZAÇÃO EM BUSINESS INTELLIGENCE IMPLEMENTAÇÃO BI OPEN SOURCE

UNIVERSIDADE POSITIVO ESPECIALIZAÇÃO EM BUSINESS INTELLIGENCE IMPLEMENTAÇÃO BI OPEN SOURCE UNIVERSIDADE POSITIVO ESPECIALIZAÇÃO EM BUSINESS INTELLIGENCE IMPLEMENTAÇÃO BI OPEN SOURCE CURITIBA 2013 EDUARDO PHILIPPI ELTON HARRISSON ESTEFANSKI Implementação BI Open Source Trabalho de Conclusão de

Leia mais

MÓDULO MULTIMÉDIA PROFESSOR: RICARDO RODRIGUES. MAIL: rprodrigues@escs.ipl.pt esganarel@gmail.com. URL: http://esganarel.home.sapo.

MÓDULO MULTIMÉDIA PROFESSOR: RICARDO RODRIGUES. MAIL: rprodrigues@escs.ipl.pt esganarel@gmail.com. URL: http://esganarel.home.sapo. MÓDULO MULTIMÉDIA PROFESSOR: RICARDO RODRIGUES MAIL: rprodrigues@escs.ipl.pt esganarel@gmail.com URL: http://esganarel.home.sapo.pt GABINETE: 1G1 - A HORA DE ATENDIMENTO: SEG. E QUA. DAS 11H / 12H30 (MARCAÇÃO

Leia mais

UNIVERSIDADE DE LISBOA Faculdade de Ciências Departamento de Informática

UNIVERSIDADE DE LISBOA Faculdade de Ciências Departamento de Informática UNIVERSIDADE DE LISBOA Faculdade de Ciências Departamento de Informática DESENVOLVIMENTO DE UM FRAMEWORK DE BUSINESS PERFORMANCE MANAGEMENT GABINETE DE ESTUDOS E DIVULGAÇÃO INFORMÁTICA, S. A. João Tiago

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?

Leia mais

Aula 01. Introdução ao Linux

Aula 01. Introdução ao Linux Aula 01 Introdução ao Linux Introdução Objetivos aprender a usar um novo sistema aprender a usar uma nova interface Como no Windows navegar pela internet (e-mails, facebook, etc) criar pastas e arquivos

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

Unidade 1: Sistema Operativo Linux

Unidade 1: Sistema Operativo Linux Unidade 1: Sistema Operativo Linux 1 2 Sistema Operativo Linux Objectivos desta unidade Caracterizar o sistema operativo Linux Saber como obter documentação e apoio sobre a instalação e utilização do Linux

Leia mais

Sistemas operativos unix

Sistemas operativos unix Sistemas operativos unix Escola Eça de Queirós Trabalho realizado por: Dimas Marques e-mail :dmarques@ecaredes6.net Paulo silva e-mail: psilva@ecaredes6.net Turma :S12 Ano Lectivo : 2009/2010 1-caixa mágica

Leia mais

TABELA 2.1 Requisitos do Windows Server 2012 Standard

TABELA 2.1 Requisitos do Windows Server 2012 Standard 2INSTALAÇÃO DE UM SERVIDOR 2012 Feita a apresentação das funcionalidades do Windows Server 2012, eis que chega a hora mais desejada: a da implementação do servidor. No entanto, não é de todo recomendável

Leia mais

A SOLUÇÃO MAIS DETALHADA E EFICIENTE PARA DOCUMENTAÇÃO TOTAL DA INFORMAÇÃO DA EMPRESA E ANÁLISE DE IMPACTO NA INSTALAÇÃO EM AMBIENTE OS/390 OU zos

A SOLUÇÃO MAIS DETALHADA E EFICIENTE PARA DOCUMENTAÇÃO TOTAL DA INFORMAÇÃO DA EMPRESA E ANÁLISE DE IMPACTO NA INSTALAÇÃO EM AMBIENTE OS/390 OU zos A SOLUÇÃO MAIS DETALHADA E EFICIENTE PARA DOCUMENTAÇÃO TOTAL DA INFORMAÇÃO DA EMPRESA E ANÁLISE DE IMPACTO NA INSTALAÇÃO EM AMBIENTE OS/390 OU zos O DOCET é uma solução que integra toda a informação obtida

Leia mais

Administração de Sistemas Livres. Prof. Lais Farias Alves

Administração de Sistemas Livres. Prof. Lais Farias Alves Administração de Sistemas Livres Prof. Lais Farias Alves Administração de Sistemas Livres Software e Suas Licenças O que é um Software Livre? Software Livre x Software Proprietário Software e Suas Licenças

Leia mais

GBD. Introdução PROF. ANDREZA S. AREÃO

GBD. Introdução PROF. ANDREZA S. AREÃO GBD Introdução PROF. ANDREZA S. AREÃO Sistema de arquivos X Sistemas de Banco de Dados Sistema de arquivos Sistema de Banco de Dados Aplicativos Dados (arquivos) Aplicativos SGBD Dados (arquivos) O acesso/gerenciamento

Leia mais

Fundamentos da Análise Multidimensional

Fundamentos da Análise Multidimensional Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Fundamentos da Análise Multidimensional Fundamentos da Análise Multidimensional

Leia mais