BUSINESS INTELLIGENCE NO APOIO DECISÓRIO CONTRA MORTE PREMATURA E INCAPACIDADE NAS FORÇAS ARMADAS Levi da Silva Ramos Júnior¹ Resumo. O processo de reestruturação das Forças Armadas (FFAA) com a criação do Ministério da Defesa (MD) fomentou a produção de pesquisas científicas e tecnológicas a fim de centralizar práticas anteriormente ligadas ao interesse de cada instituição que a compunha. Surgiu então o Projeto Interdisciplinar(PI) SISDefesa, a partir de uma limitação de pesquisas sobre saúde e ocupações militares realizadas pela UFBA (Universidade Federal da Bahia) juntamente com a EsFCEx (Escola de Formação Complementar do Exército), buscando informatizar e sistematizar os dados sobre mortalidade e incapacidades laborais de militares provenientes das três Forças Armadas brasileiras(marinha, Exército e Aeronáutica). O presente trabalho procurou demonstrar a viabilidade do uso da tecnologia de Business Intelligence(BI), a partir de ferramentas baseadas em software livre, para apoiar o Projeto Interdisciplinar(PI) SISDefesa. Foram pesquisadas na internet soluções de BI que possibilitem a extração de informações de uma base de dados de forma a prover uma melhor análise de eventos passados e a previsão de eventos futuros. Foi criado um Data Warehouse 2 com a ferramenta Pentaho sobre uma simulação de banco de dados com informações acerca da saúde de militares brasileiros permitindo a geração de relatórios contendo informações úteis para a análise estatística da incidência de doenças incapacitantes nesse grupo. Ao final, esperou-se contribuir com o Ministério da Defesa, por intermédio do PI, na tomada de decisões estratégicas acerca do assunto. Palavras-chave: Business Intelligence, Data warehouse, Pentaho, Sistema de Saúde, Ministério da Defesa. Abstract. The restructuring process of the Armed Forces (FFAA) with the creation of the Defense Ministry (MD) fomented the production of scientific and technological reserches in order to centralize practices that were previously connected to the interest of each one of the Forces' institution. Such framework has stimulated this Interdisciplinary Project (PI) SISDefesa, which has arise after a limitation of the researches about the military's health and occupation, that are already developed by the UFBA (Federal University of Bahia) along with the EsFCEX (Complementary Formation School of the Army), aiming to introduce in the system dada about the mortality and labor incapacity of the military from the Brazilian Armed Forces (Army, Navy and Air Force). This paperwork purpose was to demonstrate the viability of using the Business Intelligence (BI) technology based on a free software to support the Interdisciplinary Project (PI) SISDefesa. Researches after solutions of BI that allow the extraction of information out of a database in a way promote a better analysis of past or future events were developed. There has been created a Data warehouse with the Pentaho tool about the simulation of a database with information about the health of the Brazilian military, which allowed the generation of reports that contained useful information to the statistical analysis of the disabling diseases incidence in this group. After all, the goal was to contribute with the Defense Ministry, through the PI, in the strategical decision solutions about this subject. Keywords: Business Intelligence, Data warehouse, Pentaho, Health System, Defense Ministry. 1 Introdução As Forças Armadas (FFAA) vem passando por um processo de restruturação e o Ministério da Defesa (MD) em busca de fomentar a produção de pesquisas científicas e tecnológicas na área de Defesa Nacional lançou o Edital Pró-defesa. A UFBA (Universidade Federal da Bahia) juntamente com a EsFCEx (Escola de Formação Complementar do Exército) teve o projeto Desenvolvimento e Fortalecimento em Pesquisas sobre Saúde e Ocupações Militares aprovado pelo programa. Entretanto, uma das limitações desse projeto é a ausência de informatização e sistematização dos dados sobre mortalidade e incapacidade. (SILVA, 2011) Surge então na EsFCEx o Projeto 1- Bacharel em Ciências da Computação. Universidade Federal de Alagoas(UFAL), Maceió-Alagoas. levijrfjv@gmail.com 2- Depósitos de dados, esses data warehouses fornecem armazenamento, funcionalidade e capacidade de responder consultas acima das capacidades de bancos de dados orientados por transação.
2 Interdisciplinar (PI) SISDefesa com a finalidade de desenvolver um sistema que concentre as informações decorrentes das inspeções de saúde dos militares provenientes das três Forças Armadas. No contexto do PI este trabalho propõe a utilização de Business Intelligence (BI) sobre os dados coletados pelo sistema para apoiar em tomadas de decisões estratégicas, permitindo a geração de relatórios mais apurados que contribuam para prevenção de doenças incapacitantes laborais de militares para o Ministério da Defesa. Para alcançar o objetivo desse trabalho, realizou-se um levantamento bibliográfico acerca do assunto, por meio da leitura de livros, revistas e pesquisas na internet. Foi criado um Data Warehouse com a ferramenta livre Pentaho para extrair informações analíticas a partir de uma simulação da base de dados transacional do PI SISDefesa e possibilitar, posteriormente, a geração de relatórios contendo informações úteis para a análise estatística da incidência de doenças incapacitantes em militares brasileiros. Este trabalho é composto de cinco seções. A seção 2, aborda conceitos e definições sobre Business Intelligence, na seção 3 são apresentadas algumas ferramentas e suas características. A seção 4 mostra o desenvolvimento do trabalho e os resultados obtidos, e na seção 5 são expostas as considerações finais. 2 Business Intelligence Business Intelligence, ou inteligência de negócios, refere-se ao processo de coleta, organização, análise, compartilhamento e monitoramento de informações que oferecem suporte a gestão de negócios. É um conjunto de metodologias de gestão implementadas por meio de ferramentas de software, cuja função é proporcionar ganhos nos processos decisórios gerenciais e da alta administração nas organizações (MORTE, 2006). Um sistema típico de BI é composto pelas seguintes partes (BLANCACCO, 2002): Módulo de Extract, Transform and Load (ETL)- Componente dedicado à extração, transformação e carregamento de dados. É a parte responsável pela coleta das informações nas mais diversas fontes, desde sistemas Enterprise Resource Planning(ERP) até arquivos de texto ou planilhas eletrônicas. Data warehouse - Local onde ficam armazenados todos os dados extraídos dos sistemas em operação. A vantagem de ter um repositório de dados a parte, é a possibilidade de armazenar informações históricas e agregadas, dando um suporte melhor para as análises posteriores. Front-End - É a que efetivamente tem interface com o usuário de um projeto de BI Essa tecnologia apóia empresas na tomada de decisões inteligentes, mediante dados e informações recolhidas pelos seus diversos sistemas de informação. 2.1 Data Warehouse É um depósito de dados voltado para aplicações de apoio à decisão. Um data warehouse possibilita uma melhor análise de eventos passados e a previsão de eventos futuros (BLANCACCO, 2002). Ele é bastante distinto dos bancos de dados tradicionais em sua estrutura, funcionalidade, desempenho e propósito. (INMON, 2005). Características de um data warehouse (INMON, 2005): Integrado - A integração dos dados ocorre quando os mesmos são passados do ambiente transacional, através de diversas fontes de dados, para o ambiente de um data warehouse. Todo dado extraído dos sistemas transacionais para o ambiente de data warehouse é, anteriormente, consolidado, de forma que passe a ter um único significado;
3 Orientado por assuntos - Os dados do data warehouse são organizados de modo a facilitar a análise, para isso ele contém informações orientadas a assuntos importantes para o negócio da empresa e não por aplicação, como em bancos de dados transacionais; Variante no Tempo - Os dados não são atualizáveis, ou seja, são relativos a um determinado instante de tempo, o que proporciona o armazenamento histórico deles; Não volátil Significa dizer que o data warehouse permite apenas a carga inicial dos dados e consultas a estes dados, ou seja, após serem integrados, transformados e incluídos, os dados não podem ser alterados. As modelagens suportadas por data warehouse são: o modelo estrela (Star Schema) e o modelo floco de neves (Snow Flake). A diferença principal entre essas modelagens é que no modelo floco de neves os dados são normalizados, consequentemente evitam redundância e requerm mais junções para as consultas, diferentemente do modelo estrela, que centraliza as informações. 2.2 On-Line Analytical Processing (OLAP) É uma categoria de processamento para a exploração de informação em grandes volumes de dados organizados em data warehouses segundo o modelo multidimensional (MACDONALD e RUBIK, 2007). OLAP emprega uma técnica chamada Multidimensional Analysis, ou Análise Multidimensional que permite aos usuários analisar os dados em dimensões múltiplas. Enquanto um banco de dados relacional armazena todos os dados na forma de linhas e colunas, um conjunto de dados multidimensional consiste em eixos e células. Os dados nessas dimensões são agregados, ou seja, são resumidos, mas pode-se navegar livremente de uma hierarquia para outra, até chegar a máxima granularidade dos dados. O termo on-line implica que mesmo que possua uma grande quantidade de dados, o sistema deverá responder às consultas o mais rápido possível (MACDONALD e RUBIK, 2007). A Figura 1, mostra a ideia de um cubo para o data warehouse, sua maior potencialidade está em fazer com que os dados disponham-se de forma uniforme permitindo trabalhar com todos eles simultaneamente, facilitando a geração de relatórios. Figura 1 - Cubo dimensional. Fonte: http://msdn.microsoft.com/pt-br/library /cc518031.aspx No cubo da Figura 1 existem subdivisões, chamadas de dimensões(mês, Produto e Região), todas essas dimensões possuem dados em comum ou alguma informação que convergem em algum momento do tempo. Como por exemplo, a quantidade de produtos vendidos ou comprados no mês de Janeiro em cada região. 3 Ferramentas Utilizadas 3.1 Pentaho É um conjunto de softwares open source para criação de soluções de BI. Esse conjunto de softwares é conhecido por Pentaho Open BI Suite e inclui ferramentas para consolidar dados de fontes diversas, criar interfaces visuais para exploração desses dados e montar soluções para necessidades específicas.
4 A plataforma Pentaho BI é distribuída em código aberto, através da Licença Pública da Pentaho (PPL - Pentaho Public License) e pode ser baixada gratuitamente, através do endereço http://www.sourceforge.net/projects/ pentaho (PENTAHO, 2010). A Figura 2 mostra as funcionalidades atuais da plataforma Pentaho. Figura 3- Arquitetura da plataforma Pentaho. Fonte:http://biuniversidade.blogspot.com/2010/08/platafo rma-pentaho-de-business.html Figura 2 Funcionalidades da plataforma Pentaho. Fonte: http://www.serpro.gov.br/imprensa/publicacoes/ tema-1/tematec/2008/tematec-ano-x-no-xx-2008/tematec %201%20-%20ano%20x%20-%20n%20xx%20-%20 2008/ 3.1.1 Arquitetura O projeto Pentaho BI fornece funcionalidades de BI aos desenvolvedores. É uma solução com suporte a relatórios, análises, data mining e workflow, podem ser distribuídos juntos ou separados. A máquina que irá dispor os serviços para os usuários executará com o servidor de aplicações Java: Apache TomCat ou JBoss (PENTAHO, 2010). A Figura 3 mostra como as camadas da plataforma Pentaho dispõem-se com relação aos serviços. 3.1.2 Ferramenta de Integração de dados Kettle É um componente da suíte do Pentaho responsável pelos processos de extração, transformação e carga. Todos os processos são criados com uma ferramenta gráfica onde você especifica o que fazer sem escrever nenhuma linha de código.(kettle, 2011) A ferramenta pode ser usado como uma aplicação independente ou como parte da suíte do Pentaho. Como uma ferramenta de ETL, é a mais popular ferramenta open source disponível, suporta um vasto conjunto de formatos de entrada e saída de dados, incluindo arquivos texto, arquivos.xls (Excel) além de banco de dados comerciais e open source. (KETTLE, 2011) 3.2 DBDesigner Ferramenta utilizada para modelar os bancos de dados utilizados no PI e no trabalho do presente artigo. Dentre suas funções estão: auxiliar e criar modelo de banco de dados, criar tabelas, gerar scripts para SQL, entre outras (FABFORCE.NET, 2010).
5 3.3 Schema Workbench É uma ferramenta na qual permite criar e testar esquemas de cubos OLAP através de uma interface gráfica. A ferramenta schema workbench cria a definição do cubo OLAP. Para cada novo schema criado é possível definir cubos, e dentro de cada cubo sua tabela de fatos, medidas e dimensões. (WORKBENCH, 2011) 4 Etapas de Criação e Processo de Análise dos Dados Nesta seção será mostrada as etapas e a maneira pela qual a proposta do trabalho foi implementada. 4.1 Simulação da base de dados do PI Com base no prontuário, que trata da saúde do militares, sugerido pelo PI SISDefesa foi implementada uma simulação da base de dados desse projeto utilizando a ferramenta DBDesigner, ilustrada na Figura 4. nome, identidade, CPF entre outros. Essa tabela possui uma relação de um-para-muitos com a tabela Laudo, demonstrando que um paciente pode possuir vários laudos. A tabela Laudo é a queixa do paciente com relação a algum problema de saúde, possuindo detalhes da doença, se houver, se já fez ou faz algum tratamento, se toma algum medicamento, etc. Essa tabela possui um relacionamento de muitos-para-muitos com a tabela Doença (Doença_Laudo), pois um laudo pode conter várias doenças e uma doença pode estar em diferentes laudos. A tabela Doença possui algumas informações específicas, mas o atributo principal desta tabela é a Classificação Internacional de Doença (CID) que é o código específico da mesma. A tabela de Usuário possui as informações: Login e Senha, suficientes para ter acesso e operar o sistema. 4.2 Criação do Data Warehouse. Após a etapa de criação da base de dados, foi construído um data warehouse baseado no modelo estrela (Star Schema), cujo modelo tem por objetivo criar uma tabela central que convergirá informações estatísticas da base do PI. Também foram criadas as tabelas dimensões que auxiliaram nas análises. As tabelas de dimensões fazem parte da tabela Fato e normalmente, não existem valores quantitativos dentro das tabelas das dimensões, apenas atributos descritivos (texto). A Figura 5, elaborada com o auxilio da ferramenta DBDesigner, apresenta a modelagem do data warehouse, composta pelas tabelas dimensões (Dim_Ano, Dim_Forca_Armada, Dim_Paciente, Dim_Doenca e Dim_Laudo) e pela Fato (tabela principal). Figura 4 Simulação da base de dados do PI SISDefesa A Figura 4 mostra a tabela Paciente, com todas as informações pessoais do paciente:
6 Depois de sua inicialização o próximo passo é criar uma Transformation que consiste em um conjunto de steps(passos) comunicados por meio de hops(saltos), determinando como deve ser o fluxo de registros durante todo o caminho de extração, transformação e carga dos dados.(bouman e DONGEN, 2009) A Figura 7 mostra uma Transformation da tabela Fato, onde ela mostra três steps(capturar Dados, Selecionar e Mapear e Inserir Dados) e dois hops que são as ligações existentes entre os steps. Figura 5 Modelagem do data warehouse. 4.3 Processo de Extract, Transform and Load - ETL Foram selecionados valores de interesse específicos na base de dados do PI (Figura 4), e inseridos no data warehouse (Figura 5). Esses valores foram tratados e validados respeitando todas as restrições impostas com a diferença de modelagem de ambas as bases de dados. Para selecionar os valores requeridos da base de dados do PI foram elaboradas consultas utilizando a linguagem SQL (Structure Query Language), específica para a manipulação de registros em um banco de dados transacional. Figura 7 Exemplo de Transformation da tabela Fato. O primeiro step(capturar Dados) foi utilizado para extrair os dados da base de dados do PI através de uma consulta SQL, os dados coletados desta consulta trafegam através do hop que liga o primeiro step ao segundo(selecionar e Mapear), no segundo step os dados são tratados e mapeados para a tabela do data warehouse correspondente e o último steps(inserir Dados) é utilizado para a inserção dos dados no data warehouse. Todas as tabelas do data warehouse precisaram de Transformations para ter seus dados populados. 4.4 Criação dos Cubos A ferramenta utilizada para esta tarefa foi a schema-workbench, que tem uma de suas funcionalidades mostradas na Figura 8. Figura 6 Tela inicial da ferramenta Kettle. Fonte: http://www.pentaho.org. A Figura 6 mostra a tela inicial da ferramenta Kettle, contida na suíte do Pentaho, cuja função é auxilar no processo de ETL.
7 do Pentaho foi editada, resultando na Figura 9, modificação possível através de alterações feitas no arquivo launch.jsp. Figura 8 Tela de criação do cubo. Inicialmente para a criação do cubo, foi necessário a criação de um schema, que agrupa todos os cubos de interesse, após isso foi criado um cubo e obrigatoriamente solicitado a escolha de uma tabela, e no exemplo do artigo foi escolhida a tabela Fato, também, foi criado um measure³, para o indicador de morbidade. Para fazer a relação entre as informações do data warehouse foi necessário a criação das dimensões, cuja criação foi preciso associar uma das tabelas de dimensões mostrada na Figura 5. Na Figura 8 o nome do schema é Indicadores, o nome do cubo é Laudo_Indicadores, no mesmo exemplo da Figura 8 foi criado apenas uma dimensão a do Ano que é correspondente a tabela Dim_Ano da Figura 5 e a measure tem o nome de morbidade igualmente ao campo existente na tabela Fato da Figura 5. O próximo e último passo foi publicar o cubo no servidor do Pentaho, para que pudesse ter dinamismo com os dados e poder gerar relatórios. 4.5 Visualização dos Relatórios Para poder visualizar os relatórios é necessário que o servidor da suíte Pentaho esteja em execução. Depois de sua inicialização o Pentaho em sua tela inicial solicita um login e senha, após a inserção dos dados de maneira correta a tela seguinte é semelhante a tela da Figura 9, porém para este trabalho a tela central Figura 9 Tela de visualização dos dados. Na tela da Figura 9 existem dois botões para se fazer as análises e geração de relatórios e outras funções que se podem ser escolhidas Nas Figuras 10 e 11 são exibidas algumas formas de visualizações que a ferramenta dispõe. Figura 10 Mortalidade por sexo e por ano. No gráfico da Figura 10 mostra o índice de mortalidade nas FFAA nos anos de 2010 e 2011 correlacionando com o sexo. A barra maior do gráfico mostra a mortalidade de ambos os sexo em 2010, a segunda é somente do sexo feminino, a terceira do sexo masculino e a última mostra a mortalidade de ambos os sexo 3 - Entidade que referencia à métrica definida no modelo multidimensional.(schema, 2011)
8 em 2011. incapacitantes laborais de militares. Além disso, este estudo pode avançar procurando melhorar a interface com o usuário final e apresentando novos recursos que não foram utilizados neste trabalho, como por exemplo a utilização de ferramentas para a realização de processos de mineração dos dados (Data Mining). Referências BLANCACCO, A. M. B.I. - Business Intelligence.2002 Figura 11 Mortalidade por sexo e por ano. O gráfico da Figura 11 exemplifica a mesma ideia da Figura 10, porém em formatos diferentes. 5 Conclusão As contribuições deste artigo consistem no estudo de uma tecnologia, baseada em software livre, existente para a tomada de decisão envolvendo a suíte de ferramentas Pentaho, na qual contribui para o desenvolvedor pode criar aplicações completas para Business Intelligence. Os objetivos específicos propostos para o trabalho foram alcançados. Foi apresentada a plataforma Pentaho BI, com a descrição de sua arquitetura e dos principais softwares que compõe esta suíte. Além disso, foi elaborado um estudo de caso que demonstra, passo-a-passo, o uso do Pentaho para criação de um Data Warehouse simples. Dentre as dificuldades encontradas na elaboração deste trabalho destaca-se a inexistência, até então, do banco de dados do PI SISDefesa, necessitando criar uma simulação, em proporções reduzidas, da futura base do PI. Como trabalho futuro, sugere-se aplicar os conhecimentos aqui apresentados, no PI SISDefesa, quando este estiver concluído, para apoiar em tomadas de decisões estratégicas que contribuam para prevenção de doenças BOUMAN;, R.; DONGEN, J. V..Pentaho Solutions Business Intelligence and Data Warehousing with Pentaho and MySQL. 1 edition. Wiley Publishing, 2009. 652p. ELMASRI, R.; NAVATHE,S. B.. Sistemas de Banco de Dados. 4º Edição. Pearson Education do Brasil, 2006. 648p. FABFORCE.NET. Dbdesigner4.<http://www.fabforce.net/dbdesig ner4/>. Acesso em 11 de Jul 2011. FARIAS, A. C. P., et. al. Sistema Integrado de Informação de Saúde uma proposta para o Exército Brasileiro. Escola de Administração do Exército e Colégio Militar de Salvador, Salvador. 2010 INMON, W. H..Building the Data Warehouse, fourth edition. 4 edition. Wiley Publishing, 2005. 576p. KETTLE. Pentaho Data Integration (Kettle). <http://kettle.pentaho.com/>. Acesso feito em 19 Out 2011. MACDONALD, G. C; RUBIK, J. R. Pesquisa e Seleção de Ferramentas Livres e Baseadas em Padrões de Sistemas Abertos para a Elaboração de Interfaces OLAP sobre a Web. Universidade Federal de Santa Catarina, Florianópolis-SC. 2007.
9 MORTE, A.B; CARDOSO, A.L. Business Intelligence: Conceitos e Implementação.2006 PENTAHO. Pentaho business intelligence. <http://www.pentaho.com.>. Acesso em 10 Jul 2011. SILVA, M. Desenvolvimento e Fortalecimento em Pesquisas sobre Saúde e Ocupações Militares. <http://www.isc.ufba.br/arquivos/pdf/carta_divu lgacao.pdf > Acesso feito em 19 Outu 2011. WORKBENCH. Mondrian Schema Workbench. <http://mondrian.pentaho.com/documentation/s chema_workbench.pdf > Acesso feito em 19 Out 2011.