CENTRO PAULA SOUZA FACULDADE DE TECNOLOGIA DE MOCOCA CURSO SUPERIOR DE TECNOLOGIA EM INFORMÁTICA PARA GESTÃO DE NEGÓCIOS. Marcel Messias dos Santos



Documentos relacionados
Interatividade aliada a Análise de Negócios

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

DATA WAREHOUSE. Introdução

Módulo 4: Gerenciamento de Dados

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Banco de Dados - Senado

Chapter 3. Análise de Negócios e Visualização de Dados

Thalita Moraes PPGI Novembro 2007

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

ISO/IEC 12207: Gerência de Configuração

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Material de Apoio. Sistema de Informação Gerencial (SIG)

Prof. Marcelo Machado Cunha

COMUNICAÇÃO DE PORTIFÓLIO UTILIZANDO DASHBOARDS EXTRAIDOS DO MICROSOFT PROJECT SERVER

Noções de. Microsoft SQL Server. Microsoft SQL Server

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Profa. Gislaine Stachissini. Unidade III GOVERNANÇA DE TI

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

PENTAHO. História e Apresentação

Planejamento e Orçamento

TI em Números Como identificar e mostrar o real valor da TI


Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

A importância da. nas Organizações de Saúde

Governança de TI. ITIL v.2&3. parte 1

Sistemas de Informação

Sistemas de Informação I

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Módulo 4. Construindo uma solução OLAP

Inteligência Empresarial. BI Business Intelligence. Business Intelligence 22/2/2011. Prof. Luiz A. Nascimento

Uma análise de ferramentas de modelagem e gerência de metadados aplicadas ao projeto de BI/DW-UFBA

RESUMO DA SOLUÇÃO CA ERwin Modeling. Como eu posso gerenciar a complexidade dos dados e aumentar a agilidade dos negócios?

AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP.

A Grande Importância da Mineração de Dados nas Organizações

Gestão do Conhecimento A Chave para o Sucesso Empresarial. José Renato Sátiro Santiago Jr.

BRAlarmExpert. Software para Gerenciamento de Alarmes. BENEFÍCIOS obtidos com a utilização do BRAlarmExpert:

Plataformas de BI Qual é a mais adequada para o meu negócio?

GESTÃO DAS INFORMAÇÕES DAS ORGANIZAÇÕES MÓDULO 11

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Análise de custo projetado da plataforma SAP HANA

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Sistemas Distribuídos

PRINCÍPIOS DE SISTEMAS DE INFORMAÇÃO MÓDULO 17

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

DATA WAREHOUSE NO APOIO À TOMADA DE DECISÕES

Introdução a listas - Windows SharePoint Services - Microsoft Office Online

Casos de Sucesso. Cliente. Deloitte Touche Tohmatsu Consultores LTDA

FLUXO DE CAIXA: Módulo BI (Business Intelligence)

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

SISTEMA DE GESTÃO DE PESSOAS SEBRAE/TO UNIDADE: GESTÃO ESTRATÉGICA PROCESSO: TECNOLOGIA DA INFORMAÇÃO

UM NOVO CONCEITO EM HOSPEDAGEM DE DOMÍNIO

Gerenciamento de Problemas

Gerenciamento de Projetos Modulo II Ciclo de Vida e Organização do Projeto

Trilhas Técnicas SBSI

Sistema de Controle de Solicitação de Desenvolvimento

Programação Orientada a Objetos com PHP & MySQL Sistema Gerenciador de Banco de Dados: Introdução e configuração de bases de dados com Postgre e MySQL

Curso Data warehouse e Business Intelligence

Otimismo desenvolvedoras de softwares

Fábrica de Software 29/04/2015

ARCO - Associação Recreativa dos Correios. Sistema para Gerenciamento de Associações Recreativas Plano de Desenvolvimento de Software Versão <1.

10 DICAS DE TECNOLOGIA PARA AUMENTAR SUA PRODUTIVIDADE NO TRABALHO

Gerenciamento de Níveis de Serviço

15/09/2015. Gestão e Governança de TI. Modelo de Governança em TI. A entrega de valor. A entrega de valor. A entrega de valor. A entrega de valor

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

4 Um Exemplo de Implementação

Gestão e estratégia de TI Conhecimento do negócio aliado à excelência em serviços de tecnologia

INSTRUÇÃO DE TRABALHO PARA INFORMAÇÕES GERENCIAIS

Corporativo. Transformar dados em informações claras e objetivas que. Star Soft.

DESENVOLVIMENTO DE INTERFACE WEB MULTIUSUÁRIO PARA SISTEMA DE GERAÇÃO AUTOMÁTICA DE QUADROS DE HORÁRIOS ESCOLARES. Trabalho de Graduação

As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes:

SPEKTRUM SOLUÇÕES DE GRANDE PORTE PARA PEQUENAS E MÉDIAS EMPRESAS SPEKTRUM SAP Partner 1

SAM GERENCIAMENTO DE ATIVOS DE SOFTWARE

UNIDADE 4. Introdução à Metodologia de Desenvolvimento de Sistemas

Orientação a Objetos

MRP II. Planejamento e Controle da Produção 3 professor Muris Lage Junior

PLANOS DE CONTINGÊNCIAS

Gerenciamento de Incidentes

Introdução ao GED Simone de Abreu

Requisitos de business intelligence para TI: O que todo gerente de TI deve saber sobre as necessidades reais de usuários comerciais para BI

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Gestão de Relacionamento com o Cliente CRM

Introdução à Banco de Dados. Definição

Governança Corporativa. A importância da Governança de TI e Segurança da Informação na estratégia empresarial.

Fundamentos de Sistemas de Informação Sistemas de Informação

Feature-Driven Development

PRIMAVERA RISK ANALYSIS

Processo de Controle das Reposições da loja

Módulo 15 Resumo. Módulo I Cultura da Informação

Transcrição:

1 CENTRO PAULA SOUZA FACULDADE DE TECNOLOGIA DE MOCOCA CURSO SUPERIOR DE TECNOLOGIA EM INFORMÁTICA PARA GESTÃO DE NEGÓCIOS Marcel Messias dos Santos O USO DO SISTEMA GERENCIADOR DE BANCO DE DADOS POSTGRESQL VERSÃO 9.1 E FERRAMENTA DE BUSINESS INTELLIGENCE - PENTAHO, APLICADA NA PREVENÇÃO DO CÂNCER DE MAMA Mococa-SP Junho/2012

2 Marcel Messias dos Santos O USO DO SISTEMA GERENCIADOR DE BANCO DE DADOS POSTGRESQL VERSÃO 9.1 E FERRAMENTA DE BUSINESS INTELLIGENCE - PENTAHO, APLICADA NA PREVENÇÃO DO CÂNCER DE MAMA Monografia apresentada á FATEC - Faculdade de Tecnologia de Mococa, como exigência parcial à obtenção do título de Tecnólogo no Curso de Informática para Gestão de Negócios. Orientador: Prof. Ms. Geraldo Henrique Neto Mococa-SP Junho/2012

3 RESUMO As organizações em suas infraestruturas de trabalho através de seus diversos departamentos interligados geram e armazenam informações em vários repositórios de dados. Ainda que os departamentos estejam integrados, as informações serão ineficientes caso estiverem desconexas ou em diferentes bancos de dados, de forma que não seja possível cruzá-las. O presente trabalho teve como objetivo apresentar como a informação em sua forma primária, armazenada em banco de dados pode gerar o conhecimento, ferramenta muito valiosa às instituições públicas e ou privadas. Assim, foi estudado um Banco de Dados (BD) que contém dados provenientes de um questionário aplicado na população feminina junto ao Hospital do Câncer de Ribeirão Preto (Sobeccan) Projeto MamaMóvel, o qual possibilitou determinar o coeficiente do índice de Gail, sendo que este é utilizado internacionalmente como indicador para analisar a probabilidade de uma mulher desenvolver ou não lesões malignas mamária. Foram apuradas as funcionalidades do uso de Business Intelligence (BI) integrada com o Sistema Gerenciador de Banco de Dados (SGBD) PostgreSQL versão 9.1, ferramentas mundialmente reconhecidas, comprovando em um eficiente recurso para a geração do conhecimento empresarial, auxiliando os gestores/administradores na tomada de decisões estratégicas. Por meio da visão multidimensional foi possível comprovar na amostra constituída de 935 pacientes com índice de Gail > 1.6, que 80% tiveram a menarca com menos de 13 anos de idade, aproximadamente 1% respondeu possuir lesão mamária de alto risco, que eleva de duas a dez vezes o risco de uma mulher desenvolver uma lesão maligna na mama (Hiperplasia Atípica) e 97% responderam como desconhecido ou não aplicada à questão. As pacientes representadas por 65% não fizeram o exame de rastreamento de rotina para prevenção. Considerando os resultados apresentados, outras relações poderiam ser confrontadas, conforme necessidade do tomador de decisão. As variáveis sugerem que sejam aplicados mecanismos ainda mais efetivos para a prevenção do câncer de mama, junto à população feminina. Palavras-chave: Banco de dados. Business Intelligence. Informação. Pentaho. SGBD. PostgreSQL.

4 Abstract Organizations working on their infrastructure through its various departments interconnected generate and store information in multiple data repositories. Although departments are integrated, the information is inefficient case is disconnected or in different databases, so that it is not possible to cross them. This study aimed to present the information as in its primary form, stored in the database can generate knowledge, very valuable tool and public institutions or private. Thus, we studied a database (DB) that contains data from a questionnaire administered in the female population with the Cancer Hospital of Ribeirão Preto (Sobeccan) - MamaMóvel Project, which allowed us to determine the coefficient index Gail, and this is internationally used as an indicator to assess the probability of a woman developing breast or non-malignant lesions. Were calculated using the features of Business Intelligence (BI) integrated with the System Manager Database (RDBMS) PostgreSQL version 9.1, tools are recognized worldwide, proving an efficient resource for knowledge generation business, helping managers / administrators in strategic decision making. Through multidimensional view was possible to prove the sample consisted of 935 patients with Gail index > 1.6, 80% had menarche under 13 years of age, approximately 1% said owning high-risk breast lesion, which raises two to ten times the risk of a woman developing a malignant lesion in the breast (atypical hyperplasia) and 97% responded as unknown or applied to the question. The patients represented 65% did not take routine screening for prevention. Considering the results, other relations could be confronted, as required of the decision maker. The variables suggest that mechanisms are applied even more effective for the prevention of breast cancer, with the female population. Palavras-chave: Databases. Business Intelligence. Infomation. Pentaho. RDBMS. PostgreSQL.

5 Não dá mais pra voltar, O barco esta em alto-mar. Não dá mais pra negar, O mar é Deus e o barco sou eu. E o vento forte, que me leva pra frente, é o amor de Deus. Monsenhor Jonas Abib

6 DEDICATÓRIA Primeiramente a minha esposa e amiga Maitê, pela honrosa companhia, por me apoiar nos estudos, em meu crescimento pessoal e no dia a dia. Aos meus pais, Maria e Pedro, que me ensinaram que desde cedo, para se conseguir algo na vida, levaria muito sacrifício e esforço próprio. Aos meus irmãos e irmãs, que entenderam minha ausência familiar durante esses 3 anos de formação.

7 AGRADECIMENTOS Agradeço a Deus por me proporcionar cursar uma Faculdade Pública. Ao meu orientador Prof. Ms. Geraldo Henrique Neto, pela amizade, pela orientação, pela indicação e incentivo para que eu concluísse o curso de tecnólogo. Aos professores e amigos conquistados durante a formação. Aos meus familiares.

8 LISTA DE FIGURAS Figura Página 1 Visão geral sobre governança de dados com 5W e 2H...22 2 Exemplo modelo conceitual do tipo ER (Entidade Relacionamento)...30 3 Exemplo Star Schema de Ralph Kimball Modelo dimensional...30 4 Esquema de definição das tabelas dimensão...36 5 Exemplo de tabela fato com métrica em destaque...37 6 Visão esquemática de rede neural...39 7 Exemplo de questões analíticas x OLAP: Total de lesões malígnas...40 8 Exemplo de questões analíticas x OLAP: Lesões malignas por estado...40 9 Exemplo de questões analíticas x OLAP: Lesões malígnas por estado e região acometida...41 10 Exemplo de questões analíticas x OLAP: Lesões malígnas por estado, região acometida e ano...41 11 Exemplo de questões analíticas x OLAP x Cubo: Total de lesões malígnas...42 12 Exemplo de questões analíticas x OLAP x Cubo: Lesões malígnas por estado...42 13 Exemplo de questões analíticas x OLAP x Cubo: Lesões malígnas por estado e por região acometida...42 14 Exemplo de questões analíticas x OLAP x Cubo: Lesões malígnas por estado, por região acometida e ano...43 15 Exemplo demonstrativo final do Cubo...43 16 Relatório do BI - quantidade total de menarca...46 17 Relatório do BI - quantidade total de menarca x uso de álcool...47 18 Relatório do BI - menarca x contraceptivo oral...47 19 Relatório do BI menarca x hiperplasia...48 20 Relatório do BI tamoxifeno x biopsia x hiperplasia x menarca...49 21 Relatório do BI menarca x parentes x hiperplasia...50 22 Relatório do BI hiperplasia x qtd_parentes x menarca...50 23 Relatório do BI screening x menarca...51

9 LISTA DE TABELAS Tabela Página 1 Exemplo demonstrativo da estrutura relacional...30 2 Exemplo demonstrativo da estrutura dimensional...31

10 LISTA DE QUADROS Quadro Página 1 Níveis de Maturidade em Governança e Qualidade de Dados......25 2 Comparação entre dados de natureza operacional e informacional...32 3 Demonstrativo de Granularidade...35

11 LISTA DE ABREVIATURAS E SIGLAS ACID ATOMICIDADE, CONSISTENCIA, INTEGRIDADE E DURABILIDADE ANSI - AMERICAN NATIONAL STANDARDS INSTITUTE BD BANCO DE DADOS BI BUSINESS INTELLIGENCE BSD - BERKELEY SOFTWARE DISTRIBUITION CE COMMUNITY EDITION CIO - CHIEF INFORMATION OFFICER CMMI - CAPABILITY MATURITY MODEL INTEGRATION DBA DATA BASE ADMINISTRATOR DW DATA WAREHOUSE EE - ENTERPRISE EDITION ERP ENTREPRISE RESOURCE PLANNING ETL EXTRAÇÃO, TRANSFORMAÇÃO, LIMPEZA E CARGA FTP - FILE TRANSFER PROTOCOL GB - GIGABYTE GD GOVERNANÇA DE DADOS MER MODELO ENTIDADE E RELACIONAMENTO MDX - MULTIDIMENSIONAL EXPRESSIONS OLAP PROCESSAMENTO ANALÍTICO ONLINE OLTP PROCESSAMENTO DE TRANSAÇÕES ONLINE PDI - PENTAHO DATA INTEGRATION PDF PORTABLE DOCUMENT FORMAT RAM - RANDOM ACCESS MEMORY SAD SISTEMA DE APOIO A DECISÃO SAP - SYSTEMS, APPLICATIONS AND PRODUCTS SERM - MODULADOR SELETIVO DOS RECEPTORES DE ESTROGÊNIO SI SISTEMA DE INFORMAÇÃO SLA SERVICE- LEVEL AGREEMENT SGBD SISTEMA GERENCIADOR DE BANCO DE DADOS SGBDOR - SISTEMA GERENCIADOR DE BANCO DE DADOS OBJETO RELACIONAL SQL STRUCTURE QUERY LANGUAGE

12 SSH SECURE SHELL TI TECNOLOGIA DA INFORMAÇÃO TDQM-MIT - TOTAL DATA QUALITY MANAGEMENT DO MASSACHUSSETS TECHNOLOGY INSTITUTE XML EXTENSIBLE MARKUP LANGUAGE

13 SUMÁRIO 1 INTRODUÇÃO... 14 2 FERRAMENTAS...... 17 2.1 PostgreSQL... 17 2.1.1 A história do PostgreSQL... 18 2.2 Pentaho... 18 2.2.1 Introdução a plataforma de Business Intelligence Pentaho... 19 2.3 Principais conceitos de business intelligence... 21 2.3.1 Governança de Dados... 21 2.3.2 Qualidade de Dados... 23 2.3.3 Extração, Tratamento, Limpeza e Carga de Dados... 26 2.3.4 Integração de Dados... 28 2.3.5 Modelagem de Dados... 29 2.3.6 Modelagem de Dados Multidimensional... 29 2.3.7 Dados Operacionais versus Dados Informacionais... 31 2.4 DATA WAREHOUSE... 33 2.4.1 Esquema Estrela (Star Schema)... 34 2.4.2 Definição de Granularidade... 34 2.4.3 Definição das Tabelas Dimensão... 35 2.4.4 Definição dos Atributos das Tabelas Fato... 36 2.4.5 Métricas... 37 2.4.6 Metadados... 37 2.4.7 Data Mining... 38 2.4.7.1 Redes Neurais... 38 2.4.8 Online Analytical Processing (OLAP)... 39 3 PROCEDIMENTOS METODOLÓGICOS... 44 3.1 Estudo de Caso... 45 4 RESULTADOS E DISCUSSÃO... 46 5 CONCLUSÃO... 52 REFERÊNCIAS... 55 APÊNDICES... 58 APÊNDICE A - TELA DO QUESTIONÁRIO INTERNACIONAL DE GAIL... 58 APÊNDICE B - SCRIPT SQL... 59

14 1 INTRODUÇÃO Antes mesmo da chegada dos computadores entre 1940 e 1950, surgiram as primeiras gerações tendenciosas aos Sistemas de Apoio à Decisão (SAD), conhecidas como pesquisa operacional, teorias comportamentais, científicas de gerência e controle de processos estatísticos. Com a evolução dos microcomputadores e sistemas operacionais, na interatividade entre homem e máquina, avaliou-se a necessidade de armazenamento de dados em planilhas e documentos texto. Em 1970, foi desenvolvida pela International Business Machines (IBM) a linguagem de consulta estruturada, denominada de Strutuctured Query Language (SQL), usada atualmente e executada a partir de um Sistema Gerenciador de Banco de Dados (SGBD). Com o passar dos anos, o desenvolvimento tecnológico e o crescimento das organizações em busca da melhor competitividade e, aquecida pelo crescimento do mercado econômico, fez com que grandes quantidades de informações fossem gravadas em seus bancos de dados. A partir de 1990, houve a necessidade de se manipular e/ou se trabalhar com essas informações gerando-se uma nova gama de conhecimento, melhorando nas instituições (públicas e privadas) as respostas, naturalmente, mais ágeis e concisas. Recurso de extremo valor para as instituições, o conhecimento é vital para a tomada de decisões estratégicas, inclusive, para a sobrevivência das organizações. Nesse sentido, a informação para ser considerada precisa, necessita-se de uma estrutura adequada para assegurar que a mesma esteja disponível no momento, na forma e quantidade desejada. Essa infraestrutura de Tecnologia da

15 Informação (TI) é composta por hardware, software, segurança, recursos humanos capacitados e procedimentos como Governança de Dados (GD) e Qualidade de Dados (QD) com foco nos princípios de organização e controle sobre esses insumos essenciais para a produção de informação e conhecimento da empresa. Providos de ampla estrutura e informações, gravadas em seus bancos de dados, os profissionais da área tornaram-se aptos para usar o conhecimento obtido a partir dos resultados das consultas, por meio de relatórios Ad Hoc. 1 Nesse trabalho foi estudado um Banco de Dados (BD) que contém dados provenientes de um questionário aplicado na população feminina junto ao Hospital do Câncer de Ribeirão Preto (Sobeccan) Projeto MamaMóvel, o qual possibilitou determinar o coeficiente do índice de Gail, sendo que este é utilizado internacionalmente como indicador para analisar a probabilidade de uma mulher desenvolver ou não lesões malignas mamária, citado por SANTOS (2012). Foram apuradas as funcionalidades do uso de Business Intelligence (BI), com as ferramentas Pentaho BI server, Pentaho Data Integration (PDI), Pentaho Schema Workbench (PSW), junto ao Banco de Dados do Hospital do Câncer de Ribeirão Preto (Sobeccan). Ao se determinar fatores de risco que aumentem a probabilidade do desenvolvimento do câncer mamário, torna-se imperiosa a discussão e o oferecimento de métodos eficazes no sentido de se prevenir a doença para essas mulheres. Muitas decisões médicas podem sofrer influências importantes e determinantes para o grupo de mulheres consideradas de alto risco. Decisões como: em que idade se iniciar a triagem mamográfica; indicar ou não o uso do Tamoxifeno para prevenção do câncer de mama; oferecer a opção da mastectomia profilática; e se, eventualmente, deveria iniciar ou não algum esquema de terapia de reposição hormonal, deveriam ser tomadas com base nos fatores de risco avaliados e de acordo com a maior chance em relação à possibilidade futura de desenvolver o câncer de mama (HARTMANN et al.,1999; ARMSTRONG et al., 2000, citado por MIRANDA 2004). O câncer da mama é o tipo de câncer que mais acomete as mulheres em todo o mundo, tanto em países em desenvolvimento quanto em países desenvolvidos. Cerca de 1,4 milhões de casos novos dessa neoplasia foram esperados para o ano 1 Relatório que não pode ser determinado antes do momento em que é realizado, tendo como objetivo a necessidade imediata do usuário final.

16 de 2008 em todo o mundo, o que representa 23% de todos os tipos de câncer [...]. A idade continua sendo o principal fator de risco para o câncer de mama. As taxas de incidência aumentam rapidamente até os 50 anos e, posteriormente, esse aumento ocorre de forma mais lenta. Contudo, outros fatores de risco já estão bem estabelecidos, como, por exemplo, aqueles relacionados à vida reprodutiva da mulher (menarca precoce, nuliparidade, idade da primeira gestação a termo acima dos 30 anos, anticoncepcionais orais, menopausa tardia e terapia de reposição hormonal), história familiar de câncer da mama e alta densidade do tecido mamário (razão entre o tecido glandular e o tecido adiposo da mama). Além desses, a exposição à radiação ionizante, mesmo em baixas doses, também é considerada um fator de risco, particularmente durante a puberdade, segundo mostram alguns estudos (INCA, 2012). Assim, propor que organizações, de diversos setores possam analisar e tomar decisões assertivas, reduzindo seu tempo de trabalho, demonstrando que essas ferramentas não se tratam de investimento em Tecnologia da Informação (TI), pois serão convertidas não somente em receita ao longo prazo, gerando melhores resultados qualitativos e econômicos, para empresas que irão utilizar essa tecnologia. Com a pesquisa foi abordado um estudo já utilizado em nosso país, em diversos setores de Tecnologia da Informação (TI). No entanto, até o momento, poucas literaturas foram publicadas, concentramos nossos esforços em desenvolver um trabalho diferenciado e baseado em alto nível de informação e uma riquíssima estrutura de detalhes a respeito do tema que ainda está em pleno crescimento e em discussão de padrões para gestão da informação e da qualidade. Esperamos ter contribuído para o crescimento do conhecimento sobre o tema, e possivelmente a diminuição das taxas de índice de lesões malignas mamárias identificadas tardiamente.

17 2 FERRAMENTAS PostgreSQL é um Sistema Gerenciador de Banco de Dados Objeto Relacional (SGBDOR) desenvolvido em um projeto de código aberto, é robusto, confiável e rico em recursos e suporta grande parte do padrão Structure Query Language (SQL), American National Standards Institute (ANSI), SQL ANSI. Pentaho é um software de código aberto desenvolvido em Java, possui 06 componentes chaves que auxiliam em cada área dos processos de Business Intelligence (BI); Pentaho Data Integration, Pentaho Analysis Services, Pentaho Reporting, Pentaho Data Mining, Pentaho DashBoard, Pentaho for Apache Hadoop conhecido como Pentaho BI Suite. Em 2009 a Pentaho Corporation foi considerada o melhor software de inteligência de negócios pela InfoWorld (INFOWORLD, 2012). 2.1 PostgreSQL PostgresSQL é Sistema Gerenciador de Banco de Dados Objeto Relacional (SGBDOR), utilizado para armazenar informações de todas as áreas de negócios existentes, bem como administrar o acesso a estas informações. Um SGBD deve controlar além do armazenamento dos dados, assim como seu acesso quem pode ler cada dado e quem pode alterar cada informação, esclarece Milani (2008).

18 2.1.1 A História do PostgreSQL Seu nome inicial era POSTGRE, designado em um projeto da Universidade Berkeley, na Califórnia (EUA), em 1986. Um grupo de estudantes orientados pelo professor Michael Stonebraker desbravaram um projeto para criação de um modelo, e a regras para um novo sistema de armazenamento de dados, tiveram apoio de órgãos do governo americano. Sua primeira versão de demonstração saiu oficialmente em 1987 e em 1989 a versão estável foi publicada aos interessados, assim também suas correções anuais contra bugs. A partir de 1992 seu código fonte foi adquirido pela empresa Ilustra Information Technologies, que se fundiu com a Informix, adquirida pela IBM em 2001. O SGBD mantém-se como software de código-fonte aberto, com licença Berkeley Software Distribuition (BSD), isso quer dizer que, qualquer pessoa, em qualquer lugar, pode utilizá-lo e distribuí-lo para qualquer finalidade, seja ela particular, comercial ou acadêmica, sem que seja necessário pagar qualquer tipo de taxa ou licença (GONZAGA, 2007; POSTGRESQL, 2010b, citado por ACCORINTI, 2011). Atualmente o PostgreSQL é reconhecido mundialmente pela sua robustez, utilizado em milhares de organizações dando suporte a petabytes de dados; transações simultâneas suportadas pelas propriedades de: atomicidade, consistência, integridade e durabilidade (ACID), possui suporte completo à chaves estrangeiras, junções (JOINs), visões, gatilhos, procedimentos, tablespaces e replicação assíncrona. Inclui a maior parte dos tipos de dados, sendo Integer, Numeric, Boolean, Char, Varchar, Date, Interval, Timestamp e Blob/Bytea campo para armazenamento de blocos binários. Suporta, ainda, o armazenamento de dados não convencionais, como por exemplo: imagens, sons e vídeos por meio dos tipos de dados Data Type Blob/Bytea. 2.2 Pentaho A empresa e marca Pentaho surgiu do desejo audacioso de cinco veteranos da indústria americana, eles queriam alcançar um resultado positivo, decifrar um enigma dos negócios empresariais e propor uma solução que fosse mais barato que

19 as tradicionais Systeme, Anwendungen und Produkte (SAP), Oracle e Microstrategy. A proposta da versão completa de uma solução de BI da Pentaho tem o custo em média de 90% a menos que a proposta dos concorrentes. Pentaho tem duas versões do software, uma delas é a versão Pentaho Enterprise Edition (EE), com necessidade de aquisição da licença, e a versão de código-fonte aberto Community Edtion (CE), disponível na plataforma Java sem custo da licença, não tendo suporte oficial da Pentaho Corporation, no entanto, comprovadamente tão eficaz quanto à versão Enterprise Edition (EE). Pentaho é pioneira em BI e análise de negócio, contém um conjunto completo de recursos para acesso a dados e integração, descoberta, análise e visualização, com flexibilidade de implantar na intranet 2 ou em cloud computing 3 ou incorporado em outros aplicativos e acesso em praticamente em todas as fontes de dados, inclusive com planilhas de texto eletrônica ou com grandes volumes de dados. A empresa esta sediada em Orlando na Flórida, com escritórios em São Francisco, Califórnia (EUA) e em toda Europa. A comunidade esta espalhada por todo mundo, conforme Pentaho (2012). 2.2.1 Introdução a plataforma de Business Intelligence Pentaho A solução de BI Pentaho tem seus componentes individuais e podem ser utilizados separadamente no projeto. Sendo cada um deles responsável por cada uma das etapas do projeto de BI (Moreno, 2012). A solução completa da Pentaho é constituída por 07 ferramentas individualizadas abaixo descritas, necessariamente foram usadas no presente trabalho, os seguintes módulos; Pentaho BI Server : A ferramenta de BI Server esta dividida em dois subitens sendo eles; Pentaho User Console (PUC) e Pentaho Administration Console (PAC), elas são usadas para gerenciamento de servidor, para compartilhamento de usuários e controle de acesso. 2 Rede interna e privada com acesso a conteúdo restrito pela organização. 3 Os serviços são instalados em um servidor remoto podendo estar e ser acessado de qualquer lugar do mundo, em qualquer hora do dia, bastando apenas de conexão com a internet.

20 PDI Pentaho Data Integration: O PDI é uma das ferramentas mais importantes da suíte de BI da Pentaho, sendo o responsável pelos processos de Extração, Transformação, Limpeza e Carga (ETL). Pela interface gráfica da ferramenta é possível conectar-se a diversos bancos de dados, extrair dados, copiá-los, transformá-los, combiná-los, apagá-los, atualizá-los, enviá-los a diversos locais, criar jobs, enviar e-mails, acessar um servidor via Secure Shell (SSH), File Transfer Protocol (FTP), realizar tratamentos de erros, e tantas outras tarefas necessárias a um processo de ETL. PSW Pentaho Schema Workbench: A ferramenta de PSW é necessária para criação de cubos de Processamento Analítico Online (OLAP), através do editor gráfico é possível criar métricas, dimensões privadas e compartilhadas, hierarquias, campos calculados, etc. trabalho. As demais ferramentas da Pentaho, não foram utilizadas no presente PRD Pentaho Report Designer: A ferramenta PRD é utilizada para a criação de relatórios com fórmulas, filtros, gráficos, sub-relatórios, entre outros. Os relatórios podem ser exibidos em Portable Document Format (PDF), extensão XLS, DOC e HTML. PME Pentaho Metadata Editor: A ferramenta PME é a interface gráfica para a definição de metadados. PAD Pentaho Aggretation Designer: O PAD é uma ferramenta gráfica desenvolvida em Java para a criação de tabelas agregadas. PDS Pentaho Design Studio: A ferramenta PDS foi desenvolvida para a plataforma Eclipse para a definição de filtros avançados para relatórios e o envio de e-mails com os relatórios executados.

21 2.3 Principais Conceitos de Business Intelligence Por muitos anos, múltiplos repositórios de dados foram carregados pelas instituições, sendo de uso e necessidade estratégica das mesmas. A partir de 1990, houve a necessidade de se manipular e/ou se trabalhar com essas informações, aplicando sobre elas técnicas de relações e fatos escondidos, gerando-se uma nova gama de conhecimento, melhorando nas instituições (públicas e privadas) as respostas, naturalmente, mais ágeis e concisas. Tornando-se recurso de extremo valor para as instituições, o conhecimento é vital para a tomada de decisões estratégicas, inclusive, para promover a sobrevivência das organizações. De forma simplificada, BI pode ser entendido como um processo de captação, organização e análise das informações, assim, as informações devem estar conectadas e sincronizadas adequadamente. 2.3.1 Governança de Dados Governança de Dados (GD), surgiu do termo já usado e nomeado de governança de TI. O conceito de Governança de Dados (GD), foca princípios de organização e controle sobre essas variáveis essenciais para a produção de informação e conhecimento da empresa, afirma Barbieri (2011). As instituições que almejam a superaração diante da concorrência de mercado dos anos 201x, deverão dedicar esforços aos seus centros de dados e aos dados propriamente ditos. Duas diretrizes relacionadas e escaladas como processos e dados, contribuem para que os input 4 alcancem a tão reconhecida qualidade de dados, obtidos por meio da transformação. Com o advento dos dados a partir da década de 70 percorrendo até os dias atuais, nos deparamos com inúmeras soluções de Sistemas de Informações (SI s) e Enterprise Resource Planing (ERP s) empacotados, cujo código fonte esta sob direito autoral do desenvolvedor. No pacote estão prontos seus modelos conceituais de dados, definidos, integrados e compilados, sendo assim uma solução blindada, dificultando qualquer operação ou manipulação que o setor de TI quisesse fazer, conforme descreve Barbieri (2011). 4 Entrada de dados por meio do Enterprise Resource Planing (ERP)

22 O fenômeno do processamento descentralizado, encaixado no conceito de downsizing 5, também influiu na diminuição da importância daquela preposição, visto que os dados foram democraticamente distribuídos entre os departamentos da empresa, dificultando sobremaneira o seu controle. Os dados eram duplicados, reduplicados e eneplicados, a medida que os departamentos desejavam ou precisavam (BARBIERI, 2011. p. 26). Devido ao gigantesco crescimento de dados nas empresas e no mundo, o tema Governança de Dados (GD) vem sendo pauta em reuniões do setor de TI, sendo alguns dos pilares; não somente a organização dos acervos, mas também a segurança, necessidade de uma definição clara, fluidez e democratização na propagação. A GD poderá ser obrigatória em breve, sendo ela considerada um ativo da empresa e sua qualidade deverá ser traduzida em métricas, atigindo o ponto chave e medidor de nível da área de TI, definindo que a qualidade dos dados implica em riscos para a corporação, será garantido expressamente que o Chief Information Officer (CIO) deverá estar apto para gerencia-lós. Na Figura 1 entenderemos melhor a proposta de GD pela ótica do modelo 5W e 2H, oriundos do inglês. ( What O que será feito (etapas); Why Por que será feito (justificativa); Where Onde será feito (local); When Quando será feito (tempo); Who Por quem será feito (responsabilidade); How Como será feito (método); How Much Quanto custará fazer (custo)). Figura 1 - Visão geral sobre governança de dados com 5W e 2H. Fonte: Barbieri, 2011. 5 Termo utilizado pela administração contemporânea para tornar uma organização mais eficiente e enxuta possível.

23 2.3.2 Qualidade de Dados Um dos papéis da GD é manter foco na Qualidade de Dados (QD), garantindo o renome, o valor da marca empresarial. Ocasiões de baixa qualidade de dados atribuem à empresa altos custos internos/administrativos, além de evidenciar um nível baixo de regulamentação e controle dos sistemas de auditorias da área de TI. Em uma das pesquisas da COMPUTERWORLD (2012) contém as seguintes afirmações. Do grupo de 130 empresas brasileiras, realizada em 2009, revelou que 77% dos executivos entrevistados consideram alto ou médio o impacto da qualidade da informação nos negócios. O levantamento mostrou ainda que 65% das empresas dispunham de departamento interno responsável pela qualidade da informação e 30% informaram que o departamento de marketing e/ou comercial respondia pela função. Richard Wang professor do Total Data Quality Management, do Massachussets Technology Institute (TDQM-MIT) define os princípios de qualidade de dados. Quanto à qualidade intrínseca: Precisão: Define o quanto o dado representa; Objetividade: Define o quanto os dados foram produzidos e apontam fatos de forma isentos de tendências, preconceitos ou parcialidade; Credibilidade: Define o quanto aqueles dados representam algo que possa ser usado como elemento informacional; Reputação: Define o quanto os dados podem melhorar ou prejudicar a reputação do documento ou projeto em que esta inserido; Qualidade de acessibilidade: Define aspectos quanto ao acesso, segurança e privacidade dos dados. Quanto à qualidade contextual: Relevância: Caracteriza importância dos dados; Valor Agregado: O quanto o dado com devida importância vai agregar de valor para os negócios da empresa;

24 Disponibilidade: Refere-se aos dados estarem prontos no momento da solicitação e que sua produção seja no período necessário; Completude: Caracteriza que os dados estejam completos e não apresente lacunas vazias, por exemplo, um campo null; Quantidade devida e necessária: Que os dados estejam na quantidade desejada no momento em que precisar fazer uma análise. Quanto à qualidade de representação: Interpretabilidade: Definido quanto à capacidade de interpretação dado contexto que admita o seu entendimento; Facilidade de entendimento: Determina o entendimento com facilidade, sem a necessidade de especialistas; Forma consistente: Compreendido como forma de representação sintática, expressa por um elemento de dado; Representação concisa: Apresenta o dado de forma sucinta, enxuta, sintética, sem perder seus atributos de informação; Facilidade de manipulação: Que os dados sejam apresentados de forma que seja possível trabalhar com eles e manipula-los; Unicidade: Que a informação seja única, não exista duplicidade; Integridade de referência: Representa a coerência de valores entre dois dados que foram definidos em entidades diferentes; Atualidade: Refere-se as regras de validade, tempo e manutenção da sua atualidade. Finalizando esse capítulo, apresentamos no Quadro 1, a melhor visualização de um modelo de GD e QD, originado do modelo de Capability Maturity Model Integration (CMMI), adaptados de David Loshin, do livro The Practitioner s Guide to Data Quality Improvement, citado por Barbieri (2011).

25 Quadro 1 - Níveis de Maturidade em Governança e Qualidade de Dados. Inicial NÍVEL CARACTERÍSTICAS As ações sobre a qualidade de dados são reativas; não há expectativas de qualidade centradas em medidas/métricas, por exemplo; as políticas de dados, se existem, são informais e não documentadas; Ações são tomadas separadamente sem coordenação; os erros de qualidade de dados descobertos são corrigidos sem coordenação com os processos de negócios; as causas raízes de erros não são identificadas e os erros se repetem no tempo; pouco ou nenhum aspecto associado à qualidade de dados; não há o papel de data steward (gestores de dados/informação); as responsabilidades para correção são atribuídas de forma aleatória; há pouco ou nenhum padrão definido (ou respeitado); os dados são representados em estruturas replicadas; não há ferramentas adequadas para filtros ou monitoração de dados falhos/imprecisos; os impactos proporcionados pelos dados impuros são manifestados e descobertos tempos depois dos fatos gerados do erro. Repetido Há uma antecipação tímida de erros relativos aos dados; algumas expectativas sobre dimensões de qualidade são articuladas (precisão, consistência estrutural, consistência semântica, completude, atualidade, disponibilidade etc.); há tentativas de se organizarem fontes únicas de dados (single source of truth data sets); privacidade e controle de uso são definidos separadamente; políticas iniciais sobre dados são delineadas; há a habilidade de se identificar erros de não completude ou de sintaxe e estrutura inválida; análises de causas raízes de erros são inicialmente identificadas; melhores práticas começam a ser adotadas por áreas separadas; princípios para políticas, procedimentos e regras de qualidade de dados começam a ser desenvolvidos. Definido Procedimentos e processos são definidos para precisão e validação de dados; qualidade de dados implementada nas principais linhas de negócios/áreas funcionais com a criação do papel de gestores de dados; validação feita automaticamente e ações de correção analisadas manualmente; a estrutura organizacional de GD aparece com políticas, guias documentadas e aprovadas; padrões corporativos e gerência de metadados são instituídos; procedimentos padronizados para uso de ferramentas de análise de qualidade de dados implementado. Gerenciado Certificações de fontes de dados são aplicadas; arquivos mestres identificados e controlados (MDM-I); há auditoria de qualidade de dados; GD com membros representantes das principais linhas de negócios da empresa; há reuniões periódicas colaborativas de GD; GD direcionada por Service-Level Agreement (SLA) de qualidade de dados; gerência quantitativa de qualidade de dados. Otimizado Processos automatizados de detecção de problemas; sistemas de autogerência em uso; controle de dados ao longo de toda a empresa; métricas e políticas constantemente revisadas e melhoradas; MDM-II (gerência de dados mestres) implementadas. Fonte: Baseado em Loshin (2011, citado por Barbieri 2011).