CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP. Marcello Porto Alegre da Fonseca

Tamanho: px
Começar a partir da página:

Download "CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP. Marcello Porto Alegre da Fonseca"

Transcrição

1 CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP Marcello Porto Alegre da Fonseca TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS EM ENGENHARIA CIVIL. Aprovada por: Prof. Nelson Francisco Favilla Ebecken, D.Sc. Prof. Alexandre Gonçalves Evsukoff, Dr. Profª. Beatriz de Souza Leite Pires de Lima, D.Sc. Profª. Marta Lima de Queiros Mattoso, D.Sc. Profª. Fernanda Araújo Baião, D.Sc. RIO DE JANEIRO, RJ BRASIL JULHO DE 2007

2 DA FONSECA, MARCELLO PORTO ALEGRE Classificação Bayesiana de grandes massas de dados em ambientes ROLAP [Rio de Janeiro] 2007 VI, 111 p. 29,7 cm (COPPE/UFRJ, D.Sc., Engenharia Civil, 2007) Tese - Universidade Federal do Rio de Janeiro, COPPE 1. Data Mining 2. Classificação de dados 3. Banco de dados 4. OLAP Mining I. COPPE/UFRJ II. Título (série) ii

3 Agradecimento Ao Prof. Nelson, pela orientação neste trabalho e pelos conselhos e incentivos dados ao longo de todo tempo. A minha família que sempre me apoiou nesses anos de trabalho. E acima de tudo a Deus por ter me dado saúde e sabedoria para realizar este trabalho. Gostaria de agradecer ao senhor Luis Gonzaga, do Portus, pelas liberações do meu trabalho para me dedicar a esta tese. iii

4 Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.) CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP Marcello Porto Alegre da Fonseca Julho/2007 Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil Este trabalho apresenta um modelo para integração de um algoritmo de Data Mining em um ambiente OLAP implementado em um banco de dados comercial. Foi implementado um algoritmo de classificação Bayesiana em um ambiente do tipo Relacional OLAP (ROLAP). Para realizar esta integração foi necessário a implementação de um modelo de metadados para dar suporte ao algoritmo, assim como uma função de classificação a ser utilizada na ferramenta de visualização OLAP. Os resultados em relação a performance e acurácia foram avaliados em relação a outra ferramenta de classificação de um banco de dados comercial. Foi feita uma abordagem em relação à classificação multiclasse, para que se possa avaliar o comportamento do classificador nesta situação. iv

5 Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.) BAYESIAN CLASSIFICATION OF VERY LARGE DATABASES ON ROLAP SYSTEMS Marcello Porto Alegre da Fonseca July/2007 Advisor: Nelson Francisco Favilla Ebecken Department: Civil Engineering This work deals with a model for Data Mining algorithm integration in an OLAP system implemented in a commercial data base. An algorithm of Bayesian classification was implemented in a Relational OLAP system (ROLAP). To execute this integration the implementation of a metadata model was necessary to support the system, as well as a function of classification to be used in the visualization OLAP tool. The results on the performance and accuracy were evaluated in relation to another tool for the classification of a database management system. An approach was made on the classification multiclasse so that can assess the performance of the classifier in this situation. v

6 ÍNDICE 1 Introdução DataWarehouse OLAP Integração de Data Mining e OLAP Classificação de Dados Implementação do Algoritmo Resultados Conclusões Referências bibliográficas Apêndice Listagens de Programas vi

7 1. Introdução O volume de dados armazenado em bancos de dados cresce continuamente, podendo chegar na ordem de terabytes. Essas grandes massas de dados podem ser encontradas facilmente em empresas de telefonia e petróleo e em alguns projetos científicos (INHOFF, 2003), além disso a diversidade de domínio no qual os dados pertencem aumentou, podendo pertencer tanto à área comercial quanto à científica. Por outro lado a tecnologia de bancos de dados também se desenvolveu nos últimos anos, oferecendo infra-estrutura capaz de gerenciar essa grande quantidade de dados de maneira eficiente (DATE, 2003). Atualmente, os principais fornecedores de bancos de dados são Oracle, Microsoft e IBM. Além disso os sistemas gerenciadores de banco de dados(sgbd) fornecem recursos de inteligência embutidos no próprio banco de dados, tal como mineração de dados e OLAP (ORACLE, 2005). A disponibilidade de grandes massas de dados armazenadas nesses bancos de dados, torna muito interessante a busca de conhecimento e informação útil. O conhecimento descoberto pode ser aplicado na tomada de decisões, tornando-se uma das mais promissoras tecnologias da indústria da informação(han, 1998). Os Datawarehouses surgiram como uma estrutura de banco de dados específica para armazenamento de grandes massas dados e atualmente estão consolidadados como a arquitetura ideal para análise exploratória de dados. Para analisar os dados de um Datawarehouse pode-se usar as tecnologias OLAP, de mineração de dados, relatórios e consultas adhoc (KINBALL, 1998). Os Datawarehouses possuem características específicas para que os dados armazenados nele estejam em uma forma consistente e consolidada, prontos para a análise exploratória. Os Datawarehouses tem sido usados para armazenar dados de diversas áreas de conhecimento, visto sua grande utilidade para a geração de informações consistentes, e também para auxiliar no processo de tomada de decisão. 1

8 (LIU e YOU, 2003) usaram os dados de um Datawarehouse a aplicaram uma rede neuro-fuzzy e técnicas de visualização de dados para melhorar a análise do setor de comércio eletrônico. (CHO V., NGAI E. N. T.,2003) desenvolveram um sistema de suporte a decisão, em que técnicas de mineração de dados foram usadas em dados multidimensionais de um Datawarehouse para auxiliar a seleção de agentes na indústria de seguros. (TURNER S.,2004) mostra as vantagens de utilizar os dados de um Datawarehouse na avaliação de dados demográficos. Mineração de dados (Data Mining) faz parte do processo de descoberta de conhecimento em grandes massas de dados utilizando diferentes atividades, tais como classificação, clusterização, predição e associação, podendo-se descobrir valiosas relações nos dados (ROIGER, 2003). Devido ao processo de construção do Datawarehouse, este torna-se um precioso aliado no processo de mineração de dados (PARSAYE, 1998), visto que a mineração essencialmente precisa dos dados. Mineração de dados é por essência multidisciplinar, e envolve as areas de banco de dados, estatística, inteligência artificial, visualização de dados e computação de alto desempenho. Segundo HAN (2001) Este processo de mineração busca a descoberta de conhecimento interessante a partir de grandes massas de dados armazenados em bancos de dados, Datawarehouses ou outros repositórios de informação. Em (KARGUPTA,2004) mostra-se a vasta aplicabilidade de mineração de dados em diversas áreas de conhecimento. Por se tratar de uma área multidisciplinar a mineração de dados pode também se aproveitar de avanços em outras áreas. Em (KARGUPTA,2000) descreve a importância e as tendências de pesquisa na área de mineração de dados distribuída e paralela. O termo KDD(Knowledge Discovery in Databases) define um processo iterativo que tenta extrair automaticamente, conhecimento útil dos dados. Existem algumas variações quanto ao número de etapas no processo de KDD, apesar disso todas as variantes são muito parecidas (ROIGER, 2003). 2

9 No processo de KDD existe a etapa de preparação dos dados, na qual os dados são preprocessados para obter consistência, esta etapa é uma das mais importantes e é requisito fundamental para a mineração de dados. Uma arquitetura ideal para o processo de mineração de dados seria consistido de um Datawarehouse, onde os dados estariam em uma forma consistente(han, 2001). O processo de KDD é referenciado por alguns autores como mineração de dados. Entretanto a mineração é uma das etapas do processo de KDD. A figura 1.1 mostra o processo de KDD e suas etapas. Figura 1.1 Processo de KDD (HAN, 2001). Etapas do processo de KDD: 1- Identificação dos objetivos: O foco dessa etapa é o entendimento do domínio a ser alcançado para a descoberta do conhecimento. 2- Criação do conjunto de dados a ser minerado: Criar um conjunto inicial de dados para serem analisados. 3- Preprocessamento dos dados: realizar a limpeza nos dados a serem analisados. 4- Transformação dos dados: realizar as transformações necessárias nos dados, alterando ou eliminando atributos dos dados. 3

10 5- Mineração dos dados: executar os algoritmos de mineração para encontrar o melhor modelo. 6- Interpretação e avaliação dos resultado: examinar os resultados da etapa de mineração para determiner se o que foi descoberto é útil. Pode-se voltar a etapas anteriores para refletir o processo com outros dados e ou atributos. 7- Tomada de ação: Implementação direta dos resultados do processo. OLAP (On-Line Analytical Processing) é uma tecnologia que explora os dados em um formato multidimensional, de onde se visualiza os dados em diferentes perspectivas e em diferentes níveis de agregação. A análise OLAP é interativa e guiada pelo usuário. OLAP é muito utilizado na análise exploratória dos dados de um Datawarehouse (THOMSEN, 2002). OLAP Mining ou OLAM foi o termo dado por HAN (1998) à fusão das tecnologias OLAP e de mineração de dados. OLAM integra a interatividade e flexibilidade de manipulação dos dados com os algoritmos de Data Mining, permitindo aos usuários minerar interativamente em diferentes porções de dados e em diferentes níveis de agregação, sendo assim uma poderosa ferramenta de análise de dados. Pode-se alterar as funções de Data Mining dinamicamente. A implementação e performance dessa integração são um grande desafio. 1.1 Objetivos Após as idéias sugeridas por HAN(1998), algumas implementações foram realizadas, como em TAN (1998) e HUA (1998), porém essas implementações usaram uma arquitetura MOLAP própria, e também sem alterações dinâmicas. O banco de dados SQL Server 2005 da Microsoft, realiza mineração de dados em cubos de dados, porém numa abordagem de Wizards. Nesta tese a implementação do algoritmo de classificação é feita de uma maneira em que a mineração se dará na visualização do cubo de dados, dentro da ferramenta OLAP. Sendo esta uma abordagem ainda não encontrada em ferramentas OLAP. O principal objetivo desta tese é mostrar o grande potencial de uso da integração das 4

11 tecnologias de mineração de dados e OLAP em bancos de dados relacionais para a descoberta de conhecimento em grandes massas de dados, propondo-se uma implementação para ser utilizada na visualização OLAP, baseada num cubo de dados ROLAP, realizando a classificação Bayesiana através de uma função de banco de dados, que é chamada on-line pela ferramenta OLAP. A execução do algoritmo, por estar numa ferramenta OLAP, deve ser feita num tempo aceitável aos padrões OLAP, que são de respostas rápidas. O classificador Bayesiano foi escolhido por possuir um algoritmo mais simples de ser implementado, mas apesar de sua simplicidade possui resultados bem satisfatórios. O algoritmo de classificação Bayesiana é implementado em um modelo de dados estrela, que é o mais usado nos Datawarehouses. A implementação é feita num banco de dados comercial para mostrar a fácil integração do algoritmo aos ambientes de produção das empresas. O ambiente ROLAP foi escolhido por ser o mais comum, e também para se utilizar linguagem SQL, que é padrão dos banco de dados. 1.2 Contribuição Neste trabalho foi implementado um classificador Bayesiano no ambiente ROLAP de um banco de dados Oracle 10G. A ferramenta usada na visualização do cubo de dados foi o Oracle Discoverer. A integração de OLAP e mineração de dados proposta na tese é relevante pela abordagem que se faz, o algoritmo é chamado durante a visualização OLAP, ou seja, enquanto se realiza a análise exploratória dos dados na ferramenta OLAP, por meio de uma função de banco de dados que executa a classificação Bayesiana. A dificuldade de realizar o algoritmo no modelo estrela se deve a necessidade de se executar o algoritmo na visualização OLAP, obtendo os resultados num tempo baixo, que é um dos requisitos das ferramentas OLAP, a velocidade nas operações. O modelo estrela apresenta diversas tabelas, aonde junções tem de ser feitas para que os dados sejam apresentados. A maioria das ferramentas de classificação, juntam os dados necessários numa única 5

12 tabela, e então realizam a classificação. Nesta tese não será necessário essa tabela, ou seja, não há necessidade de se ocupar mais espaço no banco de dados para realizar a classificação. A implementação faz uso de um modelo de metadados para armazenar as contabilizações necessárias ao funcionamento do algoritmo. A mineração de dados em um ambiente relacional estrela pode ser considerada um caso de mineração multirelacional. A classificação multirelacional é uma área de pesquisa muito importante por causa da popularidade dos bancos de dados relacionais, entretanto a maioria das abordagens não são escaláveis em relação ao número de relações e complexidade (YIN et al., 2003). Esta tese está organizada da seguinte maneira: os três primeiros capítulos tratam das tecnologias fundamentais para o desenvolvimento deste trabalho; em seguida é apresentado a implementação do classificador Bayesiano no ambiente OLAP. Depois mostra-se os resultados e comparações com outra ferramenta de classificação. No final são apresentadas as conclusões e trabalhos futuros. 6

13 2. Datawarehouse O Datawarehouse é um banco de dados mantido separadamente dos sistemas operacionais de uma empresa, no qual os dados estão em uma forma consolidada. O Datawarehouse quase sempre está armazenado em um banco de dados relacional, tal como Oracle ou Microsoft SQL SERVER, mas utiliza um modelo lógico de dados multidimensional como o star schema (SCALZO, 2003). A construção de um Datawarehouse pode ser vista como uma das etapas do processo de KDD. Devido a suas características de construção o Datawarehouse tornouse muito importante para a análise de dados e pode ser considerado como uma plataforma ideal para o processo de Data Mining (ROIGER, 2003). Os Datawarehouses são a base para as ferramentas OLAP, que permitem análise multidimensional dos dados em diferentes granularidades, e podem auxiliar o processo de mineração de dados na busca de conhecimento. Os Datawarehouses tem sido usados em diferentes áreas de conhecimento e sendo integrado a outras tecnologias como realizado em SAMPAIO et al. (2006), onde uma nova área de pesquisa é abordada, sendo chamada de Spatial Data Warehousing(SDW), que integra as tecnologias de Datawarehousing e Sistemas de Informações Geográficos(GIS). INMON (1996) define Um Datawarehouse é uma coleção de dados orientada a assunto, integrada, variante no tempo e não-volátil, para dar suporte ao processo de tomada de decisões. Orientado a assunto : um Datawarehouse é organizado em torno de um assunto tal como vendas ou compras. Integrado : O Datawarehouse pode ser construído a partir de diferentes fontes de dados heterogêneas, tais como bancos de dados relacionais, planilhas eletrônicas e arquivos textos. Todo um processo de limpeza e consistência de dados é realizado para que o dado seja carregado no Datawarehouse. 7

14 Variante no tempo : Os dados no Datawarehouse estão numa perspective histórica, ou seja, os dados estão descritos em função do tempo. Não-volátil : Os dados do Datawarehouse são apenas para leitura e raramente sofrem alterações, servindo apenas como fonte para consultas. 2.1 Arquitetura Um Datawarehouse é também visto como uma arquitetura para dar suporte ao processo de tomada de decisões. A arquitetura mais comum de um DataWarehouse é mostrada na figura 2.1. Nesta figura tem-se os sistemas transacionais ou OLTP como fonte do DataWarehouse, os dados dos sistemas OLTP passam por um processo de ETL(Extract, Transform and Load) para que sejam carregados no Datawarehouse (HAN, 2001). O Datawarehouse então serve como fonte para os servidores OLAP que podem ter sua implementação física do tipo relacional (ROLAP) ou Multidimensional (MOLAP). Os servidores OLAP por sua vez, são acessados pelas ferramentas de visualização OLAP, geradores de relatórios e ferramentas de Data Mining. Os metadados são definidos como dados sobre os dados. Possuem a informação necessária para uso e administração dos dados, além de fornecer a coesão entre as estruturas do ambiente do Datawarehouse. 8

15 Figura 2.1 Arquitetura de Datawarehouse - (HAN, 2001). Os metadados definem os objetos contidos no Datawarehouse e devem conter a descrição da estrutura do mesmo, tais como fatos e dimensões. Devem também conter todo o mapeamento da carga dos sistemas OLTP para o Datawarehouse, tais como fontes e algoritmos de transformação e limpeza, e também as regras de agregação dos dados (KINBALL,2004). O processo de ETL é o responsável pela carga do Datawarehouse a partir dos sistemas OLTP. É neste local que os dados tornam-se consistentes e íntegros. É formado por um conjunto de programas instáveis, que seguem a mudança constante dos sistemas OLTP. Esses programas possuem a função de ler os dados dos sistemas OLTP, padroniza-los e mapea-los no local correto do Datawarehouse (KINBALL, 2004). 9

16 O processo de ETL inclui as seguintes etapas: Extração : leitura de dados dos sistemas transacionais e/ou de fontes externas; Limpeza: encontra erros nos dados e corrige quando possível; Transformação : adequação dos dados para integração no Datawarehouse; Carga : agrega, indexa e carrega os dados no Datawarehouse. A construção de um Datawarehouse, contendo toda a preparação dos dados, pode ser vista como uma importante etapa de pré-processamento para a mineração de dados, no qual esta etapa ocupa de 70% a 80% do tempo gasto num processo de mineração de dados (HAN, 2001). Podem existir três tipos de aplicações usadas sobre um Datawarehouses: e relatórios; Processamento de informação: suporta consultas, análises estatísticas Processamento Analítico: ferramentas OLAP e suas operações; Mineração de dados: descoberta de conhecimento automatizada, encontrando padrões escondidos nos dados. Pode-se realizar classificações e predições, além de visualizações das minerações dos dados. 2.2 Diferenças entre OLTP e OLAP Os sistemas transacionais, também chamados de OLTP (On-Line Transaction Processing) servem para dar suporte as operações diárias das empresas, tais como contabilidade, estoque e outros. O Datawarehouse diferentemente é a base de um tipo de sistema chamado OLAP (On-Line Analytical Processing), esses sistemas podem apresentar dados em 10

17 diferentes perspectivas e formatos e atender as diversas necessidades dos usuários responsáveis por tomada de decisões (KIMBALL,2002). Os dados de um sistema OLTP são tipicamente muito detalhados e possuem características operacionais, não tendo muita utilidade em tomadas de decisão. Em um sistema OLAP, tem-se grandes quantidades de dados históricos consistentes armazenados em vários níveis de granularidade. Um sistema OLTP usa a modelagem Entidade-Relacionamento(ER) e um projeto lógico de banco de dados orientado a aplicações. Em um sistema OLAP usa-se um modelo de dados conhecido como estrela e um projeto lógico de banco de dados orientado a assunto (KINBALL, 2002). Os sistemas OLTP focam o dado atual de uma empresa, sem se preocupar com o histórico, característica dos sistemas OLAP. Os acessos nos sistemas OLTP geralmente são atômicos e de curta duração e necessitam de controles de concorrência e recuperação. Nos sistemas OLAP as operações são do tipo read-only e requerem grande quantidade de dados em uma única consulta. Para manter a boa performance dos sistemas OLTP e OLAP, o Datawarehouse deve estar separado dos sistemas OLTP, pois sua finalidade é diferente dos mesmos. As complexas consultas de um sistema OLAP podem degradar a performance de um sistema OLTP, se o mesmo estiver junto com um sistema OLTP (KINBALL, 2002). Alguns fornecedores de bancos de dados tem otimizado seus produtos para que os sistemas OLAP e OLTP possam coexistir no mesmo ambiente. É necessário avaliar a situação para verificar a queda da performance dos sistemas nessa situação ( ORACLE, 2005). 11

18 2.3 Modelo Multidimensional No Datawarehouse utiliza-se o modelo de dados multidimensional, sendo que o mais utilizado é o estrela (star schema), entretanto existem outros como o flocos de neve(snowflake) e o de constelação ( HAN, 2001). No modelo estrela uma grande tabela fato central contendo as medidas é rodeada por tabelas dimensões, sendo que as chaves das dimensões se conectam com a tabela fato por meio de chaves estrangeiras. Neste modelo uma tabela de dados central possui os dados das medidas, assunto que está sendo analisado, por exemplo, vendas, custos ou quantidades vendidas. Um Fato no modelo estrela possui uma tabela Fato associada no DataWarehouse. Cada tabela Fato possui as medidas numéricas e as chaves de cada dimensão associada. A tabela Fato é conectada a tabelas de referência, essas tabelas são chamadas de dimensões, por exemplo tempo, produto e região. Cada dimensão no modelo estrela possui uma tabela associada no DataWarehouse, chamada de tabela dimensão. As dimensões possuem atributos e hierarquias. Os dados das dimensões são referências para as medidas da tabela Fato (SCALZO, 2003). Logo, as medidas são indexadas pelas dimensões, ou seja, as dimensões são únicas para determinar uma medida. As dimensões podem ser hierárquicas, como exemplo a dimensão tempo que possui uma hierarquia de ano, mês e dia. Logo pode-se ter medidas vistas por dia, por mês e por ano, ou seja, os dados são vistos em diferentes perspectivas. 12

19 Dimensão 1 Tabela Fato Dimensão 2 atributos medida 1 medida 2 medida n atributos Dimensão 3 atributos Figura 2.2: Formato do modelo de dados estrela. As medidas podem ser agregadas, a partir do nível mais baixo, nos níveis hierárquicos superiores das dimensões. As medidas agregadas são definidas por funções numéricas de agregação que podem ser avaliadas para cada célula do cubo de dados. As medidas podem ser classificadas por suas funções de agregação em três grupos: distributivas, algébricas e holísticas (THONSEN, 2002). Ex.: count, min, max. Distributivas : f(c) = f( f(c1),f(c2),f(c3) ) Algébricas : f(c) = f(c1) / f(c2) Ex.: média, variância. Ex.: Rank. Holísticas : As outras funções de agregação. 13

20 As medidas agregadas com funções de agregação distributiva ou algébrica são simples de manipular, pois podem ser agregadas diretamente de suas sub-agregações, enquanto com funções holísticas este tratamento é muito difícil. O modelo multidimensional pode ser usado para modelar diversas áreas de conhecimento, as mais comuns usam dados comerciais e industriais (KIMBALL, 2002), entretanto outras áreas tem usado este modelo para seus problemas. Em ADOMAVICIUS et al. (2005) é apresentado um modelo multidimensional de recomendações que incorpora informações contextuais dentro de um processo de recomendação e sugere recomendações baeadas em dimensões, perfis e hierarquias. Em MOLINA et al. (2006) sugere-se um modelo multidimensional fuzzy, que usa lógica fuzzy para modelar a imprecisão dos dados. Atualmente, a maioria dos Datawarehouses são usados para OLAP, entretanto, com o crescimento do uso de Data Mining pode-se esperar que os dados dos Datawarehouses servirão como importante fonte para o processo de Data Mining (HAN, 2001). 14

21 3. OLAP OLAP é parte da tecnologia de Datawarehouse que habilita usuários a explorar dados do Datawarehouse interativamente. As ferramentas OLAP fornecem funcionalidades para análise interativa de dados em diferentes visões e granularidades (HAN, 2001). Desde o ínicio da tecnologia OLAP (COOD, 1993), duas diferentes abordagens podem ser usadas com a tecnologia OLAP. A primeira estende o modelo relacional para garantir os requisitos OLAP, sendo que surgiram outras propostas (KIMBALL,1998) e todas incluem extensões para operar o cubo de dados. A segunda abordagem trata sobre a implantação de uma estrutura multidimensional dos dados, e alguns autores propuseram modelos sobre a mesma (MOLINA et al,2006). Alguns trabalhos relativos a implementação OLAP foram realizados como em BURDICK et al. (2007), onde o modelo OLAP é extendido para representar a imprecisão e incerteza de dados. Acredita-se que apenas 20% de informação pode ser extraída de Datawarehouses apenas na forma dados numéricos, os outros 80% estão escondidos em dados não numéricos ou até mesmo em documentos. Uma infraestrutura é proposta para combinar processamento textual com processamento numérico OLAP (TSENG, CHOU, 2006). As ferramentas OLAP tem sido usadas para diferentes necessidades, KUMAR et al. (2007) implementa um sistema OLAP para aparelhos móveis e descreve uma metodologia para tal. Em BERNDT et al. (2006), as ferramentas OLAP são usadas para identificar padrões que indicam a presença de um agente biológico ou químico no ambiente. NADIM et al. (2005) utiliza a tecnologia OLAP para explorar os dados de um banco de dados de genes, extraíndo informação biológica significante e de maneira rápida, e servindo como suplementação a análise de cluster. FORD (2002) mostra a utilidade de OLAP em aplicações com Dashboards e indicadores de performance(kpi) e como usar a análise exploratória do OLAP. ZAIANE (1998) criou um sistema MOLAP a partir de web logs e realizou consultas 15

22 analíticas por meio de operações OLAP, e buscou descobrir padrões de tempo nos logs de acesso. A partir do modelo estrela pode-se, através de ferramentas OLAP, construir cubos de dados OLAP (figura 3.1), e realizar buscas nesse espaço multidimensional (figura 3.2). Os cubos de dados são visões lógicas multidimensionais dos dados com referência hierárquica. As ferramentas OLAP fornecem funcionalidades para análise interativa de dados em diferentes visões e granularidades, permitindo visualizar as hierarquias e navegar pelas dimensões (THONSEN, 2002). Figura 3.1: Cubo lógico de dados onde as arestas representam as dimensões (HAN, 2001). A essência do OLAP se dá pela eficiente computação das agregações dos diversos conjuntos de dimensões do cubo de dados. Estas agregações são referenciadas em SQL como group by ( HAN, 2001). 16

23 3.1 Operações OLAP As operações no cubo de dados são chamadas operações OLAP, através delas se consegue flexibilidade durante as consultas aos dados no cubo. Conseqüentemente o cubo de dados é formado por medidas numéricas para análise e um conjunto de dimensões que define a medida. As principais operações OLAP são( THONSEN, 2002): Roll-up: Ocorre diminuição do nível de detalhe da informação (Ex.: passagem de mês para ano). Drill-down: Ocorre aumento do nível de detalhe da informação (Ex.: passagem de ano para mês). Slice/Dice: Visualizar sub-cubos do cubo de dados (Ex.: ver dados do ano de 2002). Pivot: Alterar linhas por colunas na visualização de resultados. Figura 3.2: Busca tridimensional de células no cubo de dados (THOMSEN,2002). 17

24 Já que OLAP necessita acessar diferentes sub-cubos e suas agregações, seria interessante pré-computar todos os sub-cubos, materializando completamente o cubo. Isso é impossível na maioria das vezes, pois para tal tarefa seria necessário muito espaço de armazenamento. Se for materializado somente os sub-cubos de maior granularidades, tem-se um grande esforço computacional para agregar os dados em tempo de execução. Uma solução para isto é pré-computar alguns sub-cubos e computar outros em tempo de execução. A escolha dos sub-cubos a materializar é uma importante decisão que afeta a eficiência das operações OLAP. LIN (2004) propôs uma solução com algoritmos genéticos para melhorar a performance de busca de dados em ambientes OLAP. Em LAWRENCE (2006) o uso de algoritmos genéticos é feito para acelerar a busca de dados no espaço multidimensional. 3.2 Arquiteturas OLAP Existem dois principais tipos de implementações físicas de OLAP (ORACLE, 2005): ROLAP (Relational OLAP): Usam tabelas relacionais como estrutura básica de dados e uma célula do espaço multidimensional é uma tupla. Esta tupla contém atributos que identificam a localização da célula no espaço multidimensional e outros atributos que contém as medidas. As operações OLAP são realizadas através de SQL. MOLAP (Multidimensinal OLAP): Usam arrays multidimensinais como estruturas de dados e as operações OLAP são realizadas sobre estas estruturas. O modelo multidimensional é implantado em matrizes tendo as dimensões como os índices, e a medida como conteúdo da célula, nesta implementação apenas a medida é armazenada. As técnicas para implementação eficiente do cubo são muito diferentes para ROLAP e MOLAP. 18

25 Já foi demonstrado que MOLAP é mais eficiente que ROLAP, devida a sua estrutura de indexação, enquanto ROLAP possui maior escalabilidade, devido a sua implantação ser sobre a estrutura dos bancos de dados relacionais. O uso de SQL em análises OLAP podem gerar problemas de performance devido as características da análise OLAP. Para cubos de dados pequenos e médios, MOLAP é mais eficiente que ROLAP (HAN, 2001). MOLAP tem uma excelente indexação e rápida busca de células, mas pode sofrer com o problema de esparsividade dos dados, causando baixa utilização de armazenamento. Existe uma solução híbrida (HOLAP), no qual os dados base são mantidos em tabelas relacionais e as agregações estão na forma multidimensional. A figura 3.3 mostra como a multidimensionalidade dos dados são visualizadas pelas ferramentas OLAP em telas, através de uma configuração tridimensional de linhas, colunas e páginas. Através dessa combinação pode-se analisar os dados em várias dimensões numa única tela. Figura 3.3 visualização OLAP - (THOMSEN,2002). 19

26 3.3 Visualização OLAP Outro recurso muito útil das ferramentas OLAP é a capacidade de gerar gráficos em tempo real, de acordo com os dados que estão sendo visualizados no momento(figura 3.4). Figura 3.4 Gráficos nas ferramentas OLAP - (THOMSEN,2002). As ferramentas OLAP possuem a capacidade de mudar sua aparencia de acordo com o valor do dado, isso é muito útil para visualizar exceções como mostrado na figura 3.5, nesta figura os valores de células que satisfazem a uma determinada condição são ser realçados com cores, para que fique evidente ao usuário a exceção. 20

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto OLPT x OLAP Roteiro OLTP Datawarehouse OLAP Operações OLAP Exemplo com Mondrian e Jpivot

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP.

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. Eduardo Cristovo de Freitas Aguiar (PIBIC/CNPq), André Luís Andrade

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Prova INSS RJ - 2007 cargo: Fiscal de Rendas

Prova INSS RJ - 2007 cargo: Fiscal de Rendas Prova INSS RJ - 2007 cargo: Fiscal de Rendas Material de Apoio de Informática - Prof(a) Ana Lucia 53. Uma rede de microcomputadores acessa os recursos da Internet e utiliza o endereço IP 138.159.0.0/16,

Leia mais

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Sumário Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Capítulo 2 - Reputação corporativa e uma nova ordem empresarial 7 Inovação e virtualidade 9 Coopetição 10 Modelos plurais

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

Chapter 3. Análise de Negócios e Visualização de Dados

Chapter 3. Análise de Negócios e Visualização de Dados Chapter 3 Análise de Negócios e Visualização de Dados Objetivos de Aprendizado Descrever a análise de negócios (BA) e sua importância par as organizações Listar e descrever brevemente os principais métodos

Leia mais

Data Warehouses Uma Introdução

Data Warehouses Uma Introdução Data Warehouses Uma Introdução Alex dos Santos Vieira, Renaldy Pereira Sousa, Ronaldo Ribeiro Goldschmidt 1. Motivação e Conceitos Básicos Com o advento da globalização, a competitividade entre as empresas

Leia mais

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009.

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. REFERÊNCIAS o o Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. Competição Analítica - Vencendo Através da Nova Ciência Davenport,

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining Decisão Suporte: Warehousing, OLAP e Data Mining 7-1 Introdução Cada vez mais, organizações estão analizando dados correntes e históricos para identificar padrões úteis e suporte a estratégias de negócios.

Leia mais

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining Decisão Suporte: Warehousing, OLAP e Data Mining 7-1 Introdução Cada vez mais, organizações estão analizando dados correntes e históricos para identificar padrões úteis e suporte a estratégias de negócios.

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados slide 1 1 Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall Objetivos de estudo Como um banco de dados

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Business Intelligence e ferramentas de suporte

Business Intelligence e ferramentas de suporte O modelo apresentado na figura procura enfatizar dois aspectos: o primeiro é sobre os aplicativos que cobrem os sistemas que são executados baseados no conhecimento do negócio; sendo assim, o SCM faz o

Leia mais

Analysis Services. Manual Básico

Analysis Services. Manual Básico Analysis Services Manual Básico Construindo um Banco de Dados OLAP... 2 Criando a origem de dados... 3 Definindo as dimensões... 5 Níveis de dimensão e membros... 8 Construindo o cubo... 11 Tabela de fatos...12

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Uma Ferramenta Web para BI focada no Gestor de Informação

Uma Ferramenta Web para BI focada no Gestor de Informação Uma Ferramenta Web para BI focada no Gestor de Informação Mikael de Souza Fernandes 1, Gustavo Zanini Kantorski 12 mikael@cpd.ufsm.br, gustavoz@cpd.ufsm.br 1 Curso de Sistemas de Informação, Universidade

Leia mais

INDICE 3.APLICAÇÕES QUE PODEM SER DESENVOLVIDAS COM O USO DO SAXES

INDICE 3.APLICAÇÕES QUE PODEM SER DESENVOLVIDAS COM O USO DO SAXES w w w. i d e a l o g i c. c o m. b r INDICE 1.APRESENTAÇÃO 2.ESPECIFICAÇÃO DOS RECURSOS DO SOFTWARE SAXES 2.1. Funcionalidades comuns a outras ferramentas similares 2.2. Funcionalidades próprias do software

Leia mais

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE Fabio Favaretto Professor adjunto - Programa de Pós Graduação em Engenharia de Produção

Leia mais

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Arquiteturas de DW e Abordagens de Implementação Arquiteturas e Abordagens de Implementação Arquitetura adequada é fundamental Infra-estrutura disponível

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso 5 Estudo de Caso De modo a ilustrar a estruturação e representação de conteúdos educacionais segundo a proposta apresentada nesta tese, neste capítulo apresentamos um estudo de caso que apresenta, para

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

Business Intelligence. BI CEOsoftware Partner YellowFin

Business Intelligence. BI CEOsoftware Partner YellowFin Business Intelligence BI CEOsoftware Partner YellowFin O que é Business Intelligence Business Intelligence (BI) é a utilização de uma série de ferramentas para coletar, analisar e extrair informações,

Leia mais

Sobre o que falaremos nesta aula?

Sobre o que falaremos nesta aula? Business Intelligence - BI Inteligência de Negócios Prof. Ricardo José Pfitscher Elaborado com base no material de: José Luiz Mendes Gerson Volney Lagmman Introdução Sobre o que falaremos nesta aula? Ferramentas

Leia mais

Fundamentos da Análise Multidimensional

Fundamentos da Análise Multidimensional Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Fundamentos da Análise Multidimensional Fundamentos da Análise Multidimensional

Leia mais

Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar

Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar Uma Ferramenta WEB para apoio à Decisão em Ambiente Hospitalar Mikael de Souza Fernandes 1, Gustavo Zanini Kantorski 12 mikael@cpd.ufsm.br, gustavoz@cpd.ufsm.br 1 Curso de Sistemas de Informação, Universidade

Leia mais

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence Juntamente com o desenvolvimento desses aplicativos surgiram os problemas: & Data Warehouse July Any Rizzo Oswaldo Filho Década de 70: alguns produtos de BI Intensa e exaustiva programação Informação em

Leia mais

Módulo 2. Definindo Soluções OLAP

Módulo 2. Definindo Soluções OLAP Módulo 2. Definindo Soluções OLAP Objetivos Ao finalizar este módulo o participante: Recordará os conceitos básicos de um sistema OLTP com seus exemplos. Compreenderá as características de um Data Warehouse

Leia mais

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padrões podem ser minerados 5. Critérios de classificação de sistemas de Data Mining 6.

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

Data Warehouse Mineração de Dados

Data Warehouse Mineração de Dados Data Warehouse Mineração de Dados Profa. Roberta Macêdo M. Gouveia robertammg@gmail.com 1 18/12/2014 Data Warehouse Data Mining Big Data A mina de ouro debaixo dos bits 2 Data Warehouse: A Memória da Empresa

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

BUSINESS INTELLIGENCE -Inteligência nos Negócios-

BUSINESS INTELLIGENCE -Inteligência nos Negócios- UNIVERSIDADE SÃO FRANCISCO CENTRO DE CIÊNCIAS JURÍDICAS, HUMANAS E SOCIAIS BUSINESS INTELLIGENCE -Inteligência nos Negócios- Curso: Administração Hab. Sistemas de Informações Disciplina: Gestão de Tecnologia

Leia mais

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução 2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução De acordo com [FAYY96], o conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo não-trivial de identificar

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Autor: Júlio Battisti www.juliobattisti.com.br

Autor: Júlio Battisti www.juliobattisti.com.br Autor: Júlio Battisti www.juliobattisti.com.br Livro: Aprenda com Júlio Battisti: Excel 2010 Avançado, Análise de Dados e Cenários, Tabelas e Gráficos Dinâmicos, Macros e Programação VBA - Através de Exemplos

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

SISTEMAS DE APOIO À DECISÃO SAD

SISTEMAS DE APOIO À DECISÃO SAD SISTEMAS DE APOIO À DECISÃO SAD Conceitos introdutórios Decisão Escolha feita entre duas ou mais alternativas. Tomada de decisão típica em organizações: Solução de problemas Exploração de oportunidades

Leia mais

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS Sumário Conceitos/Autores chave... 3 1. Introdução... 5 2. OLAP... 6 3. Operações em OLAP... 8 4. Arquiteturas em OLAP...

Leia mais

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Adriano Maranhão BUSINESS INTELLIGENCE (BI), Adriano Maranhão BUSINESS INTELLIGENCE (BI), BUSINESS INTELLIGENCE (BI) O termo Business Intelligence (BI), popularizado por Howard Dresner do Gartner Group, é utilizado para definir sistemas orientados

Leia mais

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹

Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹ Data Warehouse. Djenane Cristina Silveira dos Santos¹, Felipe Gomes do Prado¹, José Justino Neto¹, Márcia Taliene Alves de Paiva¹ ¹Ciência da Computação Universidade Federal de Itajubá (UNIFEI) MG Brasil

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

A Preparação dos Dados

A Preparação dos Dados A Preparação dos Dados Escolhas Básicas Objetos, casos, instâncias Objetos do mundo real: carros, arvores, etc Ponto de vista da mineração: um objeto é descrito por uma coleção de características sobre

Leia mais

Administração de Sistemas de Informação Gerenciais UNIDADE IV: Fundamentos da Inteligência de Negócios: Gestão da Informação e de Banco de Dados Um banco de dados é um conjunto de arquivos relacionados

Leia mais

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados

O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento

Leia mais

OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional

OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional OLAP em âmbito hospitalar: Transformação de dados de enfermagem para análise multidimensional João Silva and José Saias m5672@alunos.uevora.pt, jsaias@di.uevora.pt Mestrado em Engenharia Informática, Universidade

Leia mais

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) SISTEMA INTERNO INTEGRADO PARA CONTROLE DE TAREFAS INTERNAS DE UMA EMPRESA DE DESENVOLVIMENTO

Leia mais

Interatividade aliada a Análise de Negócios

Interatividade aliada a Análise de Negócios Interatividade aliada a Análise de Negócios Na era digital, a quase totalidade das organizações necessita da análise de seus negócios de forma ágil e segura - relatórios interativos, análise de gráficos,

Leia mais

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING http://www.uniriotec.br/~tanaka/tin0036 tanaka@uniriotec.br Introdução a Data Warehousing e OLAP Introdução a Data Warehouse e Modelagem Dimensional Visão

Leia mais

http://www.publicare.com.br/site/5,1,26,5480.asp

http://www.publicare.com.br/site/5,1,26,5480.asp Página 1 de 7 Terça-feira, 26 de Agosto de 2008 ok Home Direto da redação Última edição Edições anteriores Vitrine Cross-Docking Assine a Tecnologística Anuncie Cadastre-se Agenda Cursos de logística Dicionário

Leia mais

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Apresentação O programa de Pós-graduação Lato Sensu em Business Intelligence Inteligência Competitiva tem por fornecer conhecimento

Leia mais

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1 Análise Inteligente de Dados Objectivo: Curso de Engenharia de Sistemas e Informática - 5º Ano Ficha T. Prática n.º 1 Estudo do paradigma multidimensional com introdução de uma extensão ao diagrama E/R

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior

Unidade III PLANEJAMENTO ESTRATÉGICO DE. Prof. Daniel Arthur Gennari Junior Unidade III PLANEJAMENTO ESTRATÉGICO DE TECNOLOGIA DA INFORMAÇÃO Prof. Daniel Arthur Gennari Junior Sobre esta aula Gestão do conhecimento e inteligência Corporativa Conceitos fundamentais Aplicações do

Leia mais

Bases de Dados aplicadas a Inteligência de Negócios

Bases de Dados aplicadas a Inteligência de Negócios Agenda Bases de Dados aplicadas a Inteligência de Negócios Professor Sérgio Rodrigues professor@sergiorodrigues.net Sistemas de Gerenciamento de Bancos de Dados (SGBD) Tipos de Banco de Dados Noções de

Leia mais

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com Banco de Dados, Integração e Qualidade de Dados Ceça Moraes cecafac@gmail.com Sobre a professora CeçaMoraes Doutora em Computação (UFPE) Áreas de atuação Desenvolvimento de Software e Banco de Dados Experiência

Leia mais

Business Intelligence Conceitos, Metodologia de Desenvolvimento e Exemplos de BI

Business Intelligence Conceitos, Metodologia de Desenvolvimento e Exemplos de BI Matriz: Av. Caçapava, 527 CEP 90.460-130 Tecnopuc: Av. Ipiranga, 6681 Prédio 32 Sala 109 CEP 90.619-900 Porto Alegre - RS, Brasil Contate-nos: +55 (51) 3330.7777 contato@dbccompany.com.br www.dbccompany.com.br

Leia mais

Complemento I - Noções Introdutórias em Data Warehouses

Complemento I - Noções Introdutórias em Data Warehouses Complemento I - Noções Introdutórias em Data Warehouses Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados Prof. Celso Kaestner Poker Hand Data Set Aluno: Joyce Schaidt Versão:

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

KDD UMA VISAL GERAL DO PROCESSO

KDD UMA VISAL GERAL DO PROCESSO KDD UMA VISAL GERAL DO PROCESSO por Fernando Sarturi Prass 1 1.Introdução O aumento das transações comerciais por meio eletrônico, em especial as feitas via Internet, possibilitou as empresas armazenar

Leia mais

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION Seminário da disciplina Engenharia de Requisitos Aluno: Eliaquim Lima Sá Neto (elsn@cin.ufpe.br) Autores 2 Sandra Fabbri Professora

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?

Leia mais

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados: MC536 Introdução Sumário Conceitos preliminares Funcionalidades Características principais Usuários Vantagens do uso de BDs Tendências mais recentes em SGBDs Algumas desvantagens Modelos de dados Classificação

Leia mais

Bloco Administrativo

Bloco Administrativo Bloco Administrativo BI Business Intelligence Objetivo O objetivo deste artigo é dar uma visão geral sobre o Módulo Business Intelligence, que se encontra no Bloco Administrativo. Todas informações aqui

Leia mais

Introdução. Formação Informática Para Estatísticos Na DPINE. Formação Informática Para Estatísticos Na DPINE. Usar Tabelas Dinâmicas em EXCEL

Introdução. Formação Informática Para Estatísticos Na DPINE. Formação Informática Para Estatísticos Na DPINE. Usar Tabelas Dinâmicas em EXCEL Usar Tabelas Dinâmicas em EXCEL Introdução Neste Módulo aprendemos o importante recurso de Tabelas Dinâmicas e Gráficos Dinâmicos. Aprendemos a criar tabelas dinâmicas, a aplicar filtros e a fazer análise

Leia mais

MBA em Gestão de Empreendimentos Turísticos

MBA em Gestão de Empreendimentos Turísticos Prof. Martius V. Rodriguez y Rodriguez, DSc martius@kmpress.com.br MBA em Gestão de Empreendimentos Turísticos Gestão do Conhecimento e Tecnologia da Informação Gestão do Conhecimento evolução conceitual.

Leia mais

Data Warehouse. Estudo Comparativo das Ferramentas. Cristiano Silva Castro. Uberlândia, Dezembro/2001.

Data Warehouse. Estudo Comparativo das Ferramentas. Cristiano Silva Castro. Uberlândia, Dezembro/2001. Data Warehouse Estudo Comparativo das Ferramentas Cristiano Silva Castro Uberlândia, Dezembro/2001. Data Warehouse Estudo Comparativo das Ferramentas Cristiano Silva Castro Monografia apresentada ao Curso

Leia mais

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso

18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso 18. Qualidade de Dados em Data Warehouse - Objetivos e Sucesso Uma das características das Ciências Exatas é a precisão das informações obtidas; a segurança dos dados extraídos nos processos usados. Cálculos

Leia mais

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses. - A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de. - O que é uma Data Warehouse? - Colecção de bases de dados orientadas por assunto

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados Sistema de Bancos de Dados Conceitos Gerais Sistema Gerenciador de Bancos de Dados # Definições # Motivação # Arquitetura Típica # Vantagens # Desvantagens # Evolução # Classes de Usuários 1 Nível 1 Dados

Leia mais

Trata-se de uma estratégia de negócio, em primeira linha, que posteriormente se consubstancia em soluções tecnológicas.

Trata-se de uma estratégia de negócio, em primeira linha, que posteriormente se consubstancia em soluções tecnológicas. CUSTOMER RELATIONSHIP MANAGEMENT Customer Relationship Management CRM ou Gestão de Relacionamento com o Cliente é uma abordagem que coloca o cliente no centro dos processos do negócio, sendo desenhado

Leia mais

Engenharia de Software

Engenharia de Software CENTRO UNIVERSITÁRIO NOVE DE JULHO Profº. Edson T. França edson.franca@uninove.br Software Sistemas Conjunto de elementos, entre os quais haja alguma relação Disposição das partes ou dos elementos de um

Leia mais

3 Market Basket Analysis - MBA

3 Market Basket Analysis - MBA 2 Mineração de Dados 3 Market Basket Analysis - MBA Market basket analysis (MBA) ou, em português, análise da cesta de compras, é uma técnica de data mining que faz uso de regras de associação para identificar

Leia mais

e-business A IBM definiu e-business como: GLOSSÁRIO

e-business A IBM definiu e-business como: GLOSSÁRIO Através do estudo dos sistemas do tipo ERP, foi possível verificar a natureza integradora, abrangente e operacional desta modalidade de sistema. Contudo, faz-se necessário compreender que estas soluções

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais