CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP. Marcello Porto Alegre da Fonseca

Tamanho: px
Começar a partir da página:

Download "CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP. Marcello Porto Alegre da Fonseca"

Transcrição

1 CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP Marcello Porto Alegre da Fonseca TESE SUBMETIDA AO CORPO DOCENTE DA COORDENAÇÃO DOS PROGRAMAS DE PÓS-GRADUAÇÃO DE ENGENHARIA DA UNIVERSIDADE FEDERAL DO RIO DE JANEIRO COMO PARTE DOS REQUISITOS NECESSÁRIOS PARA A OBTENÇÃO DO GRAU DE DOUTOR EM CIÊNCIAS EM ENGENHARIA CIVIL. Aprovada por: Prof. Nelson Francisco Favilla Ebecken, D.Sc. Prof. Alexandre Gonçalves Evsukoff, Dr. Profª. Beatriz de Souza Leite Pires de Lima, D.Sc. Profª. Marta Lima de Queiros Mattoso, D.Sc. Profª. Fernanda Araújo Baião, D.Sc. RIO DE JANEIRO, RJ BRASIL JULHO DE 2007

2 DA FONSECA, MARCELLO PORTO ALEGRE Classificação Bayesiana de grandes massas de dados em ambientes ROLAP [Rio de Janeiro] 2007 VI, 111 p. 29,7 cm (COPPE/UFRJ, D.Sc., Engenharia Civil, 2007) Tese - Universidade Federal do Rio de Janeiro, COPPE 1. Data Mining 2. Classificação de dados 3. Banco de dados 4. OLAP Mining I. COPPE/UFRJ II. Título (série) ii

3 Agradecimento Ao Prof. Nelson, pela orientação neste trabalho e pelos conselhos e incentivos dados ao longo de todo tempo. A minha família que sempre me apoiou nesses anos de trabalho. E acima de tudo a Deus por ter me dado saúde e sabedoria para realizar este trabalho. Gostaria de agradecer ao senhor Luis Gonzaga, do Portus, pelas liberações do meu trabalho para me dedicar a esta tese. iii

4 Resumo da Tese apresentada à COPPE/UFRJ como parte dos requisitos necessários para a obtenção do grau de Doutor em Ciências (D.Sc.) CLASSIFICAÇÃO BAYESIANA DE GRANDES MASSAS DE DADOS EM AMBIENTES ROLAP Marcello Porto Alegre da Fonseca Julho/2007 Orientador: Nelson Francisco Favilla Ebecken Programa: Engenharia Civil Este trabalho apresenta um modelo para integração de um algoritmo de Data Mining em um ambiente OLAP implementado em um banco de dados comercial. Foi implementado um algoritmo de classificação Bayesiana em um ambiente do tipo Relacional OLAP (ROLAP). Para realizar esta integração foi necessário a implementação de um modelo de metadados para dar suporte ao algoritmo, assim como uma função de classificação a ser utilizada na ferramenta de visualização OLAP. Os resultados em relação a performance e acurácia foram avaliados em relação a outra ferramenta de classificação de um banco de dados comercial. Foi feita uma abordagem em relação à classificação multiclasse, para que se possa avaliar o comportamento do classificador nesta situação. iv

5 Abstract of Thesis presented to COPPE/UFRJ as a partial fulfillment of the requirements for the degree of Doctor of Science (D.Sc.) BAYESIAN CLASSIFICATION OF VERY LARGE DATABASES ON ROLAP SYSTEMS Marcello Porto Alegre da Fonseca July/2007 Advisor: Nelson Francisco Favilla Ebecken Department: Civil Engineering This work deals with a model for Data Mining algorithm integration in an OLAP system implemented in a commercial data base. An algorithm of Bayesian classification was implemented in a Relational OLAP system (ROLAP). To execute this integration the implementation of a metadata model was necessary to support the system, as well as a function of classification to be used in the visualization OLAP tool. The results on the performance and accuracy were evaluated in relation to another tool for the classification of a database management system. An approach was made on the classification multiclasse so that can assess the performance of the classifier in this situation. v

6 ÍNDICE 1 Introdução DataWarehouse OLAP Integração de Data Mining e OLAP Classificação de Dados Implementação do Algoritmo Resultados Conclusões Referências bibliográficas Apêndice Listagens de Programas vi

7 1. Introdução O volume de dados armazenado em bancos de dados cresce continuamente, podendo chegar na ordem de terabytes. Essas grandes massas de dados podem ser encontradas facilmente em empresas de telefonia e petróleo e em alguns projetos científicos (INHOFF, 2003), além disso a diversidade de domínio no qual os dados pertencem aumentou, podendo pertencer tanto à área comercial quanto à científica. Por outro lado a tecnologia de bancos de dados também se desenvolveu nos últimos anos, oferecendo infra-estrutura capaz de gerenciar essa grande quantidade de dados de maneira eficiente (DATE, 2003). Atualmente, os principais fornecedores de bancos de dados são Oracle, Microsoft e IBM. Além disso os sistemas gerenciadores de banco de dados(sgbd) fornecem recursos de inteligência embutidos no próprio banco de dados, tal como mineração de dados e OLAP (ORACLE, 2005). A disponibilidade de grandes massas de dados armazenadas nesses bancos de dados, torna muito interessante a busca de conhecimento e informação útil. O conhecimento descoberto pode ser aplicado na tomada de decisões, tornando-se uma das mais promissoras tecnologias da indústria da informação(han, 1998). Os Datawarehouses surgiram como uma estrutura de banco de dados específica para armazenamento de grandes massas dados e atualmente estão consolidadados como a arquitetura ideal para análise exploratória de dados. Para analisar os dados de um Datawarehouse pode-se usar as tecnologias OLAP, de mineração de dados, relatórios e consultas adhoc (KINBALL, 1998). Os Datawarehouses possuem características específicas para que os dados armazenados nele estejam em uma forma consistente e consolidada, prontos para a análise exploratória. Os Datawarehouses tem sido usados para armazenar dados de diversas áreas de conhecimento, visto sua grande utilidade para a geração de informações consistentes, e também para auxiliar no processo de tomada de decisão. 1

8 (LIU e YOU, 2003) usaram os dados de um Datawarehouse a aplicaram uma rede neuro-fuzzy e técnicas de visualização de dados para melhorar a análise do setor de comércio eletrônico. (CHO V., NGAI E. N. T.,2003) desenvolveram um sistema de suporte a decisão, em que técnicas de mineração de dados foram usadas em dados multidimensionais de um Datawarehouse para auxiliar a seleção de agentes na indústria de seguros. (TURNER S.,2004) mostra as vantagens de utilizar os dados de um Datawarehouse na avaliação de dados demográficos. Mineração de dados (Data Mining) faz parte do processo de descoberta de conhecimento em grandes massas de dados utilizando diferentes atividades, tais como classificação, clusterização, predição e associação, podendo-se descobrir valiosas relações nos dados (ROIGER, 2003). Devido ao processo de construção do Datawarehouse, este torna-se um precioso aliado no processo de mineração de dados (PARSAYE, 1998), visto que a mineração essencialmente precisa dos dados. Mineração de dados é por essência multidisciplinar, e envolve as areas de banco de dados, estatística, inteligência artificial, visualização de dados e computação de alto desempenho. Segundo HAN (2001) Este processo de mineração busca a descoberta de conhecimento interessante a partir de grandes massas de dados armazenados em bancos de dados, Datawarehouses ou outros repositórios de informação. Em (KARGUPTA,2004) mostra-se a vasta aplicabilidade de mineração de dados em diversas áreas de conhecimento. Por se tratar de uma área multidisciplinar a mineração de dados pode também se aproveitar de avanços em outras áreas. Em (KARGUPTA,2000) descreve a importância e as tendências de pesquisa na área de mineração de dados distribuída e paralela. O termo KDD(Knowledge Discovery in Databases) define um processo iterativo que tenta extrair automaticamente, conhecimento útil dos dados. Existem algumas variações quanto ao número de etapas no processo de KDD, apesar disso todas as variantes são muito parecidas (ROIGER, 2003). 2

9 No processo de KDD existe a etapa de preparação dos dados, na qual os dados são preprocessados para obter consistência, esta etapa é uma das mais importantes e é requisito fundamental para a mineração de dados. Uma arquitetura ideal para o processo de mineração de dados seria consistido de um Datawarehouse, onde os dados estariam em uma forma consistente(han, 2001). O processo de KDD é referenciado por alguns autores como mineração de dados. Entretanto a mineração é uma das etapas do processo de KDD. A figura 1.1 mostra o processo de KDD e suas etapas. Figura 1.1 Processo de KDD (HAN, 2001). Etapas do processo de KDD: 1- Identificação dos objetivos: O foco dessa etapa é o entendimento do domínio a ser alcançado para a descoberta do conhecimento. 2- Criação do conjunto de dados a ser minerado: Criar um conjunto inicial de dados para serem analisados. 3- Preprocessamento dos dados: realizar a limpeza nos dados a serem analisados. 4- Transformação dos dados: realizar as transformações necessárias nos dados, alterando ou eliminando atributos dos dados. 3

10 5- Mineração dos dados: executar os algoritmos de mineração para encontrar o melhor modelo. 6- Interpretação e avaliação dos resultado: examinar os resultados da etapa de mineração para determiner se o que foi descoberto é útil. Pode-se voltar a etapas anteriores para refletir o processo com outros dados e ou atributos. 7- Tomada de ação: Implementação direta dos resultados do processo. OLAP (On-Line Analytical Processing) é uma tecnologia que explora os dados em um formato multidimensional, de onde se visualiza os dados em diferentes perspectivas e em diferentes níveis de agregação. A análise OLAP é interativa e guiada pelo usuário. OLAP é muito utilizado na análise exploratória dos dados de um Datawarehouse (THOMSEN, 2002). OLAP Mining ou OLAM foi o termo dado por HAN (1998) à fusão das tecnologias OLAP e de mineração de dados. OLAM integra a interatividade e flexibilidade de manipulação dos dados com os algoritmos de Data Mining, permitindo aos usuários minerar interativamente em diferentes porções de dados e em diferentes níveis de agregação, sendo assim uma poderosa ferramenta de análise de dados. Pode-se alterar as funções de Data Mining dinamicamente. A implementação e performance dessa integração são um grande desafio. 1.1 Objetivos Após as idéias sugeridas por HAN(1998), algumas implementações foram realizadas, como em TAN (1998) e HUA (1998), porém essas implementações usaram uma arquitetura MOLAP própria, e também sem alterações dinâmicas. O banco de dados SQL Server 2005 da Microsoft, realiza mineração de dados em cubos de dados, porém numa abordagem de Wizards. Nesta tese a implementação do algoritmo de classificação é feita de uma maneira em que a mineração se dará na visualização do cubo de dados, dentro da ferramenta OLAP. Sendo esta uma abordagem ainda não encontrada em ferramentas OLAP. O principal objetivo desta tese é mostrar o grande potencial de uso da integração das 4

11 tecnologias de mineração de dados e OLAP em bancos de dados relacionais para a descoberta de conhecimento em grandes massas de dados, propondo-se uma implementação para ser utilizada na visualização OLAP, baseada num cubo de dados ROLAP, realizando a classificação Bayesiana através de uma função de banco de dados, que é chamada on-line pela ferramenta OLAP. A execução do algoritmo, por estar numa ferramenta OLAP, deve ser feita num tempo aceitável aos padrões OLAP, que são de respostas rápidas. O classificador Bayesiano foi escolhido por possuir um algoritmo mais simples de ser implementado, mas apesar de sua simplicidade possui resultados bem satisfatórios. O algoritmo de classificação Bayesiana é implementado em um modelo de dados estrela, que é o mais usado nos Datawarehouses. A implementação é feita num banco de dados comercial para mostrar a fácil integração do algoritmo aos ambientes de produção das empresas. O ambiente ROLAP foi escolhido por ser o mais comum, e também para se utilizar linguagem SQL, que é padrão dos banco de dados. 1.2 Contribuição Neste trabalho foi implementado um classificador Bayesiano no ambiente ROLAP de um banco de dados Oracle 10G. A ferramenta usada na visualização do cubo de dados foi o Oracle Discoverer. A integração de OLAP e mineração de dados proposta na tese é relevante pela abordagem que se faz, o algoritmo é chamado durante a visualização OLAP, ou seja, enquanto se realiza a análise exploratória dos dados na ferramenta OLAP, por meio de uma função de banco de dados que executa a classificação Bayesiana. A dificuldade de realizar o algoritmo no modelo estrela se deve a necessidade de se executar o algoritmo na visualização OLAP, obtendo os resultados num tempo baixo, que é um dos requisitos das ferramentas OLAP, a velocidade nas operações. O modelo estrela apresenta diversas tabelas, aonde junções tem de ser feitas para que os dados sejam apresentados. A maioria das ferramentas de classificação, juntam os dados necessários numa única 5

12 tabela, e então realizam a classificação. Nesta tese não será necessário essa tabela, ou seja, não há necessidade de se ocupar mais espaço no banco de dados para realizar a classificação. A implementação faz uso de um modelo de metadados para armazenar as contabilizações necessárias ao funcionamento do algoritmo. A mineração de dados em um ambiente relacional estrela pode ser considerada um caso de mineração multirelacional. A classificação multirelacional é uma área de pesquisa muito importante por causa da popularidade dos bancos de dados relacionais, entretanto a maioria das abordagens não são escaláveis em relação ao número de relações e complexidade (YIN et al., 2003). Esta tese está organizada da seguinte maneira: os três primeiros capítulos tratam das tecnologias fundamentais para o desenvolvimento deste trabalho; em seguida é apresentado a implementação do classificador Bayesiano no ambiente OLAP. Depois mostra-se os resultados e comparações com outra ferramenta de classificação. No final são apresentadas as conclusões e trabalhos futuros. 6

13 2. Datawarehouse O Datawarehouse é um banco de dados mantido separadamente dos sistemas operacionais de uma empresa, no qual os dados estão em uma forma consolidada. O Datawarehouse quase sempre está armazenado em um banco de dados relacional, tal como Oracle ou Microsoft SQL SERVER, mas utiliza um modelo lógico de dados multidimensional como o star schema (SCALZO, 2003). A construção de um Datawarehouse pode ser vista como uma das etapas do processo de KDD. Devido a suas características de construção o Datawarehouse tornouse muito importante para a análise de dados e pode ser considerado como uma plataforma ideal para o processo de Data Mining (ROIGER, 2003). Os Datawarehouses são a base para as ferramentas OLAP, que permitem análise multidimensional dos dados em diferentes granularidades, e podem auxiliar o processo de mineração de dados na busca de conhecimento. Os Datawarehouses tem sido usados em diferentes áreas de conhecimento e sendo integrado a outras tecnologias como realizado em SAMPAIO et al. (2006), onde uma nova área de pesquisa é abordada, sendo chamada de Spatial Data Warehousing(SDW), que integra as tecnologias de Datawarehousing e Sistemas de Informações Geográficos(GIS). INMON (1996) define Um Datawarehouse é uma coleção de dados orientada a assunto, integrada, variante no tempo e não-volátil, para dar suporte ao processo de tomada de decisões. Orientado a assunto : um Datawarehouse é organizado em torno de um assunto tal como vendas ou compras. Integrado : O Datawarehouse pode ser construído a partir de diferentes fontes de dados heterogêneas, tais como bancos de dados relacionais, planilhas eletrônicas e arquivos textos. Todo um processo de limpeza e consistência de dados é realizado para que o dado seja carregado no Datawarehouse. 7

14 Variante no tempo : Os dados no Datawarehouse estão numa perspective histórica, ou seja, os dados estão descritos em função do tempo. Não-volátil : Os dados do Datawarehouse são apenas para leitura e raramente sofrem alterações, servindo apenas como fonte para consultas. 2.1 Arquitetura Um Datawarehouse é também visto como uma arquitetura para dar suporte ao processo de tomada de decisões. A arquitetura mais comum de um DataWarehouse é mostrada na figura 2.1. Nesta figura tem-se os sistemas transacionais ou OLTP como fonte do DataWarehouse, os dados dos sistemas OLTP passam por um processo de ETL(Extract, Transform and Load) para que sejam carregados no Datawarehouse (HAN, 2001). O Datawarehouse então serve como fonte para os servidores OLAP que podem ter sua implementação física do tipo relacional (ROLAP) ou Multidimensional (MOLAP). Os servidores OLAP por sua vez, são acessados pelas ferramentas de visualização OLAP, geradores de relatórios e ferramentas de Data Mining. Os metadados são definidos como dados sobre os dados. Possuem a informação necessária para uso e administração dos dados, além de fornecer a coesão entre as estruturas do ambiente do Datawarehouse. 8

15 Figura 2.1 Arquitetura de Datawarehouse - (HAN, 2001). Os metadados definem os objetos contidos no Datawarehouse e devem conter a descrição da estrutura do mesmo, tais como fatos e dimensões. Devem também conter todo o mapeamento da carga dos sistemas OLTP para o Datawarehouse, tais como fontes e algoritmos de transformação e limpeza, e também as regras de agregação dos dados (KINBALL,2004). O processo de ETL é o responsável pela carga do Datawarehouse a partir dos sistemas OLTP. É neste local que os dados tornam-se consistentes e íntegros. É formado por um conjunto de programas instáveis, que seguem a mudança constante dos sistemas OLTP. Esses programas possuem a função de ler os dados dos sistemas OLTP, padroniza-los e mapea-los no local correto do Datawarehouse (KINBALL, 2004). 9

16 O processo de ETL inclui as seguintes etapas: Extração : leitura de dados dos sistemas transacionais e/ou de fontes externas; Limpeza: encontra erros nos dados e corrige quando possível; Transformação : adequação dos dados para integração no Datawarehouse; Carga : agrega, indexa e carrega os dados no Datawarehouse. A construção de um Datawarehouse, contendo toda a preparação dos dados, pode ser vista como uma importante etapa de pré-processamento para a mineração de dados, no qual esta etapa ocupa de 70% a 80% do tempo gasto num processo de mineração de dados (HAN, 2001). Podem existir três tipos de aplicações usadas sobre um Datawarehouses: e relatórios; Processamento de informação: suporta consultas, análises estatísticas Processamento Analítico: ferramentas OLAP e suas operações; Mineração de dados: descoberta de conhecimento automatizada, encontrando padrões escondidos nos dados. Pode-se realizar classificações e predições, além de visualizações das minerações dos dados. 2.2 Diferenças entre OLTP e OLAP Os sistemas transacionais, também chamados de OLTP (On-Line Transaction Processing) servem para dar suporte as operações diárias das empresas, tais como contabilidade, estoque e outros. O Datawarehouse diferentemente é a base de um tipo de sistema chamado OLAP (On-Line Analytical Processing), esses sistemas podem apresentar dados em 10

17 diferentes perspectivas e formatos e atender as diversas necessidades dos usuários responsáveis por tomada de decisões (KIMBALL,2002). Os dados de um sistema OLTP são tipicamente muito detalhados e possuem características operacionais, não tendo muita utilidade em tomadas de decisão. Em um sistema OLAP, tem-se grandes quantidades de dados históricos consistentes armazenados em vários níveis de granularidade. Um sistema OLTP usa a modelagem Entidade-Relacionamento(ER) e um projeto lógico de banco de dados orientado a aplicações. Em um sistema OLAP usa-se um modelo de dados conhecido como estrela e um projeto lógico de banco de dados orientado a assunto (KINBALL, 2002). Os sistemas OLTP focam o dado atual de uma empresa, sem se preocupar com o histórico, característica dos sistemas OLAP. Os acessos nos sistemas OLTP geralmente são atômicos e de curta duração e necessitam de controles de concorrência e recuperação. Nos sistemas OLAP as operações são do tipo read-only e requerem grande quantidade de dados em uma única consulta. Para manter a boa performance dos sistemas OLTP e OLAP, o Datawarehouse deve estar separado dos sistemas OLTP, pois sua finalidade é diferente dos mesmos. As complexas consultas de um sistema OLAP podem degradar a performance de um sistema OLTP, se o mesmo estiver junto com um sistema OLTP (KINBALL, 2002). Alguns fornecedores de bancos de dados tem otimizado seus produtos para que os sistemas OLAP e OLTP possam coexistir no mesmo ambiente. É necessário avaliar a situação para verificar a queda da performance dos sistemas nessa situação ( ORACLE, 2005). 11

18 2.3 Modelo Multidimensional No Datawarehouse utiliza-se o modelo de dados multidimensional, sendo que o mais utilizado é o estrela (star schema), entretanto existem outros como o flocos de neve(snowflake) e o de constelação ( HAN, 2001). No modelo estrela uma grande tabela fato central contendo as medidas é rodeada por tabelas dimensões, sendo que as chaves das dimensões se conectam com a tabela fato por meio de chaves estrangeiras. Neste modelo uma tabela de dados central possui os dados das medidas, assunto que está sendo analisado, por exemplo, vendas, custos ou quantidades vendidas. Um Fato no modelo estrela possui uma tabela Fato associada no DataWarehouse. Cada tabela Fato possui as medidas numéricas e as chaves de cada dimensão associada. A tabela Fato é conectada a tabelas de referência, essas tabelas são chamadas de dimensões, por exemplo tempo, produto e região. Cada dimensão no modelo estrela possui uma tabela associada no DataWarehouse, chamada de tabela dimensão. As dimensões possuem atributos e hierarquias. Os dados das dimensões são referências para as medidas da tabela Fato (SCALZO, 2003). Logo, as medidas são indexadas pelas dimensões, ou seja, as dimensões são únicas para determinar uma medida. As dimensões podem ser hierárquicas, como exemplo a dimensão tempo que possui uma hierarquia de ano, mês e dia. Logo pode-se ter medidas vistas por dia, por mês e por ano, ou seja, os dados são vistos em diferentes perspectivas. 12

19 Dimensão 1 Tabela Fato Dimensão 2 atributos medida 1 medida 2 medida n atributos Dimensão 3 atributos Figura 2.2: Formato do modelo de dados estrela. As medidas podem ser agregadas, a partir do nível mais baixo, nos níveis hierárquicos superiores das dimensões. As medidas agregadas são definidas por funções numéricas de agregação que podem ser avaliadas para cada célula do cubo de dados. As medidas podem ser classificadas por suas funções de agregação em três grupos: distributivas, algébricas e holísticas (THONSEN, 2002). Ex.: count, min, max. Distributivas : f(c) = f( f(c1),f(c2),f(c3) ) Algébricas : f(c) = f(c1) / f(c2) Ex.: média, variância. Ex.: Rank. Holísticas : As outras funções de agregação. 13

20 As medidas agregadas com funções de agregação distributiva ou algébrica são simples de manipular, pois podem ser agregadas diretamente de suas sub-agregações, enquanto com funções holísticas este tratamento é muito difícil. O modelo multidimensional pode ser usado para modelar diversas áreas de conhecimento, as mais comuns usam dados comerciais e industriais (KIMBALL, 2002), entretanto outras áreas tem usado este modelo para seus problemas. Em ADOMAVICIUS et al. (2005) é apresentado um modelo multidimensional de recomendações que incorpora informações contextuais dentro de um processo de recomendação e sugere recomendações baeadas em dimensões, perfis e hierarquias. Em MOLINA et al. (2006) sugere-se um modelo multidimensional fuzzy, que usa lógica fuzzy para modelar a imprecisão dos dados. Atualmente, a maioria dos Datawarehouses são usados para OLAP, entretanto, com o crescimento do uso de Data Mining pode-se esperar que os dados dos Datawarehouses servirão como importante fonte para o processo de Data Mining (HAN, 2001). 14

21 3. OLAP OLAP é parte da tecnologia de Datawarehouse que habilita usuários a explorar dados do Datawarehouse interativamente. As ferramentas OLAP fornecem funcionalidades para análise interativa de dados em diferentes visões e granularidades (HAN, 2001). Desde o ínicio da tecnologia OLAP (COOD, 1993), duas diferentes abordagens podem ser usadas com a tecnologia OLAP. A primeira estende o modelo relacional para garantir os requisitos OLAP, sendo que surgiram outras propostas (KIMBALL,1998) e todas incluem extensões para operar o cubo de dados. A segunda abordagem trata sobre a implantação de uma estrutura multidimensional dos dados, e alguns autores propuseram modelos sobre a mesma (MOLINA et al,2006). Alguns trabalhos relativos a implementação OLAP foram realizados como em BURDICK et al. (2007), onde o modelo OLAP é extendido para representar a imprecisão e incerteza de dados. Acredita-se que apenas 20% de informação pode ser extraída de Datawarehouses apenas na forma dados numéricos, os outros 80% estão escondidos em dados não numéricos ou até mesmo em documentos. Uma infraestrutura é proposta para combinar processamento textual com processamento numérico OLAP (TSENG, CHOU, 2006). As ferramentas OLAP tem sido usadas para diferentes necessidades, KUMAR et al. (2007) implementa um sistema OLAP para aparelhos móveis e descreve uma metodologia para tal. Em BERNDT et al. (2006), as ferramentas OLAP são usadas para identificar padrões que indicam a presença de um agente biológico ou químico no ambiente. NADIM et al. (2005) utiliza a tecnologia OLAP para explorar os dados de um banco de dados de genes, extraíndo informação biológica significante e de maneira rápida, e servindo como suplementação a análise de cluster. FORD (2002) mostra a utilidade de OLAP em aplicações com Dashboards e indicadores de performance(kpi) e como usar a análise exploratória do OLAP. ZAIANE (1998) criou um sistema MOLAP a partir de web logs e realizou consultas 15

22 analíticas por meio de operações OLAP, e buscou descobrir padrões de tempo nos logs de acesso. A partir do modelo estrela pode-se, através de ferramentas OLAP, construir cubos de dados OLAP (figura 3.1), e realizar buscas nesse espaço multidimensional (figura 3.2). Os cubos de dados são visões lógicas multidimensionais dos dados com referência hierárquica. As ferramentas OLAP fornecem funcionalidades para análise interativa de dados em diferentes visões e granularidades, permitindo visualizar as hierarquias e navegar pelas dimensões (THONSEN, 2002). Figura 3.1: Cubo lógico de dados onde as arestas representam as dimensões (HAN, 2001). A essência do OLAP se dá pela eficiente computação das agregações dos diversos conjuntos de dimensões do cubo de dados. Estas agregações são referenciadas em SQL como group by ( HAN, 2001). 16

23 3.1 Operações OLAP As operações no cubo de dados são chamadas operações OLAP, através delas se consegue flexibilidade durante as consultas aos dados no cubo. Conseqüentemente o cubo de dados é formado por medidas numéricas para análise e um conjunto de dimensões que define a medida. As principais operações OLAP são( THONSEN, 2002): Roll-up: Ocorre diminuição do nível de detalhe da informação (Ex.: passagem de mês para ano). Drill-down: Ocorre aumento do nível de detalhe da informação (Ex.: passagem de ano para mês). Slice/Dice: Visualizar sub-cubos do cubo de dados (Ex.: ver dados do ano de 2002). Pivot: Alterar linhas por colunas na visualização de resultados. Figura 3.2: Busca tridimensional de células no cubo de dados (THOMSEN,2002). 17

24 Já que OLAP necessita acessar diferentes sub-cubos e suas agregações, seria interessante pré-computar todos os sub-cubos, materializando completamente o cubo. Isso é impossível na maioria das vezes, pois para tal tarefa seria necessário muito espaço de armazenamento. Se for materializado somente os sub-cubos de maior granularidades, tem-se um grande esforço computacional para agregar os dados em tempo de execução. Uma solução para isto é pré-computar alguns sub-cubos e computar outros em tempo de execução. A escolha dos sub-cubos a materializar é uma importante decisão que afeta a eficiência das operações OLAP. LIN (2004) propôs uma solução com algoritmos genéticos para melhorar a performance de busca de dados em ambientes OLAP. Em LAWRENCE (2006) o uso de algoritmos genéticos é feito para acelerar a busca de dados no espaço multidimensional. 3.2 Arquiteturas OLAP Existem dois principais tipos de implementações físicas de OLAP (ORACLE, 2005): ROLAP (Relational OLAP): Usam tabelas relacionais como estrutura básica de dados e uma célula do espaço multidimensional é uma tupla. Esta tupla contém atributos que identificam a localização da célula no espaço multidimensional e outros atributos que contém as medidas. As operações OLAP são realizadas através de SQL. MOLAP (Multidimensinal OLAP): Usam arrays multidimensinais como estruturas de dados e as operações OLAP são realizadas sobre estas estruturas. O modelo multidimensional é implantado em matrizes tendo as dimensões como os índices, e a medida como conteúdo da célula, nesta implementação apenas a medida é armazenada. As técnicas para implementação eficiente do cubo são muito diferentes para ROLAP e MOLAP. 18

25 Já foi demonstrado que MOLAP é mais eficiente que ROLAP, devida a sua estrutura de indexação, enquanto ROLAP possui maior escalabilidade, devido a sua implantação ser sobre a estrutura dos bancos de dados relacionais. O uso de SQL em análises OLAP podem gerar problemas de performance devido as características da análise OLAP. Para cubos de dados pequenos e médios, MOLAP é mais eficiente que ROLAP (HAN, 2001). MOLAP tem uma excelente indexação e rápida busca de células, mas pode sofrer com o problema de esparsividade dos dados, causando baixa utilização de armazenamento. Existe uma solução híbrida (HOLAP), no qual os dados base são mantidos em tabelas relacionais e as agregações estão na forma multidimensional. A figura 3.3 mostra como a multidimensionalidade dos dados são visualizadas pelas ferramentas OLAP em telas, através de uma configuração tridimensional de linhas, colunas e páginas. Através dessa combinação pode-se analisar os dados em várias dimensões numa única tela. Figura 3.3 visualização OLAP - (THOMSEN,2002). 19

26 3.3 Visualização OLAP Outro recurso muito útil das ferramentas OLAP é a capacidade de gerar gráficos em tempo real, de acordo com os dados que estão sendo visualizados no momento(figura 3.4). Figura 3.4 Gráficos nas ferramentas OLAP - (THOMSEN,2002). As ferramentas OLAP possuem a capacidade de mudar sua aparencia de acordo com o valor do dado, isso é muito útil para visualizar exceções como mostrado na figura 3.5, nesta figura os valores de células que satisfazem a uma determinada condição são ser realçados com cores, para que fique evidente ao usuário a exceção. 20

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto OLPT x OLAP Roteiro OLTP Datawarehouse OLAP Operações OLAP Exemplo com Mondrian e Jpivot

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

Módulo 4. Construindo uma solução OLAP

Módulo 4. Construindo uma solução OLAP Módulo 4. Construindo uma solução OLAP Objetivos Diferenciar as diversas formas de armazenamento Compreender o que é e como definir a porcentagem de agregação Conhecer a possibilidade da utilização de

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP.

DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. DESENVOLVIMENTO DE PLUG-INS KETTLE PARA GERAÇÃO DE MONDRIAN SCHEMA A PARTIR DE BASES RELACIONAIS, UTILIZANDO A METODOLOGIA AGILE ROLAP. Eduardo Cristovo de Freitas Aguiar (PIBIC/CNPq), André Luís Andrade

Leia mais

Chapter 3. Análise de Negócios e Visualização de Dados

Chapter 3. Análise de Negócios e Visualização de Dados Chapter 3 Análise de Negócios e Visualização de Dados Objetivos de Aprendizado Descrever a análise de negócios (BA) e sua importância par as organizações Listar e descrever brevemente os principais métodos

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining Decisão Suporte: Warehousing, OLAP e Data Mining 7-1 Introdução Cada vez mais, organizações estão analizando dados correntes e históricos para identificar padrões úteis e suporte a estratégias de negócios.

Leia mais

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining Decisão Suporte: Warehousing, OLAP e Data Mining 7-1 Introdução Cada vez mais, organizações estão analizando dados correntes e históricos para identificar padrões úteis e suporte a estratégias de negócios.

Leia mais

Data Warehouses Uma Introdução

Data Warehouses Uma Introdução Data Warehouses Uma Introdução Alex dos Santos Vieira, Renaldy Pereira Sousa, Ronaldo Ribeiro Goldschmidt 1. Motivação e Conceitos Básicos Com o advento da globalização, a competitividade entre as empresas

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Prova INSS RJ - 2007 cargo: Fiscal de Rendas

Prova INSS RJ - 2007 cargo: Fiscal de Rendas Prova INSS RJ - 2007 cargo: Fiscal de Rendas Material de Apoio de Informática - Prof(a) Ana Lucia 53. Uma rede de microcomputadores acessa os recursos da Internet e utiliza o endereço IP 138.159.0.0/16,

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4

Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Sumário Capítulo 1 - A revolução dos dados, da informação e do conhecimento 1 B12 4 Capítulo 2 - Reputação corporativa e uma nova ordem empresarial 7 Inovação e virtualidade 9 Coopetição 10 Modelos plurais

Leia mais

3 Metodologia de Previsão de Padrões de Falha

3 Metodologia de Previsão de Padrões de Falha 3 Metodologia de Previsão de Padrões de Falha Antes da ocorrência de uma falha em um equipamento, ele entra em um regime de operação diferente do regime nominal, como descrito em [8-11]. Para detectar

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

Requisitos de business intelligence para TI: O que todo gerente de TI deve saber sobre as necessidades reais de usuários comerciais para BI

Requisitos de business intelligence para TI: O que todo gerente de TI deve saber sobre as necessidades reais de usuários comerciais para BI Requisitos de business intelligence para TI: O que todo gerente de TI deve saber sobre as necessidades reais de usuários comerciais para BI Janeiro de 2011 p2 Usuários comerciais e organizações precisam

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso 5 Estudo de Caso De modo a ilustrar a estruturação e representação de conteúdos educacionais segundo a proposta apresentada nesta tese, neste capítulo apresentamos um estudo de caso que apresenta, para

Leia mais

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining Curso de Data Mining - Aula 1 1. Como surgiu 2. O que é 3. Em que tipo de dados pode ser aplicado 4. Que tipos de padrões podem ser minerados 5. Critérios de classificação de sistemas de Data Mining 6.

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com Banco de Dados, Integração e Qualidade de Dados Ceça Moraes cecafac@gmail.com Sobre a professora CeçaMoraes Doutora em Computação (UFPE) Áreas de atuação Desenvolvimento de Software e Banco de Dados Experiência

Leia mais

Analysis Services. Manual Básico

Analysis Services. Manual Básico Analysis Services Manual Básico Construindo um Banco de Dados OLAP... 2 Criando a origem de dados... 3 Definindo as dimensões... 5 Níveis de dimensão e membros... 8 Construindo o cubo... 11 Tabela de fatos...12

Leia mais

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Adriano Maranhão BUSINESS INTELLIGENCE (BI), Adriano Maranhão BUSINESS INTELLIGENCE (BI), BUSINESS INTELLIGENCE (BI) O termo Business Intelligence (BI), popularizado por Howard Dresner do Gartner Group, é utilizado para definir sistemas orientados

Leia mais

UTILIZANDO O SOFTWARE WEKA

UTILIZANDO O SOFTWARE WEKA UTILIZANDO O SOFTWARE WEKA O que é 2 Weka: software livre para mineração de dados Desenvolvido por um grupo de pesquisadores Universidade de Waikato, Nova Zelândia Também é um pássaro típico da Nova Zelândia

Leia mais

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009.

Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. REFERÊNCIAS o o Business Intelligence Um enfoque gerencial para a Inteligência do Negócio.Efrain Turban e outros.tradução. Bookman, 2009. Competição Analítica - Vencendo Através da Nova Ciência Davenport,

Leia mais

Engenharia de Software Introdução. Ricardo Argenton Ramos UNIVASF Engenharia de Software I - Aula 1

Engenharia de Software Introdução. Ricardo Argenton Ramos UNIVASF Engenharia de Software I - Aula 1 Engenharia de Software Introdução Ricardo Argenton Ramos UNIVASF Engenharia de Software I - Aula 1 Tópicos Apresentação da Disciplina A importância do Software Software Aplicações de Software Paradigmas

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?

Leia mais

Business Intelligence. BI CEOsoftware Partner YellowFin

Business Intelligence. BI CEOsoftware Partner YellowFin Business Intelligence BI CEOsoftware Partner YellowFin O que é Business Intelligence Business Intelligence (BI) é a utilização de uma série de ferramentas para coletar, analisar e extrair informações,

Leia mais

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de

Leia mais

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics: Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015 Big Data Analytics: Como melhorar a experiência do seu cliente Anderson Adriano de Freitas RESUMO

Leia mais

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Apresentação O programa de Pós-graduação Lato Sensu em Business Intelligence Inteligência Competitiva tem por fornecer conhecimento

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

Semântica para Sharepoint. Busca semântica utilizando ontologias

Semântica para Sharepoint. Busca semântica utilizando ontologias Semântica para Sharepoint Busca semântica utilizando ontologias Índice 1 Introdução... 2 2 Arquitetura... 3 3 Componentes do Produto... 4 3.1 OntoBroker... 4 3.2 OntoStudio... 4 3.3 SemanticCore para SharePoint...

Leia mais

Gestão do Conteúdo. 1. Introdução

Gestão do Conteúdo. 1. Introdução Gestão do Conteúdo 1. Introdução Ser capaz de fornecer informações a qualquer momento, lugar ou através de qualquer método e ser capaz de fazê-lo de uma forma econômica e rápida está se tornando uma exigência

Leia mais

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1 Análise Inteligente de Dados Objectivo: Curso de Engenharia de Sistemas e Informática - 5º Ano Ficha T. Prática n.º 1 Estudo do paradigma multidimensional com introdução de uma extensão ao diagrama E/R

Leia mais

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados: MC536 Introdução Sumário Conceitos preliminares Funcionalidades Características principais Usuários Vantagens do uso de BDs Tendências mais recentes em SGBDs Algumas desvantagens Modelos de dados Classificação

Leia mais

Fundamentos da Análise Multidimensional

Fundamentos da Análise Multidimensional Universidade Técnica de Lisboa INSTITUTO SUPERIOR DE ECONOMIA E GESTÃO Informática e Sistemas de Informação Aplicados em Economia Fundamentos da Análise Multidimensional Fundamentos da Análise Multidimensional

Leia mais

APRESENTAÇÃO DO PRODUTO. Mais que um software, o método mais eficaz para conciliar.

APRESENTAÇÃO DO PRODUTO. Mais que um software, o método mais eficaz para conciliar. APRESENTAÇÃO DO PRODUTO Mais que um software, o método mais eficaz para conciliar. Com Conciliac é possível conciliar automaticamente qualquer tipo de transação; Bancos, Cartões de Crédito e Débito, Contas

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence

Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence. Business Intelligence Juntamente com o desenvolvimento desses aplicativos surgiram os problemas: & Data Warehouse July Any Rizzo Oswaldo Filho Década de 70: alguns produtos de BI Intensa e exaustiva programação Informação em

Leia mais

ADM041 / EPR806 Sistemas de Informação

ADM041 / EPR806 Sistemas de Informação ADM041 / EPR806 Sistemas de Informação UNIFEI Universidade Federal de Itajubá Prof. Dr. Alexandre Ferreira de Pinho 1 Sistemas de Apoio à Decisão (SAD) Tipos de SAD Orientados por modelos: Criação de diferentes

Leia mais

INDICE 3.APLICAÇÕES QUE PODEM SER DESENVOLVIDAS COM O USO DO SAXES

INDICE 3.APLICAÇÕES QUE PODEM SER DESENVOLVIDAS COM O USO DO SAXES w w w. i d e a l o g i c. c o m. b r INDICE 1.APRESENTAÇÃO 2.ESPECIFICAÇÃO DOS RECURSOS DO SOFTWARE SAXES 2.1. Funcionalidades comuns a outras ferramentas similares 2.2. Funcionalidades próprias do software

Leia mais

Engenharia de Software Introdução. Ricardo Argenton Ramos UNIVASF Engenharia de Software I - Aula 1

Engenharia de Software Introdução. Ricardo Argenton Ramos UNIVASF Engenharia de Software I - Aula 1 Engenharia de Software Introdução Ricardo Argenton Ramos UNIVASF Engenharia de Software I - Aula 1 Tópicos Apresentação da Disciplina A importância do Software Software Aplicações de Software Paradigmas

Leia mais

Interatividade aliada a Análise de Negócios

Interatividade aliada a Análise de Negócios Interatividade aliada a Análise de Negócios Na era digital, a quase totalidade das organizações necessita da análise de seus negócios de forma ágil e segura - relatórios interativos, análise de gráficos,

Leia mais

Avaliando o que foi Aprendido

Avaliando o que foi Aprendido Avaliando o que foi Aprendido Treinamento, teste, validação Predição da performance: Limites de confiança Holdout, cross-validation, bootstrap Comparando algoritmos: o teste-t Predecindo probabilidades:função

Leia mais

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE

CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE CONSIDERAÇÕES SOBRE ATIVIDADES DE IDENTIFICAÇÃO, LOCALIZAÇÃO E TRATAMENTO DE DADOS NA CONSTRUÇÃO DE UM DATA WAREHOUSE Fabio Favaretto Professor adjunto - Programa de Pós Graduação em Engenharia de Produção

Leia mais

Data Warehouse Processos e Arquitetura

Data Warehouse Processos e Arquitetura Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997)

Leia mais

Complemento II Noções Introdutória em Redes Neurais

Complemento II Noções Introdutória em Redes Neurais Complemento II Noções Introdutória em Redes Neurais Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Data Warehouse. Debora Marrach Renata Miwa Tsuruda Debora Marrach Renata Miwa Tsuruda Agenda Introdução Contexto corporativo Agenda Introdução Contexto corporativo Introdução O conceito de Data Warehouse surgiu da necessidade de integrar dados corporativos

Leia mais

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados slide 1 1 Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall Objetivos de estudo Como um banco de dados

Leia mais

3 Market Basket Analysis - MBA

3 Market Basket Analysis - MBA 2 Mineração de Dados 3 Market Basket Analysis - MBA Market basket analysis (MBA) ou, em português, análise da cesta de compras, é uma técnica de data mining que faz uso de regras de associação para identificar

Leia mais

AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP.

AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP. AGILE ROLAP - UMA METODOLOGIA ÁGIL PARA IMPLEMENTAÇÃO DE AMBIENTES DE NEGÓCIOS BASEADO EM SERVIDORES OLAP. Luan de Souza Melo (Fundação Araucária), André Luís Andrade Menolli (Orientador), Ricardo G. Coelho

Leia mais

1 UML (UNIFIED MODELING LANGUAGE)

1 UML (UNIFIED MODELING LANGUAGE) 1 UML (UNIFIED MODELING LANGUAGE) Segundo Tonsig (2003), para conseguir desenvolver um software capaz de satisfazer as necessidades de seus usuários, com qualidade, por intermédio de uma arquitetura sólida

Leia mais

Complemento I - Noções Introdutórias em Data Warehouses

Complemento I - Noções Introdutórias em Data Warehouses Complemento I - Noções Introdutórias em Data Warehouses Esse documento é parte integrante do material fornecido pela WEB para a 2ª edição do livro Data Mining: Conceitos, técnicas, algoritmos, orientações

Leia mais

Administração de Sistemas de Informação Gerenciais UNIDADE IV: Fundamentos da Inteligência de Negócios: Gestão da Informação e de Banco de Dados Um banco de dados é um conjunto de arquivos relacionados

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR Uma exploração preliminar dos dados para compreender melhor suas características. Motivações-chave da exploração de dados incluem Ajudar na seleção da técnica correta para pré-processamento ou análise

Leia mais

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP Banco de Dados Introdução João Eduardo Ferreira Osvaldo Kotaro Takai jef@ime.usp.br DCC-IME-USP Importância dos Bancos de Dados A competitividade das empresas depende de dados precisos e atualizados. Conforme

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Conceitos Básicos Introdução Banco de Dados I Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM Dados

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani BI Business Intelligence A inteligência Empresarial, ou Business Intelligence, é um termo do Gartner Group. O conceito surgiu na década de 80 e descreve

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION

REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION REQUIREMENTS TRACEABILITY MATRIX: AUTOMATIC GENERATION AND VISUALIZATION Seminário da disciplina Engenharia de Requisitos Aluno: Eliaquim Lima Sá Neto (elsn@cin.ufpe.br) Autores 2 Sandra Fabbri Professora

Leia mais

BUSINESS INTELLIGENCE -Inteligência nos Negócios-

BUSINESS INTELLIGENCE -Inteligência nos Negócios- UNIVERSIDADE SÃO FRANCISCO CENTRO DE CIÊNCIAS JURÍDICAS, HUMANAS E SOCIAIS BUSINESS INTELLIGENCE -Inteligência nos Negócios- Curso: Administração Hab. Sistemas de Informações Disciplina: Gestão de Tecnologia

Leia mais

MetrixND. especificações. MetrixND - Ferramenta de previsão de energia elétrica

MetrixND. especificações. MetrixND - Ferramenta de previsão de energia elétrica MetrixND especificações MetrixND - Ferramenta de previsão de energia elétrica Visão geral O MetrixND da Itron é uma ferramenta de modelagem flexível, bastante usada pelos principais serviços de previsão

Leia mais

Tópicos. Engenharia de Software: Uma Visão Geral

Tópicos. Engenharia de Software: Uma Visão Geral Tópicos 2 3 Engenharia de Software: Uma Visão Geral SCE 186 - Engenharia de Software Profs. José Carlos Maldonado e Elisa Yumi Nakagawa 2 o semestre de 2002 A importância do Software Software Aplicações

Leia mais

Uma análise multidimensional dos dados estratégicos da empresa usando o recurso OLAP do Microsoft Excel

Uma análise multidimensional dos dados estratégicos da empresa usando o recurso OLAP do Microsoft Excel Uma análise multidimensional dos dados estratégicos da empresa usando o recurso OLAP do Microsoft Excel Carlos Alberto Ferreira Bispo (AFA) cafbispo@siteplanet.com.br Daniela Gibertoni (FATECTQ) daniela@fatectq.com.br

Leia mais

Prof. Marcelo Machado Cunha www.marcelomachado.com mcelobr@yahoo.com.br

Prof. Marcelo Machado Cunha www.marcelomachado.com mcelobr@yahoo.com.br Prof. Marcelo Machado Cunha www.marcelomachado.com mcelobr@yahoo.com.br Ementa Introdução a Banco de Dados (Conceito, propriedades), Arquivos de dados x Bancos de dados, Profissionais de Banco de dados,

Leia mais

Sistemas de Informação I

Sistemas de Informação I + Sistemas de Informação I Tipos de SI Ricardo de Sousa Britto rbritto@ufpi.edu.br + Introdução 2 n As organizações modernas competem entre si para satisfazer as necessidades dos seus clientes de um modo

Leia mais

e-business A IBM definiu e-business como: GLOSSÁRIO

e-business A IBM definiu e-business como: GLOSSÁRIO Através do estudo dos sistemas do tipo ERP, foi possível verificar a natureza integradora, abrangente e operacional desta modalidade de sistema. Contudo, faz-se necessário compreender que estas soluções

Leia mais

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados Sistema de Bancos de Dados Conceitos Gerais Sistema Gerenciador de Bancos de Dados # Definições # Motivação # Arquitetura Típica # Vantagens # Desvantagens # Evolução # Classes de Usuários 1 Nível 1 Dados

Leia mais

Uma Ferramenta Web para BI focada no Gestor de Informação

Uma Ferramenta Web para BI focada no Gestor de Informação Uma Ferramenta Web para BI focada no Gestor de Informação Mikael de Souza Fernandes 1, Gustavo Zanini Kantorski 12 mikael@cpd.ufsm.br, gustavoz@cpd.ufsm.br 1 Curso de Sistemas de Informação, Universidade

Leia mais

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS

Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS Processo Decisório, OLAP e Relatórios Corporativos OLAP E RELATÓRIOS CORPORATIVOS Sumário Conceitos/Autores chave... 3 1. Introdução... 5 2. OLAP... 6 3. Operações em OLAP... 8 4. Arquiteturas em OLAP...

Leia mais

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado) SISTEMA INTERNO INTEGRADO PARA CONTROLE DE TAREFAS INTERNAS DE UMA EMPRESA DE DESENVOLVIMENTO

Leia mais

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação

Arquiteturas de DW e Abordagens de Implementação. Arquiteturas e Abordagens de Implementação Curso de Dwing TecBD-DI PUC-Rio Prof. Rubens Melo Arquiteturas de DW e Abordagens de Implementação Arquiteturas e Abordagens de Implementação Arquitetura adequada é fundamental Infra-estrutura disponível

Leia mais

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES.

BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Encontro de Ensino, Pesquisa e Extensão, Presidente Prudente, 22 a 25 de outubro, 2012 88 BUSINESS INTELLIGENCE, O ELEMENTO CHAVE PARA O SUCESSO DAS ORGANIZAÇÕES. Andrios Robert Silva Pereira, Renato Zanutto

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Mining Os métodos tradicionais de Data Mining são: Classificação Associa ou classifica um item a uma ou várias classes categóricas pré-definidas.

Leia mais

Business Intelligence e ferramentas de suporte

Business Intelligence e ferramentas de suporte O modelo apresentado na figura procura enfatizar dois aspectos: o primeiro é sobre os aplicativos que cobrem os sistemas que são executados baseados no conhecimento do negócio; sendo assim, o SCM faz o

Leia mais

Roteiro 2 Conceitos Gerais

Roteiro 2 Conceitos Gerais Roteiro 2 Conceitos Gerais Objetivos: UC Projeto de Banco de Dados Explorar conceitos gerais de bancos de dados; o Arquitetura de bancos de dados: esquemas, categorias de modelos de dados, linguagens e

Leia mais

Exemplo de Aplicação do DataMinig

Exemplo de Aplicação do DataMinig Exemplo de Aplicação do DataMinig Felipe E. Barletta Mendes 19 de fevereiro de 2008 INTRODUÇÃO AO DATA MINING A mineração de dados (Data Mining) está inserida em um processo maior denominado Descoberta

Leia mais

http://www.publicare.com.br/site/5,1,26,5480.asp

http://www.publicare.com.br/site/5,1,26,5480.asp Página 1 de 7 Terça-feira, 26 de Agosto de 2008 ok Home Direto da redação Última edição Edições anteriores Vitrine Cross-Docking Assine a Tecnologística Anuncie Cadastre-se Agenda Cursos de logística Dicionário

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS VINICIUS DA SILVEIRA SEGALIN FLORIANÓPOLIS OUTUBRO/2013 Sumário

Leia mais

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante Banco de Dados 1 Programação sucinta do curso:. Conceitos fundamentais de Banco de Dados.. Arquitetura dos Sistemas Gerenciadores de Banco de Dados (SGBD ou DBMS).. Características típicas de um SGBD..

Leia mais

Autor: Júlio Battisti www.juliobattisti.com.br

Autor: Júlio Battisti www.juliobattisti.com.br Autor: Júlio Battisti www.juliobattisti.com.br Livro: Aprenda com Júlio Battisti: Excel 2010 Avançado, Análise de Dados e Cenários, Tabelas e Gráficos Dinâmicos, Macros e Programação VBA - Através de Exemplos

Leia mais

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS Tácio Dias Palhão Mendes Bacharelando em Sistemas de Informação Bolsista de Iniciação Científica da FAPEMIG taciomendes@yahoo.com.br Prof.

Leia mais

Data Warehousing Visão Geral do Processo

Data Warehousing Visão Geral do Processo Data Warehousing Visão Geral do Processo Organizações continuamente coletam dados, informações e conhecimento em níveis cada vez maiores,, e os armazenam em sistemas informatizados O número de usuários

Leia mais

Bases de Dados aplicadas a Inteligência de Negócios

Bases de Dados aplicadas a Inteligência de Negócios Agenda Bases de Dados aplicadas a Inteligência de Negócios Professor Sérgio Rodrigues professor@sergiorodrigues.net Sistemas de Gerenciamento de Bancos de Dados (SGBD) Tipos de Banco de Dados Noções de

Leia mais

Engenharia de Software

Engenharia de Software CENTRO UNIVERSITÁRIO NOVE DE JULHO Profº. Edson T. França edson.franca@uninove.br Software Sistemas Conjunto de elementos, entre os quais haja alguma relação Disposição das partes ou dos elementos de um

Leia mais