Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino
OLAP Material preparado: Prof. Marcio Vitorino
Soluções MOLAP promovem maior independência de fornecedores de SGBDs que soluções ROLAP. Em um esquema de dados multidimensional, a tabela de fatos, usualmente, contém uma chave primária composta por várias chaves estrangeiras e algumas colunas cujos tipos de dados são, usualmente, nominais, ao passo que as tabelas de dimensões, usualmente, contêm uma chave primária simples e algumas colunas cujos tipos de dados são, usualmente, escalares. O uso de tecnologias e de sistemas OLAP e datawarehouse é mais justificável no nível estratégico que no nível operacional. O uso de tecnologias e de sistemas OLTP é mais justificado no nível do conhecimento que no nível operacional.
a) Assim como no ciclo de vida de desenvolvimento de sistemas clássicos, o ciclo de vida de desenvolvimento do data warehouse é também baseado em requisitos. b) Quanto ao nível de granularidade dos dados do data warehouse, é correto afirmar que quanto maior for o nível de detalhe, mais alto será o nível de granularidade dos dados e maior será a possibilidade de o sistema responder a qualquer consulta. c) No datamining, o agrupamento e a classificação funcionam de maneira similar: o agrupamento reconhece os padrões que descrevem o grupo ao qual um item pertence, examinando os itens existentes; a classificação é aplicada quando nenhum grupo foi ainda definido. d) O processamento OLAP é mais flexível do que aquele que ocorre no nível estruturado organizacional do data warehouse.
A construção de um data warehouse envolve primordialmente um processo de extração, transformação e carga de dados, que normalmente tem origem nas bases de dados dos sistemas que estão ou estiveram em operação. O sucesso desse processo é fortemente influenciado pela escolha da ferramenta OLAP (on-line analytical processing) a ser utilizada. O esquema multidimensional em estrela consiste de um conjunto de tabelas, classificadas como tabelas fato e tabelas dimensão, no qual cada tabela dimensão guarda referências às tabelas fato. Essas referências são implementadas como colunas nas tabelas dimensão.
O data warehouse é uma coleção de dados orientada por assunto, integrado, volátil e variante no tempo, voltado para a análise de séries temporais e de tendências, a partir do processamento de dados históricos. Ferramentas do tipo OLAP são utilizadas para extrair dados e realizar análise ad hoc, na área de business intelligence. Elas permitem, entre outras operações, executar o drill down, que é o aumento da granularidade dos dados, o slice and dice, que permite executar operações de projeção nas dimensões, e o pivoteamento, que permite realizar rotação (tabulação transversal) do cubo. MOLAP é uma arquitetura OLAP na qual os dados ficam armazenados em um banco de dados multidimensional. Nas arquiteturas ROLAP e HOLAP, são utilizados bancos de dados relacionais para armazenamento dos dados. O snowflake, uma variação do esquema estrela, é um esquema multidimensional no qual as tabelas dimensionais, por meio da sua normalização, são organizadas em uma hierarquia, de modo que nem todas as dimensões sejam ligadas diretamente à tabela fato que armazena as medidas, usualmente numéricas.
A data mining apóia a descoberta de regras e padrões em grandes quantidades de dados. Em data mining, um possível foco é a descoberta de regras de associação. Para que uma associação seja de interesse, é necessário avaliar o seu suporte, que se refere à freqüência com a qual a regra ocorre no banco de dados. Os data warehouses são depósitos de dados tipicamente direcionados para aplicações de apoio às decisões administrativas. As informações em data warehouses mudam mais freqüentemente do que em bancos de dados convencionais. Além disso, os data warehouse, em vez de otimizar a recuperação de dados, otimizam o processamento de transações.
A figura apresenta os elementos básicos da arquitetura de um sistema de suporte a decisão que foi, de forma fictícia, implantado em uma organização de monitoramento, usando-se a tecnologia de SGBDs relacionais. Esse sistema atende ao objetivo de se aprimorarem a gestão e o uso de recursos de TI em mais de 3.000 órgãos públicos federais, não tendo sido consideradas as subunidades que compõem esses órgãos. O principal negócio dessa organização é o monitoramento e controle da governança de TI desses órgãos, por meio de: aplicação e análise de questionários com questões fechadas (objetivas) e abertas (subjetivas) que, disponíveis via web, abordem aspectos relacionados à governança de TI conforme o modelo COBIT; análise de informações oriundas de coletores de dados online sobre os níveis de serviços e o emprego de recursos de TI nas organizações; prestação de serviço online visando à orientação e à normatização de compras de bens e serviços de TI; auditorias regulares. Algumas das informações produzidas a cada dia pelos coletores de dados online de cada organização monitorada são: quantidade de computadores desktop em funcionamento dentro da rede; horas de disponibilidade de cada um dos serviços online prestados pela organização (sítio web, servidor de webmail, FTP, sistemas aplicativos, atendimento a usuários por meio de birô de serviços etc.); despesas e investimentos planejados (empenhados) e executados na aquisição de bens e serviços de TI registrados no sistema de administração financeira. Para bem planejar e desempenhar sua missão, a organização de monitoramento implementou um sistema de apoio à decisão, conforme a arquitetura esboçada na figura.
No cenário apresentado, a produção dos dados online de cada organização monitorada deverá ser efetuada por meio das ferramentas apresentadas nas camadas #B, #C e #D. A mineração de dados no sistema com a arquitetura acima, se aplicável a todo o conjunto de informações produzidas em decorrência das atividades da organização de monitoramento, contribuirá diretamente para o aprimoramento dos indicadores de desempenho das organizações monitoradas. Os dados de controle de processamento da camada #B serão acessíveis a poucos funcionários servidores da organização de monitoramento e controle. A fim de agilizar o processo de extração, transformação e carga dos dados operacionais, estes devem ser armazenados de forma denormalizada na camada #B. Se, visando à criação de uma datamart cujo objetivo é analisar o processo de disponibilidade de serviços online prestados pelas organizações monitoradas, criar-se uma tabela de fatos que representa a quantidade de horas de disponibilidade diária de cada serviço provido por cada órgão, nesse caso, será correto afirmar que, nessa datamart, em vez do uso de um esquema do tipo floco de neve ( snow flake ), será viável o uso de um esquema do tipo estrela, e as dimensões poderão ser: tipo de serviço; órgão prestador do serviço; data em que o serviço foi disponibilizado. Na tabela fatos dessa datamart, uma das colunas deverá conter o quantitativo de horas de disponibilidade. Tendo em vista a criação, na arquitetura proposta, de um conjunto de datamarts integradas, deve-se sugerir o compartilhamento das tabelas de dimensões entre as tabelas de fatos, de modo que cada tabela de fatos possua a mesma quantidade de dimensões comuns.
Material preparado: Prof. Marcio Vitorino Gabarito
E E C E Soluções MOLAP promovem maior independência de fornecedores de SGBDs que soluções ROLAP. Em um esquema de dados multidimensional, a tabela de fatos, usualmente, contém uma chave primária composta por várias chaves estrangeiras e algumas colunas cujos tipos de dados são, usualmente, nominais, ao passo que as tabelas de dimensões, usualmente, contêm uma chave primária simples e algumas colunas cujos tipos de dados são, usualmente, escalares. O uso de tecnologias e de sistemas OLAP e datawarehouse é mais justificável no nível estratégico que no nível operacional. O uso de tecnologias e de sistemas OLTP é mais justificado no nível do conhecimento que no nível operacional.
a) E Assim como no ciclo de vida de desenvolvimento de sistemas clássicos, o ciclo de vida de desenvolvimento do data warehouse é também baseado em requisitos. b) E Quanto ao nível de granularidade dos dados do data warehouse, é correto afirmar que quanto maior for o nível de detalhe, mais alto será o nível de granularidade dos dados e maior será a possibilidade de o sistema responder a qualquer consulta. c) E No datamining, o agrupamento e a classificação funcionam de maneira similar: o agrupamento reconhece os padrões que descrevem o grupo ao qual um item pertence, examinando os itens existentes; a classificação é aplicada quando nenhum grupo foi ainda definido. d) C O processamento OLAP é mais flexível do que aquele que ocorre no nível estruturado organizacional do data warehouse.
E E A construção de um data warehouse envolve primordialmente um processo de extração, transformação e carga de dados, que normalmente tem origem nas bases de dados dos sistemas que estão ou estiveram em operação. O sucesso desse processo é fortemente influenciado pela escolha da ferramenta OLAP (on-line analytical processing) a ser utilizada. O esquema multidimensional em estrela consiste de um conjunto de tabelas, classificadas como tabelas fato e tabelas dimensão, no qual cada tabela dimensão guarda referências às tabelas fato. Essas referências são implementadas como colunas nas tabelas dimensão.
E E C C O data warehouse é uma coleção de dados orientada por assunto, integrado, volátil e variante no tempo, voltado para a análise de séries temporais e de tendências, a partir do processamento de dados históricos. Ferramentas do tipo OLAP são utilizadas para extrair dados e realizar análise ad hoc, na área de business intelligence. Elas permitem, entre outras operações, executar o drill down, que é o aumento da granularidade dos dados, o slice and dice, que permite executar operações de projeção nas dimensões, e o pivoteamento, que permite realizar rotação (tabulação transversal) do cubo. MOLAP é uma arquitetura OLAP na qual os dados ficam armazenados em um banco de dados multidimensional. Nas arquiteturas ROLAP e HOLAP, são utilizados bancos de dados relacionais para armazenamento dos dados. O snowflake, uma variação do esquema estrela, é um esquema multidimensional no qual as tabelas dimensionais, por meio da sua normalização, são organizadas em uma hierarquia, de modo que nem todas as dimensões sejam ligadas diretamente à tabela fato que armazena as medidas, usualmente numéricas.
C E A data mining apóia a descoberta de regras e padrões em grandes quantidades de dados. Em data mining, um possível foco é a descoberta de regras de associação. Para que uma associação seja de interesse, é necessário avaliar o seu suporte, que se refere à freqüência com a qual a regra ocorre no banco de dados. Os data warehouses são depósitos de dados tipicamente direcionados para aplicações de apoio às decisões administrativas. As informações em data warehouses mudam mais freqüentemente do que em bancos de dados convencionais. Além disso, os data warehouse, em vez de otimizar a recuperação de dados, otimizam o processamento de transações.
A figura apresenta os elementos básicos da arquitetura de um sistema de suporte a decisão que foi, de forma fictícia, implantado em uma organização de monitoramento, usando-se a tecnologia de SGBDs relacionais. Esse sistema atende ao objetivo de se aprimorarem a gestão e o uso de recursos de TI em mais de 3.000 órgãos públicos federais, não tendo sido consideradas as subunidades que compõem esses órgãos. O principal negócio dessa organização é o monitoramento e controle da governança de TI desses órgãos, por meio de: aplicação e análise de questionários com questões fechadas (objetivas) e abertas (subjetivas) que, disponíveis via web, abordem aspectos relacionados à governança de TI conforme o modelo COBIT; análise de informações oriundas de coletores de dados online sobre os níveis de serviços e o emprego de recursos de TI nas organizações; prestação de serviço online visando à orientação e à normatização de compras de bens e serviços de TI; auditorias regulares. Algumas das informações produzidas a cada dia pelos coletores de dados online de cada organização monitorada são: quantidade de computadores desktop em funcionamento dentro da rede; horas de disponibilidade de cada um dos serviços online prestados pela organização (sítio web, servidor de webmail, FTP, sistemas aplicativos, atendimento a usuários por meio de birô de serviços etc.); despesas e investimentos planejados (empenhados) e executados na aquisição de bens e serviços de TI registrados no sistema de administração financeira. Para bem planejar e desempenhar sua missão, a organização de monitoramento implementou um sistema de apoio à decisão, conforme a arquitetura esboçada na figura.
E E C C E No cenário apresentado, a produção dos dados online de cada organização monitorada deverá ser efetuada por meio das ferramentas apresentadas nas camadas #B, #C e #D. A mineração de dados no sistema com a arquitetura acima, se aplicável a todo o conjunto de informações produzidas em decorrência das atividades da organização de monitoramento, contribuirá diretamente para o aprimoramento dos indicadores de desempenho das organizações monitoradas. Os dados de controle de processamento da camada #B serão acessíveis a poucos funcionários servidores da organização de monitoramento e controle. A fim de agilizar o processo de extração, transformação e carga dos dados operacionais, estes devem ser armazenados de forma denormalizada na camada #B. Se, visando à criação de uma datamart cujo objetivo é analisar o processo de disponibilidade de serviços online prestados pelas organizações monitoradas, criar-se uma tabela de fatos que representa a quantidade de horas de disponibilidade diária de cada serviço provido por cada órgão, nesse caso, será correto afirmar que, nessa datamart, em vez do uso de um esquema do tipo floco de neve ( snow flake ), será viável o uso de um esquema do tipo estrela, e as dimensões poderão ser: tipo de serviço; órgão prestador do serviço; data em que o serviço foi disponibilizado. Na tabela fatos dessa datamart, uma das colunas deverá conter o quantitativo de horas de disponibilidade. Tendo em vista a criação, na arquitetura proposta, de um conjunto de datamarts integradas, deve-se sugerir o compartilhamento das tabelas de dimensões entre as tabelas de fatos, de modo que cada tabela de fatos possua a mesma quantidade de dimensões comuns.