MINERAÇÃO DE DADOS EM SISTEMAS MULTIDIMENSIONAIS

Transcrição

1 MINERAÇÃO DE DADOS EM SISTEMAS MULTIDIMENSIONAIS Ronnie Alves Orlando Belo Departamento de Informática Universidade do Minho Campus de Gualtar Braga PORTUGAL Abstract - A área de sistemas de suporte a decisão demanda cada vez mais melhores tecnologias para o apoio no processo decisório. Neste contexto, as tecnologias de OLAP (processamento analítico de informações) e de Mineração de Dados ganham um espaço importante, na medida em que através destas tecnologias e possível gerenciar e analisar com eficiência e consistência grandes bases de dados. A esta forma integrada de se utilizar técnicas e funcionalidades de OLAP e mineração de dados é chamada de mineração de dados em sistemas multidimensionais. Este relatório visa prover um corpo de conhecimento sumarizado a cerca dos mecanismos necessários para efetuar mineração de dados em sistemas multidimensionais. Especificamente no que diz respeito à utilização de operações OLAP em mineração de dados, e vice-versa. Keywords Mineração de dados, OLAP, Data Warehouse, Mineração em Sistemas Multidimensionais. INTRODUÇÃO A área de sistemas de suporte a decisão demanda cada vez mais melhores tecnologias para o apoio no processo decisório. Neste contexto, as tecnologias de OLAP (processamento analítico de informações) e de mineração de dados ganham um espaço importante, na medida em que através destas tecnologias e possível gerenciar e analisar com eficiência e consistência grandes bases de dados. A técnicas de mineração de dados são complementares as funcionalidades da tecnologia OLAP, tornando o processo analítico mais exploratório e interativo, permitindo compreender o comportamento sobre o negocio de uma organização através da descoberta de padrões e tendências. Estas Ref. RT Alves, R., Belo, O. Mineração de Dados em Sistemas Multidimensionais, Relatório Técnico 001, Braga, Novembro, informações fornecem uma dimensão de conhecimento que podem ser: válidos estatisticamente significativos e confiáveis, novos não trivialmente possíveis por simples bom senso, úteis alteram decisões no domínio das aplicações, interpretáveis suficientemente abstratos para enriquecer o modelo de um analista humano. Outro suporte tecnológico importante neste contexto de apoio à tomada de decisão são os sistemas de Data Warehouses. Data Warehouse (DW) é um dos instrumentos da tecnologia da informação para prover novas formas de interação, manipulação e controle sobre os dados, de forma que eles se transformem em informação que auxiliem o processo decisório, sobretudo para preparação dos dados para OLAP e mineração de dados. Essencialmente, um DW é projetado para fornecer suporte ao processamento analítico dos seus dados, o qual é realizado sobre estruturas multidimensionais, também denominadas de cubos, e caracteriza-se por ocorrer com alto desempenho, consistência e interatividade. Entretanto, apesar de ser uma tecnologia de integração, as ferramentas de OLAP e mineração de dados carecem de padrões e mecanismos para trabalhar de forma transparente e integrada em sistemas de DW. A esta forma integrada de se utilizar técnicas e funcionalidades de OLAP e mineração de dados é chamada de mineração de dados em sistemas multidimensionais (mineração de dados baseados em cubos) (Han et al, 1998). A utilização de mineração de dados baseados em cubos contribui para minimizar dois gargalos da área de KDD (Knowledge Discoverv Databases) ou descoberta de conhecimento em bases de dados: Preparação dos dados antes de efetuar qualquer mineração, usando para isso um DW. -1-

2 Analise e interpretação dos dados, depois da mineração, usando para isto as funcionalidades analíticas multidimensionais fornecidas por OLAP. Este relatório visa prover um corpo de conhecimento sumarizado a cerca dos mecanismos necessários para efetuar mineração de dados em sistemas multidimensionais. Especificamente no que diz respeito à utilização de operações OLAP em mineração de dados, e vice-versa. Primeiramente, são levantados os requisitos necessários, ou seja, o que estes sistemas devem prover. As estruturas de dados multidimensionais são apresentadas na segunda seção. Na seção 3, tendo os cubos como base de exploração, são apresentadas as técnicas para mineração de dados nestas estruturas. Alguns projetos são discutidos na seção 4. Na seção 5 são apresentadas ferramentas comerciais, bem como os padrões e interfaces para desenvolver mecanismos de mineração sobre cubos. Por fim, são delineadas novas direções neste contexto. 1 REQUISITOS Os requisitos aos quais nos referimos compreendem nomeadamente demandas funcionais e operacionais. As demandas funcionais apontam para funcionalidades esperadas pelos sistemas que realizam mineração em sistemas multidimensionais, levando-se em importância técnicas de mineração, sua integração e utilização em estruturas de dados multidimensionais (cubos) (Figura 1). Por outro lado, demandas operacionais são fundamentais para direcionar a implementação e manutenção destes sistemas (Han et al, 1998). Figura 1: Arquitetura de um sistema OLAM. Através dos diversos produtos OLAP disponíveis no mercado é importante desenvolver mecanismos que permitem a aplicação de técnicas de mineração de dados diretamente nas estruturas multidimensionais, também nomeadas de cubo. (Pendse 2002). Para permitir esta aplicação os requisitos funcionais e operacionais devem estar bem definidos. Em (Han et al, 1998) algumas demandas funcionais são sugeridas: Realizar mineração em qualquer parte do cubo. Através dos sistemas multidimensionais e das engines OLAP, e possível explorar os cubos em qualquer nível de abstração utilizando todas as operações OLAP disponíveis. Permitir manipulação eficiente de cubos com dimensões e medidas de alta complexidade, e também suporte a cubos multi-feature. (Sarawagi et al, 1998) Consultas tradicionais em cubos computam geralmente agregações simples em múltiplas granularidades. Além disso, sistemas OLAP tradicionais suportam apenas dimensões categóricas e medidas numéricas. Prover mineração baseada em cubos. Corresponde ao núcleo dos sistemas para mineração de dados em cubos. Permitir seleção ou adição de novos algoritmos para mineração de dados. Além de prover mecanismos que permitam a utilização de algoritmos de mineração pré-definidos, o sistema também deve suportar a inclusão ou customização destes para melhor aderência a uma determinada atividade de mineração sobre cubos. Prover integração entre diversas técnicas de mineração. Esta funcionalidade está relacionada com a capacidade de permitir a utilização dos algoritmos de mineração de dados nas mais diversas operações OLAP de forma interativa. Permitir alta performance. É altamente desejável e produtivo interagir com o processo de mineração e dinamicamente explorar os espaços para pesquisa de dados disponíveis de maneira a permitir a aplicação de algoritmos de mineração menos sofisticados em espaços de buscas de menor granularidade, e sucessivamente refinar o espaço de busca. Prover mecanismos de visualização. Uma vez que OLAP e sistemas de mineração de dados estão integrados, a demanda por novas formas de navegação e visualização é de fundamental necessidade. Permitir extensão da aplicação para outros domínios. E altamente desejável que estes sistemas sejam desenvolvidos de forma modular para que possa ser utilizado por outros sistemas. Por exemplo, um sistema de mineração baseado em cubos pode ser integrado com um pacote de software estatístico, ou com um pacote de text mining, web mining, etc. Além dos requisitos funcionais, (Han et al, 1998) também apresenta algumas considerações quanto a requisitos operacionais: -2-

3 Devem ser providos padrões de APIs que permitam desenvolvimento modular para sistemas de mineração em cubos. Suportar mineração de dados baseados em cubos, utilizando tecnologias que permitam obter alta performance na manipulação e acesso a estas estruturas de dados(zhao et al, 1997)(Ross et al, 1997). Permitir mineração de dados baseados em cubos de forma Constraint-based(Ng et al, 1998) Prover mecanismos que permitam refinar a qualidade do processo de mineração. Significa utilizar algoritmos mais rápidos nos maiores datasets para identificar regiões de interesse, e em seguida, aplicar outros algoritmos não tão rápidos, mas que preservem a qualidade e integridade dos resultados alcançados, para uma analise mais detalhada. Suportar mineração de cubos em Layershared. Uma vez que cada dimensão do cubo possui sua camada de conceitos, o processo de mineração poderia ser utilizado para identificar os níveis mais abstratos, realizar mineração nessa camada, e continuamente realizar drill-down mining para as camadas mais baixas. (Kamber et al, 1997). Bookmarking and backtracking, a possibilidade de minerar usando cubos permite uma liberdade ao usuário para explorar e descobrir conhecimento, seja pela aplicação de algoritmos de mineração ou pela execução de operações OLAP. Tendo esta liberdade, é interessante prover mecanismo que permitam recuperar resultados anteriores. Todos os requisitos apresentados até este momento fornecem subsídios para uma implementação efetiva e eficiente de sistemas de mineração de dados baseados em cubos. Apesar dos diversos mecanismos necessários para implementação destes sistemas, o processo de criação, manipulação e gerenciamento das estruturas multidimensionais são de fato os mais importantes. SELECT FROM CUBE-BY P, D, C, Sum(S) Transactions P,D,C Esta consulta resultará em uma computação de ordem (3) 2 = 8 group-bys (ou cuboids): PDC, PD, PC, DC, D, C, P e ALL, onde ALL representa um group-by vazio(figura 2). Exitem diversas maneira para resolver esta consulta, uma possibilidade é reescreve-la em função de uma coleção de oito consultas group-bys, e executa-las separadamente. Entretanto, em termos de otimização e acesso, talvez esta não seja a melhor solução. A otimização de consultas utilizando operações de CUBO é extremamente necessária em sistemas OLAP, e mais ainda, quando adicionando possibilidades de aplicar técnicas de mineração de dados nestas estruturas. Em (Gray et al, 1996) são apontadas algumas regras para implementação do operador CUBO. Entretanto, o enfoque principal é dado a semântica da operação em si. Outros trabalhos relacionados à estrutura de CUBOS seguem um enfoque mais para a otimização e acesso a estas estruturas. Em (Harinarayan et al,1996) (Gupta et al, 1996) são apresentados algoritmos que decidem quais group-bys serão pré-computados e, em seguida quais serão indexados, através de mecanismos de indexação de cubos. Ainda sobre otimimização, existem dois metodos básicos para computação de group-bys: o método sortbased e o método hash-based. Em (Agarwall et al, 1996) novas otimizações são incorporadas a estes métodos. Os algoritmos utilizados por estes métodos utilizam basicamente uma mesma estrutura de input, chamada rede de cuboids lattice cuboid: a parte mais baixa da rede é a base do cuboid, e o topo é o pico(apex), contem apenas uma célula vazia. O total de cuboids de um cubo de n dimensões é 2 (Figura 2). (n) 2 CUBOS: ESTRUTURA DE DADOS MULTIDIMENSIONAIS Gray introduziu o conceito de CUBO CUBE operator como sendo uma operação capaz de suportar multiplas agregações em sistemas de banco de dados OLAP(Gray et al, 1996). O operador CUBO é uma generalização n-dimensional da operação group-by. Além disto, este operador, é capaz de computar diversos group-bys correspondentes a mais diversa combinação, a partir de uma lista de atributos. Em termos de SQL, podemos tomar como referência o exemplo abaixo para visualizar a operação CUBO: Figura 2: Exemplo de uma rede de cuboids para um cubo de três dimensões. Outros estudos relevantes para computação das estruturas de cubos apontam: Possibilidades de agregar simultaneamente múltiplas dimensões (Xin et al, 2003). -3-

4 A utilização de Apriori pruning para computar cubos iceberg (cubos que contem apenas células agregadas que satisfazem um determinado limiar, chamado condição iceberg) (Agrawal 1994). A utilização de algoritmos BUC(Beyer and Ramakrishnan, 1999) e H-cubing(Han et al, 2001), ambos computam cuboids de base para facilitar a aplicação de pruning. Em todo caso, novas melhorias vão surgindo para computação de cubos, como o mecanismo Star- Cubing que se utiliza dos algoritmos acima mencionados propondo um novo método para agregar múltiplas dimensões simultaneamente.( Xin et al, 2003) 3 MINERAÇÃO DE DADOS BASEADOS EM CUBOS A tecnologia de cubos é fundamental para realização de mineração de dados em sistemas multidimensionais. Portanto, estudos voltados para manipulação eficiente destas estruturas, bem como em mecanismos de acesso em sistemas de bases multidimensionais são necessários, antes de qualquer atividade de mineração (Zhao et al, 1997). Após ter em mente as formas e possibilidades para realizar atividades computacionais nessas estruturas de cubos, o passo seguinte é definir que atividades relacionadas à mineração de dados podem ser aplicadas. Por mineração de dados, entenda-se, descobrir conhecimento implícito ou padrões de interesses a partir de dados em sistemas de bases de dados. 3.1 CARACTERIZAÇÃO E COMPARAÇÃO A descrição de conceitos ou classes possui um papel significativo em atividades descritivas de mineração de dados, consistindo de duas maiores funções: caracterização de dados e diferenciação/comparação de dados(han and Fu, 1996). A caracterização de dados significa resumir e caracterizar um conjunto de dados relevantes para uma determinada atividade de mineração a partir de técnicas de generalização nestes dados. Por exemplo, os sintomas de uma determinada doença podem ser resumidos por uma regra característica. Para minerar múltiplos níveis de conhecimento, técnicas OLAP como drill-down (progressive deepening), e roll-up (progressive generalization) podem ser aplicadas. Conceitualmente, o processo de drill-down é preferencial, uma vez que, é natural encontrar características gerais dos dados no mais alto nível de abstração, e então especializar os casos de interesse. Entretanto, do ponto de vista de implementação destas técnicas, é mais fácil generalizar do que especializar, pois generalização substitui níveis mais baixos no grau de abstração por níveis mais altos através de ascensão em uma hierarquia de conceitos. Figura 3: Cubo de dados e sua hierarquia de conceitos. Para especializar cuboids de mais alto nível, é utilizada uma técnica que salva um conjunto de cuboids ou células de mais baixo nível, principalmente o minimally generalized cuboid, seja na etapa de préprocessamento do cubo, ou na etapa de generalização. Por exemplo, para computar esta técnica, cada dimensão no conjunto de dados pode ser generalizado para reduzir os conceitos na sua hierarquia de conceitos, com suas medidas/agregações correspondentes (Figura 3). Já a função de diferenciação ou comparação, tem como meta encontrar um conjunto de características ou regras que distingue as propriedades de uma determinada classe alvo de sua classe de contraste especificada pelo usuário. Para implementar esta funcionalidade, primeiro deve-se coletar os dados relevantes para a atividade, dividir estes em classe alvo e classe de contraste, e em seguida aplicar uma analise de relevância nas dimensões. Na seqüência, analises de generalização são aplicadas, a partir de parâmetros definidos pelo usuário, resultando em cubois de classe alvo e de contraste. Por fim, regras podem ser extraídas em forma de formulas, gráficos ou tabelas (referencia?data-drriven discovery). Por exemplo, para diferenciar uma doença de outra, regras de diferenciação podem ser extraídas caracterizando os sintomas que discriminam a classe alvo da classe de contraste. 3.2 ASSOCIAÇÃO Existem vários estudos em mineração de dados através de regras de associação em bases de dados transacionais (Agrawal et al, 1994)(Kamber et al, 1997). As estruturas de cubos oferecem uma flexibilidade e eficiência adicional na mineração de regras de associação. Dois tipos de funções relacionadas a técnicas de associação podem ser minerados com apoio de cubos: associação inter dimensão e associação intra dimensão. O primeiro e uma associação entre um conjunto distinto de dimensões de um cubo. O segundo é uma associação de uma ou de um conjunto -4-

5 de dimensões de referencia agrupando as demais dimensões restantes em um conjunto de transações. Tomando-se como exemplo um cubo Avaliação de uma universidade contendo as dimensões: estudante, curso, semestre, nota. Uma associação inter dimensões neste caso pode ser a associação entre curso e valor, definida por uma regra do tipo os cursos em ciência da computação tendem a ter melhores notas. Por um outro lado, um exemplo de associação intra dimensões poderia ser, a associação entre estudantes e sua performance nos cursos. Tomando como dimensão de referencia a dimensão estudante e como referencia do nível, o atributo código do estudante, as demais dimensões (curso, semestre, nota) são agrupadas como um conjunto de transações. Esta associação seria definida por uma regra do tipo um estudante matriculado no curso X neste semestre é um provável candidato a matricular-se no curso Y no próximo semestre. A flexibilidade oferecida pelo apoio das estruturas de cubos neste tipo de atividade de mineração de dados reside em: é fácil agrupar dados de acordo com uma ou mais dimensões usando a estrutura do cubo; funções de agregações como count(), sum(), min(), entre outros, encontram-se computados nestas estruturas, facilitando os testes e filtros de associação. Além disto, o cálculo de medidas importantes no contexto especifico de associações como, suporte e confiança são tomados de forma direta, uma vez que estes valores encontram-se sumarizados nas células de agregação. A utilização de mecanismos para restringir o processo de extração de regras tem grande importância em atividades de associação, na medida em que é possível definir especificamente os tipos de regras que satisfazem a busca para posterior extração. Tal definição pode ser alcançada através da especificação de um meta-rule ou meta-pattern (Sarawagi et al, 1998). 3.3 CLASSIFICAÇÃO Classificação é o processo de encontrar um conjunto de modelos ou funções que descrevam um determinada classe. Esta atividade é realizada através da análise de um conjunto de dados chamados de dados de treino, onde cada dado é identificado por sua classe. Apesar da dificuldade para gerar modelos ideais, ou seja, modelos que consigam captar e discriminar os dados de forma eficiente em cada classe, a melhor forma de prevenção contra problemas de ruído(noise) ou sobreposição (overfitting) quando da geração destes modelos é a utilização de mecanismos como a distribuição probabilistica da classe. Este mecanismo indica, quando concluída a classificação, a probabilidade de um objeto pertencer a uma determinada classe. Existem na literatura, diversos métodos de classificação, incluindo métodos orientados a árvore de decisão (decision tree), como ID3, C4.5, métodos estatisticos, redes neurais, rough sets, bem como métodos de classificação orientados em bases de dados. Por utilizar estruturas de cubo para realizar uma atividade de classificação, as células de agregação, como count() e sum(), estão computadas nas dimensões para cada célula generalizada facilitando qualquer manipulação na geração do modelo final. Além disso, também podem ser utilizados controles (thresholds) para evitar overfitting/ruidos, como por exemplo: controle de classificação e controle de exceção. O primeiro identifica se é necessário continar a classificação para um determinado nó, se existe um número significante de exemplos pertencentes a classe. O segundo funciona de maneira contrária (Kamber et al, 1997). As possibilidades para classificação baseada em cubos são as mais diversas, como por exemplo, para cada cubo resultante de uma operação OLAP, um atributo pode ser selecionado como classe e a classificação pode ser realizada no cuboid correspondente a esta classe. Para qualquer resultado da classificação, novos cubos poderão ser derivados e novas minerações poderão ser aplicadas. 3.4 PREVISÃO A previsão é uma atividade onde se tenta prever valores ou distribuição dos dados em atributos de interesse a partir de grupos similares em base de dados. Para realizar esta atividade de mineração, a primeira etapa é identificar os fatores que influenciam os valores nos atributos de interesse. Em (Cheng 1998) isto é feito através de analise de relevância dos dados ou correlação, arvores de decisão, ou até mesmo através da decisão de especialistas no domínio de aplicação. Estes mecanismos fornecem um rank de relevância de cada dado, de tal maneira que apenas aqueles com maior rank serão analisados na atividade de previsão. Por fim, os atributos selecionados são analisados a partir de um modelo linear para generalização, onde será possível predizer o valor ou a distribuição de valores do atributo a ser previsto pelo modelo de previsão. O resultado final e apresentado em forma de gráficos, curva (se dado numérico) ou pizza (se dado categórico). Operações OLAP como drilling podem ser aplicadas em qualquer valor resultante da previsão ou da dimensão do cubo. 3.5 CLUSTERS A análise de cluster é o processo de particionar um conjunto de dados em classes, chamadas de clusters, sendo que os objetos dentro de cada cluster compartilham de caracteristicas semelhantes. Um bom método de cluster deve produzir clusters de alta -5-

6 qualidade, assegurando uma alta similaridade intra clusters é uma baixa similaridade inter cluster. A analise de clusters tem sido estudadas em diversas áreas como, estatística, máquinas de aprendizado, processamento de imagem, mineração de dados com diferentes métodos e ênfases. A maioria dos métodos para analise de clusters trabalham apenas com dados numéricos. Portanto, algoritmos de cluster baseados em cubos devem suprir a necessidade por permitir a análise de cluster em dados categóricos, tomando como base a hierarquia de conceitos definidos no cubo. Em (Agrawal et al, 1998) o suporte para analise de cluster em cubos é realizado através do método K- means, incorporado de mecanismos para suportar dados categóricos, já que este método, na sua implementação padrão, trata apenas dados numéricos. Para cada cluster é possível utilizar funções de mineração de dados e OLAP podem ser aplicadas, visualizando em diferentes níveis de abstração os clusters selecionados. 4 PROJETOS Existem vários projetos e implementações de engines para mineração de dados baseados em cubos. A grande maioria suporta os requisitos e mecanismos apresentados nas seções anteriores. Entretanto, serão apresentados apenas alguns projetos que julgamos ter importância e relevância no tema, trazendo aspectos de implementações e domínio de aplicação. DBMINER DBMINER tem sido desenvolvido para mineração de dados, de forma interativa, em bases de dados relacionais e bases de dados multidimensionais. A engine foi concebida dentro do grupo de sistemas de base de dados inteligentes da Simon Frase University. Foram publicados diversos trabalhos, que atacam todo o leque de necessidades para sistemas de mineração baseados em cubos ( A engine implementa um conjunto distinto de funções para mineração baseado em cubos, incluindo, caracterização, comparação, associação, classificação, previsão e analise de clusters (Han et al., 1997). A arquitetura geral da engine (Figure 1) e integrada em sistemas de bases relacionais, fornece mecanismo para hierarquia de conceitos, e um conjunto de mecanismos para descoberta de conhecimento. Os mecanismos para hierarquia de conceitos fornecem os requisitos necessários para generalização de dados, e minerações nos mais diversos níveis de abstração. Além disso, as hierarquias podem ser especificadas no sistema, através da definição dos relacionamentos entre os atributos (schema-level hierarchy), ou por um conjunto de groupings (set-groupings hierarchy), e são armazenados em formas de relação no mesma base de dados. Hierarquias para dados numérico podem ser geradas automaticamente a partir de analises de distribuição dos dados. WEBLOGMINER Neste projeto, o enfoque é dado ao tratamento de clickstreams (logs de servidores webs), utilizando mecanismos de mineração de dados baseados em cubos para entendimento e analise destes dados( A analise dos clickstreams é realizada dentro de 4 etapas. A primeira etapa corresponde a recepção dos dados, aplicação de métodos de filtragem para remover informações invalidas para analise, e por fim armazenamento em uma base relacional. Na segunda etapa é criado o cubo, usando as dimensões disponíveis. A analise do cubo a partir de operações OLAP é feita na terceira etapa, permitindo uma exploração de regiões do cubo de interesse para mineração. A etapa seguinte corresponde a aplicação de técnicas de mineração utilizando a estrutura de cubo. As técnicas de mineração implementadas nesta engine são as mais diversas, contemplando basicamente todos as atividades de mineração. Entretanto, uma atenção especial foi dada a analise de series temporais, já que os logs de sítios webs registram time stamps, e grande parte das analises estão direcionadas a identificação de padrões de comportamento de acesso ao sitio em relação a variável tempo. As analises de series temporais incluídas neste sistema são: analise do trafico de rede, seqüência de eventos, padrões de comportamento, analises de transição, e analises de tendências. Através da utilização de estruturas de cubos, estas analises podem ser realizadas de forma sistêmica, no sentido de que, as analises podem ser realizadas em múltiplas dimensões do cubo, em diversos níveis de granularidade. Em, (Zaine et al., 1998) exemplos concretos de analises de padrões em series temporais usando mineração de dados baseados em cubos são apresentados. WEB ACCESS ANALYSIS ENGINE Neste projeto foi implementado um sistema de mineração baseado em cubos para analise de padrões de comportamento de utilizadores web. Na verdade, este projeto faz parte de um dos esforços dos laboratórios da HP, na integração e utilização de mecanismos OLAP e mineração de dados em aplicações de negócio ( Em (Chen et al., 1999), e descrito uma plataforma baseada em Oracle8i e Oracle Express, para analise de padrões de chamadas em empresas de telefonia e analise de compra em sítios de e-commerce. -6-

7 Em (Chen et al., 2000), usando a mesma plataforma acima, são incorporados novos mecanismos para mineração de clickstreams baseados em cubos de alta granularidade, típico de grandes sítios de e-commerce. Este experimento revela que é possível superar problemas de manipulação de sparse data cubes, e também automatizar toda a cadeia de operação, incluindo filtragem, carregamento, agregações e sumarizações incrementais e analises. Toda a aplicação e otimizações foram implementadas através da linguagem de scripts suportada pelo OLAP server da Oracle. No que diz respeito a mineração de dados novas possibilidades são sugeridas para extração de regras de associação, como scoped association rules e functional association rules. 5 FERRAMENTAS, PADRÕES E INTERFACES As ferramentas de mercado que suportam tecnologias de OLAP e mineração de dados são muitas vezes denominadas tecnologias de Business Intelligence (BI). A maior parte destas ferramentas de BI não integra as duas engines tecnológicas, no sentido de que não é possível realizar mineração de dados diretamente nas estruturas de cubos. Em todo caso, a tecnologia de OLAP é mais difundida no mercado, e a tecnologia de mineração de dados começa a tomar dimensões, na medida em que é vista como uma nova funcionalidade que pode ser aplicada sobre os cubos, permitindo a exploração de conhecimento implícito em bases de dados. Os maiores players deste nicho, em ordem de utilização no mercado, segundo OLAP Report.com: Microsoft, Oracle, IBM e Hyperion ( Microsoft, Oracle e IBM oferecem base de dados relacionais para suporte as suas tecnologias de BI: Microsoft SQL Server, Oracle 9i e IBM DB2 Universal Database (UDB). Por um outro lado, a Hyperion fornece sua plataforma OLAP como sendo o Essbase OLAP. A idéia neste ponto é visualizar a as funcionalidades fornecidas por estas ferramentas comerciais no sentido de apoiar a implementação de sistemas de mineração baseados em cubos. OLAP SQL Server Analysis Services é o serviço de gerenciamento de cubos OLAP fornecidos pela Microsoft. Através deste serviço é possível criar modelos OLAP, e armazena-los utilizando configurações MOLAP, ROLAP e HOLAP. Além destas funcionalidades, o produto também suporta funções de analise quantitativa, como processamento de funções estatísticas e execução de modelos de mineração de dados. Duas outras importantes funcionalidades do Analysis Services são os mecanismos actions e custom roll-ups. O primeiro funciona com os triggers (bases de dados relacionais), mas para cubos. O segundo esta relacionado ao calculo das agregações, permitindo com que as dimensões (pai) sejam computadas através dos valores computados em suas dimensões filhas, individualmente, uma de cada vez, diferente das formas tradicionais de agregação de dados. O pacote Oracle 9i OLAP inova no processo de armazenamento de estruturas multidimensionais, através de suas tecnologia abstract data type (ADT), de tal maneira que as operações e consultas OLAP estão dentro de sua base de dados, podendo ser acessado através de interfaces e controle de metadados. Por um outro lado, é difícil o acesso a informação de empresas que estejam utilizando estas funcionalidades. Em termos de analises estatísticas são oferecidos pacotes de funções estatísticas, mecanismos de regressão e forecasting. Sendo o último um diferencial em relação às outras soluções de BI. As funcionalidades OLAP da plataforma de BI da IBM são providas pelo DB2 OLAP Server, uma nova versão do Hyperion Essbase. Basicamente, suporta todos os mecanismos de seus concorrentes no que diz respeito a manipulação e armazenamento de cubos. A sua funcionalidade mais importante está na facilidade de que o administrador tem para definir as formas de armazenamento das agregações do cubo. Cubos de maior granularidade são armazenados em forma multidimensional, e os de menor em base relacional. MINERAÇÃO DE DADOS A integração de mineração de dados em plataformas de BI é muito recente. A maior parte das plataformas propõe interfaces para configurar e aplicar modelos de mineração em suas bases de dados. A Microsoft através do Analysis Services permite a geração e manipulação de modelos de mineração de dados através de assistentes wizards, além de suportar a aplicação dos modelos em bases de dados relacionais, OLAP ou a outras bases externas, usando interface OLE DB. Em relação às atividades de mineração, duas funções estão incorporadas, classificação (decision tree) e analise de clusters. Apesar também de ser possível acrescentar outros modelos de mineração especificados em PMML. As especificações em PMML são esforços de um conjunto de empresas para permitir a troca de modelos de minerações de dados entre aplicações. Ambos Oracle9i Data Mining e IBM intelligent Miner também suportam PMML. Oracle9i Data Mining suporta várias atividades de mineração de dados, como classificação, clustering, -7-

8 Figura 4: Interfaces disponíveis em ferramentas comerciais para exploração de cubos. regras de associação, attribute importance, e são implementadas através de adaptative bayes network, naive bayes, k-means, o-cluster, predictive variance, e Apriori. Estas funcionalidades estão integradas dentro do Oracle9i database. Apesar da grande variedade de funções de mineração, não existe um suporte para o processo de mineração em si, e para visualização destes modelos. A IBM é pioneira na utilização de mineração de dados em plataformas de BI. A sua ferramenta de mineração e o DB2 intelligente miner, que possui três componentes, correspondendo aos pontos chave dentro do processo de mineração de dados: DB2 Intelligent Miner Visualization, DB2 Intelligent Miner Modeling e DB2 Intelligent Miner Scoring. Em relação à mineração de dados baseados em cubos, a IBM fornece um servidor DB2 OLAP Miner (DB2 OLAP Server). Ele utiliza funcionalidades estatísticas para descobrir células dentro das dimensões OLAP que não são esperadas ou outlying values, apresentando as informações visualmente para o administrador. Por um outro lado, Intelligente Miner não realiza mineração em cubos. INTERFACES As interfaces são os mecanismos utilizados pelas ferramentas de BI e aplicações para acesso a dados e funcionalidades de plataformas de BI. Através destas interfaces é possível desenvolver outras aplicações de BI mais especificas, como sistemas de mineração baseados em cubos(figura 4). INTERFACES MICROSOFT A Microsoft oferece um leque de possibilidades de acesso a dados( Estas interfaces fornecem flexibilidade para as mais diversas implementações. As interfaces convencionais SQL DML são SQL and Transact, SQL Servers s SQL Dialect. Alem destas existem: ODBC e JDBC, funcionam como chamadas call-level que o SQL Server suporta como APIs nativa. OLE DB, interface para aplicação orientada a objetos, recomendada para o desenvolvimento de ferramentas, utilitários, e componentes. Incorporam instruções DML de interfaces SQL and Transact/SQL. ADO, e a interface de mais alto nível disponível. Incorpora e abstrai OLE DB, fornecendo facilidades para conectar, recuperar e manipular, e atualizar dados em instancias do SQL Server. ADO.NET, e a interface para a programação de aplicações Web-based. As interfaces acima são utilizadas como interfaces relacionais. Para acesso a cubos OLAP, bem como funções e modelos de minerações a Microsoft fornece 4 APIs: MDX(Multidimensional Expressions), e a interface que a Microsoft dispõem para acesso a cubos OLAP, da mesma forma que o SQL para base de dados relacional. DSO(Decision Support Objects), é a interface que permite acesso as estruras de dados do Analysis Services OLAP, Data Mining e Dados. PivotTableService, é um cliente OLE DB para acesso ao Analysis Service OLAP e data mining. Através do modelo OLE DB, aplicações usando PivotTableServive podem acessar, manipular e recuperar dados relacionais e multidimensionais, criar cubos localmente, e realizar qualquer operação de OLAP ou Data Mining nestes cubos. -8-

9 XMLA (XML for Analysis), é uma interface baseada em protocolo SOAP para manipulação dos serviços disponíveis do SQL Server Analysis Server, a partir de aplicações clientes web-based. A idéia por trás desta interface é definir um padrão web de interface OLAP indenpendente de linguagem e de pré instalação de componentes. XMLA transforma o Analysis Server num provedor web services para OLAP e data mining. Além destas interfaces, no que diz respeito a mineração de dados, o Analysis service fornece um mecanismo wizard para geração de modelos de mineração. INTERFACES ORACLE A Interface para acesso a base de dados relacional Oracle é o SQL and PL/SQL( Existem três interfaces para acesso ao Oracle9i OLAP: OLAP DML, é a interface para manipulação de cubos, seja criação ou manipulação de operações OLAP. Todas as funcionalidades suportadas pelo Oracle9i OLAP são acessíveis via OLAP DML, e podem também ser desenvolvidas novas funcionalidades através desta interface. Java OLAP API, permite que aplicações java acessem estruturas multidimensionais, naveguem, e executem qualquer operação OLAP. Entretanto, nem toda funcionalidade analítica e acessível via esta interface. Forecast, por exemplo não podem. Para isto é necessário que as aplicações javas executem comandos via OLAP DML. Quanto a interfaces para o Oracle9i Data Mining, a Oracle fornece uma API Java para preparação de dados, modelagem, teste e funcionalidades de scoring. Entretanto, existem poucas referências de uso e material de suporte. INTERFACES IBM e Hyperion De forma similar a Oracle, existem interfaces procedurais SQL, como o IBM SQL e DB2 SQL. Para acesso a cubos, ambas utilizam a API do Essbase, Essbase Application Programming Interface. Esta interface permite também acesso as funcionalidade analíticas de seu servidor DB2 OLAP Server através de bindings C, Java e Visual Basic. Essbase API também é um padrão aberto, largamente utilizado pelos utilizadores dos aplicativos Hyperion. Em relação a interfaces de mineração, é sugerida a utilização da Essbase API pra recuperação de informação e IBM Intelligent Miner para geração e manipulação de modelos de mineração. 6 TENDÊNCIAS Além das funcionalidades de mineração de dados baseados em cubos apresentadas nas seções anteriores, novas direções são apontadas (Han 1998): Especificação de linguagens para a suportar consultas ad-hoc e mineração de dados de forma interativa. A linguagem precisa prover um conjunto de primitivas básicas para definição de templates de regras, e restrições de consultas para consultas baseadas em mecanismos de mineração de dados. Atualização incremental de regras de associação, uma vez que os cubos de dados podem ser atualizados por novas atualizações nas bases de dados, o conhecimento gerado também precisa ser atualizado. Restrição em regras de associação. Significa permitir a especificação de restrições para a extração de regras, no sentido de reduzir o espaço de busca. Mineração de padrões periódicos. Muitos padrões são periódicos, por exemplo, estações mudam periodicamente no ano, as taxas de temperaturas, etc. Entretanto, em alguns casos, alguns pontos específicos ou segmentos em uma seqüência de dados, podem ser aproximadamente periódicos, embora toda a cadeia da seqüência não seja. Analise de series temporais baseadas em similaridades, é a técnica utilizada para encontrar similaridades de padrões em relação a variáveis temporais (tendências, segmentos, etc.) em bancos de dados temporais. Apoio de técnicas de mineração na resolução de consultas, através da integração de técnicas de mineração, utilizando hierarquia de conceitos e técnicas de processamento analítico. Apoio de modelo de base de dados multicamadas para a integração de bases de dados heterogêneas. Com o crescimento exponencial do poder de processamento computacional é cada vez mais esperado uma melhoria de performance nas aplicações que envolvem estas tecnologias. Por um outro lado, as especificações das técnicas de mineração em base de dados relacionais ou multidimensionais, precisam estar aderentes a estas evoluções. Isto implica em adaptar técnicas já existentes ou definir novos mecanismos para suportar processamento paralelo e distribuído. Como continuidade deste trabalho, é sugerida uma experimentação a partir de uma das interfaces apresentadas, e se possível, otimização ou especificação de novos algoritmos/técnicas para suportar mineração de dados baseados em cubos. -9-

10 REFERÊNCIAS S. Agarwal, R. Agrawal, P. M. Deshpande, A. Gupta, J. Naughton, R. Ramakrishnan, S. Sarawagi. On the computation of multidimensional aggregates. In Proceedings of the 22 nd VLDB Conference, India, R. Agrawal, J. Gehrke, D. Gunopulos, and P. Raghavan. Automatic subspace clustering of high dimensional data for data mining applications. In Proceedings of 1998 ACM-SIGMOD Conference on Management of Data, Washington, R. Agrawal and R. Srikant. Fast algorithm for mining association rules. In Proceedings of VLDB, Chile, K. Beyer and R. Ramakrishnan. Bottom-up computation of sparse and iceberg cubes. SIGMOD' Q. Chen, U. Dayal, M. Hsu, An OLAP-based Scalable Web Access Analysis Engine. HP Labs, Hewlett- Packard, 1501 Page Mill Road, MS 1U4, Palo Alto, CA 94303, USA, Q. Chen, U. Dayal, M. Hsu, A Distributed OLAP Infrastructure for E-Commerce, Proc. Fourth IFCIS Conference on Cooperative Information Systems (CoopIS 99), 1999, UK. S. Cheng. Statistical approaches to predictive modelling in large databases. M.Sc. Thesis, Simon Fraser University, Canada, J. Gray, A. Bosworth, A. Layman and Hamid Pirahesh. Data Cube: A relational operator generalizing group-by, cross-tab and sub-totals. In Proceedings of the 12 th International Conference on Data Engineering, pp , H. Gupta, V. Harinarayan, A. Rajaraman, and J. Ullman. Index selection for OLAP. Working paper, J. Han, J. Pei, G. Dong, and K. Wang. Efficient computation of iceberg cubes with complex measures. SIG-MOD' J. Han. Towards on-line analytical mining in large databases. ACM SIGMOD Record, 27:97-107, J. Han and Y. Fu. Exploration of the power of attributeoriented induction in data mining. Advances in Knowledge Discovery and Data Mining. AAAI/MIT press V. Harinarayan, A. Rajaraman and J. Ullman. Implementing Data Cubes Efficiently. In Proceedings of the 1996 ACM-SIGMOD Conference, M. Kamber, J. Han and J. Y. Chiang. Metarule guided mining of multi-dimensional association rules using data cubes. In Proceedings of 3 rd International Conference on Knowledge Discovery and Data Mining (KDD 97), California, R. Ng, L. V. S. Lakshmanan, J. Han, and A. Pang. Exploratory mining and pruning optmizations of constrained associations rules. In Proceedings of 1998 ACM-SIGMOD Conference on Management of Data, Washington, N. Pendse. Market Share Analysis: Minimal Growth in OLAP revenues in K. A. Ross and D. Srivastava. Fast computation of sparse data cubes. In Proceedings of International Conference on Very Large Data Bases, Greece, S. Sarawagi, R. Agrawal, and N. Megiddo. Discoverydriven exploration of OLAP data cubes. In Proceedings of International Conference of Extending Database Technology (EDBT 98), D. Xin, Jiawei Han, X. Li and B. W. Wah. Star-Cubing: Computing iceberg cubes by top-down and bottom-up integration. In Proceedings of the 29 th VLDB Conference, Germany, Y. Zhao, P. M. Deshpande, and J. F. Naughton. An array-based algorithm for simultaneous multidimensional aggregates. In Proceedings of 1997 ACM-SIGMOD Conference of Data O. Zaiane, M. Xin, and J. Han. Discovering web access patterns and trends by applying olap and data mining technology on web logs. In Proceedings of Advances in Digital Libraries Conference (ADL), pages , April J. Han, S. Chee, and J. Y. Chiang, Issues for On-line Analytical Mining of Data Warehouses, SIGMOD 98 Workshop on Research Issues on Data Mining and Knowledge Disvovery (DMKD 98), USA, J. Han, J. Chiang, S. Chee, J. Chen, Q. Chen, S. Cheng, W. Gong, M. Kamber, G. Liu, K. Koperski, Y. Lu, N. Stefanovic, L. Winstone, B. Xia, O. R. Zaiane, S. Zhang, and H. Zhu. DBMiner: A system for data mining in relational databases and data warehouses. In Proc. CASCON'97, Toronto, Canada, November,

Exibir mais