Data Mining: Conceitos e Técnicas
DM, DW e OLAP
Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining
Data Warehousing e OLAP para Data Mining Data Warehouse: A Memória da Empresa Data Mining: A Inteligência da Empresa
O que é Data Warehouse? Definido de diversas formas, mas não rigorosamente: É uma base de dados de suporte que é mantida separadamente da base de dados operacional da organização; Suporta o processamento de informações provendo uma sólida plataforma de dados históricos e consolidados para análise;
O que é Data Warehouse? Um data warehouse é uma coleção de dados: 1. orientada a assunto (subject-oriented); 2. integrada; 3. variante no tempo, e 4. não-volátil para suporte a decisões de gerenciamento. W. H. Inmon Data warehousing: o processo de construção e uso de data warehouses.
Usos do data warehouse Processamento de Informações: Suporta consultas, análise estatística básica e relatórios usando tabelas, gráficos, etc. Processamento analítico: Análise multi-dimensional doas dados contidos no data warehouse; Suporta operações OLAP básicas (slice-dice, drilling, pivoting);
Usos do data warehouse Data mining: Descoberta de conhecimento em padrões; Suporta associações, construção de modelos analíticos, executa classificação e predição, e apresenta os resultados usando ferramentas de visualização.
De OLAP para OLAM Por que OLAM? Alta qualidade dos dados nos data warehouses; DW contem dados integrados, consistentes e limpos. Estrutura para o tratamento de informação disponível no ambiente de DW: ODBC, OLEDB, acesso à Web, facilidades de serviço, relatórios e ferramentas OLAP; Análise de dados exploratória baseada em OLAP; Mineração com drilling, dicing, pivoting, etc. Seleção on-line das funções de data mining: Integração e intercâmbio de múltiplas funções de mineração, algoritmos e tarefas.
Mining query Uma arquitetura OLAM Mining result Layer4 User Interface User GUI API OLAM Engine OLAP Engine Layer3 OLAP/OLAM Data Cube API MDDB Meta Data Layer2 MDDB Filtering&Integration Database API Filtering Layer1 Databases Data cleaning Data integration Data Warehouse Data Repository
Pré-processamento de dados
Por que pré-processar os dados? Dados reais são sujos : Incompletos: falta de valores de atributos, falta de atributos de interesse ou existência de atributos agregados; Ruidosos: contem erros e desvios; Inconsistentes: contem discrepâncias em nomes e na codificação. Sem dados de qualidade, sem resultados de qualidade em DM: Decisões de qualidade devem estar baseadas em dados de qualidade; DW necessita da integração consistente de dados de qualidade.
Medida multidimensional da qualidade dos dados Uma visão multidimensional bem aceita: Correção; Completude; Consistência; Atualidade (timeliness); Credibilidade; Valor adicionado; Interpretabilidade; Acessibilidade. Categorias abrangentes: Intrínseca, contextual, representacional e acessibilidade.
Principais tarefas no préprocessamento dos dados Limpeza dos dados: Preenchimento de valores inexistentes, atenuação de dados ruidosos, identificação e remoção de desvios, resolução de inconsistências; Integração de dados: Integração de múltiplos DB, data cubos, e arquivos; Transformações nos dados: normalização e agregação; Redução de dados: Obtenção de uma representação reduzida em volume mas que produz resultados de análise idênticos ou similares.
Principais tarefas no préprocessamento dos dados Limpeza dos dados: Valores faltantes 1. Ignorar a tupla; 2. Preencher o valor manualmente; 3. Usar uma constante global; 4. Usar o valor médio do atributo na base; 5. Usar o valor médio do atributo na classe; 6. Usar o valor mais provável.
Principais tarefas no préprocessamento dos dados Limpeza dos dados: Atenuação de dados ruidosos 1. Discretização; 2. Agrupamento; 3. Interação humana; 4. Regressão.
Principais tarefas no préprocessamento dos dados Limpeza dos dados: Inconsistências 1. Eliminar dados; 2. Corrigir manualmente; 3. Ignorar.
Principais tarefas no préprocessamento dos dados Integração de dados: Integração de esquemas de BD: problema da identificação de entidades; Redundâncias; Detecção e resolução de valores conflitantes nos dados.
Principais tarefas no préprocessamento dos dados Transformações nos dados: Suavização (smooting); Agregação; Generalização; Normalização (entre 0 e 1); Construção de atributos.
Principais tarefas no préprocessamento dos dados Redução de dados: Agregação de data cubes; Redução de dimensionalidade; Compressão de dados; Redução de instâncias; Geração de hierarquias de conceitos.
Formas de pré-processamento de dados
Sumário A preparação do dados é um ponto crucial tanto para data warehousing quanto para data mining; A preparação de dados inclui: Limpeza e Integração de dados; Redução de dados e seleção de características; Discretização: intervalos iguais, freqüências iguais, agrupamento. Vários métodos têm sido desenvolvidos, mas ainda é área ativa de pesquisa.