BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING http://www.uniriotec.br/~tanaka/tin0036 tanaka@uniriotec.br Introdução a Data Mining
Introdução a Data Mining Conceitos: DM x OLAP DM como parte de KDD Objetivos gerais de KDD/DM Conhecimentos descobertos com DM Regras de associação Hierarquias de classificação Padrões sequenciais Padrões em séries temporais Categorização e segmentação Técnicas de DM Técnicas para regras de associação Árvores de decisão Outras técnicas Aplicações
Business Intelligence Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Business Analyst Data Analyst Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA
Ambientes analíticos Data Mining Modelagem/ Segmentação Nenhuma ou poucas hipóteses OLAP Multidimensional Hipóteses moderadas Ferramentas de Consulta Consultas padrão Hipóteses seguras
Arquitetura Genérica de um Data Warehouse Meta Dados FONTES DE DADOS FERRAMENTAS DE CONSULTA OLAP BDs Operacionais Extração Transformação Carga Atualização Data Warehouse Análise Data Mining Relatórios Fontes Externas Data Marts OLAP Chaudhri&Dayal, SIGMOD RECORD 1997
Processo de Data Warehousing
KDD Knowledge Discovery in Databases Fayyad, Usama; Piatetski-Shapiro, Gregory; Smyth, Padhraic (1996) The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp.27-34, Nov.1996
Definições de Data Mining Descoberta de informações não reveladas em um banco de dados Termos Similares Categorização de Dados Análise Exploratória de Dados (Exploratory Data Analisys) Descoberta orientada a dados (Data driven discovery) Aprendizado dedutivo (Deductive learning) É parte de KDD (Knowledge Discovery in Databases)
Data Mining Processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para tomada de decisões. Permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados
Objetivos de Data Mining Explanatório: explicar algum evento ou medida observada porque a venda de sorvetes caiu no Rio de Janeiro; Confirmatório: confirmar uma hipótese Uma companhia de seguros, por exemplo, pode querer examinar os registros de seus clientes para determinar se famílias de duas rendas tem mais probalidade de adquirir um plano de saúde do que famílias de uma renda; Exploratório:analisar os dados buscando relacionamentos novos e não previstos. Uma companhia de cartão de crédito pode analisar seus registros históricos para determinar que fatores estão associados a pessoas que representam risco para créditos
Objetivos de DM e KDD Prediction Data mining can show how certain attributes within the data will behave in the future. Examples of predictive data mining include the analysis of buying transactions to predict what consumers will buy under certain discounts, how much sales volume a store would generate in a given period, and whether deleting a product line would yield more profits. In such applications, business logic is used coupled with data mining. In a scientific context, certain seismic wave patterns may predict an earthquake with high probability. Identification Data patterns can be used to identify the existence of an item, an event, or an activity. For example, intruders trying to break a system may be identified by the programs executed, files accessed, and CPU time per session. In biological applications, existence of a gene may be identified by certain sequences of nucleotide symbols in the DNA sequence. The area known as authentication is a form of identification. It ascertains whether a user is indeed a specific user or one from an authorized class; it involves a comparison of parameters or images or signals against a database. Classification Data mining can partition the data so that different classes or categories can be identified based on combinations of parameters. For example, customers in a supermarket can be categorized into discount-seeking shoppers, shoppers in a rush, loyal regular shoppers, and infrequent shoppers. This classification may be used in different analyses of customer buying transactions as a post-mining activity. Sometimes classification based on common domain knowledge is used as an input to decompose the mining problem and make it simpler. For instance, health foods, party foods, or school lunch foods are distinct categories in the supermarket business. It makes sense to analyze relationships within and across categories as separate problems. Such categorization may be used to encode the data appropriately before subjecting it to further data mining. Optimization One eventual goal of data mining may be to optimize the use of limited resources such as time, space, money, or materials and to maximize output variables such as sales or profits under a given set of constraints. As such, this goal of data mining resembles the objective function used in operations research problems that deals with optimization under constraints
Tipos de conhecimento descoberto com DM 1. Association rules These rules correlate the presence of a set of items with another range of values for another set of variables. Examples: (1) When a female retail shopper buys a handbag, she is likely to buy shoes. (2) An X-ray image containing characteristics a and b is likely to also exhibit characteristic c. 2. Classification hierarchies The goal is to work from an existing set of events or transactions to create a hierarchy of classes. Examples: (1) A population may be divided into five ranges of credit worthiness based on a history of previous credit transactions. (2) A model may be developed for the factors that determine the desirability of location of a store on a 1 10 scale. (3) Mutual funds may be classified based on performance data using characteristics such as growth, income, and stability. 3. Sequential patterns A sequence of actions or events is sought. Example: If a patient underwent cardiac bypass surgery for blocked arteries and an aneurysm and later developed high blood urea within a year of surgery, he or she is likely to suffer from kidney failure within the next 18 months. Detection of sequential patterns is equivalent to detecting association among events with certain temporal relationships. 4. Patterns within time series Similarities can be detected within positions of the time series. Three examples follow with the stock market price data as a time series: (1) Stocks of a utility company ABC Power and a financial company XYZ Securities show the same pattern during 1998 in terms of closing stock price. (2) Two products show the same selling pattern in summer but a different one in winter. (3) A pattern in solar magnetic wind may be used to predict changes in earth atmospheric conditions. 5. Categorization and segmentation A given population of events or items can be partitioned (segmented) into sets of "similar" elements. Examples: (1) An entire population of treatment data on a disease may be divided into groups based on the similarity of side effects produced. (2) The adult population in the United States may be categorized into five groups from "most likely to buy" to "least likely to buy" a new product. (3) The web accesses made by a collection of users against a set of documents (say, in a digital library) may be analyzed in terms of the keywords of documents to reveal clusters or categories of users.
Data Mining e KDD Knowledge Discovery in Databases (KDD): processo de encontrar informação útil em dados. Data Mining: Uso de algoritmos para extração desta informação isto é, DM é parte do processo de KDD.
Processo de KDD Modified from [FPSS96C] Seleção: Obtenção de dados de várias fontes. Preprocessamento: Limpeza dos dados. Transformação: Conversão para formato comum. Data Mining: Obtenção de informação. Interpretação/Avaliação: Apresentação de resultados de forma útil.
KDD Ex: Web Log Seleção: Selecionar dados de log (datas e locais) Preprocessamento: Remover erros logados Transformação: Ordenar e agrupar Data Mining: Identificar e contar padrões Interpretação/Avaliação: Identificar e mostrar sequencias de acesso frequentes Empregos Potenciais: Otimização de Cache Personalização
Desenvolvimento em Data Mining Modelo Relacional SQL Data Warehousing/OLAP Técnicas de Escalabilidade Medidas de Similaridade Queries imprecisas Informação não estruturada Máquinas de Busca Análise, Projeto e Síntese de Algoritmos Estruturas de Dados Teorema de Bayes K-Means Clustering Análise de Séries de Tempo Redes Neurais Lógica nebulosa Algoritmos Genéticos Teoria dos Conjuntos Aproximativos
Conceitos Relacionados Bancos de Dados/OLTP Fuzzy Sets/Logic Ciência da Informação (Information Retrieval) Modelagem Dimensional/DW/OLAP Métodos Estatísticos Aprendizado de Máquina (Machine Learning) Visualização Computação de Alto Desempenho (algoritmos/paralelismo) Outras disciplinas: Redes neurais, modelagem matemática, reconhecimento de padrões, etc.
DM versus DW e OLAP DM provê outro nível de análise mais sofisticada que a provida por ferramentas OLAP DM em DWs se beneficia da integração e limpeza já feita sobre os dados Mas não necessariamente precisa ser feito sobre DWs Data warehousing/olap: Orientado a verificação Data Mining: Orientado a descobertas nãoantecipadas
Banco de Dados vs. Data Mining Consultas Bem definidas SQL Dados Operacionais Output Preciso Subconjunto do banco de dados Consultas Fracamente definidas Linguagem de consulta não definida precisamente Dados Não operacionais Output Fuzzy Não é subconjunto do banco de dados
Exemplos de Consultas Banco de Dados Encontre todas as aplicações de crédito com último nome Silva. Identifique clientes que compraram mais de R$ 10.000,00 no último mês. Liste as vendas diárias de leite no último mês. Data Mining Encontre todos as aplicações de crédito que representem risco (classificação). Identifique clientes com perfis de consumo similares (Clustering). Encontre items que normalmente são comprados em conjunto com leite (regras de associação).
Objetivos de Data Mining Modelos e Tarefas