BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING

Documentos relacionados

Aula 02: Conceitos Fundamentais

SISTEMAS DE APRENDIZADO PARA A IDENTIFICAÇÃO DO NÚMERO DE CAROÇOS DO FRUTO PEQUI LEARNING SYSTEMS FOR IDENTIFICATION OF PEQUI FRUIT SEEDS NUMBER

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Prof. Msc. Paulo Muniz de Ávila

Data Mining: Conceitos e Técnicas

INTELIGÊNCIA COMPUTACIONAL

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Professor: Disciplina:

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Session 8 The Economy of Information and Information Strategy for e-business

Tese / Thesis Work Análise de desempenho de sistemas distribuídos de grande porte na plataforma Java

MT BOOKING SYSTEM BACKOFFICE. manual for management

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Aprendizagem de Máquina

Software reliability analysis by considering fault dependency and debugging time lag Autores

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Capítulo 2 Data Warehousing

Inteligência de Negócio. Brian Cowhig

Motivação: inundação de informação. Data warehouse. Inteligência computacional aplicada em finanças, comércio e indústria

Ferramentas Livres de Armazenamento e Mineração de Dados

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

Software product lines. Paulo Borba Informatics Center Federal University of Pernambuco

CMDB no ITIL v3. Miguel Mira da Silva

Serviços: API REST. URL - Recurso

DATA WAREHOUSE. Introdução

Extração de Conhecimento & Mineração de Dados

Data Science e Big Data

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining

Universidade Tecnológica Federal do Paraná UTFPR Programa de Pós-Graduação em Computação Aplicada Disciplina de Mineração de Dados

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

MINERAÇÃO DE DADOS PARA DETECÇÃO DE SPAMs EM REDES DE COMPUTADORES

Microsoft Innovation Center

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

SAP Cloud for Analytics. Alexandre Ribeiro

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

TÉCNICAS DE INFORMÁTICA WILLIAN FERREIRA DOS SANTOS

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

KDD E MINERAÇÃO DE DADOS:

Gerência de Banco de Dados

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

A Cloud Computing Architecture for Large Scale Video Data Processing

Leonardo Pereira Rodrigues dos Santos

Sistemas de Apoio à Decisão (SAD) - Senado

Chapter 3. Análise de Negócios e Visualização de Dados

Aplicativo de Mineração de Dados Aplicado em Bases de Dados Acadêmicas

Hierarquia de modelos e Aprendizagem de Máquina

FIGURA 9.1 Arquitetura do SQL Server Utility (adaptado de Microsoft)

SUMÁRIO 1. INTRODUÇÃO O QUE É DATA WAREHOUSE? O QUE DATA WAREHOUSE NÃO É IMPORTANTE SABER SOBRE DATA WAREHOUSE

Banco de Dados - Senado

Luiz Fernando Fernandes de Albuquerque. Avaliação de algoritmos online para seleção de links patrocinados. Dissertação de Mestrado

Implementing Data Models and Reports with SQL Server 2014 (20466)

Knowledge Discovery and Data Mining Extensão-UFMS-DCT

2 Categorias Categories Todas as categorias de actividade são apresentadas neste espaço All activity categories are presented in this space

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

ADM041 / EPR806 Sistemas de Informação

Padronização de Processos: BI e KDD

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Uma estrutura (framework) para o Business Intelligence (BI)

PLANO DE ENSINO PRÉ-REQUISITOS: ENS

KDD UMA VISAL GERAL DO PROCESSO

Interoperability through Web Services: Evaluating OGC Standards in Client Development for Spatial Data Infrastructures

Mineração de Dados: Introdução e Aplicações

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Gerenciamento de Dados e Gestão do Conhecimento

Projeto 6.12 Aplicação de Data Mining a Dados de Avaliação da Qualidade de Produtos de Software

Business Intelligence para Computação TítuloForense. Tiago Schettini Batista

Sistemas de Informação

MBA em Gestão de Empreendimentos Turísticos

Mineração de Dados. Prof. Júlio Cesar Nievola Especialização em Inteligência Computacional PPGIA - PUCPR

TRINITY Project Microsoft Research Asia

INTRODUÇÃO À MINERAÇÃO DE DADOS. Luis Paulo Vieira Braga. 1. Introdução. 2. KDD e mineração de dados. 3. Bancos de dados para mineração de dados

Sistemas de Apoio à Inteligência do Negócio

FATORES QUE INTERFEREM NA QUALIDADE DO SERVIÇO NA UNIDADE DE SAÚDE DA FAMÍLIA RENATO AUGUSTO PEDREIRA LEONNI EM SANTO AMARO DA PURIFICAÇÃO-BA.

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Data, Text and Web Mining

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

Um Método para Melhoria de Dados Estruturados de Imóveis

Ambiente Weka Waikato Environment for Knowledge Analysis

Modelos de Gestão de Estoques e Otimização do Sistema de Ressuprimento para uma rede de Drogarias

Gestão do Conhecimento: Extração de Informações do Banco de Dados de um Supermercado

SISTEMAS DE APOIO À DECISÃO SAD

FACULDADE DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS FACITEC CURSO:

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

INSTITUTO VIANNA JÚNIOR LTDA FACULADE DE CIENCIAS ECONOMICAS VIANNA JUNIOR DATA MINING - EXTRAÇÃO E EXPLORAÇÃO DE CONHECIMENTO.

DESCOBERTA DE CONHECIMENTO EM BASES DE DADOS

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Introdução a Datamining (previsão e agrupamento)

Geração automática de suíte de teste para GUI a partir de Rede de Petri

Introdução a Datamining (previsão e agrupamento)

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Presentation: MegaVoz Contact Center Tool

Palavras-chave: On-line Analytical Processing, Data Warehouse, Web mining.

Estudo e Análise da Base de Dados do Portal Corporativo da Sexta Região da Polícia Militar com vista à aplicação de Técnicas de Mineração de Dados1

Transcrição:

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING http://www.uniriotec.br/~tanaka/tin0036 tanaka@uniriotec.br Introdução a Data Mining

Introdução a Data Mining Conceitos: DM x OLAP DM como parte de KDD Objetivos gerais de KDD/DM Conhecimentos descobertos com DM Regras de associação Hierarquias de classificação Padrões sequenciais Padrões em séries temporais Categorização e segmentação Técnicas de DM Técnicas para regras de associação Árvores de decisão Outras técnicas Aplicações

Business Intelligence Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Business Analyst Data Analyst Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP DBA

Ambientes analíticos Data Mining Modelagem/ Segmentação Nenhuma ou poucas hipóteses OLAP Multidimensional Hipóteses moderadas Ferramentas de Consulta Consultas padrão Hipóteses seguras

Arquitetura Genérica de um Data Warehouse Meta Dados FONTES DE DADOS FERRAMENTAS DE CONSULTA OLAP BDs Operacionais Extração Transformação Carga Atualização Data Warehouse Análise Data Mining Relatórios Fontes Externas Data Marts OLAP Chaudhri&Dayal, SIGMOD RECORD 1997

Processo de Data Warehousing

KDD Knowledge Discovery in Databases Fayyad, Usama; Piatetski-Shapiro, Gregory; Smyth, Padhraic (1996) The KDD Process for Extracting Useful Knowledge from Volumes of Data. In: Communications of the ACM, pp.27-34, Nov.1996

Definições de Data Mining Descoberta de informações não reveladas em um banco de dados Termos Similares Categorização de Dados Análise Exploratória de Dados (Exploratory Data Analisys) Descoberta orientada a dados (Data driven discovery) Aprendizado dedutivo (Deductive learning) É parte de KDD (Knowledge Discovery in Databases)

Data Mining Processo de extrair informação válida, previamente desconhecida e de máxima abrangência a partir de grandes bases de dados, usando-as para tomada de decisões. Permite aos usuários explorar e inferir informação útil a partir dos dados, descobrindo relacionamentos escondidos no banco de dados

Objetivos de Data Mining Explanatório: explicar algum evento ou medida observada porque a venda de sorvetes caiu no Rio de Janeiro; Confirmatório: confirmar uma hipótese Uma companhia de seguros, por exemplo, pode querer examinar os registros de seus clientes para determinar se famílias de duas rendas tem mais probalidade de adquirir um plano de saúde do que famílias de uma renda; Exploratório:analisar os dados buscando relacionamentos novos e não previstos. Uma companhia de cartão de crédito pode analisar seus registros históricos para determinar que fatores estão associados a pessoas que representam risco para créditos

Objetivos de DM e KDD Prediction Data mining can show how certain attributes within the data will behave in the future. Examples of predictive data mining include the analysis of buying transactions to predict what consumers will buy under certain discounts, how much sales volume a store would generate in a given period, and whether deleting a product line would yield more profits. In such applications, business logic is used coupled with data mining. In a scientific context, certain seismic wave patterns may predict an earthquake with high probability. Identification Data patterns can be used to identify the existence of an item, an event, or an activity. For example, intruders trying to break a system may be identified by the programs executed, files accessed, and CPU time per session. In biological applications, existence of a gene may be identified by certain sequences of nucleotide symbols in the DNA sequence. The area known as authentication is a form of identification. It ascertains whether a user is indeed a specific user or one from an authorized class; it involves a comparison of parameters or images or signals against a database. Classification Data mining can partition the data so that different classes or categories can be identified based on combinations of parameters. For example, customers in a supermarket can be categorized into discount-seeking shoppers, shoppers in a rush, loyal regular shoppers, and infrequent shoppers. This classification may be used in different analyses of customer buying transactions as a post-mining activity. Sometimes classification based on common domain knowledge is used as an input to decompose the mining problem and make it simpler. For instance, health foods, party foods, or school lunch foods are distinct categories in the supermarket business. It makes sense to analyze relationships within and across categories as separate problems. Such categorization may be used to encode the data appropriately before subjecting it to further data mining. Optimization One eventual goal of data mining may be to optimize the use of limited resources such as time, space, money, or materials and to maximize output variables such as sales or profits under a given set of constraints. As such, this goal of data mining resembles the objective function used in operations research problems that deals with optimization under constraints

Tipos de conhecimento descoberto com DM 1. Association rules These rules correlate the presence of a set of items with another range of values for another set of variables. Examples: (1) When a female retail shopper buys a handbag, she is likely to buy shoes. (2) An X-ray image containing characteristics a and b is likely to also exhibit characteristic c. 2. Classification hierarchies The goal is to work from an existing set of events or transactions to create a hierarchy of classes. Examples: (1) A population may be divided into five ranges of credit worthiness based on a history of previous credit transactions. (2) A model may be developed for the factors that determine the desirability of location of a store on a 1 10 scale. (3) Mutual funds may be classified based on performance data using characteristics such as growth, income, and stability. 3. Sequential patterns A sequence of actions or events is sought. Example: If a patient underwent cardiac bypass surgery for blocked arteries and an aneurysm and later developed high blood urea within a year of surgery, he or she is likely to suffer from kidney failure within the next 18 months. Detection of sequential patterns is equivalent to detecting association among events with certain temporal relationships. 4. Patterns within time series Similarities can be detected within positions of the time series. Three examples follow with the stock market price data as a time series: (1) Stocks of a utility company ABC Power and a financial company XYZ Securities show the same pattern during 1998 in terms of closing stock price. (2) Two products show the same selling pattern in summer but a different one in winter. (3) A pattern in solar magnetic wind may be used to predict changes in earth atmospheric conditions. 5. Categorization and segmentation A given population of events or items can be partitioned (segmented) into sets of "similar" elements. Examples: (1) An entire population of treatment data on a disease may be divided into groups based on the similarity of side effects produced. (2) The adult population in the United States may be categorized into five groups from "most likely to buy" to "least likely to buy" a new product. (3) The web accesses made by a collection of users against a set of documents (say, in a digital library) may be analyzed in terms of the keywords of documents to reveal clusters or categories of users.

Data Mining e KDD Knowledge Discovery in Databases (KDD): processo de encontrar informação útil em dados. Data Mining: Uso de algoritmos para extração desta informação isto é, DM é parte do processo de KDD.

Processo de KDD Modified from [FPSS96C] Seleção: Obtenção de dados de várias fontes. Preprocessamento: Limpeza dos dados. Transformação: Conversão para formato comum. Data Mining: Obtenção de informação. Interpretação/Avaliação: Apresentação de resultados de forma útil.

KDD Ex: Web Log Seleção: Selecionar dados de log (datas e locais) Preprocessamento: Remover erros logados Transformação: Ordenar e agrupar Data Mining: Identificar e contar padrões Interpretação/Avaliação: Identificar e mostrar sequencias de acesso frequentes Empregos Potenciais: Otimização de Cache Personalização

Desenvolvimento em Data Mining Modelo Relacional SQL Data Warehousing/OLAP Técnicas de Escalabilidade Medidas de Similaridade Queries imprecisas Informação não estruturada Máquinas de Busca Análise, Projeto e Síntese de Algoritmos Estruturas de Dados Teorema de Bayes K-Means Clustering Análise de Séries de Tempo Redes Neurais Lógica nebulosa Algoritmos Genéticos Teoria dos Conjuntos Aproximativos

Conceitos Relacionados Bancos de Dados/OLTP Fuzzy Sets/Logic Ciência da Informação (Information Retrieval) Modelagem Dimensional/DW/OLAP Métodos Estatísticos Aprendizado de Máquina (Machine Learning) Visualização Computação de Alto Desempenho (algoritmos/paralelismo) Outras disciplinas: Redes neurais, modelagem matemática, reconhecimento de padrões, etc.

DM versus DW e OLAP DM provê outro nível de análise mais sofisticada que a provida por ferramentas OLAP DM em DWs se beneficia da integração e limpeza já feita sobre os dados Mas não necessariamente precisa ser feito sobre DWs Data warehousing/olap: Orientado a verificação Data Mining: Orientado a descobertas nãoantecipadas

Banco de Dados vs. Data Mining Consultas Bem definidas SQL Dados Operacionais Output Preciso Subconjunto do banco de dados Consultas Fracamente definidas Linguagem de consulta não definida precisamente Dados Não operacionais Output Fuzzy Não é subconjunto do banco de dados

Exemplos de Consultas Banco de Dados Encontre todas as aplicações de crédito com último nome Silva. Identifique clientes que compraram mais de R$ 10.000,00 no último mês. Liste as vendas diárias de leite no último mês. Data Mining Encontre todos as aplicações de crédito que representem risco (classificação). Identifique clientes com perfis de consumo similares (Clustering). Encontre items que normalmente são comprados em conjunto com leite (regras de associação).

Objetivos de Data Mining Modelos e Tarefas