Cláudia Antunes 2006 Gestão O processo de converter informação em acção Sistemas de Informação de Gestão (Management Information Systems - MIS) O que pode ser feito com a informação existente na organização? Sistemas de Apoio à Decisão Que decisões estão a ser tomadas, como e que informação pode ser útil? 2 Identificar os problemas (e respetivas condições) que necessitam de uma decisão Inventar, desenvolver e analisar as possíveis linhas de acção Seleccionar uma linha de acção!! Sistema de processamento e visualização de dados / informação interactivo, usado para ajudar no processo de tomada de decisão, que: É suficientemente amigável para ser usado por quem toma as decisões Apresenta a informação num formato e terminologia familiar para os seus utilizadores É selectivo na quantidade de informação que apresenta, de modo a evitar o bombardeamento dos utilizadores com informação menos útil 3 4 5 1
!! Definida de várias formas (não rigorosas) É uma base de dados para suportar o processo de tomada de decisão, mantida separadamente da base de dados operacional da organização Suporta o processamento de informação ao fornecer uma plataforma de análise de dados históricos consolidados Uma data warehouse é uma colecção de dados integrados, não-voláteis e orientados a um assunto, registados ao longo do tempo, usada para apoiar o processo de tomada de decisão William Inmon (Data warehousing) O processo de construção e manutenção de data warehouses 7 8 " " # $ Organizada em volta de assuntos específicos, tais como vendas, produtos, clientes. Centrada na modelação e análise de dados úteis para os decisores, em vez de centrada nas operações diárias. Fornece uma vista simples e concisa sobre um assunto particular, excluindo os dados inúteis para a tomada de decisão. 9 Construída a partir da integração de fontes de dados heterogéneas Bases de dados relacionais, ficheiros de texto, etc Técnicas de Limpeza de Dados Garantir a consistência e integridade dos dados 10 " % $ O horizonte temporal de uma data warehouse é maior. Bases de Dados Operacionais: registam valores actuais. Data warehouse: armazenam dados numa perspectiva histórica (exº: dados dos últimos 5-10 anos) A maioria dos registos de uma data warehouse são datados " & '( %% A data warehouse é mantida fisicamente separadamente das bases de dados operacionais As alterações efecutadas nas bases de dados operacionais não alteram os registos da data warehouse (podem levar à inserção de novos registos). Não são necessários mecanismos de processamento de transacções, de recuperação de falhas e de concorrência Necessita apenas de operações de: Carregamento inicial dos dados Acesso aos dados 11 12 2
%) *# % Operational Data Application OLTP OLAP Use Precise Queries Ad Hoc Data Warehouse Temporal Snapshot Historical Modification Dynamic Static Orientation Application Business Data Operational Values Integrated Size Gigabytes Terabytes Level Detailed Summarized Access Often Less Often Response Few Seconds Minutes Data Schema Relational Multidimensional Analysis and Query Reporting: ferramentas de análise configuráveis, usadas para analisar os dados de forma resumida Online Analytic Processing (OLAP): permite análises mais complexas que os sistemas OLTP. enables users to analyse data across multiple dimensionsand hierarchies OnLine Transaction Processing (OLTP): traditional database/transaction processing. 13 14 ) * OLTP OLAP users clerk, IT professional knowledge worker function day to day operations decision support DB design application-oriented subject-oriented data current, up-to-date detailed, flat relational isolated historical, summarized, multidimensional integrated, consolidated usage repetitive ad-hoc access read/write lots of scans index/hash on prim. key unit of work short, simple transaction complex query # records accessed tens millions #users thousands hundreds DB size 100MB-GB 100GB-TB metric transaction throughput query throughput, response 15, - Data Mining consiste na extracção não trivial de informação implícita, previamente desconhecida e potencialmente útil, feita a partir dos dados registados numa base de dados. [Frawley, KDD 1995] -. / * 0 $ Preprocessing: Select log data (dates and locations) to use Remove identifying URLs Remove error logs Transformation: Sessionize (sort and group) DB DB DW DB Table Table Data Data Mining Data Models Preprocessing Postprocessing Information Data Mining: Identify and count patterns Construct data structure Interpretation/Evaluation: Identify and display frequently accessed sequences. 17 18 3
10 10! " " " 19 Classificação Constrói um modelo para os registos observados, baseando-se num conjunto de treino Utiliza o modelo anterior para classificar registos desconhecidos Previsão Modela funções reais (f:xr) de modo a prever valores futuros Segmentação (Clustering) Divide o conjunto de dados em grupos (clusters), agrupando os registos semelhantes e separando os registos diferentes; Utiliza-se quando não existe informação sobre a classificação dos registos (unsupervised learning) Descoberta de Relações (Association Rules) Identifica padrões frequentes entre os registos, pela análise das correlações 20 % / % % % 1 Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No Refund Marital Status Taxable Income No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Cheat Test Set Marketing directo Detecção de fraudes Gestão de clientes 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Training Set Learn Classifier Model 21 22 % % ) / % Árvores de Decisão Redes Neuronais Classificação Bayesiana Support Vector Machines Classificação Baseada em Instâncias Algoritmos Genéticos Aplicações Previsão de valores futuros Determinar padrões temporais Classificar comportamentos Exemplo: Stock Market 23 24 4
2 $ / % Dado um conjunto de registos das compras efectuadas num supermercado Descobrir as dependências entre os itens comprados, de modo a prever a aquisição de um item sabendo que outro foi adquirido TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Rules Discovered: 2 $ % 1 Marketing e definição de Promoções Gestão de prateleiras Gestão de stocks 25 26 Machine Learning Visualization 2 % 3 % # ' %1 Statistics Data Mining and Knowledge Discovery Databases 28 ) * 29 OLAP Identificar todos os clientes que não efectuaram pagamentos Identificar os clientes que gastaram mais de $10,000 no último mês Identificar os compradores de leite Data Mining Identificar os clientes de baixo risco (Classification) Identificar clientes com hábitos de consumo semelhantes (Clustering) Identificar todos os produtos que são comprados na mesma compra que leite (Association Rules) 30 5
# 2 ) % Information Retrieval: baseia-se na procura de documentos relevantes face a uma query, recorrendo a medidas de semelhança Semelhança: mede quão relevante é um documento em função da query Os documentos que estão suficientemente próximos da query são devolvidos Aplicações: Bibliotecas Web Search Engines Exemplo de query: Encontrar documentos sobre o Benfica. DM: Mine text/web data; Documents classification. 4 Inferência Estatística: generaliza um modelo, criado a partir de uma amostra. Baseado em modelos teóricos Centrado no teste de hipóteses DM: Many data mining methods come from statistical techniques 31 32 + $ Machine Learning: área da Inteligência Artificial que desenvolve programas capazes de aprender. Baseado em heurísticas Centrado na melhoria do desempenho de agentes, muitas vezes robóticos Manipula conjuntos de dados limitados e limpos. DM: Uses machine learning techniques; Concerns with: Scalability, Real World Data, Updates and Ease of Use 33 ) %# Data mining (or simple analysis) on people may come with a profile that would raise controversial issues of Discrimination Privacy Security Examples: Should males between 18 and 35 from countries that produced terrorists be singled out for search before flight? Can people be denied mortgage based on age, sex, race? Women live longer. Should they pay less for life insurance? 35 Can discrimination be based on features like sex, age, national origin? In some areas (e.g. mortgages, employment), some features cannot be used for decision making In other areas, these features are needed to assess the risk factors E.g. people of African descent are more susceptible to sickle cell anemia 36 6
Issues ) 5 Can information collected for one purpose be used for mining data for another purpose In Europe, generally no, without explicit consent In US, generally yes Companies routinely collect information about customers and use it for marketing, etc. People may be willing to give up some of their privacy in exchange for some benefits Solutions ) 5 Data Mining looks for patterns, not people! Technical solutions can limit privacy invasion Replacing sensitive personal data with anon. ID Give randomized outputs (return salary + random()) However Data Mining will invade privacy generate millions of false positives No easy answers to controversial questions Society and policy-makers need to make an educated choice Benefits and efficiency of data mining programs vs. cost and erosion of privacy 37 38 % 1 5 Situation: Attrition rate at for mobile phone customers is around 25-30% a year! Task: Given customer information for the past N months, predict who is likely to attrite next month. Also, estimate customer value and what is the costeffective offer to be made to this customer. Methodology Built a customer data warehouse Identified potential attriters Developed multiple, regional models Targeted customers with high propensity to accept the offer 40 $ 2 6 5 Situation: Person applies for a loan Task: Should a bank approve the loan? Note: People who have the best credit don t need the loans, and people with worst credit are not likely to repay. Bank s best customers are in the middle Methodology Banks develop credit models. Mortgage and credit card proliferation are the results of being able to successfully predict if a person is likely to default on a loan %' 7 5 Situation: a person buys a book (product) at Amazon.com. Task: Recommend other books (products) this person is likely to buy Methodology: Association Rules or Clustering based on books bought 41 42 7
5 3 ' 5 Credit Card Fraud Detection Detection of Money laundering FAIS (US Treasury) Securities Fraud NASDAQ KDD system Phone fraud AT&T, Bell Atlantic, British Telecom/MCI Bio-terrorism detection at Salt Lake Olympics 2002 43 8