Sistemas de Apoio à Decisão (SAD) Decision Support Systems Andreas Wichert MEIC Tagus (Página da cadeira: Fenix) Objectivo Geral n Acumular informação para produzir indicadores de negócio que permitam tomar decisões n Extracção de conhecimento interessante (regras, padrões, restrições) dos dados existentes em grandes BDs 1
Corpo docente n Andreas Wichert - Teóricas n andreas.wichert@tecnico.ulisboa.pt n tel: 214233231 n room: N2 5-7 n - Laboratórios n Andreas Wichert Horário de dúvidas n 5ª-feira, 14H-18H, 2-N5.7 2
Organização das aulas n Teóricas: n Matéria (slides baseados no livro e artigos) n Apresentação de pessoas externas n Práticas/Laboratório: n Exercícios n Utilização do SQL Server 2012 / Windows 7 n Ínicio: 24/2 n Grupos: número de alunos 3 Avaliação n A Nota Final (NF) é dada por: NF = 6.5% (1)NDW +6.5% (2)NDW+6.5% (3)NDW+6.5% (4)NDW+ 6.5% (5)NDM+6.5% (6)NDM+6.5% (7)NDM+6.5% (8)NDM+ 48 % NE n 1,2,3,4 NDW Nota do projectos de Data Warehouse n 5,6,7,8 NDM Nota do projectos de Data Mining n NE Nota do exame n Nota mínima em cada componente parcial é 9,5 val 3
Exame n 1º exame: 13 de Junho n 2º exame: 30 de Junho Data Mining: Concepts and Techniques 4
Reconhecimento n Prof. Jiawei Han n hanj@cs.uiuc.edu n University of Illinois at Urbana-Champaign n http://www-sal.cs.uiuc.edu/~hanj/ Bibliografia - DW n Data Mining: Concepts and Techniques, J. Han & M. Kamber, Morgan Kaufmann, 2001 Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, 3rd edition, Morgan Kaufmann, 2011 n The Data Warehouse Toolkit, 2nd ed, Ralph Kimball, Margy Ross, 2002 5
Bibliografia - DM n Machine Learning, T. Mitchell, 1997 n Reconhecimento de padrões métodos estatísticos e neuronais, JORGE SALVADOR MARQUES, 1999, ISTpress, http://istpress.ist.utl.pt/lrecpad.html n Artificial,Intelligence - A Modern Approach, Second Edition, S. Russel and P. Norvig, Prentice Hall, 2003 n Artificial Intelligence - Structures and Strategies for Complex Problem Solving, Second Edition, G. L. Luger and W. A. Stubblefield, Benjamin/Cummings Publishing, 1993 n Relational Data Base: Data collection n Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data (interesting patterns?) 6
n How to represent data? n By a coordinate system René Descartes 7
Multidimensional databases n A Cartesian coordinate system is determined n By its dimensions Time, place, product, costumer n By its value Sales in or $, n By the resolution Hours, days, months, years 8
n Our coordinate system is defined by our Data Base n What can we do? n Look at the data n Project the data collapse some dimensions, how to do it? n Change the resolution Different resolution 9
n For two dimensions n Spreadsheet (Excel) with spreadsheet formulas calculations n For more than two dimensions n We will require several spreadsheet tables n -> Data explosion n We will look for one Excel table with several dimensions First Part data warehouse n Mapping of data represented in a data base into a coordinate system.. n Navigation in the coordinate system n Projection n Resolution 10
Second part - Data Mining n Statistics n t-test, linear regression n Feature extracting n PCA n Machine Learning J Feature / Vector space n Sample x = " $ $ # $ % $ x 1 x 2.... x d x (1), x (2),.., x (k),.., { x (n ) } R d x y d = (x i y i ) 2 i=1 11
Learning Input output functions 12
What is machine Learning? n Parallels between animals and machine learning n Many techniques derived from efforts of psychologist / biologists to make more sense animal learning through computational models Machine Learning n Changes in the system that perform tasks associated with AI n Recognition n Prediction n Planning n Diagnosis 13
17/02/14 14
n We might add other features that are not correlated with the ones we already have. A precaution should be taken not to reduce the performance by adding such noisy features n Ideally, the best decision boundary should be the one which provides an optimal performance such as in the following figure: 15
n However, our satisfaction is premature because the central aim of designing a classifier is to correctly classify novel input Issue of generalization 16
n We could use several tools n MySQL & Pentaho & Matlab & S & R &. http://www.pentaho.com/ http://www.cs.waikato.ac.nz/ml/weka/ n it would be nice to have one tool J n SASS n SQL Sever (we will use SQL Server 2008) n Oracle n.. 17
Bibliografia SQL Server 2012 n Microsoft SQL Server 2012 Tutorial n Microsoft SQL Server online Books Some Information about SQL Server n General Information about SQL Server: n http://en.wikipedia.org/wiki/microsoft_sql_server n http://technet.microsoft.com/en-us/sqlserver/default.aspx n Data Mining and SQL Server: n http://www.sqlserverdatamining.com 18
We will use SQL Server 2012 (Windows 7) n n Tutorial: SQL Server Management Studio http://technet.microsoft.com/en-us/library/bb934498.aspx n Analysis Services Tutorials (SSAS) n http://technet.microsoft.com/en-us/library/hh231701.aspx n n Multidimensional Modeling (Adventure Works Tutorial) http://technet.microsoft.com/en-us/library/ db55e226-601a-4026-8651-573195555a59 n n Data Mining Tutorials (Analysis Services) http://technet.microsoft.com/en-us/library/bb677206.aspx Programa n Datawarehouse (DW) e Sistemas de Apoio à Decisão n Operações OLAP (Online Analytical Processing) n Modelo multidimensional vs modelo relacional, Teoria da normalização do modelo relacional n CUBE n Desenho de DW n Arquitectura de DW n Implementação de DW 19
Programa n Pré-processamento, transformação e limpeza de dados n Exploração de dados (data mining) n Descrição de conceitos e generalização de dados n Regras de associação n Redes bayesianas n Árvores de decisão n Classificação baseada em instâncias n Análise de clusters n Redes neuronais Informação necessária para apoio à decisão n Características requeridas para a informação utilizada para a tomada de decisão: n precisa n fiável n actualizada n relevante n orientada à acção 20
Sistemas operacionais n Contabilidade, compras, reservas, telecomunicações, etc n Muitas fontes de dados dispersas (ficheiros excel, BD Access) de suporte a aplicações do tipo: SAP, ERPs, etc n Alguns problemas: acesso aos dados díficil, qualidade de dados duvidosa, dados estruturados à aplicação (ex: códigos específicos), suporte a interrogações simples Conceito de um DW n Conjunto centralizado de dados: n temáticos n históricos n datados n integrados que oferece um nível de qualidade adequado às aplicações de decisão 21
Arquitectura geral SAD Metadata OLAP Server other sources Extract Transform Load Refresh Data Warehouse Serve Analysis Query Reports Data mining Operational DBs Data Marts Data Sources Data Storage OLAP Engine Front-End Tools 22