Paradigma Simbólico de Aprendizado Aplicado ao Banco de Dados do Vestibular da UFMS

Save this PDF as:
 WORD  PNG  TXT  JPG

Tamanho: px
Começar a partir da página:

Download "Paradigma Simbólico de Aprendizado Aplicado ao Banco de Dados do Vestibular da UFMS"

Transcrição

1 Paradigma Simbólico de Aprendizado Aplicado ao Banco de Dados do Vestibular da UFMS José Edison Cabral Junior Rodrigo Paulino Jorge Rogério Paiva Colman Orientação: Profa. Dra. Maria Bernadete Zanusso dct ufms Departamento de Computação e Estatística Centro de Ciências Exatas e Tecnologia Universidade Federal de Mato Grosso do Sul 18 de dezembro de 2002

2 Conteúdo Conteúdo 4 Lista de Figuras 5 Lista de Tabelas 6 Resumo 7 1 Introdução Objetivo Geral Objetivos Específicos Estrutura O Processo de KDD Banco de Dados Data Warehouse O que é Data Warehouse? Objetivos do projeto de um DW Um modelo multidimensional de dados O que é OLAP? Extraindo Informações de um DW Data Mining Níveis do processo de DM Seleção de dados e pré-processamento Técnicas de Mineração Interpretação e Assimilação Considerações Finais Aprendizado de Máquina Paradigmas de Aprendizagem Paradigma Simbólico Paradigma Estatístico

3 Conteúdo dct-ufms Paradigma Instance-based Paradigma Conexionista Paradigma Genético Estratégias de Aprendizado de Máquina Aprendizado Indutivo e Dedutivo Dedução e Indução Aprendizado Incremental e Não-Incremental Critérios de Sucesso Representação da Hipótese Árvores de Decisão Representação por Árvore de Decisão Problemas apropriados para Resolução com Árvores de Decisão Induzindo Árvores de Decisão a partir de Exemplos Avaliação da Eficiência de um Algoritmo O Algoritmo ID Questões Práticas no Aprendizado com Árvore de Decisão Regras Regra indutiva Algorítmos genéticos Medidas de Avaliação e Interessabilidade Medidas de Avaliação de Regras Notação e Terminologia Medidas de Avaliação de Regras Considerações Finais Interessabilidade de Regras Aspectos de Interessabilidade de Regras Princípios para Interessabilidade Uma medida Objetiva de Interessabilidade de Regras Considerações Finais Aplicação com base no Banco de Dados do Vestibular da UFMS O Processo de KDD na Aplicação Descrição da Aplicação Linguagem Dados de Entrada Dados de Saída

4 Conteúdo dct-ufms 7.3 Resultados Obtidos Demonstração Demonstração Melhorias Sugeridas Conclusão 82 Apêndice 83 Referências Bibliográficas 89 4

5 Lista de Figuras 1.1 O Processo de KDD Um ambiente simplificado de um BD Arquitetura em 3 níveis Árvore de Decisão para o Problema Jogar Golf Janela principal da aplicação Caixa Banco de Dados Conexão com banco de dados efetuada com sucesso Caixa Registros Caixa Questionário Sócio-Econômico Barra de botões Exemplo de uma árvore de decisão em modo de navegação Exemplo de regras de produção Exemplo de regras de produção Janela principal após a execução do exemplo Árvore de decisão gerada - modo gráfico Árvore de decisão gerada - modo de navegação Regras de produção Regras de produção

6 Lista de Tabelas 2.1 OLAP versus OLTP Escolhendo a ferramenta certa Matriz de Confusão para Problemas de Classificação Binária Tabela de Contingência para uma Regra Conjunto de Exemplos de Treinamento Jogar Golf Regras Induzidas a partir do Conjunto de Exemplos de Treinamento Jogar Golf Conjunto de Exemplos de Teste Jogar Golf Regras Selecionadas e suas Tabelas de Contingência Matriz de Confusão Valores das Medidas Genéricas de Avaliação das Regras R 1, R 2 e R Códigos a serem utilizados no preenchimento das perguntas 2 e 3 do questionário sócio-econômico-cultural

7 Resumo Encontrar padrões úteis em dados é conhecido através de nomes diferentes, por exemplo: extração de conhecimento, descoberta de informação, colheita de informação, arqueologia de dados, processamento de padrão de dados e mineração de dados(data Mining). No projeto é utilizado o termo KDD(Knowledge Discovery in Database) para se referir ao processo global de descobrir de forma automática ou semi-automática, o conhecimento útil de dados. KDD é um campo interdisciplinar, que emergiu da intersecção entre várias áreas, como: Banco de Dados, Aprendizado de Máquina(uma subárea da Inteligência Artificial) e Estatística. Data Mining(DM) é uma etapa particular neste processo, tendo como objetivo, a aplicação de algoritmos específicos para extrair padrões(modelos) de dados. As demais etapas do processo de KDD são: definição do problema, seleção de dados, limpeza de dados, pré-processamento dos dados, codificação dos dados, enriquecimento dos dados, e interpretação formal dos resultados de mineração. A união das etapas acima assegura a qualidade do conhecimento extraído dos dados. O projeto pretende dar uma introdução a todos os conceitos que envolvem o processo de KDD, com ênfase na etapa de Data Mining, principalmente no contexto de Regras de Produção e Árvores de Decisão. Com as técnicas estudadas, pretende-se descobrir informações interessantes acerca do banco de dados do vestibular da UFMS, com o auxílio da implementação de um dos algoritmos de Data Mining estudados. 7

8 Capítulo 1 Introdução As últimas décadas vêm mostrando um elevado aumento na quantidade de informações ou dados armazenados em formato eletrônico, conseqüência natural dos avanços tecnológicos e da crescente importância da informação no mundo real. Pela própria forma em que os dados são guardados, e obviamente pelo grande volume, é impossível interpretá-los por métodos manuais, onde o especialista compara suas hipóteses com a massa de dados. Porém quanto maior for a quantidade de dados agrupados de forma lógica, maior a quantidade de informação armazenada, mesmo que codificada em símbolos e estruturas de dados aparentemente sem valor. Desta forma, surge a necessidade de se explorar estes dados para se extrair informações implícitas e utilizá-las no contexto do problema em questão. O processo capaz de descobrir este conhecimento em banco de dados chama-se KDD (Knowledge Discovery in Database). É resultado da fusão de áreas como: Banco de Dados, Aprendizado de Máquina (uma sub-área de Inteligência Artificial) e Estatística. O processo de KDD foi proposto em 1989 para referir-se às etapas que produzem conhecimentos a partir dos dados e, principalmente, à etapa de mineração de dados, que é a fase que transforma dados em informações [FSS96]. Este processo envolve encontrar e interpretar padrões nos dados, de modo iterativo e interativo, através da repetição dos algoritmos e da análise de seus resultados. Constitui-se de diversas fases: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados (Data Mining) e a interpretação dos resultados. A Figura 1.1 na página 9, ilustra o processo do KDD. DM é uma ferramenta utilizada para descobrir novas correlações, padrões e tendências, através da análise de grandes quantidades de dados armazenados em grandes massas de dados usando técnicas de reconhecimento de 8

9 1.1. Objetivo Geral dct-ufms Figura 1.1: O Processo de KDD padrões, estatísticas e matemáticas. Embora recente, a história do KDD já tem casos bem conhecidos. O mais divulgado é o da cadeia americana Wal-Mart, que identificou um hábito curioso dos consumidores: ao procurar eventuais relações entre o volume de vendas e os dias da semana, o software de KDD apontou que, às sextas-feiras, as vendas de cervejas cresciam na mesma proporção que as de fraldas; uma investigação mais detalhada revelou que, ao comprar fraldas para seus bebês, os pais aproveitavam para abastecer o estoque de cerveja para o final de semana. Nesta monografia serão abordados alguns pré-requisitos e conceitos relativos ao KDD, com ênfase para a etapa de DM. Também serão introduzidas algumas técnicas e ferramentas que fazem parte do DM, como: Aprendizado Indutivo, Árvores de Decisão e Regras de Produção. 1.1 Objetivo Geral Estudar algoritmos de Aprendizagem de Máquina baseados na construção de Árvores de Decisão e Regras de Produção SE-ENTÃO, e aplicá-los a alguns bancos de dados visando a descoberta de padrões ou conhecimentos. 9

10 1.2. Objetivos Específicos dct-ufms 1.2 Objetivos Específicos 1. Descrever todas as etapas do processo de KDD(Knowledge Discovery in Database); 2. Definir Data Mining; 3. Explorar conceitos teóricos e práticos de aplicações; Árvores de Decisão e suas 4. Implementar o Algoritmo ID3, que gera uma árvore de decisão, baseado em um conjunto de exemplos fornecido; 5. Introduzir o uso das Regras de Produção e seu significado; 6. Explicar o Aprendizado Indutivo; 7. Estudar medidas de avaliação e de interessabilidade de hipóteses representadas por Árvores de Decisão e Regras SE-ENTÃO; 8. Aplicar as ferramentas citadas acima ao banco de dados do vestibular da UFMS, visando descobrir informações interessantes. 1.3 Estrutura Esta monografia está organizada da seguinte forma: No Capítulo 2 são explicadas todas as fases que envolvem o KDD e os conceitos de Bando de Dados, Data Warehouse e Data Mining; No Capítulo 3 são apresentados os conceitos que envolvem Aprendizado de Máquina, explicando alguns dos paradigmas existentes, e uma comparação entre Aprendizado Dedutivo e Aprendizado Indutivo; No Capítulo 4, é feito um estudo detalhado sobre Árvores de Decisão, envolvendo sua representação, problemas apropriados, e a apresentação e explicação do algoritmo ID3, que é utilizado para a geração de Árvores de Decisão; No Capítulo 5, são explicados os conceitos sobre Regras; No Capítulo 6, são feitas algumas apresentações de Medidas de Avaliação e Interessabilidade de Regras, que são utilizadas para fazer o estudo regras; 10

11 1.3. Estrutura dct-ufms No Capítulo 7, é apresentado o trabalho que foi desenvolvido pelos alunos do Projeto de Graduação sob o Banco de Dados do Vestibular da UFMS. Neste capítulo é explicado como foram realizadas todas as etapas do processo de KDD; No Capítulo 8, são apresentadas as considerações finais. 11

12 Capítulo 2 O Processo de KDD Este capítulo têm como referência, vários textos produzidos pelos alunos de Computação da UNESP de Rio Claro/SP, sobre KDD, entre estes textos, destaca-se [PCA98]. O processo de KDD é iterativo e interativo, pois envolve várias iterações e decisões do usuário. Segue alguns dos passos básicos: 1. Entender o domínio da aplicação, o conhecimento relevante, e os objetivos do usuário final; 2. Criar um conjunto de dados alvo para a descoberta selecionando um conjunto de dados, ou focando em um sub-conjunto de variáveis ou dados de exemplo; 3. pré-processar, fazendo a limpeza dos dados, usando operações básicas, tais como remoção de ruído, decidindo a estratégia de suporte a campos com falta de dados; 4. Transformar os dados a fim de reduzir o número de variáveis a se considerar ou achar representações invariantes para os dados; 5. Escolher o algoritmo apropriado de DM; 6. Minerar os dados, procurando por padrões de interesse em uma forma de representação particular ou uma representação qualquer; 7. Interpretar e analisar os padrões; 8. Consolidar o conhecimento descoberto incorporando-o ao processo, ou simplesmente documentando as partes interessadas. 12

13 2.1. Banco de Dados dct-ufms 2.1 Banco de Dados Esta sessão introduz Banco de Dados (BD) de uma forma simples e objetiva, e é baseada na apostila de [Lop99]. São abordados os pontos que julga-se ser o mínimo necessário para deixar o leitor capacitado a entender a necessidade do mesmo para KDD. De maneira genérica são abordados em BD: conceitos básicos, tais como definição e propriedades; características, como linguagens de BD e coerência dos dados; arquitetura lógica; esquemas externo, conceitual e interno; usuários; modelo de Entidade-Relacionamento; linguagens de consulta e linguagem SQL, apresentando os principais comandos. Pode-se definir BD como uma coleção de dados relacionados. Onde dados são fatos conhecidos que podem ser armazenados e que possuem algum significado conhecido por quem os armazena. Por exemplo, considere os nomes, número de telefones e endereços de um grupo de pessoas, armazenado numa agenda de endereços indexada. Pode-se dizer que esta agenda é uma coleção de dados com um significado para seu portador, ou seja, um BD. Geralmente, um BD possui as seguintes propriedades: Representa algum aspecto do mundo real, algumas vezes chamado de mini-mundo. Mudanças no mini-mundo são refletidas no BD; Define uma coleção coerente de dados. Um conjunto aleatório de dados não pode ser considerado um BD; Modelado, construído, e povoado com dados para uma proposta específica. Ou seja, existe um grupo de usuários e algumas aplicações pré-concebidas as quais esses usuários estão interessados. Resumidamente, um BD tem alguma origem da qual os dados são derivados, algum grau de interação com eventos no mundo real, e alguns usuários que estão ativamente interessados no seu conteúdo. Um Sistema Gerenciador de Banco de Dados (SGBD), ou em inglês, DBMS (Database Management System), é uma coleção de programas que auxiliam o usuário a criar e manter um BD. O SGBD é então um software de propósito geral que facilita o processo de definir, construir e manipular BD de várias aplicações. Definir envolve especificar os tipos dos dados, estruturas e restrições para os dados que serão armazenados. Construir é o processo de armazenamento dos dados em alguma mídia que é controlada pelo SGBD. E a manipulação do BD inclui algumas funções como queries que buscam por dados específicos, atualizações no BD que refletem mudanças no mini-mundo, e geração de relatórios. A Figura 2.1 ilustra um ambiente simplificado de um BD. 13

14 2.1. Banco de Dados dct-ufms Figura 2.1: Um ambiente simplificado de um BD É importante diferenciar softwares que se utilizam de programação com arquivos e softwares para BD. No tradicional processamento de arquivos, cada usuário define e implementa os arquivos necessários para uma aplicação específica. Nos softwares para BD, um único repositório de dados é criado e então acessado por um ou mais usuário(s). Deste modo, as principais características do SGBD podem ser: Definição do BD, através de uma Linguagem de Definição de Dados (LDD), criando relacionamentos, tipos e restrições; Utilização de Linguagens de Manipulação de Dados (LMD), fazendo inserções, remoções e atualizações; Suporte ao método de armazenamento, segurança e acesso eficiente aos dados, além do controle multi-usuário. Entretanto, a característica fundamental do SGBD é prover um nível de abstração capaz de esconder os detalhes de como os dados estão armazenados fisicamente e como as operações de acesso e manipulação são realizadas. Com o objetivo de separar as aplicações dos usuários e o BD fisicamente, pode-se especificar uma arquitetura chamada de Arquitetura em 3(três) Níveis ou esquemas(ilustrado na Figura 2.2): O nível interno tem um esquema que descreve a estrutura física de armazenamento do BD. Usa o modelo de dados físico e descreve detalhes 14

15 2.1. Banco de Dados dct-ufms completos do armazenamento dos dados e caminhos de acesso para o BD; O nível conceitual tem um esquema que descreve a estrutura de todo o BD para uma comunidade de usuários. Esconde os detalhes da estrutura de armazenamento físico e concentra-se na descrição de entidades, tipos de dados, relacionamentos, operações de usuários e restrições; O esquema externo é onde os dados são apresentados em alto nível aos usuários. Cada esquema externo descreve a parte do BD que um grupo particular de usuários está interessada, escondendo o restante. Figura 2.2: Arquitetura em 3 níveis Uma vez que o modelo do BD está definido e um SGBD foi escolhido, precisa-se especificar os esquemas conceitual e interno para o BD e qualquer mapeamento entre os dois. A LDD é utilizada por um usuário administrador da base e pelos desenvolvedores do modelo para definir ambos os esquemas. Em SGBDs onde existe uma clara diferença entre os níveis conceitual e interno, a LDD é utilizada apenas para o modelo conceitual. Uma outra linguagem, a SDL (Storage Definition Data), é usada para especificar o modelo interno. Para completar a arquitetura de 3 níveis é necessário uma terceira linguagem, a VDL (View Definition Language) que define o esquema de visões. Uma visão pode ser considerada como uma forma de mostrar o BD de maneiras diferentes para cada tipo de usuário, mostrando apenas as informações úteis a ele e escondendo as demais. Uma vez que os esquemas do BD são criados e o próprio BD é povoado, os usuários precisam ter meios de manipular os dados. As manipulações 15

16 2.1. Banco de Dados dct-ufms típicas incluem busca, inserção, deleção, e modificação dos dados. Para essa proposta o SGBD propõe a LMD. SQL (Structure Query Language) é a LMD mais conhecida, e por este motivo será comentada, antes porém, é introduzido o conceito de modelo ER. O modelo conceitual de Entidade-Relacionamento(ER) descreve dados como entidades, relacionamentos e atributos. A entidade é o objeto básico representado no modelo ER, que é algo do mundo real com existência independente. Uma entidade pode ser um objeto com existência física, como uma pessoa, um carro, uma casa, ou um empregado; ou pode ser um objeto com existência conceitual, como uma companhia, um trabalho, ou um curso de universidade. Cada entidade tem propriedades particulares, chamadas atributos, que a descrevem. Por exemplo, uma entidade empregado pode ser descrita por nome do empregado, idade, endereço, salário e trabalho. Uma entidade terá um valor para cada um desses atributos. Os valores dos atributos que descrevem cada entidade são a maior parte dos dados armazenados no BD. Informalmente, um relacionamento é uma associação de entidades, onde a associação inclui uma instância de cada entidade. Por exemplo, pode-se ter um relacionamento chamado TRABALHA-PARA entre duas entidades, empregado e departamento, que associa cada EMPREGADO ao DEPARTA- MENTO em que trabalha. Existem várias linguagens que têm sido parcialmente ou completamente implementada e estão disponíveis em SGBDs comerciais. A mais conhecida delas é a SQL, cujo nome é derivado de Structure Query Language. Variações de SQL têm sido implementadas por vários fabricantes, por isso há um esforço de se padronizar o SQL coordenado pelo ANSI (American National Standards Institute) e pela ISO (International Standards Organizations). SQL é uma linguagem compreensível para BD; pois possui comandos para definição de dados, busca e atualizações. Então, ela é uma LMD e também é uma LDD. SQL utiliza os termos tabela, linha, e coluna para entidade, tupla e atributo, respectivamente. Os comando de SQL para definição de dados são CREATE (para criação), ALTER (para alteração), e DROP (para remoção). O comando CREATE TABLE é usado para especificar uma nova relação(entidade) dando-se seu nome e especificando seus atributos e sua chave primária. Os atributos são especificados primeiro, e a cada atributo é dado um nome, um tipo de dado para especificar seu domínio de valores, e possivelmente algumas restrições de integridade. Restrição de Integridade é alguma especificação sobre o tipo de dado de cada atributo. Um tipo de restrição que ocorre freqüentemente é aquela que impede que o valor do atributo seja nulo (NOT NULL). Um outro tipo de restrição especifica a unicidade do valor do atributo na relação. Chave Primária 16

17 2.1. Banco de Dados dct-ufms é um atributo ou um conjunto de atributo, utilizado para representar cada instância de uma entidade de maneira única. Um exemplo de criação de uma tabela usando SQL: 01 CREATE TABLE EMPREGADO ( 02 NOMINIC VARCHAR(15) NOT NULL, 03 NOMINT CHAR(1), 04 NOMEFIM VARCHAR(15) NOT NULL, 05 NUMAT INT NOT NULL, 06 DTNASC DATE, 07 ENDER VARCHAR(30), 08 SEXO CHAR(1), 09 SALARIO NUMERIC(10,2), 10 NSUPER INT, 11 NDEPTO INT DEFAULT 1 NOT NULL, 12 PRIMARY KEY (NUMAT)) No exemplo acima, EMPREGADO, na linha 1, é o nome da entidade que está sendo criada; da linha 02 à 11 temos a definição dos atributos, especificando seus nomes, tipos e restrições de integridade (optativo) ; na linha 12 define-se a chave primária da tabela. O comando ALTER TABLE pode ser utilizado para alterar a definição de uma tabela. As possíveis ações desse comando incluem adicionar ou excluir uma coluna (atributo), alterar a definição de uma coluna e adicionar ou excluir restrições. Por exemplo, adicionar um atributo para o dos empregados: ALTER TABLE EMPREGADO ADD VARCHAR (20); SQL tem um comando básico para obter informações da base de dados: SELECT. A forma básica do comando SELECT é formada por 3 cláusulas que definem a query : SELECT, FROM, e WHERE. Elas tem a seguinte forma: SELECT <lista de atributos> FROM <lista de tabelas> WHERE <condição> Onde: 17

18 2.2. Data Warehouse dct-ufms <lista de atributos> é uma lista de nomes de atributos cujos valores serão obtidos na query ; <lista de tabelas> é uma lista com os nomes das relações (entidades) requisitadas para processar a query ; <condição> é a condição necessária para identificar expressões que satisfazem as tuplas da query. Um exemplo de query : SELECT NOMINIC, SEXO, DTNASC FROM EMPREGADO WHERE NOMINIC = JOSÉ AND NDEPTO = 5 Neste exemplo, na primeira linha, são especificados os atributos que serão recuperados: NOMINIC, SEXO e DTNASC. Na segunda linha, especifica-se que a consulta será realizada na relação EMPREGADO, e que satisfaça as seguintes condições: NOMINIC igual a José e NDEPTO igual a 5. Atualmente, os SGBDs mais utilizados por empresas em Campo Grande e em outras localidades, são: MySQL, Interbase e Oracle. No meio acadêmico, inclusive UFMS, o SGBD mais utilizado é Interbase, por ser um SGBD livre. Quanto à linguagem, SQL consolida-se como a principal linguagem utilizada no mercado. 2.2 Data Warehouse Uma importante questão estratégica para o sucesso de qualquer organização nos dias de hoje é a sua capacidade de analisar, planejar e reagir, rápida e imediatamente, às mudanças nas condições de seus negócios. Para que isso aconteça, é necessário que a organização disponha de mais e melhores informações, que constituem, reconhecidamente, a base destes processos. Os avanços da tecnologia de informação vieram garantir a possibilidade das empresas manipularem grandes volumes de dados e atingirem um alto índice de globalização, com o uso das redes viabilizando operações em nível mundial. Diariamente, dados sobre os mais variados aspectos dos negócios da empresa são gerados e armazenados, e passam a fazer parte dos recursos de informação dessa empresa. Entretanto, essas informações encontram-se, em geral, espalhadas em diversos sistemas e exigem um esforço considerável de integração para que possam dar suporte efetivo à tomada de decisão de gerentes e executivos. Isso significa que, em que pesem os avanços da tecnologia de armazenamento e manipulação de dados, ainda se verifica, nos dias de hoje, 18

19 2.2. Data Warehouse dct-ufms uma grande deficiência na obtenção ágil de informações estratégicas. Por esse motivo, um novo conjunto de conceitos e ferramentas vem ganhando enorme destaque nos últimos anos, a tecnologia de Data Warehouse (DW), que oferece às organizações uma maneira flexível e eficiente de obter as informações necessárias a seus processos decisórios. Uma das referências para a elaboração desta seção, é o texto sobre Data Warehouse, constante dos anais da XVI Jornada de Atualização em Informática, de autoria de Maria Luiza Campos e Arnaldo V. Rocha Filho [eavrf97] O que é Data Warehouse? Segundo W.H.Inmon, considerado um pioneiro no tema, um DW é uma coleção de dados orientada por assuntos, integrada, variante no tempo, e não volátil, que tem por objetivo dar suporte aos processos de tomada de decisão [Inm92]. O DW é um banco de dados contendo dados extraídos do ambiente de produção da empresa, que foram selecionados e depurados, tendo sido otimizados para processamento de consulta e não para processamento de transações. Em geral, um DW requer a consolidação de outros recursos de dados além dos armazenados em BDs relacionais, incluindo informações provenientes de planilhas eletrônicas, documentos textuais, etc. De acordo com Richard Hackathorn (outro pioneiro no tema), o objetivo de um DW é fornecer uma imagem única da realidade do negócio. De uma forma geral, sistemas de DW compreendem um conjunto de programas que extraem dados do ambiente de dados operacionais da empresa, um BD que os mantém, e sistemas que fornecem estes dados aos seus usuários. Como se vê, existem diferentes visões do que seria um DW: uma arquitetura, um conjunto de dados semanticamente consistente com o objetivo de atender diferentes necessidades de acesso a dados e extração de relatórios, ou ainda, um processo em constante evolução, que utiliza dados de diversas fontes heterogêneas para dar suporte a consultas, relatórios analíticos e à tomada de decisão. Já Data Warehousing refere-se ao processo de construção e uso de depósitos de dados. Ferramentas de apoio a decisão usualmente requerem, de várias fontes heterogêneas, dados consolidados. Estas fontes devem ser reconciliadas, pois elas podem ter tipos variados de dados ou usar representações, código e formatos inconsistentes. Portanto, a construção de um DW requer integração, limpeza e consolidação dos dados. 19

20 2.2. Data Warehouse dct-ufms Objetivos do projeto de um DW O objetivo é prover um repositório único, com informações úteis, voltadas para análises que apóiem o processo de tomada de decisão. A curto prazo, o DW permitirá que as decisões sejam tomadas de modo mais ágil e, a longo prazo, novas tendências e mudanças no mercado poderão ser detectadas, assim como mudanças no comportamento dos clientes. Além disso, obtémse em geral uma melhoria de desempenho do ambiente operativo, pois as consultas envolvendo grandes volumes de dados não serão mais feitas sobre os bancos de dados de produção. Talvez ainda mais importante seja o fato de que, com a integração e consistência de dados ganha com um DW, há uma garantia de disponibilidade de informações de maior qualidade Um modelo multidimensional de dados Gerentes de mercado tendem a pensar multidimensionalmente, por exemplo, eles descrevem o que suas companhias fazem da seguinte maneira: Nós vendemos produtos em vários mercados, e medimos nossa performance durante o decorrer do tempo. Desenvolvedores de DW traduzem esta frase da seguinte maneira: nós vendemos PRODUTOS em vários MERCADOS, e medimos nossa performance durante o decorrer do TEMPO. Muitas pessoas acham intuitivo pensar nos negócios como um cubo de dados, com etiquetas em cada eixo do cubo. Qualquer ponto no interior do cubo é a intersecção das coordenadas definidas pelos eixos do cubo. Os eixos seriam PRODUTO, MERCADO e TEMPO. DWs são construídos baseados no modelo multidimensional de dados. Um datacube, ou cubo de dados, dentro do Data Warehousing, não é necessariamente uma estrutura de três dimensões (3-D), mas é essencialmente N-dimensional (N-D). Os eixos do cubo são chamados de dimensões - perspectivas ou entidades referentes a quais dados serão armazenados. Cada dimensão pode ser associada a uma tabela de dimensão, que descreve a dimensão. Por exemplo, a tabela de dimensão de PRODUTOS pode ter os atributos definidos como codigo-produto, descrição, valor, categoria, dentre outros. Para aquelas dimensões que não são categorizáveis, tais como TEM- PO, o sistema de DW deve ser capaz de gerar, automaticamente, a tabela de distribuição correspondente na distribuição de dados. Dimensões são hierárquicas por natureza. Por exemplo, a dimensão TEM- PO pode ser descrita pelos atributos Ano, Bimestre, Mês e Dia. Alternadamente, os atributos de uma dimensão podem ser organizados indicando uma ordem parcial para a dimensão. Se cada dimensão possui múltiplas camadas de abstração, então os dados 20

21 2.2. Data Warehouse dct-ufms OLTP Relacional Individualizados Presente Um registro por vez Orientado ao processo OLAP Multidimensional Sumarizados Histórico Muitos registros por vez Orientado ao negócio Tabela 2.1: OLAP versus OLTP podem ser vistos de diferentes perspectivas. Algumas operações típicas em datacubes : roll-up (aumentar o nível de abstração), drill-down (diminuir o nível de abstração ou aumentar o detalhamento), slice and dice (seleção e projeção), e pivot (reorientar a visão multidimensional dos dados). Este conjunto de operações é conhecido como On-Line Analytic Processing (OLAP) O que é OLAP? O termo OLAP(On-line Analytic Processing) refere-se ao tipo de processamento e ferramentas voltados para análise de dados típica do suporte à decisão, onde os dados são apresentados através de uma visão multidimensional. Esta visão é independente de como os dados estão armazenados. OLAP Versus OLTP De um ponto de vista prático, OLAP sempre envolve consultas interativas aos dados, seguindo um caminho de análise através de múltiplos passos, como, por exemplo, aprofundar-se sucessivamente por níveis mais baixos de detalhe de um quesito de informação específico. OLAP envolve capacidades analíticas, incluindo a derivação de taxas, variâncias, etc., e envolvendo medidas ou dados numéricos através de muitas dimensões, devendo suportar modelos para previsões, análises estatísticas e de tendências. De uma forma geral, OLAP apresenta características distintas do processamento de transações on-line típico OLTP, como mostra a Tabela Consultas típicas deste tipo de processamento são: Quais os produtos que vendem bem? Quais os escritórios de vendas mais fracos? Qual o ranking dos vendedores da Região Nordeste? 21

22 2.2. Data Warehouse dct-ufms Qual o número e o salário médio dos funcionários de manutenção por departamento? Extraindo Informações de um DW Mesmo sabendo que a informação sobre o perfil do cliente típico ou do produto de sucesso de uma empresa encontra-se de alguma forma entre os muitos gigabytes de dados de marketing e de vendas armazenados nos bancos de dados da empresa, ainda pode existir um longo caminho a ser percorrido até que esta informação esteja de fato disponível. A sua extração eficaz, de modo a poder subsidiar decisões, depende da existência de ferramentas especializadas que permitam a captura de dados relevantes mais rapidamente e a sua visualização através de várias dimensões. O termo extração neste contexto não deve ser confundido com a extração dos dados das fontes para posterior alimentação do DW. As ferramentas não devem apenas permitir o acesso aos dados, mas também permitir análises de dados significativas, de tal maneira a transformar dados brutos em informação útil para os processos estratégicos da empresa. O sucesso de um DW pode depender da disponibilidade da ferramenta certa para as necessidades de seus usuários. Tipos de Ferramentas A Tabela 2.2, apresenta um quadro-resumo com as principais características dos diversos tipos de ferramentas que podem ser utilizadas para extrair informações de um ambiente de DW. As ferramentas mais simples são os produtos para consultas e geradores de relatórios básicos. Em geral, oferecem uma interface gráfica para geração de SQL, permitindo o uso de menus e botões para a especificação de elementos de dados, condições, critérios de agrupamento, sem que seja necessário aprender uma linguagem especializada para acesso ao banco. O processamento estatístico, neste caso, é limitado a médias, totais, desvios padrão e algumas outras funções básicas de análise. Estes geradores de relatório não atendem a usuários que precisem mais do que uma visão estática dos dados e que não pode ser mais manipulada. Ferramentas OLAP podem oferecer a este tipo de usuário maior capacidade de manipulação, permitindo analisar o porque dos resultados obtidos. Estas ferramentas, muitas vezes, são baseadas em BDs multidimensionais, o que significa que os dados precisam ser extraídos e carregados para as estruturas proprietárias do sistema, já que não há padrões abertos para o acesso de dados multidimensionais. 22

23 2.2. Data Warehouse dct-ufms Tipo de Questão Básica Exemplo de Usuário Ferramenta Resposta Típico e suas necessidades Pesquisa e O que aconteceu? Relat. mensais de Dados históricos, relatórios vendas, histórico habilidade e técnica do inventário limitada OLAP O que aconteceu e Vendas mensais Visões estáticas da por quê? versus mudança informação para de preço dos uma visão competidores multidimensional SIE O que eu preciso Memorandos, Informações de saber agora? centros de alto nível comando ou resumidas DM O que é Modelos de Têndencias e interessante? previsão relações obs- O que pode curas entre acontecer? os dados Tabela 2.2: Escolhendo a ferramenta certa Outra solução oferecidas por fornecedores nesta área é o OLAP relacional (ROLAP), que vai diretamente ao DW usando chamadas SQL padrão. As ferramentas front-end permitem efetuar requisições multidimensionais, mas o programa de ROLAP transforma consultas em rotinas SQl. O usuário recebe resultados cruzados de tabelas em forma de planilha multidimensional ou de outra forma que suporte a rotação, drill-down e manipulação. Os defensores do ROLAP argumentam que ele se utiliza de padrões abertos de SQL e que faz os dados atômicos (no nível mais detalhado) estarem mais prontamente acessíveis. Por outro lado, os patronos dos bancos multidimensionais argumentam que uma estrutura multidimensional nativa alcança melhor desempenho e flexibilidade. O OLAP não é uma solução imediata, configurar o programa de OLAP e ter acesso aos dados requer uma clara compreensão dos modelos de dados da empresa e das funções analíticas necessárias aos executivos e outros analistas de dados. Comparativamente ao OLAP, Sistemas de Informações Executivas (SIE) apresentam uma visualiação de dados mais simplificada, altamente consolidada e, na maior parte das vezes, estática. Até porque, em geral, os executivos não dispõem do tempo e da experiência para executar uma análise OLAP. O DM ou mineração de dados é uma categoria de ferramentas de análise 23

24 2.3. Data Mining dct-ufms open-end. Ao invés de fazerem perguntas, os usuários entregam para a ferramenta grandes quantidades de dados em busca de tendências ou agrupamentos dos dados. Ferramentas de DM utilizam-se das mais modernas técnicas de computação, como redes neurais, descoberta por regra, detecção de desvio, programação genética, para extrair padrões e associações de dados. A diferença entre sistemas do tipo SIE e a tecnologia de DM pode ser vista da seguinte forma: se você tem perguntas específicas e sabe os dados de que necessita, utilize um SIE; quando você não sabe qual a pergunta, mas mesmo assim precisa de respostas, use DM.DM é a ferramenta escolhida para ser utilizada neste projeto e será comentada na seção seguinte. 2.3 Data Mining O conhecimento pode ser obtido de várias formas, principalmente por indução ou dedução. Dedução refere-se a informação que é a conseqüência lógica de uma informação em um conjunto de dados. Esta informação é sempre verdadeira, contanto que o conteúdo do conjunto de dados também seja verdadeiro. Indução refere-se a informação obtida pela generalização das informações contidas no conjunto de dados. O processo de descobrir conhecimento em um novo domínio usando a indução é chamado de aprendizado indutivo. A automação do processo de aprendizado indutivo vem sendo estudado pela área da Inteligência Artificial, chamada de Aprendizado de Máquina. Um típico sistema de Aprendizado de Máquina não interage diretamente com o ambiente. O estudo de sistemas de aprendizado automático ou semi-automático que descrevem observações obtidas diretamente de um banco de dados é chamado Data Mining(DM). Formalmente, DM é definido como o processo de induzir informações de um BD antes desconhecidas e potencialmente úteis. Um processo típico de DM possui quatro passos: 1. Selecionar os tipos de dados que serão usados pelo algoritmo de mineração; 2. Pré-processar os dados para análise; 3. Depois de pré-processados, os dados estão prontos para serem minerados por um algoritmo de DM; 4. O último passo é assimilar as informações adquiridas. 24

25 2.3. Data Mining dct-ufms O processo de DM é, geralmente, bastante interativo. O analista de dados deve repensar na seleção de dados todas vez que a informação não é interessante. Os algoritmos precisam ser re-ajustados quando poucos fatos interessantes são descobertos durante o passo de assimilação. Por conseqüência disso, o processo, possui laços de feedback Níveis do processo de DM A escolha de qual técnica de DM deve ser usada depende da expectativa de resultados finais. O primeiro passo que qualquer usuário do DM necessita fazer, é encaixar as expectativas em uma funcionalidade que ele possa assumir. Podemos, a grosso modo, listar essas funcionalidades em seis categorias: 1. Estimativa e predição: determinar valores de um atributo desconhecido e predizer um futuro valor para um determinado atributo; 2. Classificação: colocar uma entidade dada e determinar uma classe, prédefinida, a qual ela pertence; 3. Descoberta de associação: identificar quais atributos estão associados uns com os outros em um dado ambiente; 4. Clustering: segmenta uma população de dados heterogênea em um conjunto de sub-grupos homogêneos; 5. Visualização de dados: descreve informações complexas através de amostras de visualização de dados; 6. Exploração de dados visuais: um extensão do item acima. Consiste na inspeção de grandes quantidades de dados através de controles interativos de visualização de dados. As seis funcionalidades listadas acima funcionam em níveis diferentes. As duas primeiras, classificação e predição, geram modelos explícitos a serem aplicados prontamente na organização dos dados. As duas próximas funcionalidades, descoberta de associação e clustering, identificam, automaticamente, padrões úteis nos dados. As duas últimas, visualização de dados e exploração de dados visuais, ajudam aos especialistas a descobrirem, eles mesmos, padrões úteis nos dados explorados. Estas funcionalidades definem três níveis de exploração de dados e descoberta de conhecimento: 1. Construção de modelos: codificar relacionamentos dos modelos explícitos prontos para a classificação, estimativa, ou predição; 25

26 2.3. Data Mining dct-ufms 2. Extração automática de padrões: identificar classes complexas de entidades e melhor caracterizar e entender relacionamentos complexos entre entidades; 3. Exploração interativa de dados visuais: caracterizar entidades, ganhar uma visão de alto nível dos dados explorados, melhor entender como uma entidade se comporta em um domínio, identificar classes de entidades e ganhar entendimento básico de como as entidades se relacionam Seleção de dados e pré-processamento Os dados precisam ser entendidos e limpos antes de serem explorados com sucesso. DM é baseado na premissa de que informações não-triviais, desconhecidas e valiosas estão todas em um repositório de dados. O grande objetivo do DM é percorrer através deste repositório e extrair informações interessantes. Primeiramente, o analista de dados precisa entender, exatamente, que tipo de dados estão armazenados no repositório. Ele precisa entender a semântica dos dados antes de tentar extrair qualquer tipo de conhecimento dos dados. O próximo passo é entender como os dados estão organizados no repositório. último passo é a extração de dados. Durante e depois do processo de extração de dados, estes precisam ser formatados para um padrão pré-definido. Algumas das operações necessárias nesta fase são: concatenação, formato de representação, limpeza de caracteres, limpeza de dados e redução do conjunto de dados. Um tipo mais complexo de pré-processamento de dados é a transformação dos dados. Este tipo de operação é necessária para adaptar os dados a um técnica de DM em particular. São essas algumas das operações: redução de escala, argumentação de escala, conversão de unidade, normalização de valores e adaptação do conjunto de dados Técnicas de Mineração Após aprontar os dados para a exploração, podemos aplicar alguma das técnicas abaixo: 1. Árvores de Decisão: são técnicas indutivas usadas para descobrir regras de classificação para um atributo escolhido (Predicado Meta) de um conjunto de dados, sistematicamente. Esta será a técnica utilizada neste projeto ; 2. Descoberta associativa: extrai informações das coincidências de um conjunto de dados. KDD toma lugar quando estas coincidências são 26

27 2.4. Considerações Finais dct-ufms previamente desconhecidas, não-triviais e interpretáveis por um especialista; 3. Clustering: é a mais antiga técnica de DM. Entidades são agrupadas de acordo com atributos em comum; 4. Redes Neurais: Pode ser usada para criar clusters ou para classificação; 5. Redução otimizada de conjuntos: procura determinar quais subconjuntos de dados dão a melhor caracterização para as entidades que estão sendo analisadas; 6. Redes de Bayes: representam relacionamentos probabilísticos entre variáveis; 7. Visualização e DM visual: podemos considerar como sendo a arte de mapear volumes de dados multi-dimensionais em gráficos bidimensionais. Esta técnica é também conhecida com técnica de mapping Interpretação e Assimilação As informações extraídas são expressadas como padrões ou modelos. Se esses padrões são genéricos o bastante, então eles podem ser abstraídos em um modelo. Um modelo é uma abstração do conjunto de dados original e é usado em tomadas de decisão, classificação ou predição. É desejável que tais técnicas que acham padrões apresentem esses padrões em um formato de fácil interpretação para o analista de dados. Isto é alcançado apresentando os padrões em forma de regras do tipo SE-ENTÃO. 2.4 Considerações Finais Neste capítulo foram comentadas as principais etapas do processo de KDD. Foi realizada primeiramente uma breve introdução sobre Banco de Dados, para que o leitor que não tenha um domínio nesta área, possa compreender os principais conceitos e termos utilizados. Estando o leitor familiarizado com o conceito de Banco de Dados, são explicadas as duas principais áreas inseridas no processo de KDD: Data Warehouse e Data Mining. Neste capítulo, Data Warehouse e Data Mining são comentados de uma forma geral. Um exemplo de como são realizadas as etapas do KDD na prática, pode ser vista na especificação da implementação desenvolvida com 27

28 2.4. Considerações Finais dct-ufms base no banco de dados do vestibular da UFMS (Capítulo 7). A referida implementação foi desenvolvida utilizando-se o método indutivo, estudado pela área de Aprendizado de Máquina (Capítulo 3), com base nas seguintes ferramentas: árvores de decisão (Capítulo 4) e regras (Capítulo 5). 28

29 Capítulo 3 Aprendizado de Máquina Aprendizado de Máquina(AM) é uma sub-área de pesquisa muito importante em Inteligência Artificial e estuda métodos computacionais para adquirir novos conhecimentos, novas habilidades e novos meios de organizar o conhecimento já existente. O estudo de técnicas de aprendizado baseado em computador também pode fornecer um melhor entendimento de nosso próprio processo de raciocínio. Uma das críticas mais comuns à IA é que as máquinas só podem ser consideradas inteligentes quando forem capazes de aprender novos conceitos e se adaptarem a novas situações, em vez de simplesmente fazer o que lhes for mandado. Não há muita dúvida de que uma importante característica das entidades inteligentes é a capacidade de adaptar-se a novos ambientes e de resolver novos problemas. Ada Augusta, uma das primeiras filósofas em computação, escreveu: A Máquina Analítica (Analytical Engine) não tem qualquer pretensão de originar nada. Ela pode fazer qualquer coisa desde que nós saibamos como mandá-la executar. Esse comentário foi interpretado por vários críticos de IA como uma indicação de que os computadores não são capazes de aprender. Entretanto, nada impede que digamos a um computador como interpretar as informações recebidas, de uma maneira que melhore gradualmente seu desempenho. Em vez de perguntar antecipadamente se é possível ou não que os computadores aprendam, é muito mais esclarecedor tentar descrever exatamente a quais atividades nos referimos quando falamos em aprender e quais mecanismos podem ser usados para que seja possível executar essas atividades. 29

30 3.1. Paradigmas de Aprendizagem dct-ufms 3.1 Paradigmas de Aprendizagem Alguns paradigmas de AM vêm sendo estudados constantemente, tais como o paradigma simbólico, estatístico, instance-based, conexionista e genético. Em nosso projeto daremos ênfase ao paradigma simbólico, tratando da descoberta de conhecimento usando Árvores de Decisão e Regras de Produção. Mas para construir um texto mais completo, no princípio, faremos uma breve descrição de todos esses paradigmas baseado em [Pug97] Paradigma Simbólico Os sistemas de aprendizado simbólico buscam aprender construindo representações simbólicas de um conceito através da análise de exemplos e contraexemplos desse conceito. As representações simbólicas estão tipicamente na forma de alguma expressão lógica, árvores de decisão, regras de produção ou redes semânticas. Atualmente, entre as representações simbólicas mais estudadas estão as árvores de decisão e regras de produção, as quais serão objetos de estudo deste projeto. É atribuído a Morgan e Messeger [Mor73], o desenvolvimento original de um programa para a indução de árvores de decisão. Métodos de indução de árvores de decisão a partir de dados empíricos, conhecidos como sendo de particionamento recursivo, foram estudados por pesquisadores da área de Inteligência Artificial e Estatística. Os sistemas ID3 [Qui86] e C 4.5 [Qui87b] para indução de árvores de decisão tiveram uma importante contribuição para a pesquisa em Inteligência Artificial. O sistema de classificação por árvores de regressão [Bre84] foi desenvolvido por estatísticos, durante praticamente o mesmo período que o ID3, no final dos anos 70. Os trabalhos com indução de regras de decisão surgiram com a simples tradução das árvores de decisão para regras, sendo a poda realizada sobre as regras. Tal abordagem surgiu em [Qui87a]. Posteriormente, foram criados métodos que induziam regras diretamente a partir dos dados, um exemplo deste trabalho pode ser encontrado em [Mic86] Paradigma Estatístico Pesquisadores em estatística têm criado muitos métodos de classificação, muitos deles semelhantes aos métodos empregados em aprendizado de máquina. Por exemplo, o método CART [Bre84], um sistema muito conhecido para montar árvores de decisão, foi desenvolvido por estatísticos. Como regra geral, técnicas estatísticas tendem a focar tarefas em que todos os atributos têm valores contínuos ou ordinais. Muitos deles também são paramétricos, 30

31 3.1. Paradigmas de Aprendizagem dct-ufms assumindo alguma forma de modelo, e então encontrando valores apropriados para os parâmetros do modelo a partir dos dados. Por exemplo, um classificador linear assume que as classes possam ser expressas como combinação linear dos valores dos atributos, e então procura uma combinação linear particular que forneça a melhor aproximação para o conjunto de dados. Os classificadores estatísticos freqüentemente assumem que os valores dos atributos são normamente distribuídos, e então usam os dados fornecidos para determinar médias, variâncias e co-variâncias das distribuições Paradigma Instance-based Uma forma de classificar um caso é lembrar de um caso similar cuja classe é conhecida e assumir que o novo caso terá a mesma classe. Esta filosofia exemplifica os sistemas instance-based, que classificam casos nunca vistos usando casos similares conhecidos [Qui88]. Os sistemas instance-based possuem as seguintes características: Quais casos de treinamento devem ser lembrados? Se todos os casos forem memorizados, o classificador pode se tornar lento e difícil de manusear; Como deve ser medida a similaridade entre os casos? Se todos os atributos forem contínuos, pode-se calcular a distância entre dois casos como a raiz quadrada da soma dos quadrados da diferença dos valores nos dois casos. Quando alguns atributos são ordinais, esta interpretação de distância se torna mais problemática. Além do mais, se existem muitos atributos irrelevantes, dois casos similares podem aparentar serem muito diferentes pois eles podem possuir valores diferentes em atributos sem importância; Como um novo caso deve ser relacionado com casos armazenados? Existem duas alternativas que são, usar um simples caso armazenado, o qual é o mais próximo do novo caso, ou usar vários casos levando-se em consideração os diferentes graus de similaridade entre cada caso Paradigma Conexionista Redes neurais são construções matemáticas relativamente simples que foram inspiradas no modelo biológico do sistema nervoso. Sua representação envolve unidades processadoras completamente interconectadas. O nome conexionismo é utilizado para descrever a área de estudo que estuda as redes neurais. 31

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Conceitos Básicos Introdução Banco de Dados I Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM Dados

Leia mais

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd. Apresentação Este curso tem como objetivo, oferecer uma noção geral sobre a construção de sistemas de banco de dados. Para isto, é necessário estudar modelos para a construção de projetos lógicos de bancos

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br Programação com acesso a BD Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br 1 Introdução BD desempenha papel crítico em todas as áreas em que computadores são utilizados: Banco: Depositar ou retirar

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados: MC536 Introdução Sumário Conceitos preliminares Funcionalidades Características principais Usuários Vantagens do uso de BDs Tendências mais recentes em SGBDs Algumas desvantagens Modelos de dados Classificação

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

DATA WAREHOUSE. Introdução

DATA WAREHOUSE. Introdução DATA WAREHOUSE Introdução O grande crescimento do ambiente de negócios, médias e grandes empresas armazenam também um alto volume de informações, onde que juntamente com a tecnologia da informação, a correta

Leia mais

Data Warehouse Processos e Arquitetura

Data Warehouse Processos e Arquitetura Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997)

Leia mais

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP Banco de Dados Introdução João Eduardo Ferreira Osvaldo Kotaro Takai jef@ime.usp.br DCC-IME-USP Importância dos Bancos de Dados A competitividade das empresas depende de dados precisos e atualizados. Conforme

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?

Leia mais

Roteiro 2 Conceitos Gerais

Roteiro 2 Conceitos Gerais Roteiro 2 Conceitos Gerais Objetivos: UC Projeto de Banco de Dados Explorar conceitos gerais de bancos de dados; o Arquitetura de bancos de dados: esquemas, categorias de modelos de dados, linguagens e

Leia mais

Banco de Dados. Prof. Dr. Rogério Galante Negri

Banco de Dados. Prof. Dr. Rogério Galante Negri Banco de Dados Prof Dr Rogério Galante Negri Tradicionalmente O armazenamento dos dados utilizava arquivos individuais, sem nenhum relacionamento Cada programa utilizava seu próprio sistema de arquivo

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

Structured Query Language (SQL) Ambiente Simplificado de um SGBD

Structured Query Language (SQL) Ambiente Simplificado de um SGBD Structured Query Language (SQL) Ambiente Simplificado de um SGBD 2 1 Características dos SGBDs Natureza auto-contida de um sistema de banco de dados: metadados armazenados num catálogo ou dicionário de

Leia mais

Gerenciamento de Dados e Gestão do Conhecimento

Gerenciamento de Dados e Gestão do Conhecimento ELC1075 Introdução a Sistemas de Informação Gerenciamento de Dados e Gestão do Conhecimento Raul Ceretta Nunes CSI/UFSM Introdução Gerenciando dados A abordagem de banco de dados Sistemas de gerenciamento

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc.

04/08/2012 MODELAGEM DE DADOS. PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS. Aula 1. Prof. Rafael Dias Ribeiro. M.Sc. MODELAGEM DE DADOS PROF. RAFAEL DIAS RIBEIRO, M.Sc. @ribeirord MODELAGEM DE DADOS Aula 1 Prof. Rafael Dias Ribeiro. M.Sc. @ribeirord 1 Objetivos: Apresenta a diferença entre dado e informação e a importância

Leia mais

Banco de Dados - Senado

Banco de Dados - Senado Banco de Dados - Senado Exercícios OLAP - CESPE Material preparado: Prof. Marcio Vitorino OLAP Material preparado: Prof. Marcio Vitorino Soluções MOLAP promovem maior independência de fornecedores de SGBDs

Leia mais

Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br Programação com acesso a BD Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br 1 Modelos de Dados, Esquemas e Instâncias 2 Modelos de Dados, Esquemas e Instâncias Modelo de dados: Conjunto de conceitos

Leia mais

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso 5 Estudo de Caso De modo a ilustrar a estruturação e representação de conteúdos educacionais segundo a proposta apresentada nesta tese, neste capítulo apresentamos um estudo de caso que apresenta, para

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais

Administração de Banco de Dados

Administração de Banco de Dados Administração de Banco de Dados Professora conteudista: Cida Atum Sumário Administração de Banco de Dados Unidade I 1 INTRODUÇÃO A BANCO DE DADOS...1 1.1 Histórico...1 1.2 Definições...2 1.3 Importância

Leia mais

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining Decisão Suporte: Warehousing, OLAP e Data Mining 7-1 Introdução Cada vez mais, organizações estão analizando dados correntes e históricos para identificar padrões úteis e suporte a estratégias de negócios.

Leia mais

Decisão Suporte: Warehousing, OLAP e Data Mining

Decisão Suporte: Warehousing, OLAP e Data Mining Decisão Suporte: Warehousing, OLAP e Data Mining 7-1 Introdução Cada vez mais, organizações estão analizando dados correntes e históricos para identificar padrões úteis e suporte a estratégias de negócios.

Leia mais

Chapter 3. Análise de Negócios e Visualização de Dados

Chapter 3. Análise de Negócios e Visualização de Dados Chapter 3 Análise de Negócios e Visualização de Dados Objetivos de Aprendizado Descrever a análise de negócios (BA) e sua importância par as organizações Listar e descrever brevemente os principais métodos

Leia mais

UNIVERSIDADE FEDERAL DE SANTA MARIA - UFSM COLÉGIO AGRÍCOLA DE FREDERICO WESTPHALEN BANCO DE DADOS II

UNIVERSIDADE FEDERAL DE SANTA MARIA - UFSM COLÉGIO AGRÍCOLA DE FREDERICO WESTPHALEN BANCO DE DADOS II UNIVERSIDADE FEDERAL DE SANTA MARIA - UFSM COLÉGIO AGRÍCOLA DE FREDERICO WESTPHALEN BANCO DE DADOS II BANCO DE DADOS II AULA 1 Linguagem SQL Linguagem de definição de dados (DDL) DISCIPLINA: Banco de Dados

Leia mais

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011 Banco de Dados Aula 1 - Prof. Bruno Moreno 16/08/2011 Roteiro Apresentação do professor e disciplina Definição de Banco de Dados Sistema de BD vs Tradicional Principais características de BD Natureza autodescritiva

Leia mais

INTRODUÇÃO E CONCEITOS BÁSICOS. Prof. Ronaldo R. Goldschmidt

INTRODUÇÃO E CONCEITOS BÁSICOS. Prof. Ronaldo R. Goldschmidt INTRODUÇÃO E CONCEITOS BÁSICOS Prof. Ronaldo R. Goldschmidt Hierarquia Dado - Informação - Conhecimento: Dados são fatos com significado implícito. Podem ser armazenados. Dados Processamento Informação

Leia mais

Data Warehouse. Debora Marrach Renata Miwa Tsuruda

Data Warehouse. Debora Marrach Renata Miwa Tsuruda Debora Marrach Renata Miwa Tsuruda Agenda Introdução Contexto corporativo Agenda Introdução Contexto corporativo Introdução O conceito de Data Warehouse surgiu da necessidade de integrar dados corporativos

Leia mais

MODELO RELACIONAL - UFMA

MODELO RELACIONAL - UFMA MODELO RELACIONAL Universidade Federal do Maranhão - UFMA Departamento de Informática Projeto de Banco de Dados Profª.MSc Simara Rocha simararocha@gmail.com/simara@deinf.ufma.br www.deinf.ufma.br/~simara

Leia mais

INTRODUÇÃO BANCO DE DADOS. Prof. Msc. Hélio Esperidião

INTRODUÇÃO BANCO DE DADOS. Prof. Msc. Hélio Esperidião INTRODUÇÃO BANCO DE DADOS Prof. Msc. Hélio Esperidião BANCO DE DADOS Podemos entender por banco de dados qualquer sistema que reúna e mantenha organizada uma série de informações relacionadas a um determinado

Leia mais

Evolução. Tópicos. Bancos de Dados - Introdução. Melissa Lemos. Evolução dos Sistemas de Informação Esquemas Modelos. Características de SGBDs

Evolução. Tópicos. Bancos de Dados - Introdução. Melissa Lemos. Evolução dos Sistemas de Informação Esquemas Modelos. Características de SGBDs 1 Bancos de Dados - Introdução Melissa Lemos melissa@inf.puc-rio.br Tópicos Evolução dos Sistemas de Informação Esquemas Modelos Conceitual Lógico Características de SGBDs 2 Evolução tempo Programas e

Leia mais

Banco de Dados. Um momento crucial na organização dos dados é a forma com que cadastramos estes dados, a estrutura de armazenamento que criamos.

Banco de Dados. Um momento crucial na organização dos dados é a forma com que cadastramos estes dados, a estrutura de armazenamento que criamos. Banco de Dados O que é um Banco de Dados? Este assunto é muito vasto, tentaremos resumi-lo para atender as questões encontradas em concursos públicos. Já conhecemos o conceito de dado, ou seja, uma informação

Leia mais

Conceitos de Banco de Dados

Conceitos de Banco de Dados Conceitos de Banco de Dados Autor: Luiz Antonio Junior 1 INTRODUÇÃO Objetivos Introduzir conceitos básicos de Modelo de dados Introduzir conceitos básicos de Banco de dados Capacitar o aluno a construir

Leia mais

Docente: Éberton da Silva Marinho e-mail: ebertonsm@gmail.com

Docente: Éberton da Silva Marinho e-mail: ebertonsm@gmail.com INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DO RIO GRANDE DO NORTE Introdução a Banco de Dados Docente: Éberton da Silva Marinho e-mail: ebertonsm@gmail.com 12/06/2013 Sumário Motivação da Disciplina

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

Faculdade Pitágoras 16/08/2011. Curso Superior de Tecnologia: Banco de Dados Sistemas para Internet

Faculdade Pitágoras 16/08/2011. Curso Superior de Tecnologia: Banco de Dados Sistemas para Internet Faculdade Pitágoras Curso Superior de Tecnologia: Banco de Dados Sistemas para Internet Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL A linguagem SQL é responsável por garantir um bom nível

Leia mais

Faculdade Pitágoras. Curso Superior de Tecnologia: Banco de Dados. Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL

Faculdade Pitágoras. Curso Superior de Tecnologia: Banco de Dados. Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL Faculdade Pitágoras Curso Superior de Tecnologia: Banco de Dados Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL A linguagem SQL é responsável por garantir um bom nível de independência do

Leia mais

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II

Data Warehouse. Diogo Matos da Silva 1. Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil. Banco de Dados II Data Warehouse Diogo Matos da Silva 1 1 Departamento de Computação Universidade Federal de Ouro Preto, Ouro Preto, MG, Brasil Banco de Dados II Diogo Matos (DECOM - UFOP) Banco de Dados II Jun 2013 1 /

Leia mais

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon (edson@esucri.com.

Banco de Dados I. Apresentação (mini-currículo) Conceitos. Disciplina Banco de Dados. Cont... Cont... Edson Thizon (edson@esucri.com. Sistemas da Informação Banco de Dados I Edson Thizon (edson@esucri.com.br) 2008 Apresentação (mini-currículo) Formação Acadêmica Mestrando em Ciência da Computação (UFSC/ ) Créditos Concluídos. Bacharel

Leia mais

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o DATABASE MARKETING No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o empresário obter sucesso em seu negócio é

Leia mais

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados 1. Conceitos Básicos No contexto de sistemas de banco de dados as palavras dado e informação possuem o mesmo significado, representando uma

Leia mais

Persistência e Banco de Dados em Jogos Digitais

Persistência e Banco de Dados em Jogos Digitais Persistência e Banco de Dados em Jogos Digitais Prof. Marcos Francisco Pereira da Silva Especialista em Engenharia de Software Jogos Digitais - Computação Gráfica 1 Agenda Vantagens de usar a abordagem

Leia mais

BANCO DE DADOS E BUSINESS INTELIGENCE. C/H: 20 horas (20/02, 25/02, 27/02, 04/03, 06/03)

BANCO DE DADOS E BUSINESS INTELIGENCE. C/H: 20 horas (20/02, 25/02, 27/02, 04/03, 06/03) MBA em Gestão de TI MÓDULO: BANCO DE DADOS E BUSINESS INTELIGENCE C/H: 20 horas (20/02, 25/02, 27/02, 04/03, 06/03) PROFESSOR: Edison Andrade Martins Morais prof@edison.eti.br http://www.edison.eti.br

Leia mais

Plano de Ensino. Apresentação da Unidade Curricular

Plano de Ensino. Apresentação da Unidade Curricular Plano de Ensino Plano de Ensino Apresentação da Unidade Curricular o Funcionamento, arquitetura e conceitos fundamentais dos bancos de dados relacionais e objeto relacionais. Utilização de linguagem DDL

Leia mais

PHP INTEGRAÇÃO COM MYSQL PARTE 1

PHP INTEGRAÇÃO COM MYSQL PARTE 1 INTRODUÇÃO PHP INTEGRAÇÃO COM MYSQL PARTE 1 Leonardo Pereira leonardo@estudandoti.com.br Facebook: leongamerti http://www.estudandoti.com.br Informações que precisam ser manipuladas com mais segurança

Leia mais

Prof. Ronaldo R. Goldschmidt. ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt

Prof. Ronaldo R. Goldschmidt. ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Prof. Ronaldo R. Goldschmidt ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Prof. Ronaldo Ribeiro Goldschmidt REVISÃO DE BD RELACIONAIS E SQL! "" #!$ #%! $& #

Leia mais

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL

Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL Empresa de Informática e Informação do Município de Belo Horizonte S/A PRODABEL Diretoria de Sistema - DS Superintendência de Arquitetura de Sistemas - SAS Gerência de Arquitetura de Informação - GAAS

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação ão? Como um sistema de gerenciamento

Leia mais

SAD orientado a DADOS

SAD orientado a DADOS Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a DADOS DISCIPLINA: Sistemas de Apoio a Decisão SAD orientado a dados Utilizam grandes repositórios

Leia mais

BANCO DE DADOS CONCEITOS BÁSICOS

BANCO DE DADOS CONCEITOS BÁSICOS Universidade Federal da Paraíba UFPB Centro de Energias Alternativas e Renováveis - CEAR Departamento de Eng. Elétrica DEE BANCO DE DADOS CONCEITOS BÁSICOS Isaac Maia Pessoa Introdução O que é um BD? Operações

Leia mais

Banco de Dados. Conceitos e Arquitetura de Sistemas de Banco de Dados. Profa. Flávia Cristina Bernardini

Banco de Dados. Conceitos e Arquitetura de Sistemas de Banco de Dados. Profa. Flávia Cristina Bernardini Banco de Dados Conceitos e Arquitetura de Sistemas de Banco de Dados Profa. Flávia Cristina Bernardini Relembrando... Vantagens da Utilização de SGBD Redundância controlada Consistência dos dados armazenados

Leia mais

Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados.

Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados. Histórico Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados. Sistemas Integrados: racionalização de processos, manutenção dos

Leia mais

Aula 02 Modelagem de Dados. Banco de Dados. Aula 02 Modelagem de Dados. Superior /2011 Redes Computadores - Disciplina: Banco de Dados -

Aula 02 Modelagem de Dados. Banco de Dados. Aula 02 Modelagem de Dados. Superior /2011 Redes Computadores - Disciplina: Banco de Dados - Banco de Dados Aula 02 Modelagem de Dados Roteiro Definição Evolução Projeto de BD Abstração Esquema e Instância Definição É uma representação, normalmente gráfica, de estruturas de dados reais. Auxilia

Leia mais

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante Banco de Dados 1 Programação sucinta do curso:. Conceitos fundamentais de Banco de Dados.. Arquitetura dos Sistemas Gerenciadores de Banco de Dados (SGBD ou DBMS).. Características típicas de um SGBD..

Leia mais

SQL Linguagem de Definição de Dados. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri

SQL Linguagem de Definição de Dados. Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri SQL Linguagem de Definição de Dados Banco de Dados SQL Structured Query Language Uma das mais importantes linguagens relacionais (se não a mais importante) Exemplos de SGBD que utilizam SQL Oracle Informix

Leia mais

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1

Curso de Engenharia de Sistemas e Informática - 5º Ano. Ficha T. Prática n.º 1 Análise Inteligente de Dados Objectivo: Curso de Engenharia de Sistemas e Informática - 5º Ano Ficha T. Prática n.º 1 Estudo do paradigma multidimensional com introdução de uma extensão ao diagrama E/R

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto OLPT x OLAP Roteiro OLTP Datawarehouse OLAP Operações OLAP Exemplo com Mondrian e Jpivot

Leia mais

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados slide 1 1 Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall Objetivos de estudo Como um banco de dados

Leia mais

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas Processamento e Otimização de Consultas Banco de Dados Motivação Consulta pode ter sua resposta computada por uma variedade de métodos (geralmente) Usuário (programador) sugere uma estratégia para achar

Leia mais

As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes:

As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes: SGBD Características do Emprego de Bancos de Dados As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes: Natureza autodescritiva

Leia mais

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI)

Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Programa do Curso de Pós-Graduação Lato Sensu MBA em Business Intelligence (BI) Apresentação O programa de Pós-graduação Lato Sensu em Business Intelligence Inteligência Competitiva tem por fornecer conhecimento

Leia mais

Disciplina de Banco de Dados Parte V

Disciplina de Banco de Dados Parte V Disciplina de Banco de Dados Parte V Prof. Elisa Maria Pivetta CAFW - UFSM Modelo de Dado Relacional O Modelo Relacional O Modelo ER é independente do SGDB portanto, deve ser o primeiro modelo gerado após

Leia mais

Introdução Banco de Dados

Introdução Banco de Dados Introdução Banco de Dados Vitor Valerio de Souza Campos Adaptado de Vania Bogorny Por que estudar BD? Os Bancos de Dados fazem parte do nosso dia-a-dia: operação bancária reserva de hotel matrícula em

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Banco de Dados I Introdução

Banco de Dados I Introdução Banco de Dados I Introdução Prof. Moser Fagundes Curso Técnico em Informática (Modalidade Integrada) IFSul Campus Charqueadas Sumário da aula Avaliações Visão geral da disciplina Introdução Histórico Porque

Leia mais

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados Universidade Federal de Pernambuco Graduação em Ciência da Computação Centro de Informática 2006.2 Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento

Leia mais

Disciplina de Banco de Dados Introdução

Disciplina de Banco de Dados Introdução Disciplina de Banco de Dados Introdução Prof. Elisa Maria Pivetta CAFW - UFSM Banco de Dados: Conceitos A empresa JJ. Gomes tem uma lista com mais ou menos 4.000 nomes de clientes bem como seus dados pessoais.

Leia mais

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares

Universidade de Brasília. Departamento de Ciência da Informação e Documentação. Prof a.:lillian Alvares Universidade de Brasília Departamento de Ciência da Informação e Documentação Prof a.:lillian Alvares Fóruns óu s/ Listas de discussão Espaços para discutir, homogeneizar e compartilhar informações, idéias

Leia mais

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)?

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)? Roteiro BCC321 - Banco de Dados I Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Conceitos Básicos Banco

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Requisitos de Software

Requisitos de Software Requisitos de Software Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 6 Slide 1 Objetivos Apresentar os conceitos de requisitos de usuário e de sistema Descrever requisitos funcionais

Leia mais

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1.

Universidade Federal de Santa Maria Curso de Arquivologia. Disciplina de Banco de Dados Aplicados à Arquivística. Versao 1. Universidade Federal de Santa Maria Curso de Arquivologia Disciplina de Banco de Dados Aplicados à Arquivística Prof. Andre Zanki Cordenonsi Versao 1.0 Março de 2008 Tópicos Abordados Conceitos sobre Banco

Leia mais

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1

Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1 Laudon & Laudon Essentials of MIS, 5th Edition. Pg. 1.1 SISTEMA DE APOIO À DECISÃO Grupo: Denilson Neves Diego Antônio Nelson Santiago Sabrina Dantas CONCEITO É UM SISTEMA QUE AUXILIA O PROCESSO DE DECISÃO

Leia mais

Data Warehousing Visão Geral do Processo

Data Warehousing Visão Geral do Processo Data Warehousing Visão Geral do Processo Organizações continuamente coletam dados, informações e conhecimento em níveis cada vez maiores,, e os armazenam em sistemas informatizados O número de usuários

Leia mais

Business Intelligence e ferramentas de suporte

Business Intelligence e ferramentas de suporte O modelo apresentado na figura procura enfatizar dois aspectos: o primeiro é sobre os aplicativos que cobrem os sistemas que são executados baseados no conhecimento do negócio; sendo assim, o SCM faz o

Leia mais

Roteiro. Conceitos e Arquitetura de Sistemas de Banco de Dados. Conceitos e Arquiteturas de Sistemas de Banco de Dados. BCC321 - Banco de Dados I

Roteiro. Conceitos e Arquitetura de Sistemas de Banco de Dados. Conceitos e Arquiteturas de Sistemas de Banco de Dados. BCC321 - Banco de Dados I Roteiro Conceitos e Arquitetura de Sistemas de Banco de Dados Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz

Leia mais

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de 1 Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de relatórios dos sistemas de informação gerencial. Descrever

Leia mais

MC536 Bancos de Dados: Teoria e Prática

MC536 Bancos de Dados: Teoria e Prática Universidade Estadual de Campinas - UNICAMP Instituto de Computação - IC MC536 Bancos de Dados: Teoria e Prática Aula #1 Arquitetura de Banco de Dados Profs. Anderson Rocha e André Santanchè Campinas,

Leia mais

Sistemas Gerenciadores de Bancos de Dados

Sistemas Gerenciadores de Bancos de Dados Sistemas Gerenciadores de Bancos de Dados Fernando Castor A partir de slides elaborados por Fernando Fonseca & Robson Fidalgo 1 Sistemas de Arquivos Sistemas de arquivos Principal característica é a replicação

Leia mais

Adriano Maranhão BUSINESS INTELLIGENCE (BI),

Adriano Maranhão BUSINESS INTELLIGENCE (BI), Adriano Maranhão BUSINESS INTELLIGENCE (BI), BUSINESS INTELLIGENCE (BI) O termo Business Intelligence (BI), popularizado por Howard Dresner do Gartner Group, é utilizado para definir sistemas orientados

Leia mais

Criação de Consultas e Relatórios no Access CRIAÇÃO DE CONSULTAS E RELATÓRIOS NO ACCESS

Criação de Consultas e Relatórios no Access CRIAÇÃO DE CONSULTAS E RELATÓRIOS NO ACCESS Criação de Consultas e Relatórios no Access CRIAÇÃO DE CONSULTAS E RELATÓRIOS NO ACCESS Sumário Conceitos / Autores chave... 3 1. Introdução... 4 2. Consultas... 5 3. Relatórios... 8 4. Conclusões... 11

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

SQL Structured Query Language

SQL Structured Query Language Janai Maciel SQL Structured Query Language (Banco de Dados) Conceitos de Linguagens de Programação 2013.2 Structured Query Language ( Linguagem de Consulta Estruturada ) Conceito: É a linguagem de pesquisa

Leia mais

Prof. Omero, pág. 63. Banco de Dados InterBase.

Prof. Omero, pág. 63. Banco de Dados InterBase. Prof. Omero, pág. 63 O que é o InterBase? O InterBase é um SGBDR - Sistema Gerenciador de Banco de Dados Cliente/Servidor Relacional 1 que está baseado no padrão SQL ANSI-9, de alta performance, independente

Leia mais

Prof. Marcelo Machado Cunha www.marcelomachado.com mcelobr@yahoo.com.br

Prof. Marcelo Machado Cunha www.marcelomachado.com mcelobr@yahoo.com.br Prof. Marcelo Machado Cunha www.marcelomachado.com mcelobr@yahoo.com.br Ementa Introdução a Banco de Dados (Conceito, propriedades), Arquivos de dados x Bancos de dados, Profissionais de Banco de dados,

Leia mais

PROJETO DE REDES www.projetoderedes.com.br

PROJETO DE REDES www.projetoderedes.com.br PROJETO DE REDES www.projetoderedes.com.br Centro Universitário de Volta Redonda - UniFOA Curso Tecnológico de Redes de Computadores 5º período Disciplina: Tecnologia WEB Professor: José Maurício S. Pinheiro

Leia mais

BANCO DE DADOS. Introdução a Banco de Dados. Conceitos BásicosB. Engenharia da Computação UNIVASF. Aula 1. Breve Histórico

BANCO DE DADOS. Introdução a Banco de Dados. Conceitos BásicosB. Engenharia da Computação UNIVASF. Aula 1. Breve Histórico Banco de Dados // 1 Banco de Dados // 2 Conceitos BásicosB Engenharia da Computação UNIVASF BANCO DE DADOS Aula 1 Introdução a Banco de Dados Campo representação informatizada de um dado real / menor unidade

Leia mais

15 Computador, projeto e manufatura

15 Computador, projeto e manufatura A U A UL LA Computador, projeto e manufatura Um problema Depois de pronto o desenho de uma peça ou objeto, de que maneira ele é utilizado na fabricação? Parte da resposta está na Aula 2, que aborda as

Leia mais

José Benedito Lopes Junior ¹, Marcello Erick Bonfim 2

José Benedito Lopes Junior ¹, Marcello Erick Bonfim 2 ISBN 978-85-61091-05-7 Encontro Internacional de Produção Científica Cesumar 27 a 30 de outubro de 2009 Definição de uma tecnologia de implementação e do repositório de dados para a criação da ferramenta

Leia mais