Descoberta de Conhecimento e Mineração de Dados. Apostila

Tamanho: px
Começar a partir da página:

Download "Descoberta de Conhecimento e Mineração de Dados. Apostila"

Transcrição

1 Descoberta de Conhecimento e Mineração de Dados Apostila ICA Laboratório de Inteligência Computacional Aplicada Departamento de Engenharia Elétrica, PUC Rio Marco Aurélio Marley Vellasco Carlos Henrique Lopes - 1

2 1. Introdução Banco de Dados Data Warehouse KDD Knowledge Discovery Database TAREFAS DE KDD Regras de Associação Classificação Clustering FASES DE KDD Data Warehousing: Organização de grandes volumes de dados OLAP: Processamento Analítico On-Line (On-Line Analytical Processing) Pré-processamento dos dados Limpeza dos dados Seleção dos dados Codificação dos dados Enriquecimento dos dados Mineração de Dados (Data Mining) Pós-processamento Data Mining INTRODUÇÃO TÉCNICAS E ALGORITMOS PARA A MINERAÇÃO DE DADOS Redes Neurais Artificiais Introdução às Redes Neurais Artificiais Modelagem de Redes Neurais Artificiais em Mineração de Dados Algoritmos Genéticos Introdução a Algoritmos genéticos Modelagem de Algoritmos Genéticos para a Mineração de Dados Lógica Indutiva Métodos Estatísticos Classificadores Bayesianos Redes Bayesianas Árvores de decisão Indução de Regras Algoritmo ID Redes Neurais Fundamentos das Redes Neurais Artificiais Histórico O Neurônio Artificial Funções de Ativação Topologia das Redes Neurais Artificiais Tipos de Treinamento Redes Neurais Artificiais Multi-Camadas Algoritmo de Retropropagação do Erro Modelagem de Redes Neurais para Data Mining Seleção de Dados Pré-processamento Atributos derivados Escalamento Normalização Mapeamento simbólico e taxonomias Translações de simbólicos para numéricos Representação dos dados Representação Numérica dos dados Valores Discretos Código 1-de-N Código binário Código de temperatura Valores contínuos Representações de Dados Simbólicos Impacto da Representação dos Dados no Tempo de Treinamento

3 Gerenciando Conjunto de Treinamento de Dados Quantidade de Dados Qualidade dos dados (Entra Lixo, Sai Lixo) Neuro Fuzzy MOTIVAÇÃO Sistemas Híbridos Introdução Sistemas Neuro-fuzzy Taxonomia dos Sistemas Neurofuzzy Taxonomia quanto às características fuzzy Taxonomia quanto às características de aprendizado Exemplos de Modelos Neuro-Fuzzy Taxonomia dos três sistemas estudados LIMITAÇÕES DOS SNF Algoritmos Genéticos RESUMO ALGORITMOS GENÉTICOS: PRINCÍPIOS E APLICAÇÕES Fundamentos matemáticos de Algoritmos genéticos Análise do Efeito da Seleção Análise do Efeito do Crossover Análise do Efeito da Mutação Desempenho de Algoritmo GenéticoS Técnicas, PARÂMETROS e Operadores Genéticos Técnicas de Reprodução: Técnicas de Aptidão: Técnicas de Interpolação de Parâmetros: Operadores Genéticos Modelagem de Algoritmos genéticos para Data Mining CLASSIFICAÇÃO POR EVOLUÇÃO DE REGRAS DE ASSOCIAÇÃO ACURÁCIA E ABRANGÊNCIA DE UMA REGRA MODELAGEM DO ALGORITMO GENÉTICO Representação de Cromossomas Operadores Genéticos Inicialização da População Técnicas e Parâmetros Funções de Avaliação Número-Atributos Distância-Ótima Recompensa-Atributos CBayesianos Número-Registros FAcurácia FAbrangência Rule Interest Chi-Square Recompesa nas funções de avaliação Apêndice Softwares comerciais e Sites AC2 (www.isoft.fr) ALICE d ISoft (www.isoft.fr) AutoClass C (ic-www.arc.nasa.gov/ic/projects/bayes-group/group/autoclass/autoclass-cprogram.html) Clementine (www.isl.co.uk/clem.html) Data Surveyor (www.ddi.nl) Data Engine (www.mitgmbh.de) Datasage (www.datasage.com) DataScope (http://www.tiszanet.hu/cygron/datascp.htm) Outros softwares e sites C5.0 / See Commercial tools for data mining

4 DataDetective 94 dbprophet: neural network data mining tool by Trajecta 94 Explora IBM Visualization Data Explorer 94 LEVEL5 Quest 94 ModelQuest Enterprise 94 ModelQuest Enterprise 94 PV-WAVE 94 SE-Learn SPSS Data Mining Software 94 SuperQuery 94 WizRule for Windows 94 XpertRule Empresas de Data Mining no Brasil Empresas e produtos em Data Mining American Heuristics/Profiler Angoss Software/Knowledge Seeker Business Objects/BusinessMiner DataMind/DataMindProfessional HNC Software/DataMarksman HiperParallel/Discovery Information Discovery Inc.(IDI)/Information Discovery System Lucent Technologies/Interactive Data Visualization Nestor/Prism Pilot Software/pilot Discovery Server Seagate Software Systems/Holos Thinking Machines/Darwin 96 Referências

5 1. INTRODUÇÃO Durante os últimos anos tem se verificado um crescimento substancial da quantidade de dados armazenados em meios magnéticos. Estes dados, produzidos e armazenados em larga escala, são inviáveis de serem lidos ou analisados por especialistas através de métodos manuais tradicionais [PIAT91], tais como planilhas de cálculos e relatórios informativos operacionais, onde o especialista testa sua hipótese contra a base de dados. Por outro lado, sabe-se que grandes quantidades de dados equivalem a um maior potencial de informação. Entretanto, as informações contidas nos dados não estão caracterizadas explicitamente, uma vez que sendo dados operacionais, não interessam quando estudados individualmente. Diante deste cenário, surge a necessidade de se explorar estes dados para extrair informação - conhecimento implícito, e utilizá-la no âmbito do problema. Argumenta-se que a necessidade de sistemas para dar suporte a decisão têm se desenvolvido ao longo dos anos cada vez mais dentro de uma granularidade de informações mais refinada, da seguinte maneira: nos anos 60 as exigências e necessidades estavam a nível de mercado; nos anos 70, ao nível de nichos, grupos de interesse; nos anos 80, a nível de seguimentos de mercado; e nos anos 90, a nível de clientes. Este último nível, naturalmente, requer o uso de mais dados para se extrair conhecimento [KELL95]. A exploração do valor destes dados, ou seja, a informação neles contida implicitamente, depende de técnicas como Regras de Associação [SRIK95], Classificação [MICH94], Clustering [FISH87], entre outras, capazes de gerenciar tarefas complexas. O processo capaz de descobrir este conhecimento em banco de dados chama-se KDD (Knowledge Discovery Database). O processo de KDD foi proposto em 1989 para referir-se às etapas que produzem conhecimentos a partir dos dados e, principalmente, à etapa de mineração dos dados, que é a fase que transforma dados em informações [FAYY96]. Este processo envolve encontrar e interpretar padrões nos dados, de modo iterativo e interativo, através da repetição dos algoritmos e da análise de seus resultados. Esse processo contém diversas fases: definição do problema; seleção dos dados; limpeza dos dados; pré-processamento dos dados; codificação dos dados; enriquecimento dos dados; mineração dos dados (Data Mining) e a interpretação dos resultados. O processo de KDD é formado pela interseção de diferentes áreas. As áreas mais relacionadas em descoberta de conhecimento são: Machine Learning [LANG96], [SHAV90], Inteligência Computacional, estatística [ELDE96] e visualização dos dados [LEE 95]. Na área de Inteligência Computacional, em particular, as técnicas mais utilizadas são: Redes Neurais Artificiais [HAYK94], [RUME86], Indução de regras [NILS80] e Algoritmos Genéticos [GOLD89]. A Inteligência Computacional é uma área da ciência que busca, através de técnicas inspiradas na Natureza, o desenvolvimento de sistemas inteligentes que imitam aspectos do comportamento humano, tais como: aprendizado, percepção, raciocínio, evolução e adaptação. Técnica Redes Neurais Algoritmos Genéticos Lógica Fuzzy Sistemas Especialistas Inspiração Neurônios biológicos Evolução biológica Proc. lingüístico Inferência Redes Neurais são modelos computacionais não lineares, inspirados na estrutura e operação do cérebro humano, que procuram reproduzir características humanas, tais como: aprendizado, associação, generalização e abstração. Redes Neurais são efetivas no aprendizado de padrões a partir de dados não lineares, incompletos, com ruído ou compostos de exemplos contraditórios. Algoritmos Genéticos são algoritmos matemáticos inspirados nos mecanismos de evolução natural e recombinação genética. A técnica de Algoritmos Genéticos fornece um mecanismo de busca adaptativa que se baseia no princípio Darwiniano de reprodução e sobrevivência dos mais aptos. Lógica Nebulosa (Fuzzy Logic) tem por objetivo modelar o modo aproximado de raciocínio humano, visando desenvolver sistemas computacionais capazes de tomar decisões racionais em um ambiente de incerteza e imprecisão. A Lógica Nebulosa oferece um mecanismo para manipular informações imprecisas, tais como os conceitos de muito, pouco, pequeno, alto, bom, quente, frio, etc, fornecendo uma resposta aproximada para uma questão baseada em um conhecimento que é inexato, incompleto ou não totalmente confiável. Sistemas Especialistas são programas computacionais destinados a solucionar problemas em um campo especializado do conhecimento humano. Usa técnicas de IA, base de conhecimento e raciocínio inferencial. As técnicas da Inteligência Computacional têm sido empregadas com sucesso no desenvolvimento de sistemas inteligentes de previsão, suporte à decisão, controle, otimização, modelagem, classificação e reconhecimento de padrões em geral, aplicados em diversos setores: Energia, Industrial, Econômico, Financeiro, Comercial e Outros, Síntese de Circuitos, Meio Ambiente, entre outros [MARCO]. - 5

6 2. BANCO DE DADOS Este capítulo introduz banco de dados de uma forma simples. São abordados os pontos que julga-se ser o mínimo necessário para deixar o leitor capacitado a entender a necessidade de banco de dados direcionados para Data Mining. Os tópicos abordados estão mais detalhados na referência citada para banco de dados. De maneira genérica são abordados em banco de dados: conceitos básicos, tais como definição e propriedades; características, como linguagens de BD e coerência dos dados; arquitetura lógica, esquemas externo, conceitual e interno; usuários; modelo de Entidade-Relacionamento; linguagens de consulta; linguagem SQL, apresentando os principais comandos; cuidados no projeto do BD e algumas restrições de integridade. Pode-se definir banco de dados como uma coleção de dados relacionados. Onde dados significam fatos conhecidos que podem ser armazenados e que possuem significado implícito. Por exemplo, considere os nomes, número de telefones, e endereços das pessoas que você conhece. Você pode ter armazenado esse dado numa agenda de endereço indexada, ou você pode ter armazenado ele diretamente em um disquete, utilizando um PC e um software como DBASE IV ou V, PARADOX, ou EXCEL. Isto é uma coleção de dados relacionados com um significado implícito, então é um banco de dados. De maneira genérica um banco de dados possui as seguintes propriedades implícitas: Um banco de dados representa algum aspecto do mundo real, algumas vezes chamado de mini-mundo ou Universo do Discurso. Mudanças no mini-mundo são refletidas no banco de dados. Um banco de dados é uma coleção logicamente coerente de dados como algum significado herdado. Uma ordenação aleatória de dados não pode ser corretamente referenciada como um banco de dados. Um banco de dados é modelado, construído, e povoado com dados para uma proposta específica. Ou seja existe um grupo de usuários e algumas aplicações pré concebidas as quais esses usuários estão interessados. Em outras palavras, os bancos de dados tem alguma origem da qual os dados são derivados, algum grau de interação com eventos no mundo real, e alguns usuários que estão ativamente interessados no conteúdo do banco de dados. Um banco de dados pode ser gerado e mantido manualmente ou por uma máquina. Um banco de dados computadorizado pode ser criado e mantido ou por um grupo de programas de aplicação escritos especialmente para essa tarefa ou por um sistema gerenciador de banco de dados. Um sistema gerenciador de banco de dados (SGBD), ou em inglês, DBMS (Database Management System), é uma coleção de programas habilita usuários a criar e manter um banco de dados. O SGBD é então um software de propósito geral que facilita o processo de definir, construir e manipular banco de dados de várias aplicações. Onde definir o banco de dados envolve especificar os tipos dos dados, estruturas e restrições para os dados que serão armazenados no banco de dados. Construir o banco de dados é o processo de armazenamento do dado em alguma mídia que é controlada pelo SGBD. E a manipulação do banco de dados inclui algumas funções como queries que buscam por dados específicos, atualizações no banco de dados que refletem mudanças no mini-mundo, e geração de relatórios dos dados. SISTEMA BD Usuários/Programadores Programas de Aplicação/ Queries SGBD SOFTWARE Software para processar Queries/Programas Software para acessar Dados Armazenados Meta-Dados Definição BD Armazenado Figura 1: Um ambiente simplificado de um sistema de banco de dados - 6

7 É necessário uma grande quantidade de softwares para manipular o banco de dados além do próprio banco de dados, nesse caso, chama-se sistema de banco de dados o conjunto BD e softwares. A Figura 1 ilustra essas idéias. Um número de características distinguem a aproximação de banco de dados com a aproximação tradicional de programação com arquivos. No tradicional processamento de arquivos, cada usuário define e implementa os arquivos necessários para uma aplicação específica. Na aproximação por banco de dados, um único repositório de dados é mantido e definido uma única vez e então é acessada por vários usuários. Deste modo as principais características podem ser a definição do banco de dados através da linguagem de definição de dados (LDD) criando e relacionamentos, tipos e restrições nos dados; a utilização de linguagens de manipulação de dados (LMD) fazendo atualizações na base; o suporte ao método de armazenamento, segurança, e acesso eficiente aos dados, além do controle multi-usuário concorrentemente. Entretanto a característica fundamental é a que provê um nível de abstração capaz de esconder os detalhes de como os dados estão armazenados, que para a maioria dos usuários não é de interesse. Analisando-se as principais características de banco de dados pode-se especificar uma arquitetura para sistemas de banco de dados, chamada de arquitetura em 3 níveis ou esquemas (Figura 2). NÍVEIS DE ABSTRAÇÃO Esquema Externo EE1 EE2 EEN Esquema Conceitual Esquema Interno Figura 2: Arquitetura em 3 níveis O objetivo dessa arquitetura ilustrada na Figura 2 é separar as aplicações dos usuários e o banco de dados fisicamente. Nessa arquitetura os esquemas podem ser definidos nos seguintes níveis: 1. O nível interno tem um esquema interno, que descreve a estrutura física de armazenamento do banco de dados. O esquema interno usa o modelo de dados físico e descreve detalhes completos do armazenamento dos dados e caminhos de acesso para o banco de dados. 2. O nível conceitual tem um esquema conceitual, que descreve a estrutura de todo o banco de dados para uma comunidade de usuários. O esquema conceitual escondes os detalhes da estrutura de armazenamento físico e concentra-se na descrição de entidades, tipos de dados, relacionamentos, operações de usuários, e restrições. 3. O esquema externo ou nível de visão inclui um número de esquemas esternos ou visões de usuários. Cada esquema externo descreve a parte do banco de dados que um grupo particular de usuários está interessada e esconde o resto do banco de dados para esse mesmo grupo. Essa arquitetura pode ser utilizada para explicar o conceito de independência dos dados., que pode ser definido como a capacidade de alterar o esquema em algum nível de um banco de dados sem ter que alterar o esquemas do nível mais alto. Pode-se definir dois tipos de independência, a física e a lógica. A independência lógica é a capacidade de alterar o esquema conceitual sem ter que alterar o conceito externo ou os programas de aplicação. A independência física é a capacidade de mudar o esquema interno sem ter que mudar o esquema conceitual. Uma vez que o modelo do banco de dados está definido e um SGBD foi escolhido para implementar o banco de dados, então precisa-se especificar os esquemas conceitual e interno para o banco de dados e qualquer mapeamento entre os dois. Uma linguagem chamada Linguagem de Definição de Dados (LDD) é utilizada por um usuário administrador da base e pelos desenvolvedores do modelo para definir ambos os esquemas. Em SGBDs onde existe uma clara diferença entre os níveis conceitual e interno, a LDD é utilizada apenas para o modelo conceitual. Uma outra linguagem (SDL Storage Definition Data) é usada para especificar o modelo interno. Para completar a arquitetura de 3 níveis é necessário uma terceira linguagem, a VDL (View Definition Language) que define o esquema de visões. Uma vez que os esquemas do banco de dados são criados e o banco de dados é povoado, os usuários precisam ter meios de manipular os dados. As manipulações típicas incluem - 7

8 busca, inserção, deleção, e modificação dos dados. Para essa proposta o SGBD propõe a LMD, linguagem de manipulação de dados. O modelo conceitual de entidade-relacionamento descreve dados como entidades, relacionamentos e atributos. A entidade é o objeto básico representado no modelo ER, que é uma coisa do mundo real com existência independente. Uma entidade pode ser um objeto com existência física uma pessoa, carro, casa, ou empregado ou pode ser um objeto com existência conceitual uma companhia, um trabalho, ou um curso de universidade. Cada entidade tem propriedades particulares, chamadas atributos, que a descrevem. Por exemplo, uma entidade empregado pode ser descrita por nome do empregado, idade, endereço, salário e trabalho. Uma entidade particular terá um valor para cada um desses atributos. Os valores dos atributos que descrevem cada entidade são a maior parte dos dados armazenados no banco de dados. Informalmente, um relacionamento é uma associação de entidades, onde a associação inclui exatamente uma entidade de cada participante no tipo da entidade. Por exemplo, suponha o relacionamento TRABALHA_PARA entre duas entidades EMPREGADO e DEPARTAMENTO, que associa cada empregado ao departamento em que trabalha. Dado que o banco de dados está concluído, existem as pessoas cujo trabalho necessita acessar o banco de dados para busca de informações, atualizações e gerações de relatórios; o banco de dados inicialmente existe para o uso dessa pessoas. Existem várias categorias para usuários finais: Usuário casual ocasionalmente acessam o banco de dados, mas eles tem necessidades de informações diferentes a cada acesso. Eles usam uma linguagem sofisticada de busca em banco de dados para especificar seus requisitos e são tipicamente gerentes de nível médio ou alto. Naive ou usuários paramétricos São usuários de grande parte do banco de dados. A função principal do seu trabalho faz com que constantemente ele busque e atualize o banco de dados através de transações enlatadas que foram cuidadosamente programadas e testadas. Por exemplo, caixas de banco, reservas aéreas, de hotéis, de aluguéis de carros, etc... Usuários sofisticados incluem engenheiros, cientistas, analistas de negócios, e outros que são familiarizados com as facilidades do SGBD e buscam encontrar suas necessidades mais complexas. Usuários isolados mantém um banco de dados pessoal utilizando programas empacotados que provê facilidade de uso em menus e interfaces gráficas. Existem várias linguagens que tem sido parcialmente ou completamente implementada e estão disponíveis em SGBDs comerciais. A mais conhecida delas é a SQL, cujo nome é derivado de Structure Query Language. Variações de SQL tem sido implementadas por vários fabricantes, por isso há um esforço de se padronizar o SQL coordenado pelo ANSI (American National Standards Institute) e pela ISO (International Standards Organizations). SQL é uma linguagem compreensiva para banco de dados; ela possui comandos para definição de dados, busca e atualizações. Então, ela é uma LMD e LDD. SQL utiliza os termos tabela, linha, e coluna para relação, tupla e atributo, respectivamente. Os comando de SQL para definição de dados são CREATE, ALTER, e DROP. O comando CREATE TABLE é usado para especificar uma nova relação dando-se seu nome e especificando seus atributos e restrições. Os atributos são especificados primeiro, e a cada atributo é dado um nome, um tipo de dados para especificar seu domínio de valores, e possivelmente algumas restrições. A chave, as restrições de integridade da entidade e referencial são especificadas. Exemplo: CREATE TABLE EMPLOYEE (NAME VARCHAR(15) NOT NULL, MINIT CHAR, LNAME VARCHAR(15) NOT NULL, SSN CHAR(9) NOT NULL, BDATEDATE, ADDRESS VARCHAR(30), SEX CHAR, SALARY DECIMAL(10, 2), SUPERSSN CHAR(9), DNO INT NOT NULL, PRIMARY KEY (SSN), FOREIGN KEY (SUPERSSN) REFERENCES EMPLOYEE (SSN), FOREIGN KEY (DNO) REFERENCES DEPARTAMENT (DNUMBER)); O comando ALTER TABLE pode ser utilizado para alterar a definição de um tabela. As possíveis ações desse comando incluem adicionar ou excluir uma coluna (atributo), alterar a definição de uma coluna, e - 8

9 adicionar ou excluir restrições. Por exemplo, adicionar um atributo para monitorar o trabalho de um empregado. ALTER TABLE EMPLOYEE ADD JOB VARCHAR (12); SQL tem um comando básico para obter informações da base de dados: SELECT. A forma básica do comando SELECT é formada por 3 cláusulas SELECT, FROM, e WHERE e tem a seguinte forma: SELECT <lista de atributos> FROM <lista de tabelas> WHERE <condição>, Onde <lista de atributos> é uma lista de nomes de atributos cujos valores serão obtidos na query. <lista de tabelas> é uma lista com os nomes das relações requisitadas para processar a query. <condição> é a condição necessária para identificar expressões que satisfazem as tuplas da query. Exemplo: SELECT BDATE, ADDRESS FROM EMPLOYEE WHERE FNAME = JOHN AND LNAME = SMITH 3. DATA WAREHOUSE Os bancos de dados e a teoria de banco de dados estão disponíveis há bastante tempo. As primeiras edições de bancos de dados concentravam-se em um único banco de dados que atendia a todos os propósitos conhecidos pela comunidade de informática do processamento de transações ao processamento batch (lote) e ao processamento analítico. Na maioria dos casos, o enfoque principal dos primeiros sistemas de banco de dados era o processamento operacional geralmente transacional. Nos últimos anos, surgiu um conceito de banco de dados mais sofisticados um que atende as necessidades operacionais e outro que atende as necessidades informacionais ou analíticas. Até certo ponto, esse conceito mais evoluído de banco de dados se deve ao advento dos PCs, à tecnologia das linguagens de quarta geração, e ao empowerment do usuário final. A divisão em banco de dados operacionais e informacionais ocorre por várias razões: Os dados que atendem a necessidades operacionais são fisicamente diferentes dos dados que atendem a necessidades informacionais ou analíticas. A tecnologia de suporte ao processamento operacional é fundamentalmente, diferente da tecnologia utilizada para prestar suporte a necessidades informacionais ou analíticas. A comunidade de usuários dos dados operacionais é diferente da que é atendida pelos dados informacionais ou analíticos. As características de processamento do ambiente operacional e do ambiente informacional são, fundamentalmente diferentes. Por essas razões (e por muitas outras!), a maneira moderna de construir sistemas consiste em separar o processamento e os dados operacionais dos informacionais ou analíticos. Pode-se definir que o processamento informacional ou analítico é o processamento que atende às necessidades dos gerentes durante o processo de tomada de decisões. Geralmente conhecido como SAD sistemas de apoio à decisão, o processamento analítico examina amplos espectros de dados para detectar tendências. Em vez de considerar um ou dois registros de dados (como ocorre no processamento operacional), quando o analista de SAD executa um processamento analítico, muitos registros são acessados. Além disso, o analista de SAD muito raramente atualiza dados. Nos dados operacionais, os dados estão constantemente sendo atualizados no nível de registro individual. No processamento analítico, os registros estão constantemente sendo acessados, e seus conteúdos são agrupados para análise, mas ocorre pouca ou nenhuma alteração dos registros individuais. No processamento analítico, os requisitos de tempo de resposta são muito atenuados em comparação com o do tradicional processamento operacional. O tempo de resposta analítico alcança de 30 minutos a 24 horas. Para o processamento operacional, tempos de resposta inseridos nessa escala significariam um absoluto desastre. A rede que atende a comunidade analítica é muito menor do que a que atende à comunidade operacional. Normalmente, há muito menos usuários da rede analítica do que da rede operacional. Ao contrário da tecnologia que dá suporte ao ambiente analítico, a tecnologia voltada para o ambiente operacional deve tratar do bloqueio de dados e transações, disputa de dados, deadlock, e assim por diante. - 9

10 Há portanto, muitas diferenças importantes entre o ambiente operacional e o ambiente analítico. Aqui é dado enfoque ao processamento analítico com as seguintes questões: Granularidade dos dados Particionamento dos dados Metadados Falta de credibilidade dos dados Integração dos dados do SAD Parâmetros de tempo dos dados do SAD Identificação da fonte dos dados do SAD o sistema de registro Migração e tecnologia O Data Warehouse é o alicerce do processamento dos SADs. Em virtude de haver uma fonte única de dados integrados no DW, e uma vez que os dados apresentam condições de acesso, a tarefa do analista de SAD no ambiente de DW é incomensuravelmente mais fácil do que no ambiente clássico. Um DW é um conjunto de dados baseado em assuntos, integrado, não-volátil, e variável em relação ao tempo, de apoio às decisões gerenciais. Os sistemas operacionais clássicos são organizados em torno das aplicações da empresa. No caso de uma companhia de seguros, as aplicações podem ser automóvel, saúde, vida e perdas. Os principais assuntos ou negócios da empresa podem ser cliente, apólice, prêmio e indenização. A segunda característica marcante do DW é que ele é integrado. A integração ocorre quando os dados passam do ambiente operacional baseado em aplicações para o data warehouse. O processo de introdução dos dados no DW é feita de modo que as muitas inconsistências da aplicações sejam desfeitas. As considerações sobre inconsistências são válidas para todas as questões de projeto de aplicações, como as convenções de atribuição de nomes, estruturas de chaves, unidades de medidas de atributos e características físicas dos dados. A terceira característica importante de um DW consiste em que ele é não-volátil. No ambiente operacional, os dados sofrem atualizações. Contudo, os dados existentes no data warehouse apresentam um conjunto de características muito diferentes. Os dados do DW são carregados (normalmente em grandes quantidades) e acessados. Mas a atualização dos dados (geralmente) não ocorre no ambiente de data warehouse. A última característica significativa do DW diz respeito ao fato de ele ser variável em relação ao tempo. O horizonte de tempo válido para o DW é significantemente maior do que o dos sistemas operacionais. Um horizonte de tempo de 60 a 90 dias é normal para os sistemas operacionais; um horizonte de tempo de 5 a 10 anos é normal para o DW. Bancos de dados operacionais contêm dados de valor corrente dados cuja exatidão é válida para o momento de acesso. Assim sendo, dados de valor corrente podem ser atualizados. Dados existentes no DW não passam de uma série sofisticada de instantâneos, capturados num determinado momento. A estrutura de chaves dos dados operacionais pode conter, ou não, elementos de tempo, como ano, mês, dia, etc. A estrutura de chave do DW sempre contém algum elemento de tempo. Na estrutura do DW pode-se notar um nível de detalhe mais antigo (geralmente residente em um armazenamento alternativo, de massa), um nível corrente de detalhe, um nível de dados levemente resumidos e um nível de dados altamente resumidos. Os dados fluem do ambiente operacional para o DW. Na passagem do nível operacional pare o nível do DW, geralmente ocorre uma quantidade significativa de transformações de dados. O DW baseia-se nos principais assuntos ou negócios de interesse da empresa que tenham sido definidos no modelo de dados. Entre as tradicionais áreas de interesse incluem-se: Cliente, produto, transação ou atividade, apólice, indenização, conta, etc. A principal área de interesse termina sendo fisicamente implementada como uma série de tabelas relacionadas inseridas no DW. Dados que apresentam alta probabilidade de acesso e baixo volume de armazenamento residem em um meio rápido e relativamente caro. Dados que apresentam baixa probabilidade de acesso e grande volume de armazenamento residem em um meio menos dispendioso e de acesso mais lento. O mais importante aspecto do projeto de um DW é a questão da granularidade. A granularidade diz respeito ao nível de detalhe ou de resumo contido nas unidades de dados existentes no DW. Quanto mais detalhe, mais baixo o nível de granularidade. Quanto melhor detalhe, mais alto o nível de granularidade. A granularidade de dados tem se mantido como uma questão delicada de projeto. Nos primeiros sistemas operacionais que foram criados, a granularidade era tido como certa. Quando os dados detalhados eram atualizados, era quase certo que eles seriam armazenados no nível mais baixo de granularidade. No entanto, no ambiente de DW, a granularidade não é um pressuposto. - 10

11 A razão pela qual a granularidade é a principal questão de projeto consiste no fato de que ela afeta profundamente o volume de dados que residem no DW e, ao mesmo tempo, afeta o tipo de consulta que pode ser atendida. O volume de dados contido no DW é balanceado de acordo com o nível de detalhe de uma consulta. Outro meio utilizado é o particionamento dos dados de detalhe corrente em unidades físicas menores. Pois, unidades físicas menores proporcionam ao pessoal de operação e ao projetista muito mais flexibilidade no gerenciamento dos dados do que é proporcionado pelas unidades maiores. Quando os dados residem em unidades físicas de tamanho maior, entre outras coisas, eles não podem ser: Reestruturados facilmente Indexados livremente Pesquisados sequencialmente, se necessário Reorganizados facilmente Recuperados facilmente Monitorados facilmente Em resumo, uma das características essenciais do data warehouse é o acesso flexível aos dados. A existência de uma grande quantidade de dados frusta boa parte do objetivo do DW. Portanto, todos os dados de detalhe corrente do DW devem ser particionados. Os dados podem ser divididos de diversas maneiras, as mais comuns são: por data, por área de negócio, por área geográfica, por unidade organizacional, etc. Existem dois importantes aspectos vinculados à construção de um DW o projeto da interface com os sistemas operacionais e o projeto do data warehouse propriamente dito. De certa forma, projeto não é uma descrição exata do que acontece durante a construção do DW, uma vez que ele é construído de modo heurístico. Primeiro, o warehouse é povoado com alguns dados. Tais dados são, então, usados e minuciosamente examinados pelo analista de SAD. Em seguida, com base no feedback proporcionado pelo usuário final, os dados são modificados e/ou outros são adicionados ao data warehouse. O ciclo de feedback tem continuidade por toda a vida do data warehouse. É um engano pensar que os enfoques de projetos que funcionaram no passado serão úteis na construção do DW. Os requisitos para a criação do DW não podem ser conhecidos até que ele esteja parcialmente povoado e sendo usado pelo analista de SAD. Portanto, ele não pode ser projetado do mesmo modo pelo qual são construídos os sistemas clássicos baseados em requisitos. Por outro lado, também constitui um engano pensar que não prever requisitos seja uma boa idéia. Antes de qualquer tentativa de aplicar as técnicas convencionais de projeto seja feita, o projetista precisa compreender a aplicabilidade e o os limites dessas técnicas. O modelo de processos se aplica apenas ao ambiente operacional. O modelo de dados se aplica tanto ao ambiente operacional quanto ao ambiente de data warehouse. A tentativa de utilização de um modelo de dados ou de processos no local inadequado resultará apenas em frustração. O escopo de integração estabelece as fronteiras do modelo de dados e deve ser definido antes do inicio do processo de modelagem. O escopo é combinado entre o encarregado da modelagem, a gerência e o usuário final do sistema. Caso o escopo não seja predeterminado, há uma grande possibilidade de o processo de modelagem prolongar-se por um tempo excessivo. O modelo físico de dados é criado a partir do modelo de nível intermediário mediante a simples expansão deste de forma que ele passe a apresentar chaves e características físicas. À essa altura, o modelo físico de dados se parece com uma série de tabelas chamadas, em alguns casos, de tabelas relacionais. Um importante aspecto do ambiente de DW diz respeito aos metadados. Metadados são dados sobre dados. Os metadados fazem parte do meio de processamento de informações há tanto tempo quanto os programas e os dados. Contudo, é no mundo do data warehouse que os metadados assumem um novo nível de importância. É por meio dos metadados que a utilização mais produtiva do data warehouse é alcançada. Os metadados permitem que o usuário final/analista de SAD navegue pelas possibilidades. Os metadados englobam o warehouse e mantêm informações sobre o que está onde no data warehouse. Tipicamente, os aspectos sobre os quais os metadados mantêm informações são: A estrutura dos dados segundo a visão do programador. A estrutura dos dados segundo a visão do analista de SAD. A fonte de dados que alimenta o data warehouse. A transformação sofrida pelos dados no momento de sua migração para o DW. O modelo de dados. O relacionamento entre o modelo de dados e o DW. O histórico de extrações. De modo geral pode-se resumir que o projeto do data warehouse começa com o modelo de dados. O modelo corporativo de dados é utilizado para o projeto do ambiente operacional, e uma variante do modelo corporativo de dados é usada para o DW. O data warehouse é construído de forma iterativa. Os requisitos para o DW não podem ser conhecidos antecipadamente. A construção do data warehouse ocorre sob um ciclo de vida do desenvolvimento completamente diferente daquele referente aos sistemas operacionais clássicos. - 11

12 A principal preocupação do desenvolvedor do data warehouse diz respeito ao gerenciamento de volume. Com relação a isso, a granularidade e o particionamento dos dados são duas questões mais importantes do projeto de banco de dados. Há, no entanto, muitas outras questões de projeto físico, a maioria das quais, centradas na eficiência de acesso aos dados. 4. KDD KNOWLEDGE DISCOVERY DATABASE 4.1. TAREFAS DE KDD A Figura 3 representa de forma hierárquica uma visão sistemática do processo de KDD. Nessa figura percebe-se as fases e as principais tarefas do processo de KDD, envolvendo: tarefas e algoritmos empregados; fases; e etapas do pré processamento. Figura 3:Taxonomia do processo de KDD O desenvolvimento de sistemas de KDD esta relacionado com diversos domínios de aplicações: marketing, análises corporativas, astronomia, medicina, biologia, entre outros. Deste modo, pode-se identificar diversas tarefas de KDD que são, principalmente, dependentes do domínio da aplicação e do interesse do usuário. De modo geral, cada tarefa de KDD extrai um tipo diferente de conhecimento do banco de dados, logo cada tarefa requer um algoritmo diferente para a extração de conhecimento. A seguir descreve-se algumas das principais tarefas de KDD Regras de Associação A tarefa de descobrir regras de associação foi introduzida por Agrawal [AGRA93]. Na sua forma original essa tarefa é definida para um tipo especial de dados, frequentemente chamado basket data. Nesse tipo de dado uma tupla consiste num conjunto de atributos binários chamados itens. Cada tupla corresponde à uma transação, e um item pode assumir um valor verdadeiro ou falso, dependendo se o ele está ou não presente na - 12

13 transação. A transformação de uma tabela da base de dados para o formato binário é feita de modo que um atributo de cardinalidade K é substituído por K atributos binários [ADRI97]. Uma regra de associação é um relacionamento da forma X Y, onde X e Y são conjuntos de itens e a interseção deles, X Y, é o conjunto vazio. Cada regra de associação é associada a um fator suporte superior, denominado FSup, e a um fator de confidência, FConf. FSup é definido como a razão do número de tuplas satisfazendo ambos X e Y sobre o número total de tuplas, isto é, FSup = X Y / N, onde N é o número total de tuplas. FConf é definido como a razão do número de tuplas que satisfazem ambos X e Y sobre o número de tuplas que satisfazem X, isto é, FConf = X Y / X. A tarefa de descobrir regras de associação consiste em extrair do banco de dados todas as regras com FSup e FConf maiores ou iguais a um FSup e FConf especificado pelo usuário. A definição desses fatores serve para introduzir uma medida capaz de distinguir associações interessantes, dado que as regras geradas em forma binária elevam em muito o espaço de busca de qualquer algoritmo minerador. A descoberta de regras de associação é geralmente executada em 2 passos. Primeiro, um algoritmo determina todos os conjuntos de itens que têm FSup maior ou igual ao FSup especificado pelo usuário. Estes conjuntos são chamados conjuntos de itens frequentes. Segundo, para cada conjunto de itens frequentes, todas as possíveis regras candidatas são geradas e testadas com respeito ao FConf. Uma regra candidata é gerada por algum subconjunto de itens de um conjunto de itens frequentes como antecedente da regra, e os itens remanescentes do conjunto de itens frequentes como o consequente da regra. Apenas regras candidatas com FConf maior ou igual ao FConf especificado pelo usuário são dadas como saída do algoritmo. Para ilustrar a descoberta de regras de associação, considere o exemplo mostrado na Tabela 1 [FREI98]. A primeira coluna nessa tabela mostra um identificador (ID) da transação, e as outras colunas indicam se um determinado item foi ou não comprado na transação correspondente. Suponha que o usuário especificou os parâmetros FSup = 0.3 e FConf = 0.8. Tabela 1: Entrada de dados para a descoberta de regras de associação. ID LEITE CAFÉ CERVEJA PÃO MANTEIGA ARROZ FEIJÃO 1 Não Sim Não Sim Sim Não Não 2 Sim Não Sim Sim Sim Não Não 3 Não Sim Não Sim Sim Não Não 4 Sim Sim Não Sim Sim Não Não 5 Não Não Sim Não Não Não Não 6 Não Não Não Não Sim Não Não 7 Não Não Não Sim Não Não Não 8 Não Não Não Não Não Não Sim 9 Não Não Não Não Não Sim Sim 10 Não Não Não Não Não Sim Não Conjunto de itens frequentes: CAFÉ, PÃO. FSup = 0.3 Regra: Se (CAFÉ) então (PÃO). FConf = 1. Conjunto de itens frequentes: CAFÉ, MANTEIGA. FSup = 0.3 Regra: Se (CAFÉ) então (MANTEIGA). FConf = 1. Conjunto de itens frequentes: PÃO, MANTEIGA. FSup = 0.4 Regra: Se (PÃO) então (MANTEIGA). FConf = 0.8. Regra: Se (MANTEIGA) então (PÃO). FConf = 0.8 Conjunto de itens frequentes: CAFÉ, PÃO, MANTEIGA. FSup = 0.3 Regra: Se (CAFÉ e PÃO) então (MANTEIGA). FConf = 1. Regra: Se (CAFÉ e MANTEIGA) então (PÃO). FConf = 1 Regra: Se (CAFÉ) então (PÃO e MANTEIGA). FConf = 1 Figura 4: Regras de associação descobertas dos dados da Tabela 1 (FSup = 0.3 e FConf = 0.8) A Figura 4 mostra as regras de associação que seriam descobertas dos dados da Tabela 1 utilizando-se os valores de FSup e FConf maiores ou iguais aos especificados pelo usuário. Na Figura 4 as regras de associação são agrupadas pelos conjuntos de itens frequentes dos quais as regras foram geradas. A Figura 4 mostra apenas conjuntos de itens frequentes com dois ou mais itens. O algoritmo Apriori, um dos algoritmos disponíveis na literatura [AGRA97], é responsável por descobrir o conjunto de itens frequentes através de múltiplos passos na base de dados. Cada passo inicia com um conjunto semente de itens, e esse conjunto semente gerará novos conjuntos potenciais, chamados conjunto de itens candidatos. Em linhas gerais, enquanto o conjunto de itens candidatos não ficar vazio, o algoritmo armazena - 13

14 esses conjuntos e para cada (tupla) do banco de dados testa se um conjunto candidato está ou não contido na tupla. Caso um conjunto candidato esteja contido na tupla, então incrementa-se um contador. Se ao final do teste para cada tupla da base de dados uma regra candidata tiver um suporte mínimo especificado, então ela é inserida num novo conjunto semente (itens candidatos). O Algoritmo Basic trabalha de forma análoga ao Apriori [AGRA93]. A diferença está nas transações, pois nesse algoritmo criam-se novas transações, ou tuplas, chamadas transações estendidas. Uma transação estendida é uma nova transação tal que nela são adicionados todos os itens antecessores de um dado item. Por exemplo, Roupas podem ser divididas em Roupas de Frio e Roupas de Calor, e as Roupas de Frio em Jaquetas e Calças. Logo, se numa transação aparece o item Calça, então essa transação é adicionada dos itens Roupas de Frio e Roupas. O Algoritmo Cumulate pré computa os antecessores de um item e só os adiciona na transação se esses itens forem relevantes [AGRA93]. Se ao final do processo de geração de itens candidatos existirem conjuntos de itens candidatos que contenham o item e seu antecessor com o mesmo suporte, então um dos conjuntos é retirado. Por exemplo, se o suporte do conjunto { Jaquetas, Roupas de Frio } for o mesmo que { Jaquetas }, então é suficiente retirar um desses conjuntos. Uma vez que se obtém os conjuntos de itens frequentes, o algoritmo que é responsável por descobrir as regras pode ser como o mostrado na Figura 5. Para cada conjunto de itens frequentes f faça Para cada subconjunto c de f faça Se (suporte(f) / suporte(f - c) MínimoFConf.) então Saída a regra (f - c) c com fator de confidência = suporte(f) / suporte(f - c) E suporte = suporte(f) Figura 5: Algoritmo para descoberta de regras de associação Mais informações sobre regras de associação e detalhes sobre os algoritmos Apriori, Basic, Cumulate, Stratify, Estimate e EstMerge, responsáveis pela geração de regras e de conjuntos de itens frequentes podem ser encontradas em [ AGRA94 ], [ AGRA95 ], [ HAN 97 ]. Recentemente a descoberta de regras de associação tem sido estendida para outros tipos de atributos que não sejam estritamente binários. Por exemplo, [ FUKU96 ] propõe algoritmos para descobrir regras de associação que se referem à atributos contínuos ou quantitativos Classificação É a tarefa mais estudada em KDD. Nessa tarefa cada tupla pertence a uma classe entre um conjunto prédefinido de classes. A classe de uma tupla, ou registro, é indicada por um valor especificado pelo usuário em um atributo meta, ou atributo objetivo. As tuplas consistem de atributos preditivos e um atributo objetivo, esse último indicando a que classe essa tupla pertence. O atributo objetivo é do tipo categórico, ou discreto, isto é, pode tomar apenas um valor dentro de um conjunto de valores discretos, determinando classes ou categorias. Esse atributo pode ter valores discretos como SIM ou NÃO, um código pertencente a um intervalo de números inteiros, tais como {1..10}, etc. O princípio da tarefa de classificação é descobrir algum tipo de relacionamento entre os atributos preditivos e o atributo objetivo, de modo a descobrir um conhecimento que possa ser utilizado para prever a classe de uma tupla desconhecida, ou seja, que ainda não possui uma classe definida. Por exemplo, suponha que uma editora de livros publicou um livro chamado Um guia para restaurantes franceses na Inglaterra. O livro é publicado em inglês, francês e alemão, de acordo com o país onde ele está sendo vendido. Suponha também que a editora tem um banco de dados contendo dados sobre seus clientes nos três países, Inglaterra, França e Alemanha. Seria interessante utilizar esses dados para prever que tipo de clientes estariam mais interessados em comprar esse novo livro. A editora pode então concentrar os esforços de vendas nesses clientes. Para prever se o cliente irá ou não comprar o livro quando eles receberem um material de propaganda, a editora necessita de alguns dados sobre o efeito dessa técnica de propaganda em alguns de seus clientes na sua base de dados. A partir desses dados um algoritmo de classificação pode descobrir regras que prevêem se um novo cliente irá ou não comprar esse novo livro. Para coletar esses dados a editora pode enviar o material de propaganda para alguns de seus clientes e monitorá-los para saber se eles compram ou não o livro. Essa informação é então armazenada em um novo atributo, nesse caso o atributo objetivo. Seu valor pode assumir dois possíveis valores: SIM, significando a compra do livro, ou NÃO, caso contrário. Uma vez esse atributo determinado, o próximo passo é selecionar um subconjunto de atributos preditivos entre todos os atributos dos clientes no banco de dados. Claramente alguns atributos, tal como: nome do cliente, são de modo geral - 14

15 irrelevantes para a previsão da compra ou não do livro. No exemplo abaixo serão considerados apenas os atributos SEXO, PAÍS e IDADE dos clientes como relevantes para a previsão. A Tabela 2 [FREI98] mostra os valores dos atributos preditivos selecionados, junto com valor do atributo objetivo, COMPRAR. Esses são dados de dez clientes, aos quais algum material de propaganda foi enviado sobre o novo livro. Um algoritmo de classificação pode analisar os dados da Tabela 2 para determinar que valores dos atributos preditivos tendem a ser relacionados, ou associados, com cada um dos atributos objetivos. Esta descoberta de conhecimento pode então ser aplicada para prever se um cliente da base de dados da editora comprará ou não o novo livro. Note que esse conhecimento será aplicado nos clientes para o qual o valor do atributo objetivo ainda é desconhecido. Tabela 2: Entrada de dados para a tarefa de classificação SEXO PAÍS IDADE COMPRAR Masculino França 25 Sim Masculino Inglaterra 21 Sim Feminino França 23 Sim Feminino Inglaterra 34 Sim Feminino França 30 Não Masculino Alemanha 21 Não Masculino Alemanha 20 Não Feminino Alemanha 18 Não Feminino França 34 Não Masculino França 55 Não Se (PAÍS = Alemanha) então COMPRAR = Não Se (PAÍS = Inglaterra) então COMPRAR = Sim Se (PAÍS = França e IDADE 25) então COMPRAR = Sim Se (PAÍS = França e IDADE > 25) então COMPRAR = Não Figura 6: Regras de classificação descobertas dos dados da Tabela 2 O conhecimento descoberto é frequentemente representado na forma de regras SE-ENTÃO. Essas regras são interpretadas da seguinte maneira: SE os atributos preditivos de uma tupla satisfazem as condições no antecedente da regra, ENTÃO a tupla tem a classe indicada no consequente da regra. A Figura 6 mostra as regras extraídas através de um algoritmo de classificação utilizando os dados da Tabela 2. Mais informações sobre a tarefa de classificação podem ser encontradas em [MEHT96], [SHAF96], [SHOL91] e [MICH94] Clustering Instintivamente as pessoas visualizam os dados segmentados em grupos discretos, como por exemplo, tipos de plantas ou animais. Na criação desses grupos discretos pode-se notar a similaridade dos objetos em cada grupo. Enquanto a análise de grupos é frequentemente feita manualmente em pequenos conjuntos de dados, para grandes conjuntos um processo automático de clustering através da tecnologia de mineração de dados é mais eficiente. Em adição, os cenários existentes são muito similares, tornando-os competitivos, requerendo a utilização de algoritmos complexos que determinem a segmentação mais apropriada. Nessa tarefa de KDD, o algoritmo deve criar as classes através da produção de partições do banco de dados em conjuntos de tuplas. Essa partição é feita de modo que tuplas com valores de atributos semelhantes, ou seja, propriedades de interesse comuns, sejam reunidas dentro de uma mesma classe. Uma vez que as classes sejam criadas, pode-se aplicar um algoritmo de classificação nessas classes, produzindo assim regras para as mesmas. Um bom agrupamento caracteriza-se pela produção de segmentos de alta qualidade, onde a similaridade intra-classe é alta e a inter-classe é baixa. A qualidade do resultado do clustering também depende da medida utilizada para medir a similaridade usada pelo método e de sua implementação, além de sua habilidade de descobrir algum ou todos os padrões escondidos. As técnicas mais utilizadas para agrupar dados são baseadas em três categorias: Partição, basicamente enumera várias partições e então cria uma nota para cada uma delas segundo algum critério; Hierarquia, cria uma decomposição hierárquica do conjunto de dados usando algum critério; Modelo, um modelo é hipoteticamente criado para cada cluster e a idéia é encontrar o que melhor se enquadra quando comparados entre si. - 15

16 A maioria das ferramentas de clustering trabalham em função de um número pré-definido de grupos especificado por um usuário. Isso requer um conhecimento detalhado do domínio, transformando assim a tarefa de descoberta de conhecimento menos atrativa. Tecnologias mais sofisticadas são capazes de procurar através de diferentes possibilidades de quantidades de grupos e avaliar cada configuração de acordo com a sua importância. Técnicas baseadas em Redes Neurais Auto Organizáveis utilizando algoritmos Kohonen [HAYK94] também são capazes de segmentar grupos de dados. Outras discussões sobre métodos de clustering podem ser encontradas em [JAIN88], [ARAB96] e [RAYM94]. Existem outras tarefas de KDD que menos destacadas, são elas: Descoberta de regras através da semântica da otimização de queries Esta tarefa transforma uma query do banco de dados em uma outra query utilizando a semântica do conhecimento da base, tais como restrições de integridade e dependências funcionais para produzir uma query mais eficiente [KING81]. Descoberta de dependências do banco de dados No modelo de dados relacional, as definições das relações na base de dados não dizem nada sobre o relacionamento entre seus atributos. Esses relacionamentos são especificados através das dependências dos dados, ou das restrições de integridade [FAGI86], essa tarefa busca automaticamente descobrir tais dependências. Regressão Esta tarefa é conceitualmente similar a tarefa de classificação. A maior diferença é que nessa tarefa o atributo meta, ou objetivo, é contínuo, isto é, pode tomar qualquer valor real ou qualquer número inteiro num intervalo arbitrário, ao invés de um valor discreto [QUIN93] FASES DE KDD No processo de KDD cada fase pode possuir uma interseção com as demais. Desse modo, os resultados produzidos numa fase podem ser utilizados para melhorar os resultados das próximas fases. Esse cenário indica que o processo de KDD é iterativo, buscando sempre aprimorar os resultados a cada iteração. Na execução do processo de KDD o usuário analisa as informações geradas em cada fase e procura incorporar sua experiência de analista de dados para obter cada vez mais melhores resultados. A definição do problema é fundamental para o processo de KDD. Essa definição requer que a pessoa que solicita a tarefa de KDD entenda perfeitamente o problema existente e tenha um objetivo bem especificado, ou seja, aquilo que se deseja conhecer ou extrair. Para isso, é necessário uma interação com o solicitador da tarefa de modo que seja exposto tudo o que se relaciona com o problema. Tendo sido definido o problema, pode-se fixar metas para os objetivos da tarefa de KDD Data Warehousing: Organização de grandes volumes de dados O processo de KDD deve iniciar a construção de um Data Warehousing (DW). Este é um meio efetivo de organizar grandes volumes de dados para sistemas de suporte a decisão e aplicações de KDD. Pode-se definir um DW como um repositório integrado, orientado para análise, histórico, com dados apenas para leitura, designado para ser utilizado como base para suporte à decisão e sistemas KDD [INMO93], [POE 96]. Um DW funciona como uma base de dados para dar suporte à decisão mantido separadamente das bases de dados operacionais da organização. Geralmente integra dados de diversas origens heterogêneas e por isso necessita de uma estrutura flexível que suporte queries e geração de relatórios analíticos. A Figura 7 mostra o ponto crítico em um DW que é a integração de múltiplos dados, provenientes de bases de dados heterogêneas. A integração envolve padronizar atributos, formatos e convenções de nomes, além de remoção de inconsistências. - 16

17 Figura 7: Visão resumida das fases do processo de KDD incluindo Data Warehousing Um DW contém dados históricos, variantes no tempo (geralmente por um período de muitos anos). Esses dados são geralmente organizados de modo a facilitar sua análise por um usuário especializado. Uma organização típica de dados é armazenar informações quantitativas (por exemplo, vendas de produtos) em grandes tabelas, chamadas tabelas de fatos, e dados qualitativos, informação descritiva (por exemplo, atributos do produto) armazenados em pequenas tabelas, chamadas tabelas de dimensão. Este modelo é chamado estrela, pois um simples objeto (tabela de fatos) está no centro do modelo conectado a um número de objetos (tabela de dimensão) radialmente. Além desse modelo, também utiliza-se: - Flocos de neve, um refinamento do modelo estrela onde a hierarquia dimensional é representada explicitamente pela normalização das tabelas de dimensão; - Constelações de fatos, múltiplas tabelas de fatos compartilhando as tabelas de dimensões. Um DW é uma base apenas para leitura no sentido que um item dessa base é raramente alterado. Em um DW o usuário obtém a informação desejada executando queries pré-definidas que fazem junções entre as tabelas de fatos e dimensões. Atualizações no DW geralmente consistem na inserção de novos dados (e as vezes da retirada de dados mais antigos) num período pré-determinado de tempo, por exemplo, uma vez por semana. As características citadas estão em contraste com SGBD (Sistema Gerenciador de Banco de Dados), os quais tipicamente contém apenas as últimas versões dos dados e onde tuplas estão constantemente sendo inseridas, apagadas ou alteradas. Um SGBD é uma coleção de programas que habilitam usuários a criar e manter um banco de dados. Ou seja, um SGBD é um sistema que facilita os processos de definição, construção, e manipulação de bases de dados para várias aplicações. OLAP: Processamento Analítico On-Line (On-Line Analytical Processing) O Processo Analítico On-Line motiva-se pela necessidade de minerar conhecimento e padrões em diferentes níveis de abstração através de análises multidimensionais dos dados, ou seja, uma visão lógica dos dados. É uma análise interativa dos dados, permitindo ilimitadas visões através de agregações em todas interseções de dimensões possíveis. Permite obter informações e mostrá-las em tabelas de 2D e 3D, mapas e gráficos, com fácil modificação dos eixos. Além disso, deriva-se análises estatísticas (razões, médias, variâncias) envolvendo quaisquer medidas ou dados numéricos entre muitas dimensões. Um OLAP executa queries com um tempo de resposta pequeno, pois procura-se através de otimização do DW manter as informações solicitadas com maior frequência em memória. Abaixo segue a arquitetura de uma ferramenta OLAP: 1. A arquitetura Lógica OLAP - 17

18 Visão OLAP multidimensional e apresentação lógica dos dados em um DW para o usuário de trabalho. Tecnologia de armazenamento de dados Indica as opções de tecnologia de como e onde os dados serão armazenados. 2. Os três principais componentes de serviços Serviços de armazenamento de dados Serviços OLAP Serviços de apresentação para o usuário 3. Arquiteturas de armazenamento de dados Multidimensional (MOLAP) Relacional (ROLAP) Pré-processamento dos dados Na Figura 7 nota-se que após a fase de DW inicia-se o pré-processamento dos dados. Essa fase, responsável por consolidar as informações relevantes para o algoritmo minerador, buscando reduzir a complexidade do problema, inclui 3 sub-fases chamadas: limpeza dos dados, seleção dos dados e transformação ou codificação dos dados. Essas fases não necessitam ser executadas nessa ordem, algumas dessas operações podem ser parcialmente executadas durante a construção de um DW Limpeza dos dados A limpeza dos dados envolve uma verificação da consistência das informações, a correção de possíveis erros e o preenchimento ou a eliminação de valores nulos e redundantes. Nessa fase são identificados e removidos os dados duplicados e/ou corrompidos. A execução dessa fase corrige a base de dados eliminando consultas desnecessárias que seriam executadas pelo algoritmo minerador e que afetariam o seu processamento. Os métodos de limpeza dos dados são herdados e dependentes do domínio da aplicação, desse modo a participação do analista de dados torna-se essencial. Um exemplo simples de limpeza de dados seria a definição de um intervalo de possíveis valores para um determinado atributo, {0..10}. Caso surgisse qualquer valor diferente dos definidos no intervalo, esse dado seria retirado Seleção dos dados Na seleção dos dados deseja-se escolher apenas atributos relevantes do conjunto de atributos do banco de dados. Em suma, a seleção de atributos consiste da escolha de um subconjunto de atributos disponíveis para o algoritmo de KDD que seja relevante para o objetivo da tarefa. O subconjunto selecionado é então fornecido para o algoritmo de mineração dos dados. Uma motivação para essa seleção é otimizar o tempo de processamento do algoritmo minerador, visto que ele apenas trabalhará com um subconjunto de atributos, desse modo diminuindo o seu espaço de busca. Existem 2 principais métodos para a seleção de atributos: Múltiplas iterações o dado a ser minerado é dividido em 2 subconjuntos: treinamento e avaliação, então uma busca heurística iterativa é executada no espaço dos subconjuntos dos atributos. Cada iteração dessa busca consiste basicamente de três passos. Primeiro, um subconjunto de atributos, chamados atributos candidatos, é selecionado de acordo com algum critério. Segundo, um algoritmo é aplicado no subconjunto de treinamento, composto apenas por atributos candidatos. Terceiro, é medido a qualidade da seleção aplicando-se o resultado obtido no subconjunto de avaliação. Esse ciclo permanece até que se chegue a um resultado satisfatório. Os métodos básicos mais utilizados podem ser: Forward Selection (FS) e Backward Elimination (BE). FS inicia com um conjunto vazio de atributos e iterativamente seleciona um atributo por vez até que nenhuma melhora na medida da qualidade do resultado seja obtida. BE inicia com um conjunto com todos os atributos e iterativamente remove um atributo por vez até que nenhuma melhora na medida da qualidade do resultado seja obtida. Métodos mais sofisticados para seleção de atributos podem ser encontrados em [BALA95], utilizando algoritmos genéticos e [AHA 95] utilizando outros métodos de busca. Iteração simples Este método é independente do algoritmo minerador, ou seja o mesmo conjunto de atributos selecionados pode ser fornecido para qualquer algoritmo minerador. Exemplos podem ser - 18

19 encontrados em [KIRA92], [KONO94] e [KOLL96]. Esses algoritmos se utilizam de métodos estatísticos como probabilidade de distribuição e são menos complexos em eficiência que o método de múltiplas iterações. Uma outra maneira de selecionar os dados é de forma determinística. Nesse caso o analista de dados escolhe os atributos que segundo sua experiência são essenciais e necessários para explicar, ou compor, o objetivo da tarefa de KDD Codificação dos dados Um algoritmo de codificação divide os valores contínuos dos atributos (inteiros ou reais) numa lista de intervalos representados por um código. Ele efetivamente converte valores quantitativos em valores categóricos. Ou seja, cada intervalo resulta num valor discreto do atributo. Por exemplo, mostra-se uma possível codificação para o atributo IDADE: {0..18} Faixa 1; {19..25} Faixa 2; {26..40} Faixa 3 e assim por diante. Nesse exemplo, os valores contínuos das idades foram discretizados em 3 faixas. Em alguns casos a transformação de um valor em seu equivalente na base binária pode facilitar o algoritmo minerador a encontrar seu objetivo com melhor qualidade de resultados. Em resumo essa fase converte os dados para a forma mais adequada para a construção e interpretação do modelo. A codificação de dados é potencialmente a tarefa onde há a necessidade de grande habilidade no processo de KDD. Tipicamente essa etapa exige a experiência do analista de dados e do seu conhecimento nos dados em questão. Embora o processo de KDD possa ser executado sem essa fase, nota-se que quando efetivada os resultados obtidos são mais intuitivos e valiosos, além de que, na maioria das vezes, facilita a construção do modelo. Os algoritmos de codificação podem ser de dois tipos: cego para a classe, dirigido para a classe. O algoritmo cego para a classe discretiza um dado atributo sem considerar o atributo objetivo (classe) [MANN88]. Por exemplo, dividir um intervalo de valores de um atributo em um número pré-determinado de intervalos do mesmo tamanho. Usando o exemplo do atributo IDADE, este método produziria intervalos como: 0-10, 10-20, 20-30, etc. O algoritmo dirigido para a classe [DOUG95] considera o valor da classe quando discretiza o atributo. A entrada para esse algoritmo é uma relação com o atributo a ser discretizado e o atributo objetivo, cujo valor indica a que classe a tupla pertence. As vantagens de se codificar um atributo são: melhorar a compreensão do conhecimento descoberto; reduzir o tempo de processamento para o algoritmo minerador, diminuindo o seu espaço de busca; facilitar o algoritmo a tomar decisões globais, já que os valores dos atributos foram englobados em faixas. Como desvantagens cita-se a redução da medida de qualidade de um conhecimento descoberto, perdendo assim detalhes relevantes sobre as informações extraídas Enriquecimento dos dados Essa fase de enriquecimento consiste em agregar aos dados existentes mais informações de modo que essas contribuam no processo de descoberta de conhecimento. Essas informações serão incorporadas ao processo como um meta conhecimento do analista de dados, ou seja, informações que não estão na base de dados, porém são conhecidas e ratificadas. Em suma, o enriquecimento dos dados é qualquer processo capaz de aumentar as informações já existentes que acredita-se melhorar o desempenho do algoritmo minerador Mineração de Dados (Data Mining) É a etapa mais importante do processo de KDD. Caracteriza-se pela existência do algoritmo que diante da tarefa especificada será capaz de extrair eficientemente conhecimento implícito e útil de um banco de dados. Pode-se dizer que mineração de dados é a fase que transforma dados em informações, consequentemente um sistema de suporte a decisão baseado em algoritmos de mineração de dados é o que transforma os dados em possíveis ações e na percepção de aumento dos lucros. Nessa fase necessita-se definir a técnica e o algoritmo a ser utilizado em função da tarefa proposta. A Tabela 3 mostra as principais tarefas de KDD e as técnicas mais utilizadas para mineração de dados. - 19

20 Tabela 3: Algumas tarefas de KDD e suas técnicas de mineração de dados Tarefas de KDD Associação Classificação Clustering Previsão de Séries Temporais Técnicas Estatística e Teoria dos Conjuntos Algoritmos Genéticos, Redes Neurais e Arvores de Decisão Redes Neurais e Estatística Redes Neurais, Lógica Nebulosa e Estatística Uma vez escolhido o algoritmo a ser utilizado, deve-se implementá-lo e adaptá-lo ao problema proposto. Para finalizar essa etapa deve-se executar o algoritmo a fim de obter resultados que serão analisados na fase de pós-processamento Pós-processamento Finalmente, a saída do algoritmo minerador pode ser refinada numa fase de pós-processamento. Essa fase envolve a interpretação do conhecimento descoberto, ou algum processamento desse conhecimento. Esse pósprocessamento deve ser incluído no algoritmo minerador, porém algumas vezes é vantajoso implementá-lo separadamente. Em geral, a principal meta dessa fase é melhorar a compreensão do conhecimento descoberto pelo algoritmo minerador, validando-o através de medidas da qualidade da solução e da percepção de um analista de dados. Esses conhecimentos serão consolidados em forma de relatórios demonstrativos com a documentação e explicação das informações relevantes ocorridas em cada etapa do processo de KDD. Uma maneira genérica de obter a compreensão e interpretação dos resultados é utilizar técnicas de visualização [LEE 95]. Existem também outros tipos de técnicas de pós-processamento criados especialmente para um dado tipo de algoritmo minerador, ou para uma dada tarefa de KDD. Por exemplo, recentemente têm aparecido pesquisas sobre como converter os pesos das conexões de uma rede neural artificial num conjunto de regras [FU 94], [LU 95], [VAUG96]. A Figura 8 [FAYY96] mostra uma visão mais ampla do processo de KDD, onde a fase de DW não é evidenciada. Em um processo de KDD, a fase DW não é absolutamente necessária, podendo, ser executada pelo usuário do sistema conforme a necessidade de dados para o algoritmos minerador. O DW é importante para agilizar e organizar o processo de KDD, não sendo imprescindível para tal. É importante notar que não existe um sistema que implementa um processo de KDD. Existem sistemas intermediários, controlados por um usuário, e cada sistema é bem definido e com o seu objetivo delineado conforme a tarefa solicitada. - 20

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos Conceitos Básicos Introdução Banco de Dados I Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM Dados

Leia mais

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO

FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO @ribeirord FUNDAMENTOS DE SISTEMAS DE INFORMAÇÃO Rafael D. Ribeiro, M.Sc,PMP. rafaeldiasribeiro@gmail.com http://www.rafaeldiasribeiro.com.br Lembrando... Aula 4 1 Lembrando... Aula 4 Sistemas de apoio

Leia mais

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3.

Aplicação A. Aplicação B. Aplicação C. Aplicação D. Aplicação E. Aplicação F. Aplicação A REL 1 REL 2. Aplicação B REL 3. Sumário Data Warehouse Modelagem Multidimensional. Data Mining BI - Business Inteligence. 1 2 Introdução Aplicações do negócio: constituem as aplicações que dão suporte ao dia a dia do negócio da empresa,

Leia mais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Planejamento Estratégico de TI. Prof.: Fernando Ascani Planejamento Estratégico de TI Prof.: Fernando Ascani Data Warehouse - Conceitos Hoje em dia uma organização precisa utilizar toda informação disponível para criar e manter vantagem competitiva. Sai na

Leia mais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining Gestão da Informação AULA 3 Data Mining Prof. Edilberto M. Silva Gestão da Informação Agenda Unidade I - DM (Data Mining) Definição Objetivos Exemplos de Uso Técnicas Tarefas Unidade II DM Prático Exemplo

Leia mais

Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br Programação com acesso a BD Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br 1 Modelos de Dados, Esquemas e Instâncias 2 Modelos de Dados, Esquemas e Instâncias Modelo de dados: Conjunto de conceitos

Leia mais

Sistemas de Apoio à Decisão (SAD) - Senado

Sistemas de Apoio à Decisão (SAD) - Senado Sistemas de Apoio à Decisão (SAD) - Senado DW OLAP BI Ilka Kawashita Material preparado :Prof. Marcio Vitorino Sumário OLAP Data Warehouse (DW/ETL) Modelagem Multidimensional Data Mining BI - Business

Leia mais

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Um Sistema Gerenciador de Banco de Dados (SGBD) é constituído por um conjunto de dados associados a um conjunto de programas para acesso a esses

Leia mais

Pós-Graduação em Engenharia Elétrica Inteligência Artificial

Pós-Graduação em Engenharia Elétrica Inteligência Artificial Pós-Graduação em Engenharia Elétrica Inteligência Artificial João Marques Salomão Rodrigo Varejão Andreão Inteligência Artificial Definição (Fonte: AAAI ): "the scientific understanding of the mechanisms

Leia mais

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011

Banco de Dados. Aula 1 - Prof. Bruno Moreno 16/08/2011 Banco de Dados Aula 1 - Prof. Bruno Moreno 16/08/2011 Roteiro Apresentação do professor e disciplina Definição de Banco de Dados Sistema de BD vs Tradicional Principais características de BD Natureza autodescritiva

Leia mais

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados: MC536 Introdução Sumário Conceitos preliminares Funcionalidades Características principais Usuários Vantagens do uso de BDs Tendências mais recentes em SGBDs Algumas desvantagens Modelos de dados Classificação

Leia mais

SISTEMAS DE APOIO À DECISÃO SAD

SISTEMAS DE APOIO À DECISÃO SAD SISTEMAS DE APOIO À DECISÃO SAD Conceitos introdutórios Decisão Escolha feita entre duas ou mais alternativas. Tomada de decisão típica em organizações: Solução de problemas Exploração de oportunidades

Leia mais

Data Warehouses Uma Introdução

Data Warehouses Uma Introdução Data Warehouses Uma Introdução Alex dos Santos Vieira, Renaldy Pereira Sousa, Ronaldo Ribeiro Goldschmidt 1. Motivação e Conceitos Básicos Com o advento da globalização, a competitividade entre as empresas

Leia mais

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br

Programação com acesso a BD. Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br Programação com acesso a BD Prof.: Clayton Maciel Costa clayton.maciel@ifrn.edu.br 1 Introdução BD desempenha papel crítico em todas as áreas em que computadores são utilizados: Banco: Depositar ou retirar

Leia mais

BANCO DE DADOS E BUSINESS INTELIGENCE. C/H: 20 horas (20/02, 25/02, 27/02, 04/03, 06/03)

BANCO DE DADOS E BUSINESS INTELIGENCE. C/H: 20 horas (20/02, 25/02, 27/02, 04/03, 06/03) MBA em Gestão de TI MÓDULO: BANCO DE DADOS E BUSINESS INTELIGENCE C/H: 20 horas (20/02, 25/02, 27/02, 04/03, 06/03) PROFESSOR: Edison Andrade Martins Morais prof@edison.eti.br http://www.edison.eti.br

Leia mais

Prof. Msc. Paulo Muniz de Ávila

Prof. Msc. Paulo Muniz de Ávila Prof. Msc. Paulo Muniz de Ávila O que é Data Mining? Mineração de dados (descoberta de conhecimento em bases de dados): Extração de informação interessante (não-trivial, implícita, previamente desconhecida

Leia mais

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence

Resumo dos principais conceitos. Resumo dos principais conceitos. Business Intelligence. Business Intelligence É um conjunto de conceitos e metodologias que, fazem uso de acontecimentos e sistemas e apoiam a tomada de decisões. Utilização de várias fontes de informação para se definir estratégias de competividade

Leia mais

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br

Data Warehousing. Leonardo da Silva Leandro. CIn.ufpe.br Data Warehousing Leonardo da Silva Leandro Agenda Conceito Elementos básicos de um DW Arquitetura do DW Top-Down Bottom-Up Distribuído Modelo de Dados Estrela Snowflake Aplicação Conceito Em português:

Leia mais

Banco de Dados. Conceitos e Arquitetura de Sistemas de Banco de Dados. Profa. Flávia Cristina Bernardini

Banco de Dados. Conceitos e Arquitetura de Sistemas de Banco de Dados. Profa. Flávia Cristina Bernardini Banco de Dados Conceitos e Arquitetura de Sistemas de Banco de Dados Profa. Flávia Cristina Bernardini Relembrando... Vantagens da Utilização de SGBD Redundância controlada Consistência dos dados armazenados

Leia mais

BANCO DE DADOS CONCEITOS BÁSICOS

BANCO DE DADOS CONCEITOS BÁSICOS Universidade Federal da Paraíba UFPB Centro de Energias Alternativas e Renováveis - CEAR Departamento de Eng. Elétrica DEE BANCO DE DADOS CONCEITOS BÁSICOS Isaac Maia Pessoa Introdução O que é um BD? Operações

Leia mais

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd.

Para construção dos modelos físicos, será estudado o modelo Relacional como originalmente proposto por Codd. Apresentação Este curso tem como objetivo, oferecer uma noção geral sobre a construção de sistemas de banco de dados. Para isto, é necessário estudar modelos para a construção de projetos lógicos de bancos

Leia mais

Prof. Ronaldo R. Goldschmidt. ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt

Prof. Ronaldo R. Goldschmidt. ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Prof. Ronaldo R. Goldschmidt ronaldo@de9.ime.eb.br rribeiro@univercidade.br geocities.yahoo.com.br/ronaldo_goldschmidt Prof. Ronaldo Ribeiro Goldschmidt REVISÃO DE BD RELACIONAIS E SQL! "" #!$ #%! $& #

Leia mais

Modelo de dados do Data Warehouse

Modelo de dados do Data Warehouse Modelo de dados do Data Warehouse Ricardo Andreatto O modelo de dados tem um papel fundamental para o desenvolvimento interativo do data warehouse. Quando os esforços de desenvolvimentos são baseados em

Leia mais

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados

Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados Fundamentos da inteligência de negócios: gestão da informação e de bancos de dados slide 1 1 Copyright 2011 Pearson Education, Inc. publishing as Prentice Hall Objetivos de estudo Como um banco de dados

Leia mais

INTRODUÇÃO E CONCEITOS BÁSICOS. Prof. Ronaldo R. Goldschmidt

INTRODUÇÃO E CONCEITOS BÁSICOS. Prof. Ronaldo R. Goldschmidt INTRODUÇÃO E CONCEITOS BÁSICOS Prof. Ronaldo R. Goldschmidt Hierarquia Dado - Informação - Conhecimento: Dados são fatos com significado implícito. Podem ser armazenados. Dados Processamento Informação

Leia mais

Faculdade Pitágoras 16/08/2011. Curso Superior de Tecnologia: Banco de Dados Sistemas para Internet

Faculdade Pitágoras 16/08/2011. Curso Superior de Tecnologia: Banco de Dados Sistemas para Internet Faculdade Pitágoras Curso Superior de Tecnologia: Banco de Dados Sistemas para Internet Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL A linguagem SQL é responsável por garantir um bom nível

Leia mais

Faculdade Pitágoras. Curso Superior de Tecnologia: Banco de Dados. Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL

Faculdade Pitágoras. Curso Superior de Tecnologia: Banco de Dados. Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL Faculdade Pitágoras Curso Superior de Tecnologia: Banco de Dados Disciplina: Banco de Dados Prof.: Fernando Hadad Zaidan SQL A linguagem SQL é responsável por garantir um bom nível de independência do

Leia mais

Paradigma Simbólico de Aprendizado Aplicado ao Banco de Dados do Vestibular da UFMS

Paradigma Simbólico de Aprendizado Aplicado ao Banco de Dados do Vestibular da UFMS Paradigma Simbólico de Aprendizado Aplicado ao Banco de Dados do Vestibular da UFMS José Edison Cabral Junior Rodrigo Paulino Jorge Rogério Paiva Colman Orientação: Profa. Dra. Maria Bernadete Zanusso

Leia mais

Mineração de Dados: Introdução e Aplicações

Mineração de Dados: Introdução e Aplicações Mineração de Dados: Introdução e Aplicações Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br Apresentação Luiz Merschmann Engenheiro

Leia mais

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados 1. Conceitos Básicos No contexto de sistemas de banco de dados as palavras dado e informação possuem o mesmo significado, representando uma

Leia mais

Curso Superior de Tecnologia em BD Curso Superior de Tecnologia em DAI

Curso Superior de Tecnologia em BD Curso Superior de Tecnologia em DAI Curso Superior de Tecnologia em BD Curso Superior de Tecnologia em DAI Fundamentos de Banco de Dados Aula 01 Introdução aos Sistemas de Bancos de Dados Introdução aos Sistemas de BD Objetivo Apresentar

Leia mais

Data Warehouse Processos e Arquitetura

Data Warehouse Processos e Arquitetura Data Warehouse - definições: Coleção de dados orientada a assunto, integrada, não volátil e variável em relação ao tempo, que tem por objetivo dar apoio aos processos de tomada de decisão (Inmon, 1997)

Leia mais

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago DATA WAREHOUSE Rafael Ervin Hass Raphael Laércio Zago Roteiro Introdução Aplicações Arquitetura Características Desenvolvimento Estudo de Caso Conclusão Introdução O conceito de "data warehousing" data

Leia mais

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é?

KDD. Fases limpeza etc. Datamining OBJETIVOS PRIMÁRIOS. Conceitos o que é? KDD Conceitos o que é? Fases limpeza etc Datamining OBJETIVOS PRIMÁRIOS TAREFAS PRIMÁRIAS Classificação Regressão Clusterização OBJETIVOS PRIMÁRIOS NA PRÁTICA SÃO DESCRIÇÃO E PREDIÇÃO Descrição Wizrule

Leia mais

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5 Para entender bancos de dados, é útil ter em mente que os elementos de dados que os compõem são divididos em níveis hierárquicos. Esses elementos de dados lógicos constituem os conceitos de dados básicos

Leia mais

Administração de Banco de Dados

Administração de Banco de Dados Administração de Banco de Dados Professora conteudista: Cida Atum Sumário Administração de Banco de Dados Unidade I 1 INTRODUÇÃO A BANCO DE DADOS...1 1.1 Histórico...1 1.2 Definições...2 1.3 Importância

Leia mais

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP

Banco de Dados. Introdução. João Eduardo Ferreira Osvaldo Kotaro Takai. jef@ime.usp.br DCC-IME-USP Banco de Dados Introdução João Eduardo Ferreira Osvaldo Kotaro Takai jef@ime.usp.br DCC-IME-USP Importância dos Bancos de Dados A competitividade das empresas depende de dados precisos e atualizados. Conforme

Leia mais

Structured Query Language (SQL) Ambiente Simplificado de um SGBD

Structured Query Language (SQL) Ambiente Simplificado de um SGBD Structured Query Language (SQL) Ambiente Simplificado de um SGBD 2 1 Características dos SGBDs Natureza auto-contida de um sistema de banco de dados: metadados armazenados num catálogo ou dicionário de

Leia mais

Aula 02 Modelagem de Dados. Banco de Dados. Aula 02 Modelagem de Dados. Superior /2011 Redes Computadores - Disciplina: Banco de Dados -

Aula 02 Modelagem de Dados. Banco de Dados. Aula 02 Modelagem de Dados. Superior /2011 Redes Computadores - Disciplina: Banco de Dados - Banco de Dados Aula 02 Modelagem de Dados Roteiro Definição Evolução Projeto de BD Abstração Esquema e Instância Definição É uma representação, normalmente gráfica, de estruturas de dados reais. Auxilia

Leia mais

Professor: Disciplina:

Professor: Disciplina: Professor: Curso: Esp. Marcos Morais de Sousa marcosmoraisdesousa@gmail.com Sistemas de informação Disciplina: Introdução a SI Noções de sistemas de informação Turma: 01º semestre Prof. Esp. Marcos Morais

Leia mais

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados Algoritmos Genéticos em Mineração de Dados Descoberta de Conhecimento Descoberta do Conhecimento em Bancos de Dados Processo interativo e iterativo para identificar padrões válidos, novos, potencialmente

Leia mais

Banco de Dados I Ementa:

Banco de Dados I Ementa: Banco de Dados I Ementa: Banco de Dados Sistema Gerenciador de Banco de Dados Usuários de um Banco de Dados Etapas de Modelagem, Projeto e Implementação de BD O Administrador de Dados e o Administrador

Leia mais

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse Definição escopo do projeto (departamental, empresarial) Grau de redundância dos dados(ods, data staging) Tipo de usuário alvo (executivos, unidades) Definição do ambiente (relatórios e consultas préestruturadas

Leia mais

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados

Sistema de Bancos de Dados. Conceitos Gerais Sistema Gerenciador de Bancos de Dados Sistema de Bancos de Dados Conceitos Gerais Sistema Gerenciador de Bancos de Dados # Definições # Motivação # Arquitetura Típica # Vantagens # Desvantagens # Evolução # Classes de Usuários 1 Nível 1 Dados

Leia mais

Roteiro 2 Conceitos Gerais

Roteiro 2 Conceitos Gerais Roteiro 2 Conceitos Gerais Objetivos: UC Projeto de Banco de Dados Explorar conceitos gerais de bancos de dados; o Arquitetura de bancos de dados: esquemas, categorias de modelos de dados, linguagens e

Leia mais

Administração de Sistemas de Informação Gerenciais UNIDADE IV: Fundamentos da Inteligência de Negócios: Gestão da Informação e de Banco de Dados Um banco de dados é um conjunto de arquivos relacionados

Leia mais

SISTEMAS DE BANCO DE DADOS. Prof. Adriano Pereira Maranhão

SISTEMAS DE BANCO DE DADOS. Prof. Adriano Pereira Maranhão SISTEMAS DE BANCO DE DADOS Prof. Adriano Pereira Maranhão 1 REVISÃO BANCO DE DADOS I O que é banco de dados? Ou seja afinal o que é um SGBD? REVISÃO BD I REVISÃO DE BD I Um Sistema de Gerenciamento de

Leia mais

SAD orientado a DADOS

SAD orientado a DADOS Universidade do Contestado Campus Concórdia Curso de Sistemas de Informação Prof.: Maico Petry SAD orientado a DADOS DISCIPLINA: Sistemas de Apoio a Decisão SAD orientado a dados Utilizam grandes repositórios

Leia mais

Introdução. Motivação. Sistema Gerenciador de Banco de Dados (SGBD) Banco de Dados (BD) Sistema de Banco de Dados (SBD)

Introdução. Motivação. Sistema Gerenciador de Banco de Dados (SGBD) Banco de Dados (BD) Sistema de Banco de Dados (SBD) Pós-graduação em Ciência da Computação CCM-202 Sistemas de Banco de Dados Introdução Profa. Maria Camila Nardini Barioni camila.barioni@ufabc.edu.br Bloco B - sala 937 2 quadrimestre de 2011 Motivação

Leia mais

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia.

Na medida em que se cria um produto, o sistema de software, que será usado e mantido, nos aproximamos da engenharia. 1 Introdução aos Sistemas de Informação 2002 Aula 4 - Desenvolvimento de software e seus paradigmas Paradigmas de Desenvolvimento de Software Pode-se considerar 3 tipos de paradigmas que norteiam a atividade

Leia mais

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante

Banco de Dados 1 Prof. MSc Wagner Siqueira Cavalcante Banco de Dados 1 Programação sucinta do curso:. Conceitos fundamentais de Banco de Dados.. Arquitetura dos Sistemas Gerenciadores de Banco de Dados (SGBD ou DBMS).. Características típicas de um SGBD..

Leia mais

Gerenciamento de um Sistema de

Gerenciamento de um Sistema de SBD Gerenciamento de um Sistema de Banco de Dados Prof. Michel Nobre Muza ua michel.muza@ifsc.edu.br Prof. Marcos Antonio Viana Nascimento Por que é importante: Motivação Participar na organização e no

Leia mais

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos

Data Warehouses. Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Data Warehouses Alunos: Diego Antônio Cotta Silveira Filipe Augusto Rodrigues Nepomuceno Marcos Bastos Silva Roger Rezende Ribeiro Santos Conceitos Básicos Data Warehouse(DW) Banco de Dados voltado para

Leia mais

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.

SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4. SUMÁRIO 1. INTRODUÇÃO... 2 2. O QUE É DATA WAREHOUSE?... 2 3. O QUE DATA WAREHOUSE NÃO É... 4 4. IMPORTANTE SABER SOBRE DATA WAREHOUSE... 5 4.1 Armazenamento... 5 4.2 Modelagem... 6 4.3 Metadado... 6 4.4

Leia mais

Data Mining: Conceitos e Técnicas

Data Mining: Conceitos e Técnicas Data Mining: Conceitos e Técnicas DM, DW e OLAP Data Warehousing e OLAP para Data Mining O que é data warehouse? De data warehousing para data mining Data Warehousing e OLAP para Data Mining Data Warehouse:

Leia mais

UNIVERSIDADE FEDERAL DE SANTA MARIA - UFSM COLÉGIO AGRÍCOLA DE FREDERICO WESTPHALEN BANCO DE DADOS II

UNIVERSIDADE FEDERAL DE SANTA MARIA - UFSM COLÉGIO AGRÍCOLA DE FREDERICO WESTPHALEN BANCO DE DADOS II UNIVERSIDADE FEDERAL DE SANTA MARIA - UFSM COLÉGIO AGRÍCOLA DE FREDERICO WESTPHALEN BANCO DE DADOS II BANCO DE DADOS II AULA 1 Linguagem SQL Linguagem de definição de dados (DDL) DISCIPLINA: Banco de Dados

Leia mais

SISTEMA DE BANCO DE DADOS. Banco e Modelagem de dados

SISTEMA DE BANCO DE DADOS. Banco e Modelagem de dados SISTEMA DE BANCO DE DADOS Banco e Modelagem de dados Sumário Conceitos/Autores chave... 3 1. Introdução... 4 2. Arquiteturas de um Sistema Gerenciador... 5 3. Componentes de um Sistema... 8 4. Vantagens

Leia mais

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)?

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)? Roteiro BCC321 - Banco de Dados I Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Conceitos Básicos Banco

Leia mais

Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados.

Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados. Histórico Etapas da evolução rumo a tomada de decisão: Aplicações Isoladas: dados duplicados, dados inconsistentes, processos duplicados. Sistemas Integrados: racionalização de processos, manutenção dos

Leia mais

http://www.publicare.com.br/site/5,1,26,5480.asp

http://www.publicare.com.br/site/5,1,26,5480.asp Página 1 de 7 Terça-feira, 26 de Agosto de 2008 ok Home Direto da redação Última edição Edições anteriores Vitrine Cross-Docking Assine a Tecnologística Anuncie Cadastre-se Agenda Cursos de logística Dicionário

Leia mais

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan Faculdade INED Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan 1 Unidade 4.5 2 1 BI BUSINESS INTELLIGENCE BI CARLOS BARBIERI

Leia mais

Roteiro. Conceitos e Arquitetura de Sistemas de Banco de Dados. Conceitos e Arquiteturas de Sistemas de Banco de Dados. BCC321 - Banco de Dados I

Roteiro. Conceitos e Arquitetura de Sistemas de Banco de Dados. Conceitos e Arquiteturas de Sistemas de Banco de Dados. BCC321 - Banco de Dados I Roteiro Conceitos e Arquitetura de Sistemas de Banco de Dados Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz

Leia mais

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br MINERAÇÃO DE DADOS APLICADA Pedro Henrique Bragioni Las Casas pedro.lascasas@dcc.ufmg.br Processo Weka uma Ferramenta Livre para Data Mining O que é Weka? Weka é um Software livre do tipo open source para

Leia mais

SQL. SQL (Structured Query Language) Comando CREATE TABLE. SQL é uma linguagem de consulta que possibilita:

SQL. SQL (Structured Query Language) Comando CREATE TABLE. SQL é uma linguagem de consulta que possibilita: SQL Tópicos Especiais Modelagem de Dados Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Mestrado Profissional em Ensino de Ciências

Leia mais

Business Intelligence e ferramentas de suporte

Business Intelligence e ferramentas de suporte O modelo apresentado na figura procura enfatizar dois aspectos: o primeiro é sobre os aplicativos que cobrem os sistemas que são executados baseados no conhecimento do negócio; sendo assim, o SCM faz o

Leia mais

Extração de Conhecimento a partir dos Sistemas de Informação

Extração de Conhecimento a partir dos Sistemas de Informação Extração de Conhecimento a partir dos Sistemas de Informação Gisele Faffe Pellegrini & Katia Collazos Grupo de Pesquisa em Eng. Biomédica Universidade Federal de Santa Catarina Jorge Muniz Barreto Prof.

Leia mais

Conteúdo Programático. Conceitos básicos Modelo entidade relacionamento Normalização

Conteúdo Programático. Conceitos básicos Modelo entidade relacionamento Normalização Banco de dados I Conteúdo Programático Conceitos básicos Modelo entidade relacionamento Normalização Bibliografia HEUSER, Carlos A. Projeto de Bancos de Dados. Sagra, 1998. (Livrotexto) MACHADO, Felipe

Leia mais

Evolução. Tópicos. Bancos de Dados - Introdução. Melissa Lemos. Evolução dos Sistemas de Informação Esquemas Modelos. Características de SGBDs

Evolução. Tópicos. Bancos de Dados - Introdução. Melissa Lemos. Evolução dos Sistemas de Informação Esquemas Modelos. Características de SGBDs 1 Bancos de Dados - Introdução Melissa Lemos melissa@inf.puc-rio.br Tópicos Evolução dos Sistemas de Informação Esquemas Modelos Conceitual Lógico Características de SGBDs 2 Evolução tempo Programas e

Leia mais

Introdução a Banco de Dados

Introdução a Banco de Dados Introdução a Banco de Dados O modelo relacional Marta Mattoso Sumário Introdução Motivação Serviços de um SGBD O Modelo Relacional As aplicações não convencionais O Modelo Orientado a Objetos Considerações

Leia mais

IC Inteligência Computacional Redes Neurais. Redes Neurais

IC Inteligência Computacional Redes Neurais. Redes Neurais Universidade Federal do Rio de Janeiro PÓS-GRADUAÇÃO / 2008-2 IC Inteligência Computacional Redes Neurais www.labic.nce.ufrj.br Antonio G. Thomé thome@nce.ufrj.br Redes Neurais São modelos computacionais

Leia mais

Banco de Dados. Maurício Edgar Stivanello

Banco de Dados. Maurício Edgar Stivanello Banco de Dados Maurício Edgar Stivanello Agenda Conceitos Básicos SGBD Projeto de Banco de Dados SQL Ferramentas Exemplo Dado e Informação Dado Fato do mundo real que está registrado e possui um significado

Leia mais

Banco de Dados Relacional

Banco de Dados Relacional Banco de Dados Relacional Banco de Dados 1 A tecnologia de banco de dados tem evoluído rapidamente nas últimas três décadas desde a ascensão e eventual domínio dos sistemas de banco de dados relacionais

Leia mais

Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining

Pós-Graduação Lato Sensu Especialização em Análise de Dados e Data Mining Pós-Graduação "Lato Sensu" Especialização em Análise de Dados e Data Mining Inscrições Abertas Início das Aulas: 24/03/2015 Dias e horários das aulas: Terça-Feira 19h00 às 22h45 Semanal Quinta-Feira 19h00

Leia mais

Módulo 2. Definindo Soluções OLAP

Módulo 2. Definindo Soluções OLAP Módulo 2. Definindo Soluções OLAP Objetivos Ao finalizar este módulo o participante: Recordará os conceitos básicos de um sistema OLTP com seus exemplos. Compreenderá as características de um Data Warehouse

Leia mais

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO Fernanda Delizete Madeira 1 ; Aracele Garcia de Oliveira Fassbinder 2 INTRODUÇÃO Data

Leia mais

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

ADMINISTRAÇÃO DOS RECURSOS DE DADOS Capítulo 7 ADMINISTRAÇÃO DOS RECURSOS DE DADOS 7.1 2003 by Prentice Hall OBJETIVOS Por que as empresas sentem dificuldades para descobrir que tipo de informação precisam ter em seus sistemas de informação?

Leia mais

2008.1 SQL. Autor: Renata Viegas

2008.1 SQL. Autor: Renata Viegas SQL Autor: Renata Viegas A linguagem SQL SQL - Structured Query Language. Foi definida nos laboratórios de pesquisa da IBM em San Jose, California, em 1974. Teve seus fundamentos no modelo relacional Sua

Leia mais

Banco de Dados. Arquitetura e Terminologia. Prof. Walteno Martins Parreira Jr www.waltenomartins.com.br waltenomartins@yahoo.

Banco de Dados. Arquitetura e Terminologia. Prof. Walteno Martins Parreira Jr www.waltenomartins.com.br waltenomartins@yahoo. Banco de Dados Arquitetura e Terminologia Prof. Walteno Martins Parreira Jr www.waltenomartins.com.br waltenomartins@yahoo.com 2015 Modelo de Dados e Esquemas O modelo de Banco de Dados é como um detalhamento

Leia mais

Sistemas Gerenciadores de Bancos de Dados

Sistemas Gerenciadores de Bancos de Dados Sistemas Gerenciadores de Bancos de Dados Fernando Castor A partir de slides elaborados por Fernando Fonseca & Robson Fidalgo 1 Sistemas de Arquivos Sistemas de arquivos Principal característica é a replicação

Leia mais

Conceitos básicos de Banco de Dados

Conceitos básicos de Banco de Dados Modelagem de Banco de Dados Conceitos básicos de Banco de Dados Professor: Anderson D. Moura Março, 2009 Banco de Dados Bancos de dados, (ou bases de dados), são conjuntos de dados com uma estrutura regular

Leia mais

Otimização de Recuperação de Informação usando Algoritmos Genéticos

Otimização de Recuperação de Informação usando Algoritmos Genéticos Otimização de Recuperação de Informação usando Algoritmos Genéticos Neide de Oliveira Gomes, M. Sc., nog@inpi.gov.br Prof. Marco Aurélio C. Pacheco, PhD Programa de Doutorado na área de Métodos de Apoio

Leia mais

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses.

- A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de Data Warehouses. - A crescente necessidade de sistemas inteligentes e de aquisição de conhecimento levaram à necessidade de implementação de. - O que é uma Data Warehouse? - Colecção de bases de dados orientadas por assunto

Leia mais

Bases de Dados II 6638: BSc in Information Systems and Technologies. Cap. 1 Arquitectura de Sistemas de Bases de Dados. Module Introduction

Bases de Dados II 6638: BSc in Information Systems and Technologies. Cap. 1 Arquitectura de Sistemas de Bases de Dados. Module Introduction Bases de Dados II 6638: BSc in Information Systems and Technologies Cap. 1 Module Introduction Objectivos O propósito e a origem da arquitectura de base de dados a três níveis. O conteúdo dos níveis externo,

Leia mais

Conceitos básicos. Aplicações de banco de dados. Conceitos básicos (cont.) Dado: Um fato, alguma coisa sobre a qual uma inferência é baseada.

Conceitos básicos. Aplicações de banco de dados. Conceitos básicos (cont.) Dado: Um fato, alguma coisa sobre a qual uma inferência é baseada. Conceitos básicos Angélica Toffano Seidel Calazans E-mail: angelica_toffano@yahoo.com.br Conceitos introdutórios de Modelagem de dados Dado: Um fato, alguma coisa sobre a qual uma inferência é baseada.

Leia mais

Aprendizagem de Máquina

Aprendizagem de Máquina Aprendizagem de Máquina Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Tipos de aprendizagem 3. Paradigmas de aprendizagem 4. Modos de aprendizagem

Leia mais

Características do Software

Características do Software Questionamentos Por que tanta demora para entregar? Por que os prazos se atrasam? Por que os custos são altos? Por que não achar todos os erros antes de entregar? Por que dificuldade em medir o progresso

Leia mais

Banco de Dados I. Aula 12 - Prof. Bruno Moreno 04/10/2011

Banco de Dados I. Aula 12 - Prof. Bruno Moreno 04/10/2011 Banco de Dados I Aula 12 - Prof. Bruno Moreno 04/10/2011 Plano de Aula SQL Definição Histórico SQL e sublinguagens Definição de dados (DDL) CREATE Restrições básicas em SQL ALTER DROP 08:20 Definição de

Leia mais

Engenharia de Software

Engenharia de Software CENTRO UNIVERSITÁRIO NOVE DE JULHO Profº. Edson T. França edson.franca@uninove.br Software Sistemas Conjunto de elementos, entre os quais haja alguma relação Disposição das partes ou dos elementos de um

Leia mais

A Linguagem SQL. Introdução a Banco de Dados DCC 011

A Linguagem SQL. Introdução a Banco de Dados DCC 011 A Linguagem SQL Introdução Originalmente proposta para o System R desenvolvido nos laboratórios da IBM na década de 70 SEQUEL (Structured English QUEry Language) Objeto de um esforço de padronização coordenado

Leia mais

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução

2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução 2 Descoberta de Conhecimento em Bases de Dados 2.1. Introdução De acordo com [FAYY96], o conceito de descoberta de conhecimento em bases de dados pode ser resumido como o processo não-trivial de identificar

Leia mais

Esta aula tem o objetivo de nos orientar durante este período em nossas aulas de Banco de Dados, não tem a pretensão de ser a única fonte de

Esta aula tem o objetivo de nos orientar durante este período em nossas aulas de Banco de Dados, não tem a pretensão de ser a única fonte de BD Esta aula tem o objetivo de nos orientar durante este período em nossas aulas de Banco de Dados, não tem a pretensão de ser a única fonte de informação para nosso êxito no curso. A intenção de elaborar

Leia mais

Módulo 6: Inteligência Artificial

Módulo 6: Inteligência Artificial Módulo 6: Inteligência Artificial Assuntos: 6.1. Aplicações da IA 6.2. Sistemas Especialistas 6.1. Aplicações da Inteligência Artificial As organizações estão ampliando significativamente suas tentativas

Leia mais

Inteligência Artificial

Inteligência Artificial Inteligência Artificial As organizações estão ampliando significativamente suas tentativas para auxiliar a inteligência e a produtividade de seus trabalhadores do conhecimento com ferramentas e técnicas

Leia mais

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO

UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO UNIVERSIDADE FEDERAL DE MINAS GERAIS BACHARELADO EM SISTEMAS DE INFORMAÇÃO Proposta de Formação Complementar: BUSINESS INTELLIGENCE E SUA APLICAÇÃO À GESTÃO Aluno: Yussif Tadeu de Barcelos Solange Teixeira

Leia mais

Disciplina de Banco de Dados Parte V

Disciplina de Banco de Dados Parte V Disciplina de Banco de Dados Parte V Prof. Elisa Maria Pivetta CAFW - UFSM Modelo de Dado Relacional O Modelo Relacional O Modelo ER é independente do SGDB portanto, deve ser o primeiro modelo gerado após

Leia mais

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso

5 Estudo de Caso. 5.1. Material selecionado para o estudo de caso 5 Estudo de Caso De modo a ilustrar a estruturação e representação de conteúdos educacionais segundo a proposta apresentada nesta tese, neste capítulo apresentamos um estudo de caso que apresenta, para

Leia mais

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE] 1/6 Banco de Dados O que é um Banco de Dados? Uma coleção de dados relacionados [ELMASRI/NAVATHE] Conjunto de dados integrados que tem por objetivo atender a uma comunidade específica [HEUSER] Um conjunto

Leia mais

BANCO DE DADOS. Introdução a Banco de Dados. Conceitos BásicosB. Engenharia da Computação UNIVASF. Aula 1. Breve Histórico

BANCO DE DADOS. Introdução a Banco de Dados. Conceitos BásicosB. Engenharia da Computação UNIVASF. Aula 1. Breve Histórico Banco de Dados // 1 Banco de Dados // 2 Conceitos BásicosB Engenharia da Computação UNIVASF BANCO DE DADOS Aula 1 Introdução a Banco de Dados Campo representação informatizada de um dado real / menor unidade

Leia mais

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA Lizianne Priscila Marques SOUTO 1 1 Faculdade de Ciências Sociais e Aplicadas

Leia mais

Módulo 4: Gerenciamento de Dados

Módulo 4: Gerenciamento de Dados Módulo 4: Gerenciamento de Dados 1 1. CONCEITOS Os dados são um recurso organizacional decisivo que precisa ser administrado como outros importantes ativos das empresas. A maioria das organizações não

Leia mais