Tópicos Avançados em Banco de Dados



Documentos relacionados
3 Qualidade de Software

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

Planejamento Estratégico de TI. Prof.: Fernando Ascani

DESENVOLVENDO O SISTEMA

A SEGUIR ALGUMAS DICAS PARA O DESENVOLVIMENTO DE UM PROJETO CIENTÍFICO

Sistemas de Informação

COMO COMEÇAR 2016 se organizando?

LISTA DE VERIFICAÇAO DO SISTEMA DE GESTAO DA QUALIDADE

Portal do Projeto Tempo de Ser

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

2 Fundamentação Conceitual

Sistema de informação Leandro Salenave Gonçalves*

Complemento I - Noções Introdutórias em Data Warehouses

Banco de Dados. Um momento crucial na organização dos dados é a forma com que cadastramos estes dados, a estrutura de armazenamento que criamos.

Extração de Conhecimento & Mineração de Dados

ATIVIDADES PRÁTICAS SUPERVISIONADAS

PROCEDIMENTOS DE AUDITORIA INTERNA

PROJETO DE COOPERAÇÃO TÉCNICA INTERNACIONAL. Projeto 914 BRA PRODOC-MTC/UNESCO DOCUMENTO TÉCNICO Nº 03

COMPONENTES DA ESTRUTURA DO PLANO DE NEGÓCIO

Simulado Banco de Dados I Bimestre 1 Capítulo 1 Projeto Lógico de Banco de Dados

5 Considerações finais

Bem-vindo ao tópico sobre administração de listas de preços.

O Gerenciamento de Documentos Analógico/Digital

Rita/João Abril -2014

PMBoK Comentários das Provas TRE-PR 2009

BSC Balance Score Card

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Resolução da lista de exercícios de casos de uso

Desenvolvimento de uma Etapa

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

O Uso da Inteligência Competitiva e Seus Sete Subprocessos nas Empresas Familiares

Relatório de Inteligência Emocional. Nome: Jane Smith

SISTEMAS DE INFORMAÇÃO GERENCIAIS

FLUXO DE CAIXA: IMPORTANTE FERRAMENTA PARA AS DECISÕES EMPRESARIAIS Cristiane Aparecida MOTA 1 Hiroshi Wilson YONEMOTO 2 Marcela de Souza CABRAL 3

UML & Padrões Aula 3. UML e Padrões - Profª Kelly Christine C. Silva

Planejamento - 7. Planejamento do Gerenciamento do Risco Identificação dos riscos. Mauricio Lyra, PMP

COMO FUNCIONA NOSSA CONSULTORIA DE MARKETING DIGITAL ESPECIALIZADA EM VENDAS ONLINE

Empreenda! 9ª Edição Roteiro de Apoio ao Plano de Negócios. Preparamos este roteiro para ajudá-lo (a) a desenvolver o seu Plano de Negócios.

RELATÓRIOS GERENCIAIS

Bem-vindo ao tópico sobre consultas no SAP Business One.

COM O BROFFICE IMPRESS

GESTÃO COLETIVA NO AMBIENTE DIGITAL

Apostilas OBJETIVA Atendente Comercial / Carteiro / Op. Triagem e Transbordo CORREIOS - Concurso Público º CADERNO. Índice

:: aula 3. :: O Cliente: suas necessidades e problemáticas. :: Habilidades a ser desenvolvidas

Como identificar, vender e comercializar com os prospectos de pequenas empresas Parte 3/3

Resenha: SEMPRINI, Andrea. A Marca Pós-Moderna: Poder e Fragilidade da Marca na Sociedade Contemporânea. São Paulo : Estação das Letras, 2006.

Capítulo 2. Processos de Software Pearson Prentice Hall. Todos os direitos reservados. slide 1

IMPLANTAÇÃO DOS PILARES DA MPT NO DESEMPENHO OPERACIONAL EM UM CENTRO DE DISTRIBUIÇÃO DE COSMÉTICOS. XV INIC / XI EPG - UNIVAP 2011

PLANEJAMENTO ESTRATÉGICO

INVESTIMENTO A LONGO PRAZO 1. Princípios de Fluxo de Caixa para Orçamento de Capital

Conceitos Básicos de Rede. Um manual para empresas com até 75 computadores

3.1 Definições Uma classe é a descrição de um tipo de objeto.

Especificação Operacional.

Engenharia de Software e Gerência de Projetos Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

6. Pronunciamento Técnico CPC 23 Políticas Contábeis, Mudança de Estimativa e Retificação de Erro

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Banco de Dados - Senado

soluções inovadoras para desafios de negócios Manual explicativo do quadro do modelo de negócios passo a passo com exemplos

Objetivos Específico

O Marketing e suas áreas...

JORNADA DE COMPRA. O que é e sua importância para a estratégia de Marketing Digital VECTOR

Como e por que criar uma para sua empresa A PERSONA VECTOR

Liderança Organizacional

perspectivas e abordagens típicas de campos de investigação (Senra & Camargo, 2010).

ADMINISTRAÇÃO GERAL GESTÃO DO DESEMPENHO

ATIVIDADES PRÁTICAS SUPERVISIONADAS

ESTENDENDO A UML PARA REPRESENTAR RESTRIÇÕES DE INTEGRIDADE

Primeiros passos das Planilhas de Obra v2.6

Regulamento do Concurso de Ideias Desafios da Inovação FIT Networks

Banco de Dados Aula 1 Introdução a Banco de Dados Introdução Sistema Gerenciador de Banco de Dados

Desenvolve Minas. Modelo de Excelência da Gestão

JOGOS ELETRÔNICOS CONTRIBUINDO NO ENSINO APRENDIZAGEM DE CONCEITOS MATEMÁTICOS NAS SÉRIES INICIAIS

PLANEJAMENTO OPERACIONAL - MARKETING E PRODUÇÃO MÓDULO 11 PESQUISA DE MERCADO

INTRODUÇÃO. Entendemos por risco a probabilidade de ocorrer um dano como resultado à exposição de um agente químico, físico o biológico.

Titulo Pesquisa e Criação em Moda. Autor Iara Mesquita da Silva Braga * Resumo

Processos de gerenciamento de projetos em um projeto

Gerenciamento do ciclo de vida de um documento Simone de Abreu

UM MODELO DE DADOS VOLTADO AO SERVIÇO DE INTELIGÊNCIA POLICIAL. 1. Introdução. 2. Problemática

CAPITAL DE GIRO: ESSÊNCIA DA VIDA EMPRESARIAL

ESTUDO DE VIABILIDADE. Santander, Victor - Unioeste Aula de Luiz Eduardo Guarino de Vasconcelos

Sistemas Operacionais. Prof. André Y. Kusumoto

Excelência no Atendimento ao Cliente. / NT Editora. -- Brasília: p. : il. ; 21,0 X 29,7 cm.

INTERPRETANDO A GEOMETRIA DE RODAS DE UM CARRO: UMA EXPERIÊNCIA COM MODELAGEM MATEMÁTICA

A GESTÃO E AVALIAÇÃO DE DESEMPENHO NA INCUBADORA TÉCNOLÓGICA UNIVAP

MÉTODOS E TÉCNICAS DE AUTOAPRENDIZAGEM

Prof. Volney Ribeiro

Estratégias adotadas pelas empresas para motivar seus funcionários e suas conseqüências no ambiente produtivo

PADRÃO DE RESPOSTA DAS QUESTÕES DISCURSIVAS PROFISSIONAL BÁSICO COMUNICAÇÃO SOCIAL

Roteiro SENAC. Análise de Riscos. Planejamento do Gerenciamento de Riscos. Planejamento do Gerenciamento de Riscos

Planejamento e Gestão Estratégica

FACULDADE PITÁGORAS DISCIPLINA: FUNDAMENTOS DA ADMINISTRAÇÃO

Tutorial 7 Fóruns no Moodle

Recomendada. A coleção apresenta eficiência e adequação. Ciências adequados a cada faixa etária, além de

O PAPEL EMPREENDEDOR NO SISTEMA DE GESTÃO DA QUALIDADE * PALAVRAS-CHAVE: Sistema de Gestão da Qualidade. Representante da Diretoria. ISO 9001.

Transcrição:

Tópicos Avançados em Banco de Dados Brasília-DF, 2011.

Elaboração e compilação de textos: Ibsen Gebrim Reis Produção: Equipe Técnica de Avaliação, Revisão Linguística e Editoração Tópicos Avançados em Banco de Dados 2

Sumário Apresentação... 4 Organização do Caderno de Estudos e Pesquisa... 5 Organização da Disciplina... 6 Introdução... 7 Unidade I Banco de Dados Avançados... 9 Capítulo 1 Segurança, Autorização e Extensões... 9 Capítulo 2 Extensões de Modelos de Dados para Aplicações Avançadas... 13 Unidade II Data Mining... 15 Capítulo 3 Visão Geral: Regras, Classificação, Agrupamento e Aplicação... 15 Unidade III Data Warehousing... 21 Capítulo 4 Definição, Características, Funcionalidade e Comparação... 21 Para (não) Finalizar... 25 Referências... 26 Pós-Graduação a Distância 3

Apresentação Caro aluno, Bem-vindo ao estudo da disciplina Tópicos Avançados em Banco de Dados. Este é o nosso Caderno de Estudos e Pesquisa, material elaborado com o objetivo de contribuir para a realização e o desenvolvimento de seus estudos, assim como para a ampliação de seus conhecimentos. Para que você se informe sobre o conteúdo a ser estudado nas próximas semanas, conheça os objetivos da disciplina, a organização dos temas e o número aproximado de horas de estudo que devem ser dedicadas a cada unidade. A carga horária desta disciplina é de 40 (quarenta) horas, cabendo a você administrar o tempo conforme a sua disponibilidade. Mas, lembre-se, há uma data-limite para a conclusão do curso, incluindo a apresentação ao seu tutor das atividades avaliativas indicadas. Os conteúdos foram organizados em unidades de estudo, subdivididas em capítulos de forma didática, objetiva e coerente. Eles serão abordados por meio de textos básicos, com questões para reflexão, que farão parte das atividades avaliativas do curso; serão indicadas, também, fontes de consulta para aprofundar os estudos com leituras e pesquisas complementares. Desejamos a você um trabalho proveitoso sobre os temas abordados nesta disciplina. Lembre-se de que, apesar de distantes, podemos estar muito próximos. A Coordenação Tópicos Avançados em Banco de Dados 4

Organização do Caderno de Estudos e Pesquisa Apresentação: Mensagem da Coordenação. Organização da Disciplina: Apresentação dos objetivos e da carga horária das unidades. Introdução: Contextualização do estudo a ser desenvolvido por você na disciplina, indicando a importância desta para sua formação acadêmica. Ícones utilizados no material didático Provocação: Pensamentos inseridos no material didático para provocar a reflexão sobre sua prática e seus sentimentos ao desenvolver os estudos em cada disciplina. Para refletir: Questões inseridas durante o estudo da disciplina para estimulá-lo a pensar a respeito do assunto proposto. Registre sua visão sem se preocupar com o conteúdo do texto. O importante é verificar seus conhecimentos, suas experiências e seus sentimentos. É fundamental que você reflita sobre as questões propostas. Elas são o ponto de partida de nosso trabalho. Textos para leitura complementar: Novos textos, trechos de textos referenciais, conceitos de dicionários, exemplos e sugestões, para lhe apresentar novas visões sobre o tema abordado no texto básico. Sintetizando e enriquecendo nossas informações: Espaço para você fazer uma síntese dos textos e enriquecê-los com sua contribuição pessoal. Sugestão de leituras, filmes, sites e pesquisas: Aprofundamento das discussões. Praticando: Atividades sugeridas, no decorrer das leituras, com o objetivo pedagógico de fortalecer o processo de aprendizagem. Para (não) finalizar: Texto, ao final do Caderno, com a intenção de instigá-lo a prosseguir com a reflexão. Referências: Bibliografia consultada na elaboração da disciplina. Pós-Graduação a Distância 5

Organização do Caderno de Estudos e Pesquisa Ementa: Sistemas de apoio à decisão. Fundamentação do ciclo de construção de Data Warehouse. Modelagem multidimensional. Aspectos que descrevem o ciclo de planejamento e alinhamento estratégico de uma solução de DW para a organização e os componentes da arquitetura da solução. Tipos de ferramentas que compõe a solução de acesso e apresentação dos dados de um DW e formato de construção de análises nesses ambientes. Objetivo: Aprofundar os conhecimentos sobre segurança e autorização em Banco de Dados. Discutir Segurança em Banco de Dados. Conceituar Banco de Dados Ativos. Definir Bancos de Dados Temporais e multimídias. Definir Data Mining. Conceituar Data Warehousing. Unidade I Banco de Dados Avançados Carga horária: 20 horas Conteúdo Capítulo Segurança e Autorização 1 Extensões de Modelos de Dados para Aplicações Avançadas 2 Unidade II Data Mining Carga horária: 10 horas Tópicos Avançados em Banco de Dados Conteúdo Capítulo Visão Geral: Regras, Classificação, Agrupamento e Aplicação 3 Unidade III Data Warehousing Carga horária: 10 horas Conteúdo Capítulo Definição, Características, Funcionalidade e Comparação 4 6

Introdução/Provocação Quando falamos em armazenar, tratar e conservar informações, obrigatoriamente falamos em Banco de Dados, por isso o tema ora abordado toma proporções tais, que podemos pensar que tratar-se de uma questão difícil de assimilar. Mas temos que levar em conta sempre que, os dados ou informações, dos quais somos responsáveis, podem significar o sucesso ou o fracasso de uma empresa. Por isso, a segurança seja talvez a questão mais importante depois dos próprios dados. Óbvio que existem questões legais e éticas que devemos abordar e o trabalho que desenvolveremos abordará esse tema também, além de tentar mostrar e conduzir o aluno no perfeito entendimento do que se chama Segurança em Banco de Dados. Outros assuntos que abordaremos são a mineração de dados (Data Mining) e Data Warehousing, que vem a ser a utilização do conceito de gerenciamento de banco de dados no mais alto grau. Esse estudo pretende despertar no cursista a capacidade de divisar novas alternativas sobre o tema, apesar de tratar-se de um estudo em que veremos caminhos já traçados. Pós-Graduação a Distância 7

Banco de Dados Avançados Unidade I Capítulo 1 Segurança e Autorização O fator que sempre me ajuda a vencer um obstáculo tem sido o obstáculo anterior. Henry Ford Não devemos confundir segurança de dados com integridade de dados. Segurança vem a ser a capacidade de preservar os dados contra eventuais adulterações, divulgações indevidas ou perdas. Integridade é a capacidade de manter o dado com a precisão e validade exigidas. Segundo, C. J. Date (1990, p. 457): A Segurança garante que os usuários tenham permissão para fazer o que estiverem tentando fazer. A Integridade garante que as coisas que estão tentando fazer são corretas. Tipos de Segurança Os perfis de segurança de acesso aos dados devem ser traçados levando-se em conta os seguintes tipos de segurança existentes. Legais, sociais e éticos: Informações podem ser consideradas privadas, tanto legalmente quanto por questões sociais ou éticas. Exemplo: quem faz uma solicitação referente a um crédito tem direito a acessar essa informação? Políticas: As informações podem sofrer restrições conforme a política da empresa. Exemplo: quem acessa o quê em um Banco de Dados? Pós-Graduação a Distância 9

Banco de Dados Avançados Unidade I Pertinentes ao sistema: O sistema determina qual o nível de acesso. Exemplo: qual o critério de acesso do sistema de arquivos do sistema? Necessidades da organização: Confunde-se com o tipo político, mas difere-se por se tratar de necessidade e não de estratégia política. Exemplo: quem tem que acessar a informação? Quando ocorre um uso indevido do Banco de Dados, podemos considerar como intencional ou acidental. A perda acidental pode resultar de: quedas durante o processamento de transações; defeitos causados por acesso simultâneo (concorrência) aos dados; anormalidades na distribuição do Banco de Dados. Em se tratando de perdas acidentais, o controle é mais fácil do que contra acessos indevidos ou maldosos ao Banco de Dados. Como exemplos de formas maldosas, podemos citar: leitura não autorizada de dados (roubo de informações); modificação não autorizada de dados; destruição não autorizada de dados; inserção não autorizada de dados. As empresas costumam encarecer o custo da invasão, para tentar desmotivar qualquer acesso insidioso. Com a finalidade de proteger o BD, medidas de segurança devem ser tomadas em diversos níveis. Físico torna o sistema fisicamente seguro contra entradas de intrusos. Tópicos Avançados em Banco de Dados Visões Humano os controles dos acessos dos usuários são cuidadosamente estudados. Sistema operacional a fragilidade na segurança do SO pode ser uma porta de acesso não-autorizado ao banco de dados. Sistema de BD os usuários de sistemas de BD devem ter autorização de acesso somente a porções limitadas; outros usuários deverão ser habilitados a emitir consultas, com proibição de modificação de dados. As visões podem ser um excelente meio de limitar o acesso aos dados, fazendo com que os usuários só acessem aquilo que realmente podem acessar. Uma visão pode esconder dados que o usuário não necessita ver. Elas tanto servem para facilitar o uso do Banco de Dados como para ajudar na proteção das informações. 10

Banco de Dados Avançados Unidade I Autorizações de acesso ao Banco de Dados De Leitura (read) permite somente a leitura dos dados. De Inserção (insert) permite a inserção de novos dados, mas não a alteração de dados já existentes. De Atualização (update) permite a alteração dos dados, mas não a exclusão (delete). De Exclusão (delete) permite a exclusão. Existem outras formas de autorizações que podem permitir ou proibir a estrutura das relações. De Índice (index) concede ao usuário a permissão para criação e/ou remoção de índices. De Recursos (resource) permite a criação de novas relações, gatilhos, procedures. De Alteração (alteration) permite a adição ou remoção de atributos na relação. De Remoção (drop) permite a remoção das relações. Segurança do Banco e o DBA O Administrador de Banco de Dados (DBA) é o responsável pelo gerenciamento de um sistema de Banco de Dados. Ele é o responsável pela concessão de privilégios de acesso e classificação dos usuários do sistema de acordo com as determinações das políticas de segurança. O DBA possui uma conta própria com direitos de acesso a toda e qualquer instância do Banco de Dados. Seu papel é manter a integridade do Banco, tanto com relação às contas de acesso quanto à consistência dos dados, além de se encarregar do tunning do Banco, no que se refere a performance do mesmo, cópia de segurança dos dados, criação de índices, triggers, stored procedures etc. Proteção, contas e auditoria Todas as vezes que for necessário o acesso de um novo usuário ou a modificação do perfil de acesso de um já existente, o DBA criará uma nova conta com as permissões ou modificará as configurações de um já existente. Especificação de segurança em SQL Usamos o comando grant cuja sintaxe-padrão é a seguinte. Grant <lista de autorizações> on <nome da relação> to <lista de usuários>. Exemplos: Permissão de seleção (select) sobre uma relação de clientes, para os usuários [USR0, USR1]. Grant select on [clientes] to [USR0], [USR1]. Conferindo a permissão de alteração (update): Grant update [nome] on [clientes] to [USR0], [USR1]. Pós-Graduação a Distância 11

Banco de Dados Avançados Unidade I Podemos especificar somente os campos em que o usuário pode realizar a alteração. A permissão de inserção (insert) tem a mesma estrutura do update. Grant insert [nome] on [clientes] to [USR0], [USR1]. Podemos eventualmente utilizar a instrução all privileges, que concede todos direitos ao usuário. Grant all privileges on cliente to [USR0]. Normalmente, um usuário não pode transmitir seus direitos a outro, mas o DBA pode, de acordo as políticas de segurança adotadas no sistema de Banco de Dados, conceder essa permissão: Grant select on [financiamento] to [USR0] with grant option. Para a revogação de privilégios, o DBA pode utilizar os seguintes comandos: Revoke all privileges on [clientes] from [USR0]. Revoke select on [financiamento] from [USR0], [USR1], [USR2] cascade. A título de fixação, elabore um plano de concessão de permissões que podem ser concedidas a um usuário, tendo como parâmetro um sistema de conta corrente. Tópicos Avançados em Banco de Dados 12

Banco de Dados Avançados Unidade I Capítulo 2 Extensões de Modelos de Dados para Aplicações Avançadas Com o crescente uso de sistemas de gerenciamento de Banco de Dados, o usuário passa a ficar mais exigente em relação ao que deseja obter de retorno dos sistemas Bancos de Dados e, com isso, a tecnologia tende a acompanhar as necessidades do mercado. Surgem, então, diversas correntes tecnológicas que possibilitam a implementação de aplicações mais avançadas e complexas. Vamos discutir neste capítulo, esses avanços em Banco de Dados: ativos, multimídia, temporais e dedutivos. Conceitos de Banco de Dados Ativos Esse conceito passa a existir quando os Bancos, até então, passivos, precisam tomar decisões, serem ativos com base em eventos. Modelo generalizado para Banco de Dados Ativos Gatilhos em Banco de Dados Ativos seguem o modelo ECA (evento-condição-ação). Evento é o agente que ativa a regra, normalmente operações explícitas em um Banco de Dados, mas podendo ser disparado por eventos temporais e/ou eventos externos. Condição é uma condição de opcionalidade que determina (quando verdadeira) se a regra será disparada, quando da ocasião do evento. Ação é o que ocorre quando o evento satisfaz a condição, podendo ser um sequência de comandos SQL, uma transação ou mesmo um programa externo. Conceitos de Banco de Dados Temporais Em geral, todo sistema de Banco de Dados trata de informações relativas a tempo. Um exemplo clássico é um controle acadêmico onde se deve armazenado o histórico de cada aluno, como ano e semestre cursado. Mas os desenvolvedores normalmente não se preocupam especificamente com esse conceito. Devido, talvez, a sua complexidade, tratam essa informação como algo que não mereça atenção especial. Tempo, calendários e dimensões temporais O tempo é considerado como uma sucessão ordenada de pontos, com alguma granulidade que é determinada pela aplicação. (ELMASRI, 2006, p. 553). Não havendo um limite para o que vem a ser tempo, temos que adotar um ponto de referência. Em Banco de Dados Temporais, a ideia é termos um a sequência cronológica com o que se passa com o dado, e só conseguimos isso associando dados temporais ao mesmo. Pós-Graduação a Distância 13

Banco de Dados Avançados Unidade I Bancos de Dados Multimídias As imagens (fotografias, desenhos, filmes etc.) também precisam ser guardadas e recuperadas, com isso surge o conceito de Banco de Dados Multimídia, que vem a ser a capacidade do Banco em tratar imagens. A grande dificuldade é o reconhecimento e para isso existem dois métodos conhecidos. Análise automática Consiste em uma análise da imagem por meio da identificação de características matemáticas de seus conteúdos. Identificação manual Identifica objetos e atividades em cada imagem, onde se faz necessário um préprocessamento manual, em que o usuário cria marcas que, posteriormente, servirão para a recuperação da imagem. Introdução aos Bancos de Dados Dedutivos Vem a ser a capacidade de um sistema de Banco de Dados poder deduzir a informação a ser recuperada, a partir de uma análise da base já existente. Suas regras são especificadas por meio de alguma linguagem declarativa, em que especificamos o que queremos ao invés de como queremos. O Banco interpreta essas regras usando o que se chama máquina de inferência ou mecanismo de dedução, que deduz os fatos novos. Tópicos Avançados em Banco de Dados 14

Unidade II Data Mining Capítulo 3 Visão geral: Regras, Classificação, Agrupamento e Aplicação A mineração de dados ou Data Mining é uma tecnologia emergente e uma das mais promissoras, segundo relatório do Gartner Group. O Knowledge Discovery in Databases (KDD) Processo de Descoberta de Conhecimento em Banco de Dados é composto de seis outras fases: seleção de dados, limpeza, enriquecimento, transformação ou codificação, data mining, construção de relatórios e apresentação da informação descoberta. Transformação Data Mining Avaliação Seleção Pré-Processamento Padrões Conhecimento Data Dados alvo Dados Pré-processados Dados Transformados Figura 1 Visão geral das etapas que constituem o processo KDD (Fayyad et al., 1996b). O Data Mining é uma das aplicações da tecnologia de Data Warehousing. Alguns tipos de informação podem ser descobertas pela aplicação dessa tecnologia. Regras de associação Analisa por associação o comportamento de um consumidor. Por exemplo, se um cliente compra cerveja ele pode comprar refrigerante também. Padrões sequenciais Analisa o comportamento de consumidores que compram em uma sequência predeterminada. Se um cliente compra um rádio e depois de dois meses compra uma televisão, ele provavelmente comprará algum eletroeletrônico nos próximos 6 meses. Árvore de classificação Os consumidores podem ser classificados pela frequência com que visitam lojas, por tipo de financiamento utilizado, por quantidade comprada ou simplesmente por afinidade com determinados tipos de itens. As empresas estão utilizando Data Mining para tentar antecipar o comportamento do consumidor, principalmente para enfrentar uma forte concorrência. Pós-Graduação a Distância 15

Data Mining Unidade II Podemos citar como metas do Data Mining: Predição Prever o comportamento de consumidores em relação a políticas de desconto, como o volume de vendas gerado em um determinado período, e se um linha de produto for descontinuada irá gerar lucro. Identificação Utilizar padrões de dados para identificar a existência de um item, um evento ou uma atividade. Classificação Classificar diferentes categorias de consumidores motivados por descontos fiéis, aficionados em uma marca e até eventuais, combinando parâmetros, a partir da segmentação de dados. Otimização Otimizar o uso de recursos limitados como tempo, espaço, dinheiro ou materiais, bem como, as variáveis de saída, como vendas ou o lucro sobre determinado número de restrições, com o uso da tecnologia de Data Mining. Usar Data Mining é induzir descobertas e não deduzi-las. Descobrem-se novas regras e/ou padrões e projetam-se comportamentos por meio da análise do comportamento de dados existentes. Regras de Associação Ocorre a correlação de um item com outros de outra faixa de valores, de outro leque de variáveis. Exemplo: associa-se a compra de uma calça a compra de um cinto, um sapato, uma gravata. Hierarquia de Classificação Cria-se uma hierarquia de classes a partir de um conjunto de eventos ou transações. Exemplo: dividir uma população em faixas de risco de créditos, utilizando-se histórico de transações anteriores. Padrões Sequenciais Investiga-se uma sequência de eventos ou ações, que induzirá a ações a serem tomadas. Padrões com Séries Temporais Exemplo: análise, em intervalos regulares, de uma sequência de vendas diárias ou preço diário de fechamento de ações. Clustering (agrupando) Ocorre segmentação de dados similares a partir de eventos ou novos itens. Exemplo: o acesso pela internet de um conjunto de documentos feito por um grupo de usuários pode ser analisado em termos de palavras-chave dos documentos, permitindo identificar grupos ou categorias de usuários. Tópicos Avançados em Banco de Dados 16 Regras de Associação Para que possamos utilizar as regras de associação, algumas perguntas têm que ser respondidas a priori. O que caracteriza a ação de comprar um produto específico? Por que um produto é sempre comprado junto com outro? Quais produtos são adquiridos aos pares? O determinou a sequência de aquisição? Um exemplo clássico é o citado em Hammer (1995), que relata a experiência de um supermercado que descobre, depois de uma análise por associação, que vendia mais cervejas quando estas estavam próximas à seção de fraldas.

Data Mining Unidade II Se o cliente comprou o produto A e o produto B, então ele também compra o produto C. Isso ocorre em cerca de 20% (vinte por cento) dos casos. Assim podemos definir as regras de associação: A => B, onde A e B são conjuntos que contém um ou mais elementos e o total damos o nome de T. Surgindo, então, dois parâmetros para analisar. O primeiro é a frequência com que o A aparece. Na regra apresentada acima, o valor 20% indica o suporte, pois é dito que a regra é aplicada em 20% dos casos estudados. O segundo é a credibilidade fornecida pelo percentual de 20%. No exemplo acima, indica que na maioria dos casos quem comprou A e B também, comprou C. Classificação Consiste na análise preditiva com o intuito de estabelecer padrões que podem determinar tendências futuras. Também chamado de aprendizado supervisionado (ELMASRI, 2006, p. 634), pois, após montado, pode ser utilizado para classificação de novos dados. Esse processo procura encontrar um modelo que descreva classes diferentes de dados. Por exemplo, em uma empresa, clientes podem ser classificados como de risco baixo ou risco justo. Utiliza-se primeiramente um treinamento com um conjunto de dados que já foram classificados. Cada registro nos dados de treinamento, chamado rótulo de classe, indica a classe a qual o registro pertence O modelo criado, normalmente, ficará na forma de uma árvore de decisão ou um conjunto de regras. Existe uma preocupação em relação ao modelo e o algoritmo que vem a ser a habilidade do modelo prever a classe correta dos novos dados, o custo computacional associado ao algoritmo e a sua escalabilidade. Uma árvore de decisão é uma representação gráfica da descrição de cada classe ou, em outras palavras, uma representação das regras de classificação. Analise o exemplo abaixo: Algoritmo para indução de árvore de decisão Input: conjunto de dados de treinamento Registros: R1, R2,..., Rm e conjunto de atributos; A1, A2,...An. Output: árvore de decisão. Procedure Constrói_árvore (Registros, Atributos) Início Criar um nó N; Se todos os registros pertencem à mesma classe, C, então Retorna N como um nó-folha com rótulo de classe C; Se Atributos está vazio então Pós-Graduação a Distância 17

Data Mining Unidade II Retorna N como um nó-folha com rótula de classe C, com a maioria dos registros pertencentes a ela; Seleciona o Atributo A 1 (com o maior ganho de informação) de atributos; Rotula nó N com A; Para cada valor conhecido, V j, de A 1 faça Início Some um marca do nó N para a condição A 1 = V j ; S j = subconjunto de Registros onde A 1 = V j ; Se S j está vazio então Adicione uma folha, L, com rótulo de classe C, como a maioria dos registros pertencentes a ela e retorna L Senão some o nó retornado por Constói_árvore (S j, Atributos - A); fim. sim casado não < 20.000 risco alto salário > = 20.000 < = 50.000 risco justo risco baixo renda > = 50.000 < = 5.000 <20.000 risco alto idade < = 25 > = 25 risco justo Figura 2 Exemplo de árvore de decisão para aplicações de cartão de crédito. (ELMASRI, 2006, p. 553). risco baixo Agrupamento (Clustering) Tópicos Avançados em Banco de Dados Este processo procura colocar em grupos os dados similares, mas não havendo classes preexistentes Na sua definição mais comum Cluster É uma coleção de objetos de dados, similares, mas não similares aos objetos externos. Algoritmos: K-means Inicia com uma escolha randômica de k registros para representar a centroide, (média) m 1,...m k, dos grupamentos, C 1,...C k. Todos os registros são colocados em um dado grupamento, baseados na distância entre os registros e a média do grupamento. Se a distância entre m1 e o registro R J é a menor entre todas as médias do grupamento, então o registro R J é colocado no grupamento C i. Uma vez que todos os registros tenham sido colocados inicialmente em um grupamento, a média para cada grupamento é recalculada e assim sucessivamente. 18

Data Mining Unidade II Aplicação de Data Mining O Data Mining, enquanto tecnologia aplicada no contexto da tomada de decisão, tem ganhando crescente espaço no meio empresarial, particularmente nas áreas a seguir. Marketing Aplicações como análises de comportamento do consumidor baseadas em padrões de consumos e definição de estratégias de marketing incluem propaganda, localização de lojas e mala direta direcionada, segmentação de clientes, lojas ou produtos, projetos de catálogos, layouts de lojas e campanhas de publicidade. Finanças Análise de crédito de clientes, segmentação de contas a receber, análise de performance de investimentos financeiros como ações e fundos mútuos, avaliação de opções de financiamentos e detecção de fraudes. Produção Aplicações que envolvem otimização de recursos como máquinas, força de trabalho e materiais; projetos ótimos de processos de fabricação, layouts de chão de fábrica, e projeto de produto, como de automóveis baseados nos requisitos de clientes. Saúde Aplicações que incluem descobertas de padrões em imagens radiológicas, análise de dados experimentais em microarray (gene chip) para relação com doenças, análise de efeitos colaterais de remédios e efetividade de certos tratamentos, otimização de processos dentro de um hospital, relação de saúde do paciente com qualificações do médico. Pós-Graduação a Distância 19

Unidade III Data Warehousing Capítulo 4 Visão Geral: Definição, Características, Funcionalidade e Comparação Data warehouse é uma coleção de informações, um sistema de apoio focado na média e alta gerência das empresas, na recuperação de informações e não no processamento das mesmas. Embora a mídia tenha pegado carona na popularidade do nome e colocado diversos produtos sob a bandeira da tecnologia de Data WareHouse, devemos ter em mente que ele não é um Banco de Dados como os tradicionais. Elmasri (2006) apud W.H. INMON (1992) caracterizou um Data Warehouse como uma coleção de dados orientada por assunto, integrada, não volátil, variante no tempo, que dá apoio às decisões da administração. Esse sistema dá suporte a demanda de alto desempenho por dados e informações, proporcionando acesso aos dados para análise complexa, descoberta de conhecimento e tomada de decisão. Conhecimento Avaliação Visualização Seleção Data Mining Existem vários tipos de aplicações. Detabases Limpeza DWh As Bases de Dados são: Dinâmicas Incompletas Redundantes Ruidosas Esparasas Figura 3 OLAP (On-line Analytical Processing Processamento Analítico), termo utilizado para descrever a análise de dados complexos em um sistema de Data Warehouse. Ferramentas OLAP empregam as capacidades de computação distribuídas para análises que requerem mais armazenamento e poder de processamento. Pós-Graduação a Distância 21

Data Warehousing Unidade III DSS (Decision-Support Systems Sistemas de Apoio à Decisão), também conhecido como EIS (Executive Information Systems Sistemas de Informação Executiva). Como o nome diz é uma ferramenta de apoio à decisão, e o Data Mining, como visto anteriormente, caracteriza esse tipo de aplicação. Os bancos Data Warehouses são projetados para tratar grande quantidade de informação e oferecer fontes múltiplas, podendo extrair dados de Bancos distintos e/ou até de sistemas e plataformas diferentes. Características de Data Warehouse É característica primordial de Data Warehouse o modelo de dados multidimensional, o que faz com que se encaixe bem com o OLAP e com as demais aplicações voltadas para o apoio à decisão. Trabalhando com mais informações de temporalidade, o Data Warehouse, ao contrário dos Bancos de Dados Relacionais, dão apoio às análises de série temporal e de tendências, que requerem mais dados históricos do que os que são mantidos em Banco de Dados Transacionais. Eles não são voláteis, isto é, a informação em um Data Warehouse muda com pouca ou nenhuma frequência e têm que ser atualizadas, periodicamente. Em um Data Warehouse, a informação tem uma granulidade muito espessa e é atualizada de acordo com a escolha da política de atualização. Funcionalidade Típica de um Data Warehouse O Data Warehouse proporciona maior suporte às consultas e de maneira mais eficiente do que um Banco Transacional. Existem funcionalidades aperfeiçoadas de planilha eletrônica, de processamento eficiente de consultas (estruturadas, ad hoc), data mining e de visões materializadas. Há funcionalidades pré-programadas, tais como as citadas a seguir. Roll-up: resumo de dados com generalização crescente (semanal para trimestral e depois para anual), visão do detalhe para o nível mais alto. Tópicos Avançados em Banco de Dados São Paulo 2008 Fabricação Carros Caminhões GM FIAT GM FIAT São Bernardo do Campo 2300 1600 300 550 São Caetano do Sul 1500 1650 400 640 2008 Fabricação Carros Caminhões GM FIAT GM FIAT Região Sudeste São Paulo 3800 3250 700 1190 Rio de Janeiro 2500 3000 500 800 22

Data Warehousing Unidade III Drill-down: níveis mais detalhados (complementando o roll-up), um item de resumo é dividido em componentes, possibilitando a exploração em níveis de detalhes da informação, visão do nível mais alto para o detalhe. Região Sudeste Fabricação Carros e Caminhões 1º TRIM 2º TRIM 3º TRIM São Paulo 9000 11000 8500 Rio de Janeiro 11280 5500 8600 Região Sudeste Fabricação Carros e Caminhões Jan Fev Mar São Paulo 2600 4500 3000 Rio de Janeiro 3600 1850 3200 Slice and dice (fatiar/cortar o cubo): execução de operações de projeção nas dimensões, possibilitando a troca de linhas por colunas (como se estivéssemos girando um cubo). Exemplo: Slice: Divide-se o cubo, mas mantém se a perspectiva de visualização dos dados. Região Sudeste Fabricação Carros e Caminhões Jan Fev Mar São Paulo 4500 1900 4200 Rio de Janeiro 1280 3250 3200 Região Sudeste Fabricação Carros Jan Fev Mar São Paulo 3300 1000 3205 Rio de Janeiro 600 1980 2300 Dice: Visualização por outra perspectiva. Região Sudeste 2008 Fabricação Carros Caminhões GM FIAT GM FIAT São Paulo 2300 1600 300 550 Rio de Janeiro 1500 1650 400 640 2008 Fabricação Região Sudeste São Paulo Rio de Janeiro Carros GM 2300 1500 FIAT 1600 1650 Caminhões GM 300 400 FIAT 400 640 Pós-Graduação a Distância 23

Data Warehousing Unidade III Comparação entre Data Warehouse e Visões Embora as visões melhorem o desempenho, sejam somente para leituras e sejam orientadas por assunto, elas diferem da tecnologia de Data Warehouse, das seguintes maneiras. O Data WareHouse existe como armazenamento permanente em vez de ser criado sobre demanda. Os Data Warehouses são multidimensionais e não relacionais. A indexação no Data Warehouse é explicita e proprietária, para otimização de desempenho. Data Warehouse, em princípio, é uma visão de vários Bancos de Dados que trabalham integrados e frequentemente com dados temporais, enquanto views vêm a ser somente um extrato de um Banco de Dados. Tópicos Avançados em Banco de Dados 24

Para (não) Finalizar Devemos aqui dar um pausa para pensar no que temos pela frente em se tratando do estudo de um tópico dito avançado. As possibilidades são imensas e não devemos nos ater somente ao que vimos no programa da disciplina. Será que se esgotou o assunto Tópicos Avançados em Banco de Dados? Quais sãos as janelas e/ou portas que abrimos com o conhecimento adquirido? Sim, devemos sempre pensar e agir com o intuito de querermos mais. Este é o verdadeiro aprendizado: sempre querer subir o próximo degrau, depois de vencermos o último. Desejar que a escada nunca termine, pois significaria o fim do estudo e consequentemente do nosso crescimento. Prof. Ibsen. Pós-Graduação a Distância 25

Referências HAMMER, Michael; CHAMPY, James, Reengenharia. 1 o ed. Editora Campus, 1995. ELMASRI, Rames; NAVATHE, Shamkant B. Sistemas de Banco de Dados. 4 o ed. Editora Pearson, 2006. INMON, W. H. Building the data warehouse. Editora Wiley. 1992. CASTANO, Silvana; FUGINI, Mariagrazia; MARTELLA, Giancarlo; SAMARATI, Pierangela. Database Security. New York: ACM Press/Reading, Mass.: Addilson-Wesley, 1995. CERT COORDINATION CENTER. CERT Annual Reports. Software Engineering Institute, Carnegie Mellon University, s.d. Pittsburgh. U.S.A Disponível em: <http://www.cert.org> Acesso em: 16 jan. 2009. CHUNG. DataBase Security. Department of Computer Science and Engineering, Wright State University, s.d. Disponível em: <http://www.cs.wright.edu/> Acesso em 16 jan. 2009. DATE, C. J. Introdução a sistemas de banco de dados. Rio de Janeiro: Campus, 1990. Tópicos Avançados em Banco de Dados 26