Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento



Documentos relacionados
Data Mining com a Ferramenta Weka

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

ADM041 / EPR806 Sistemas de Informação

Módulo 4: Gerenciamento de Dados

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Algoritmos Genéticos em Mineração de Dados. Descoberta de Conhecimento. Descoberta do Conhecimento em Bancos de Dados

A Grande Importância da Mineração de Dados nas Organizações

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Prof. Marcelo Machado Cunha

Aprendizagem de Máquina

APLICAÇÃO DE MINERAÇÃO DE DADOS PARA O LEVANTAMENTO DE PERFIS: ESTUDO DE CASO EM UMA INSTITUIÇÃO DE ENSINO SUPERIOR PRIVADA

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Prof. Msc. Paulo Muniz de Ávila

Inteligência de Negócio. Brian Cowhig

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

XIII Encontro de Iniciação Científica IX Mostra de Pós-graduação 06 a 11 de outubro de 2008 BIODIVERSIDADE TECNOLOGIA DESENVOLVIMENTO

Aula 02: Conceitos Fundamentais

Tecnologias da Informação, Comunicação e Sistemas de Inteligência

Identificar as mudanças que acontecem na forma e no uso de apoio à decisão em empreendimentos de e-business. Identificar o papel e alternativas de

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

Prof. Júlio Cesar Nievola Data Mining PPGIa - PUCPR

MÉTODOS QUANTITATIVOS EM MARKETING. Prof.: Otávio Figueiredo

Banco de Dados I. Introdução. Fabricio Breve

Professor: Disciplina:

Sistemas de Informação

Disciplina: Unidade III: Prof.: Período:

2 Diagrama de Caso de Uso

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Sistemas de Banco de Dados Aspectos Gerais de Banco de Dados

Como melhorar a tomada de decisão. slide 1

Solução e Implantação

Microsoft Innovation Center

Aprendizagem de Máquina. Ivan Medeiros Monteiro

LISTA DE EXERCÍCIOS. 1. Binário: Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único caractere

UNIVERSIDADE REGIONAL DE BLUMENAU CENTRO DE CIÊNCIAS EXATAS E NATURAIS CURSO DE CIÊNCIAS DA COMPUTAÇÃO (Bacharelado)

3 Um Framework Orientado a Aspectos para Monitoramento e Análise de Processos de Negócio

Exemplos de aplicação. Mineração de Dados 2013

4 Segmentação Algoritmo proposto

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

UNIMEP MBA em Gestão e Negócios

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Nos próximos. 30 minutos. 1 Objetivos 2 Metodologia 3 Perfil do Consumidor 4 Processo de Decisão 5 Conclusões

Exemplo de Aplicação do DataMinig

FLEXCRM SISTEMA DE GESTÃO DE CLIENTES [MÓDULO ATENDIMENTO] SUMÁRIO

Banco de Dados - Senado

ADMINISTRAÇÃO DOS RECURSOS DE DADOS

Data Mining Software Weka. Software Weka. Software Weka 30/10/2012

Sistemas de Informação James A. O Brien Editora Saraiva Capítulo 5

Gerenciamento de Dados e Gestão do Conhecimento

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.

3 Market Basket Analysis - MBA

Aula 1: Noção Básica e Criação de Tabelas.

ADMINISTRAÇÃO DE SISTEMAS DE INFORMAÇÃO (AULA 04)

Engenharia de Software III


TUTORIAL COLEGIADOS EM REDE

Laboratório de Mídias Sociais

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Contexto de Big Data, Ciência de Dados e KDD

DATA WAREHOUSE. Introdução

Data, Text and Web Mining

PRDS - Programa de Residência em Desenvolvimento de Software

Nexcode Systems, todos os direitos reservados. Documento versão

1 Problema de Pesquisa

Sistema de Mídia Digital

Informática I. Aula Baseada no Capítulo 2 do Livro Introdução a Informática Capron e Johnson

Mineração de Dados: Introdução e Aplicações

Acordo de Nível de Serviço (SLA)

Comércio Eletrônico AULA 15. Sistemas para Internet. Professora Ms Karen Reis

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

Aula 7 Componentes de um Sistema de Informação Recursos e Atividades

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

Profº.: Daniel Gondim. Relatórios Gerenciais e Sistemas Web

Processo de Desenvolvimento de Sites

Modelos de Arquiteturas. Prof. Andrêza Leite

Gerência de Redes NOC

CAPÍTULO 3 PLANO DE MANUTENÇÃO

Sistemas de Detecção de Intrusão SDI

Faculdades Santa Cruz - Inove. Plano de Aula Base: Livro - Distributed Systems Professor: Jean Louis de Oliveira.

SUMÁRIO Acesso ao sistema... 2 Atendente... 3

SAD. Paulo Silva, Rodolfo Ribeiro, Vinicius Tavares

Para manter o sucesso de um negócio, a empresa precisa compreender e manter uma relação positiva com seus clientes.

UML Aula III Diagramas de Estado, Atividades, Componentes e Instalação

Feature-Driven Development

APOO Análise e Projeto Orientado a Objetos. Requisitos

Arquitetura de Redes: Camadas de Protocolos (Parte I) Prof. Eduardo

CURSOS OFERECIDOS. seus objetivos e metas. E também seus elementos fundamentais de Administração, como: PLANEJAMENTO, ORGANIZAÇÃO E CONTROLE.

5 Conclusões e Recomendações

3 Classificação Resumo do algoritmo proposto

SISTEMAS OPERACIONAIS

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

Conceitos básicos. Aplicações de banco de dados. Conceitos básicos (cont.) Dado: Um fato, alguma coisa sobre a qual uma inferência é baseada.

Transcrição:

Data Mining Prof Luiz Antonio do Nascimento Data Mining Ferramenta utilizada para análise de dados para gerar, automaticamente, uma hipótese sobre padrões e anomalias identificadas para poder prever um comportamento futuro. Objetivo: identificar novos padrões de dados válidos, compreensíveis e com potencial de uso. Origem do Data Mining Surgiu no início dos anos 90 para solucionar o problemas em se conseguir informações estratégicas nos bancos de dados das organizações. A mineração de dados surgiu como alternativa a métodos tradicionais (SQL, Planilhas, investigação manual) e inviáveis para a solução do problema. Foi utilizado idéias de várias áreas: Banco de Dados Aprendizado de Máquina Estatística 1

Aplicações Comuns do Data Mining Segmentação de mercado Identifica as características comuns dos clientes que compram os mesmos produtos de uma empresa. Análise das cestas de mercado Compreende como produtos e serviços podem ser comumente adquiridos juntos (cerveja e fraldas). Reclamação de cliente Prevê quais clientes estão mais propensos a abandonar uma empresa e ir para a empresa concorrente. Mineração de Dados Processo realizado através de estratégias automatizadas que tem por objetivo a descoberta de conhecimento valioso em grandes bases de dados. Um pequeno diamante de informação é extraído a partir de uma verdadeira montanha de dados. Mineração de Dados Um Data Warehouse possui Terabytes de dados. Encontrar informações em grandes bases de dados não é uma tarefa fácil. Existe a necessidade de organizar os dados e de utilizar ferramentas para recuperar informações relevantes. Ferramentas de Data Mining recuperam automaticamente informações do Data Warehouse. 2

Propriedades de um Conhecimento Relevante O conhecimento descoberto através de processos de mineração de dados é considerado interessante quando apresenta certas propriedades: Propriedades de um Conhecimento Relevante Conhecimento Relevante: Representava uma informação nova. Não era conhecida pelos analistas da empresa. Associação inesperada. Os analistas imaginavam que as vendas de cerveja estivessem associadas apenas a produtos como salgados, carne para churrasco e outras bebidas alcoólicas, mas nunca a produtos de higiene infantil. A regra é válida. Possuía expressividade estatística. Uma porcentagem considerável das compras realizadas nas noites de quinta-feira continha ambos os produtos. A regra é interpretável Pôde ser entendida e explicada pelos analistas. Sugere que nas noites de quinta-feira casais jovens com filhos pequenos estocam fraldas e cervejas para o fim-de-semana. A regra é útil Os gerentes puderam tomar ações capazes de aumentar as vendas de cerveja. Ex: os produtos foram colocados em prateleiras próximas. Descoberta de Associações Objetivo: descobrir combinações de itens ou valores de atributos que ocorrem com frequência significativa em uma base de dados. Exemplo: Mineração do BD de um supermercado. Regra de associação: {fraldas} Þ {cerveja} 50% das compras que contêm fraldas, também contêm cerveja e 15% de todas as compras contêm os dois produtos. Regra de associação: {milho verde} Þ {ervilhas} A compra do produto milho verde aumenta em 5 vezes a chance de um cliente comprar ervilhas. 3

Descoberta de Associações Exemplo: Sistema de Recomendação (sugerem itens que considera interessantes para um usuário). Regra de associação: {produto} Þ {produto recomendado} Livro 1 e Livro2. Notícia 1 e Notícia 2. Música 1 e música 2. Vídeo 1 e vídeo 2. Exemplo: Segurança de Sistemas (aprimoram banco de dado de antivírus e sistema de detecção de intrusos). Regra de associação: {serviço x} Þ {operação y} (Service = telnet ) (FailedLogins 1) (Intrusion = yes ) Regra indica que as conexões nas quais o serviço de rede utilizado foi o telnet e que apresentaram uma ou mais operações de login rejeitadas, tendem a ser tentativas de intrusões. Descoberta de Padrões Sequenciais Objetivo: descobrir sequências de eventos frequentes (leva em conta a ordem ou a data de ocorrência dos eventos). Exemplo: Mineração do BD de loja de suprimentos de eletrônica. Padrão sequencial: {netbook} Þ {hard disk} 50% dos consumidores que adquirem um netbook compram um hard disk externo de 2 a 4 meses após a aquisição do netbook. Padrão sequencial: {navegação na Web} Þ {cliques} Análise de sequência de cliques em um site de ecommerce. Classificação Objetivo: a partir de um banco de dados contendo objetos préclassificados (objetos cuja classe é conhecida), construir um modelo que seja capaz de classificar automaticamente novos objetos (objetos cuja a classe é desconhecida) em função de suas características através de um modelo classificador. Exemplo: Mineração do BD de uma seguradora. Análise de classificação de risco por característica de cliente. Sexo feminino : não se envolve em acidente Sexo masculino e idade superior a 25 anos : não se envolve em acidente. Sexo masculino e idade igual ou inferior a 25 anos: se envolve em acidente 4

Exemplo: Mineração do BD de uma seguradora. Análise de classificação de risco por característica de cliente. A classificação é uma tarefa preditiva. Tarefa preditiva: predizer (dizer antecipadamente o que vai acontecer) o valor de um determinado atributo baseado nos valores de outros atributos Determinação de Agrupamentos Objetivo: dividir automaticamente um conjunto de objetos em grupos (clusters) de acordo com algum de tipo de relacionamento de similaridade existente. Exemplo: Personagens Simpsons. Divisão em grupos de similaridade Determinação de Agrupamentos Exemplos de agrupamentos Simpsons 5

Outros tipos Mineração de Texto: descoberta de novas informações a partir da análise de texto livre (artigos, documentos WORD ou PDF, etc.) ou semiestruturado (ex: arquivos HTML ou XML). Mineração Web: uso de algoritmos para minerar conhecimento útil de documentos e serviços da Web. Regressão: similar à tarefa de classificação. A principal diferença é que o atributo alvo é do tipo contínuo. Exemplo: valor de um imóvel em função das características dele e do bairro. Padrões em Séries Temporais: os dados de séries temporais contém observações adjacentes e ordenadas, tipicamente uma sequência de valores numéricos com um atributo representando o tempo. Mineração de Exceções: o objetivo da tarefa é determinar objetos que sejam diferentes da maioria dos outros objetos. Aplicações práticas: detecção de fraudes, previsão de distúrbios no ecossistema, e outras. Tecnicas de Data Mining Cada tarefa de mineração de dados possui um conjunto de técnicas associadas, que representam os algoritmos que podem ser empregados para a sua execução. Ferramentas de Data Mining Ferramentas comerciais: Oracle SAS SPSS SQL Server Ferramentas livres: R : já existem diversos pacotes para data mining que podem ser integrados a este tradicional software open source para estatística. Weka: ferramenta para Data Mining. 6