Prof. Júlio Cesar Nievola Data Mining PPGIa - PUCPR



Documentos relacionados
Exemplos de aplicação. Mineração de Dados 2013

Data Mining. Origem do Data Mining 24/05/2012. Data Mining. Prof Luiz Antonio do Nascimento

ADM041 / EPR806 Sistemas de Informação

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

Web Data mining com R: aprendizagem de máquina

Microsoft Innovation Center

Gestão da Informação. Gestão da Informação. AULA 3 Data Mining

Planejamento Estratégico de TI. Prof.: Fernando Ascani

Prof. Msc. Paulo Muniz de Ávila

UNIVERSIDADE FEDERAL DE SANTA CATARINA GRADUAÇÃO EM SISTEMAS DE INFORMAÇÃO DEPARTAMENTO DE INFORMÁTICA E ESTATÍSTICA DATA MINING EM VÍDEOS

Administração de dados - Conceitos, técnicas, ferramentas e aplicações de Data Mining para gerar conhecimento a partir de bases de dados

Tarefas e Técnicas de Mineração de Dados TAREFAS E TÉCNICAS DE MINERAÇÃO DE DADOS

Módulo 4: Gerenciamento de Dados

Hierarquia de modelos e Aprendizagem de Máquina

No mundo atual, globalizado e competitivo, as organizações têm buscado cada vez mais, meios de se destacar no mercado. Uma estratégia para o

Professor: Disciplina:

Exemplo de Aplicação do DataMinig

Dado: Fatos conhecidos que podem ser registrados e têm um significado implícito. Banco de Dados:

Prof. Júlio Cesar Nievola Data Mining PPGIa PUCPR

Mineração de Dados: Introdução e Aplicações

ADMINISTRAÇÃO DE SISTEMAS DE INFORMAÇÃO (AULA 04)

Mineração de Dados: Introdução. Notas de Aula do Capítulo 1. Introdução à Mineração de Dados

O Big Data em microfinanças: Como os bancos de dados ajudam na tomada de decisão e uma melhor compreensão do comportamento dos clientes

Aprendizagem de Máquina. Ivan Medeiros Monteiro

Roteiro. BCC321 - Banco de Dados I. Conceitos Básicos. Conceitos Básicos. O que é um banco de dados (BD)?

Aula 02: Conceitos Fundamentais

Bancos de dados distribuídos Prof. Tiago Eugenio de Melo

Sistema de mineração de dados para descobertas de regras e padrões em dados médicos

MÉTODOS QUANTITATIVOS EM MARKETING. Prof.: Otávio Figueiredo

Concepção e Elaboração

Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka

Banco de Dados, Integração e Qualidade de Dados. Ceça Moraes cecafac@gmail.com

Curso Superior de Tecnologia em Banco de Dados Disciplina: Projeto de Banco de Dados Relacional II Prof.: Fernando Hadad Zaidan

4. Que tipos de padrões podem ser minerados. 5. Critérios de classificação de sistemas de Data Mining. 6. Tópicos importantes de estudo em Data Mining

Criação e uso da Inteligência e Governança do BI

DATA WAREHOUSE. Rafael Ervin Hass Raphael Laércio Zago

Laboratório de Mídias Sociais

Planejamento Estratégico de TI. Prof.: Fernando Ascani

17/10/2012. dados? Processo. Doutorado em Engenharia de Produção Michel J. Anzanello. Doutorado EP - 2. Doutorado EP - 3.

FACULDADE DE CIÊNCIAS SOCIAIS E TECNOLÓGICAS FACITEC CURSO:

CRM - Customer Relationship Management

Extração de Conhecimento & Mineração de Dados

Curso de Data Mining

Roteiro para a escrita do documento de Especificação de Requisitos de Software (ERS)

Introdução à Engenharia de Software

Instituto de Educação Tecnológica Pós-graduação Gestão e Tecnologia da Informação - Turma 25 20/03/2015. Big Data Analytics:

Banco de Dados. Uma coleção de dados relacionados [ELMASRI/NAVATHE]

Modelo para elaboração do Plano de Negócios

Clustering: K-means and Aglomerative

INF 1771 Inteligência Artificial

Complemento II Noções Introdutória em Redes Neurais

Preparando sua empresa para o forecasting:

Data Mining em Redes Sociais. Felipe Botelho e Pedro Ugioni

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

Glossário Apresenta a definição dos termos, siglas e abreviações utilizadas no contexto do projeto Citsmart.

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

KDD UMA VISAL GERAL DO PROCESSO

Grupo de Banco de Dados da UFSC

Aprendizagem de Máquina

Metadados. 1. Introdução. 2. O que são Metadados? 3. O Valor dos Metadados

3 Classificação Resumo do algoritmo proposto

MATERIAL DIDÁTICO: APLICAÇÕES EMPRESARIAIS SISTEMA DE APOIO À DECISÃO (SAD)

Fundamentos de Sistemas de Informação Sistemas de Informação

O que é a ciência de dados (data science). Discussão do conceito. Luís Borges Gouveia Universidade Fernando Pessoa Versão 1.

CAPÍTULO 12. Gerenciando relacionamentos e desenvolvendo fidelidade by Pearson Education do Brasil 12-1

DWARF DATAMINER: UMA FERRAMENTA GENÉRICA PARA MINERAÇÃO DE DADOS

Daciane de Oliveira Silva

Análise e visualização de dados utilizando redes neurais artificiais auto-organizáveis

MARKETING ESTRATÉGICO

O objetivo da Mineração de Dados é extrair ou minerar conhecimento de grandes volumes de

Canais de marketing. Trade Marketing. Trade Marketing. Trade marketing é uma ferramenta que atua diretamente em três níveis:

COLETA DE INFORMAÇÕES E PREVISÃO DE DEMANDA

Os Sistemas de Informação para as Operações das Empresas e o Comércio Eletrônico Simulado Verdadeiro ou Falso

Gerência de Redes NOC

VERIFIQUE SE SEUS SITES ESTÃO PRONTOS PARA O BLACK FRIDAY 11 MANEIRAS DE ACABAR COM OS PROBLEMAS DE DESEMPENHO

Gerenciamento de Dados e Gestão do Conhecimento

A Descrição do Produto ou Serviço e a Análise do Mercado e dos Competidores Fabiano Marques

Web Data Mining com R

Sistemas de Informação

Plano de Marketing. Produto (Posicionamento) Preço. Artigos de PN Como fazer Plano de Marketing. josedornelas.com.br

As principais características da abordagem de um banco de dados versus a abordagem de processamento de arquivos são as seguintes:

5 Conclusões e Recomendações

LISTA DE EXERCÍCIOS. 1. Binário: Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único caractere

AULA 13 Marketing de Serviços

AVALIAÇÃO DE CONDUTORES

Após essa disciplina você vai ficar convencido que a estatística tem enorme aplicação em diversas áreas.

SISTEMAS DE INFORMAÇÃO CONCEITOS

O que é Gerenciamento de Redes de Computadores? A gerência de redes de computadores consiste no desenvolvimento, integração e coordenação do

Engenharia de Requisitos

Conceitos básicos. Aplicações de banco de dados. Conceitos básicos (cont.) Dado: Um fato, alguma coisa sobre a qual uma inferência é baseada.


6 Modelo proposto: projeto de serviços dos sites de compras coletivas


Arquitetura física de um Data Warehouse

Sistemas Operacionais. Prof. André Y. Kusumoto

DATA WAREHOUSE. Introdução

Classificação de Imagens

Transcrição:

Muitos dados são coletados e armazenados Web data, e-commerce Compras em departamentos/ supermercados Bancos / Transações com cartão de crédito Computadores se tornaram baratos e mais potentes Pressão competitiva é forte Fornecer serviços melhores e personalizados como um diferencial (e.g. em CRM)

Dados coletados a enormes velocidades (GB/hora) Sensores remotos em satélites Telescópios sondando o céu Micro-arranjos gerando dados de expressão gênica Simulações científicas gerando terabytes de dados Técnicas tradicionais inviáveis para dados brutos Mineração de dados pode ajudar cientistas classificando e segmentando dados na Formulação de Hipóteses

Freqentemente h informaão!escondida" nos dados que não est prontamente evidente Analistas humanos podem levar semanas para descobrir informaão #til Muito dos dados não $ analisada nunca 4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 Total dados novos (TB) a partir de 1995 The Data Gap Número de analistas 1995 1996 1997 1998 1999 Prof. From: Júlio R. Grossman, Cesar Nievola C. Kamath, V. Kumar, Data Mining Data for Mining Scientific and Engineering Applications PPGIa - PUCPR

%$ Muitas definições Extração não-trivial de informação implícita, previamente desconhecida e potencialmente útil a partir dos dados Exploração & análise, por meios semiautomáticos ou automáticos, de grandes quantidades de dados a fim de descobrir padrões significativos

%& '$ O que não é Mineração de Dados? Buscar número de telefone em catálogo Perguntar a um motor de busca por informação sobre Amazon O que é Mineração de Dados? Certos sobrenomes são mais comuns em certas regiões dos EUA (O Brien, O Rurke, O Reilly na área de Boston) Agrupar documentos similares retornados por um motor de busca de acordo com o contexto (e.g. Amazon rainforest, Amazon.com)

%( Usa idéias de aprendizagem de máquina / IA, reconhecimento de padrões, estatística, e sistemas de bases de dados Técnicas tradicionais não são adequadas Quantidade de dados Alta dimensionalidade dos dados Natureza distribuída e heterogênea dos dados Estatística/ IA Min. Dados Aprendiz. Máquina Reconhecimento Padrões Sistemas BD

) Métodos Preditivos Usa algumas variáveis para prever valores desconhecidos ou futuros de outras variáveis Métodos Descritivos Encontra padrões compreensíveis por humanos para descrever os dados From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

) * Classificação [Preditiva] Agrupamento [Descritiva] Descoberta de Regras de Associação [Descritiva] Descoberta de Padrões Seqüenciais [Descritiva] Regressão [Preditiva] Detecção de Desvios [Preditiva]

+ Dado um conjunto de registros (conjunto de treinamento ) Cada registro contém um conjunto de atributos, um dos atributos é a classe. Encontrar um modelo para o atributo classe como uma função dos valores dos outros atributos. Objetivo: a registros previamente não-usados deve ser assinalada uma classe tão precisamente quanto possível. Um conjunto de testes é usado para determinar a precisão do modelo. Usualmente, o conjunto de dados é dividido em conjunto de treinamento e conjunto de testes, sendo o conjunto de treinamento usado para construir o modelo e o conjunto de testes usado para validá-lo.

10 10 +,-. categórico Tid Refund Marital Status categórico Taxable Income contínuo Cheat classe Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85K Yes No Single 75K? Yes Married 50K? No Married 150K? Yes Divorced 90K? No Single 40K? No Married 80K? Conj. Teste 9 No Married 75K No 10 No Single 90K Yes Conj. Trein. Classif. Modelo

+ /. 0 Marketing Direto Objetivo: Reduzir custo de propaganda escolhendo um conjunto de clientes que provavelmente comprarão um novo produto celular. Abordagem: Usar os dados de maneira similar ao exemplo anterior. Sabe-se quais clientes decidiram comprar o produto e quais não. Esta decisão {comprar, não-comprar} forma o atributo classe. Coletar várias informações demográficas, de estilo de vida, e de interação com a empresa relacionadas a todos os clientes. Tipo de negócio, onde eles ficam, quanto recebem, etc. Usar esta informação como atributos de entrada para treinar um modelo de um classificador. From [Berry & Linoff] Data Mining Techniques, 1997

+ /. 1 Detecção de Fraude Objetivo: Prever casos fraudulentos em transações de cartão de crédito. Abordagem: Usar transações de cartão de crédito e a informação sobre os clientes como atributos. Quando um cliente compra, o que ele compra, quão freqüentemente ele paga em dia, etc Rotular as transações passadas como transação do tipo fraude ou honesta. Isto forma o atributo classe. Treinar um modelo para a classe das transações. Usar este modelo para detectar fraude observando transações de cartão de crédito sobre uma conta.

+ /. 2 Insatisfação de clientes: Objetivo: Prever se um cliente tem propensão a migrar para um competidor. Abordagem: Usar registros detalhados de transações de cada um dos clientes passados e atuais, para encontrar atributos. Quão freqüentemente o cliente liga, para que setor ele liga, em que horário do dia ele liga mais, seu estado financeiro, estado civil, etc. Rotular o cliente como leal ou não-leal. Encontrar um modelo para a lealdade. From [Berry & Linoff] Data Mining Techniques, 1997

+ /. 3 Catálogo de Pesquisa do Firmamento Objetivo: Prever a classe (estrela ou galáxia) de objetos celestes, especialmente os visualmente muito fracos, baseado em imagens de pesquisa de telescópios (do Observatório Palomar). 3000 imagens com 23,040 x 23,040 pixels por imagem. Abordagem: Segmentar a imagem. Medir atributos da imagem (características) - 40 delas por objeto. Modelar a classe baseado nestas características. História de Sucesso: Encontrou 16 novos high red-shift quasars, alguns dos objetos mais distantes que são difíceis de encontrar! From [Fayyad, et.al.] Advances in Knowledge Discovery and Data Mining, 1996

+ - Cortesia: http://aps.umn.edu Inicial +, ( > Intermediário /: +*(8 +?:8 * Final 4 516781967(- + ( :; < (0=9

/(. Dado um conjunto de pontos de dados, cada um tendo um conjunto de atributos, e uma medida de similaridade entre eles, encontrar agrupamentos tais que Pontos de dados em um grupo são mais similares entre si. Pontos de dados em grupos diferentes são menos similares entre si. Medidas de Similaridade: Distância Euclidiana se os atributos são contínuos. Outras medidas dependentes do problema.

/(. Distâncias intra-grupos são minimizadas Distâncias inter-grupos são maximizadas

/(. /. 0 Segmentação de Mercado: Objetivo: subdividir um mercado em distintos subconjuntos de clientes em que cada subconjunto pode ser visto como um mercado-alvo a ser atingido com uma mistura de marketing distintos. Abordagem: Coletar diferentes atributos de clientes baseado em informação relacionada ao seu estilo e posição geográfica. Encontrar grupos de clientes similares. Medir a qualidade dos grupos observando padrões de compra dos clientes no mesmo grupo versus aqueles de diferentes grupos.

/(. /. 1 Agrupamento de Documentos: Objetivo: Encontrar grupos de documentos que são similares entre si baseado nos termos importantes que aparecem neles. Abordagem: Identificar termos que ocorrem com freqüência em cada documento. Formar uma medida de similaridade baseada na freqüência dos diferentes termos. Usá-la para agrupar. Ganho: Recuperação de Informações pode utilizar os grupos para relacionar um novo documento ou termo de pesquisa aos documentos agrupados.

/(. Pontos de Agrupamento: 3204 Artigos do Los Angeles Times. Medida de Similaridade: Quantas palavras são comuns nestes documentos (após alguma filtragem das palavras). +( ) /( > +,( @! A "!,.!#! B?!#

/(. CD=99 $ %&'(% ) * +&',-*.$/01 ( & +2 % 3 % 4 35 6-234 1 2 3 4 Grupos Descobertos Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Comm-DOWN,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOWN, Sun-DOWN Apple-Comp-DOWN,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, Computer-Assoc-DOWN,Circuit-City-DOWN, Compaq-DOWN, EMC-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN Fannie-Mae-DOWN,Fed-Home-Loan-DOWN, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlumberger-UP Grupo Industrial Technology1-DOWN Technology2-DOWN Financial-DOWN Oil-UP

:E(/ Dado um conjunto de registros, cada um dos quais contém certo número de itens de uma coleção; Produzir regras de dependência que predirão a ocorrência de um item baseado nas ocorrências de outros itens. ID Items 1 Pão, Refri, Leite 2 Cerveja, Pão 3 Cerveja, Refri, Fralda, Leite 4 Cerveja, Pão, Fralda, Leite 5 Refri, Fralda, Leite Regras Descobertas: FBGHFEG F>8BGHF+;G

:E(/ /. 0 Marketing e Promoção de Vendas: As regras descobertas tem o formato {Pão francês, } --> {Batata frita} Batata frita como conseqüente => Pode ser usada para determinar o que deve ser feito para incrementar as vendas. Pão francês no antecedente => Pode ser usado para determinar quais produtos seriam afetados se a empresa descontinuasse a venda de pão frances. Pão francês no antecedente E Batata frita no conseqüente => Pode ser usado para determinar quais produtos devem ser vendidos com Pão francês para promover a venda de Batatas fritas!

:E(/ /. 1 Gerenciamento de prateleira de Supermercado. Objetivo: Identificar itens que são comprados juntos por um número suficiente de clientes. Abordagem: Processar os dados coletados no ponto-de-venda com scanners de código de barras para encontrar dependências entre itens. Um regra clássica -- Se um cliente compra fraldas e leite, então ele provavelmente comprará cerveja. Portanto, não se surpreenda se você encontrar engradados de cerveja próximos às fraldas!

:E(/ /. 2 Gerenciamento de Inventário: Objetivo: Uma companhia de reparos de aparelhos domésticos quer antecipar a natureza dos reparos nos produtos de seus clientes e manter os veículos de serviço equipados com as partes certas para reduzir o número de visitas às casas dos clientes. Abordagem: Processar os dados sobre ferramentas e partes necessárias em reparos prévios em diferentes localizações de clientes e descobrir os padrões de coocorrência.

:7C Dado um conjunto de objetos, cada objeto associado com sua própria linha do tempo de eventos, encontrar regras que predigam fortes dependências seqüenciais entre diferentes eventos. (A B) (C) (D E) Regras são formadas descobrindo inicialmente padrões. As ocorrências de eventos nos padrões são governadas pelas restrições temporais. (A B) (C) (D E) <= xg >ng <= ws <= ms

:7C,-. Em logs de alarmes em telecomunicações, (Inverter_Problem Excessive_Line_Current) (Rectifier_Alarm) ==> (Fire_Alarm) Em seqüências de transações em pontos de venda, Livrarias: (Intro_To_Visual_C) (C++_Primer) ==> (Perl_for_dummies,Tcl_Tk) Loja de equipamentos de atletismo: (Shoes) (Racket, Racketball) ==> (Sports_Jacket)

E( Prevê um valor de uma dada variável continuamente valorada baseada nos valores de outras variáveis, assumindo um modelo de dependência linear ou nãolinear. Muito estudado nos campos da estatística e redes neurais. Exemplos: Prever quantidade de vendas de um novo produto baseado nos gastos de propaganda. Prever velocidade dos ventos como uma função da temperatura, umidade, pressão do ar, etc. Previsão de séries temporais de índices do mercado financeiro.

I/ Detectar desvios significantes do comportamento normal Aplicações: Detecção de Fraudes em Cartões de Créditos Detecção de Intrusão em Redes O tráfego de rede típico no nível da Universidade pode chegar a mais de 100 milhões de conexões por dia.

Escalabilidade Dimensionalidade Dados Complexos e Heterogêneos Qualidade dos Dados Propriedade e Distribuição dos Dados Preservação da Privacidade Fluxo de Dados