Introdução à Descoberta de Conhecimento e Mineração de Dados. Rodrigo Leite Durães.



Documentos relacionados
Aula 02: Conceitos Fundamentais

Introdução à Descoberta de. Dados. Professor Celso A A Kaestner, Dr. Eng.

SBC - Sistemas Baseados em Conhecimento

Data Mining. Rodrigo Leite Durães

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Descoberta de Conhecimento em Bancos de Dados - KDD

Data Mining. Rodrigo Leite Durães

Data Mining: Conceitos e Técnicas

KDD, Mineração de Dados e Algoritmo Apriori

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

KDD E MINERAÇÃO DE DADOS

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Aula 02. Evandro Deliberal

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Agenda. Conceitos Iniciais. Modelos de aprendizado. Oportunidades e casos de uso. Ferramentas. Desafios

Data Mining. O Processo de KDD. Mauricio Reis

Extração de Conhecimento & Mineração de Dados

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

KDD E MINERAÇÃO DE DADOS:

Descoberta de Conhecimento em Bancos de Dados - KDD. NeuroTech Ltda.

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

KDD E MINERAÇÃO DE DADOS

Metodologia de Desenvolvimento de Sistemas Informação

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

Arquitetura de um Ambiente de Data Warehousing

Descoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes

Evandro Deliberal Aula 01

Introdução ao Data Mining. Sumário

CC-226 Introdução à Análise de Padrões

Arquitetura de um Ambiente de Data Warehousing

Aprendizado de Máquina (Machine Learning)

Estudo de Técnicas e Utilização de Mineração de Dados em uma Base de Dados da Saúde Pública

Fundamentos de sistemas de informação

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Turma Especialização Pós GETIC III - Gestão Tecnologia da Informação e Comunicação.

Prof. Martius Vicente Rodriguez y Rodriguez, DSc.

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall

Business Intelligence (BI)

Eduardo Ogasawara rj.br

Data Analytics Prevenção e deteção de Fraude

Apresentação. Rodrigo Leite Durães

Data Warehousing: Conceitos Básicos e Arquitetura

Sistemas de Apoio à Decisão

DATA MINING. Prof. Fulvio Cristofoli. Mineração De Dados.

Aula 03. Evandro Deliberal

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

Inteligência nos Negócios (Business Inteligente)

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

Arquitetura de um Ambiente de Data Warehousing

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Sistemas de Apoio à Decisão

Apresentação da Disciplina

Banco de Dados Data Mining Data Warehouse Big Data

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Passos para o Aprendizado de Máquina com Pentaho. Prof. Marcos Vinicius Fidelis UTFPR/UEPG

B A N C O D E D A D O S G E O G R Á F I C O S M A R C O N I D E A R R U D A P E R E I R A

Introdução. descrever os tipos de interfaces e linguagens oferecidas por um SGBD. mostrar o ambiente de programas dos SGBD s

ANALYTICS: Dados e Atenção

2011 Profits Consulting. Inteligência Computacional

BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM. Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP.

Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani

BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM. Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP.

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

Conceitos de Sistemas de Banco de Dados INE 5323

Inteligência do Negócio

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

Minerando regras de associação

Aplicações de Sistemas Inteligentes

ESPECIALIZAÇÃO A DISTÂNCIA EM. Ciência de Dados e Big Data Aplicada à Administração Tributária. Área de conhecimento: Tecnologia da Informação

Clodoaldo A. M. Lima, Sarajane M. Peres. 6 de agosto de 2015

Descoberta de conhecimento em redes sociais e bases de dados públicas

Formação de DBAs SQL Server 2008 Parte 1: Introdução

Unidade 1 Introdução

Introdução ao Data Mining (Mineração de Dados)

SEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke

Aprendizado de Máquina

PÓS-GRADUAÇÃO LATO SENSU. Curso: Banco de Dados. Disciplina: Laboratório de Data Warehouse e Business Intelligence Professor: Fernando Zaidan

Inteligência Artificial

19 Congresso de Iniciação Científica INCLUSÃO DE UM NOVO ALGORITMO DE CLASSIFICAÇÃO NA FERRAMENTA KIRA

Governança e Big Data. Celso Poderoso

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Aula 01. Prof. Diemesleno Souza Carvalho

Novas abordagens no sistema de análise de dados em mastologia

Data Warehouse ETL. Rodrigo Leite Durães.

Tópicos Especiais em Informática Fatec Indaiatuba

Fundamentos de Mineração de Dados

Data Warehousing: Conceitos Básicos e Arquitetura

Metodologia CRISP-DM. NeuroTech Ltda.

Bancos de Dados IV. Arquiteturas. Rogério Costa

MINERAÇÃO DE DADOS 1

Dedicados em exclusivo à área analítica desde 1994, somos o parceiro ideal para a realização de projetos de análise de dados.

O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2

Aprendizagem de Máquina

Roteiro da apresentação

Transcrição:

Introdução à Descoberta de Conhecimento e Mineração de Dados Rodrigo Leite Durães. 1

Introdução 2

3 Introdução: por que Data Mining? O problema da explosão da quantidade de dados (data explosion): Ferramentas de armazenamento automático e a maturidade da tecnologia de banco de dados levaram à criação de imensas massas de dados em data bases, data warehouses e em outros repositórios.

4 Introdução: por que Data Mining? Estamos nos afogando em dados, mas sedentos por informação!

5 Introdução: por que Data Mining? A solução: data warehousing e data mining: Data warehousing e on-line analytical processing (OLAP); Extração de conhecimentos interessantes (regras, regularidades, padrões, restrições) a partir das grandes bases de dados.

Introdução: evolução da tecnologia dos BD 1960s: Coleta de dados, criação de bancos de dados, IMS e DBMS em rede; 1970s: Modelo de dados relacional, implementação de DBMS relacionais; 1980s: RDBMS, modelos de dados avançados (relacional estendido, OO, dedutivo, etc.) e DBMS orientados à aplicação (espaciais, científicos, para engenharia, etc.) 1990s 2000s: Data mining and data warehousing, DBMS multimídia e Web DB. 6

7 Introdução: o que é data mining? Data mining (descoberta de conhecimento em BD): Extração de padrões de informação de interesse (nãotrivial, implícita, previamente desconhecida e potencialmente útil) de grandes DBs. Conceitos relacionados: Descoberta de conhecimento em BD (KDD), extração de conhecimento, análise de padrões em dados, information harvesting, business intelligence, etc. O que não é data mining? Processamento dedutivo de consultas; Sistemas especialistas e pequenos programas estatísticos e de aprendizagem de máquina.

Introdução: potenciais aplicações Análise de DB e suporte à decisão: Análise e gerenciamento de mercado: Marketing dirigido, gerenciamento de relações com consumidores, análise de cestas de mercado, vendas cruzadas, segmentação de mercado; Análise e gerenciamento de risco: Previsões, retenção de clientes, controle de qualidade, análise de competitividade; Análise e gerenciamento de fraudes. Outras aplicações: Mineração de textos (documentos, emails, news) e Web mining. Resposta inteligente a consultas. 8

Análise e gerenciamento de mercado Onde estão as fontes de dados para análise? Transações com cartões de crédito, cartões de fidelidade, cupons de desconto, requisições de clientes e estudos sobre o estilo de vida dos clientes. Marketing dirigido: Encontra grupos de clientes modelo que compartilham as mesma características: interesses, salário, hábitos de consumo, etc. Determinação de padrões de compra ao longo do tempo: Conversão de conta simples para conjunta, casamento, etc. Análise de vendas cruzadas: Associações e correlações entre vendas de produtos; Predição baseada na informação de associações. 9

Análise e gerenciamento de mercado Perfil do consumidor: data mining pode informar que tipos de consumidores compram quais produtos (agrupamento ou classificação); Identificação dos requisitos dos clientes: Identifcação dos melhores produtos para os diferentes clientes; Uso de predição para encontrar quais fatores atrairão os consumidores; Fornecimento de informação sumarizada: Relatórios multidimensionais sumarizados; Informações estatísticas sumarizadas (tendência central e variação dos dados) 10

Análise corporativa e gerenciamento de risco Planejamento financeiro e avaliação de crédito: Análise e previsão de fluxo de caixa; Análise contingente para avaliação de crédito; Análise seccional e temporal (razão financeira, análise de tendência, etc.) Planejamento de recursos: Sumarização e comparação de recursos e gastos; Competição: Monitoramento de competidores e mercado; Agrupamento de clientes em classes e procedimentos de preços baseados em classes; Estratégias para fixação de preços em mercado competitivo. 11

Detecção e gerenciamento de fraudes Aplicações: Amplamente utilizado em serviços de cartões de crédito, telefonia celular, convênios de saúde, etc. Abordagem: Uso de dados históricos para construir modelos do comportamento fraudulento e uso de data mining para identificar instâncias similares; Exemplos: Seguros de automóveis: detectar um grupo de pessoas que forjam acidentes para ganhar o seguro; Lavagem de dinheiro: detecção de transações suspeitas de dinheiro (US Treasury's Financial Crimes Enforcement Network) Seguros médicos: detecção de pacientes profissionais e grupos de doutores coniventes. 12

Detecção e gerenciamento de fraudes Detecção de tratamento médico inapropriado: A Australian Health Insurance Commission identificou que em muitos casos exames desnecessários eram solicitados (economia de AD$1milhão /ano). Detecção de fraudes telefônicas: Modelo de chamadas telefônicas: destino da chamada, duração, horário e dia da semana; análise de padrões para detectar desvios; A British Telecom identificou grupos de clientes com chamadas freqüentes dentro do grupo, especialmente em telefones celulares, e detectou uma fraude milionária. Venda a varejo: Analistas estimam que 38% das perdas no varejo são devidas a empregados desonestos. 13

Outras aplicações Esportes: IBM Advanced Scout analisou as estatísticas dos jogos da NBA (cestas, bloqueios, assistências, faltas, etc) para auxiliar os times do New York Knicks e do Miami Heat; Astronomia: JPL e o Observatório do Monte Palomar descobriram 22 quasars com o auxílio de data mining; Ajuda o uso da Internet: IBM Surf-Aid aplica algoritmos de data mining a logs de acessos Web à páginas de vendas, de forma a descobrir preferências e comportamentos dos clientes e efetuar análise da efetividade do Web marketing, melhorar a organização do site Web, etc. 14

KDD e DM 15

KDD e Data Mining Data mining é o coração do processo KDD Data Mining Pattern Evaluation Task-relevant Data Data Warehouse Selection Data Cleaning Data Integration Databases 16

17 Passos do processo de KDD Estudo sobre o domínio de aplicação: Conhecimento relevante a priori e metas da aplicação; Criação de um dataset alvo: Seleção de dados; Limpeza e pré-processamento dos dados: Pode corresponder a 60 % do esforço; Redução e transformação dos dados: Encontrar atributos relevantes, redução de dimensionalidade, representação de invariantes;

18 Passos do processo de KDD Escolha da função de data mining: Sumarização, classificação, regressão, associação, regressão, agrupamento... Escolha do algoritmo de mineração: Busca aos padrões de interesse; Avaliação dos padrões e apresentação do conhecimento: Visualização, transformação, remoção de redundâncias, etc. Uso do conhecimento descoberto.

Data Mining e Business Intelligence Increasing potential to support business decisions Making Decisions End User Data Presentation Visualization Techniques Data Mining Information Discovery Data Exploration Statistical Analysis, Querying and Reporting Business Analyst Data Analyst Data Warehouses / Data Marts OLAP, MDA Data Sources Paper, Files, Information Providers, Database Systems, OLTP 19 DBA

20 Arquitetura de um sistema de DM típico Graphical user interface Pattern evaluation Data mining engine Database or data warehouse server Data cleaning & data integration Filtering Knowledgebase Databases Data Warehouse

21 DM: em que dados? DB relacionais: Data warehouses; DB tradicionais; DB de transações; DB avançados e repositórios de informação; DB Orientados a Objeto e DB Objeto-Relacionais; DB espaciais; Séries temporais e dados temporais; DB legados e heterogêneos; A WWW...

DM: funcionalidades Descrição de conceitos: caracterização e discriminação: Generalização, sumarização, contraste das características dos dados, e.g., regiões secas e úmidas; Associação (correlação e causalidade) Associação multi-dimensional x uni-dimensional; idade(x, 20..29 )^ganhos(x, 20..29K ) => compra (X, PC ) [suporte = 2%, confiança = 60%] 22

DM: funcionalidades Classificação e predição: Encontrar modelos (funções) que descrevem e distinguem classes ou conceitos para futura predição; Ex: classificar países conforme o clima ou carros conforme o consumo; Apresentação: árvore de decisão, regra de classificação, rede neural; Predição: de valor numérico desconhecido ou perdido; 23

DM: funcionalidades Agrupamento (clustering): O rótulo (nome) da classe é desconhecido: devese agrupar os dados para formar classes; Ex: agrupamento de casas para encontrar padrões de distribuição; O agrupamento é baseado na maximização da similaridade intra-classe e minimização da similaridade inter-classes. 24

DM: funcionalidades Análise de desvios (outlier analysis): Desvio (outlier): objeto que não está em conformidade com o comportamento geral dos dados; Pode ser considerado como ruído ou exceção mas é útil no caso da detecção de fraudes, análise de eventos raros, etc. Análise de tendências e evolução: Tendência e desvio: análise de regressão DM seqüencial, análise de periodicidade; Análise baseada em similaridade; Outras análises estatísticas e de reconhecimento de padrões. 25

Todos os padrões descobertos são interessantes? Um sistema de DM pode gerar milhares de padrões, nem todos interessantes; Abordagem sugerida: centrada no usuário, baseada em consultas, dirigindo a mineração; Medidas do grau de interesse: Um padrão é interessante se for facilmente compreendido, válido no conjunto de dados novo / de teste com certo grau de certeza, potencialmente útil e anteriormente desconhecido, ou validando alguma hipótese que se deseja confirmar; 26

Todos os padrões descobertos são interessantes? Medidas de interesse objetivas e subjetivas: Objetivas: baseadas em estatísticas e na estrutura doa padrões, e.g., suporte, confiança; Subjetivas: baseadas na crença do usuário nos dados, e.g., novidade, não-expectativa, etc. 27

Todos os padrões interessantes são encontrados? Completude: encontrar todos os padrões interessantes: O sistema pode encontrar todos os padrões interessantes? Associação x classificação x agrupamento. Otimização: busca apenas dos padrões interessantes: O sistema pode encontrar somente padrões interessantes? Abordagens: Encontrar todos os padrões e descartar (filtrar) os não interessantes; Gerar apenas padrões interessantes: otimização de consultas de mineração. 28

29 DM: um campo multidisciplinar Database Technology Statistics Machine Learning Data Mining Visualization Information Science Other Disciplines

DM: esquemas de classificação Funcionalidade geral: DM descritivo; DM preditivo. Visões diferentes, classificações diferentes: Tipos de DB a serem minerados; Tipos de conhecimentos a serem descobertos; Técnicas a serem utilizadas; Tipos de aplicações alvo. 30

Uma visão multidimensional da classificação de DM DB a serem minerados: DB relacional, transacional, OO, OR, ativo, espacial, sérietemporal, textual, multimídia, herdado, heterogêneo, Web... Conhecimento a ser minerado: Caracterização, agrupamento, associação, classificação, discriminação, tendência, desvios... Funções integradas e mineração em níveis múltiplos; Técnicas utilizadas: Orientada à DB, data warehouse (OLAP), aprendizagem de máquina (ML), estatística, visualização... Aplicações alvo: Varejo, telecomunicações, fraudes, DNA mining, Web mining... 31

OLAP mining: uma integração de data warehousing e DM Acoplamento dos sistemas de DM, DBMS e data warehouse; Sem acoplamento, fracamente acoplados, semi-acoplados, acoplados; On-line analytical mining (OLAM): Integração das tecnologias de OLAP e DM; Mineração interativa e conhecimento multi-níveis: Necessidade de minerar conhecimento e padrões em diferentes níveis de abstração utilizando drilling / rolling, etc. Integração de múltiplas funções de mineração: Classificação caracterizada, primeiro agrupamento e depois associação. 32

Mining query OLAM Engine Uma arquitetura OLAM User GUI API Data Cube API Mining result OLAP Engine Layer4 User Interface Layer3 OLAP/OLAM Filtering&Integration Databases MDDB Database API Data cleaning Data integration Meta Data Filtering Data Warehouse 33 Layer2 MDDB Layer1 Data Repository

Pontos centrais em DM Metodologia de mineração e interação com o usuário: Mineração de diferentes tipos de conhecimento nas DB; Mineração interativa em vários níveis de abstração; Incorporação de conhecimento de fundo (background knowledge); Linguagens de consulta para DM e DM ad-hoc; Visualização e apresentação dos resultados de DM; Manuseio de dados incompletos e de ruídos; Avaliação dos padrões: o problema do interesse. Performance e escalabilidade: Eficiência e escalabilidade dos algoritmos de DM; Métodos de DM paralelo, distribuído e incremental. 34

Pontos centrais em DM Pontos relacionados à diversidade de tipos de dados: Manuseio de dados relacionais e complexos; Mineração de fluxos de informação de DB heterogêneas e de sistemas de informação globais (Web). Pontos relacionados às aplicações e impactos sociais: Aplicações de descoberta de conhecimento: Ferramentas de DM para domínios específicos; Resposta inteligente a consultas; Controle de processos e processo decisório. Integração do conhecimento descoberto ao conhecimento existente: o problema da fusão de conhecimentos; Proteção de dados, segurança, integração e privacidade. 35

Sumário Data mining: descoberta de padrões interessantes em grandes quantidades de dados; DM é uma evolução natural da tecnologia de DB, com grande número de possíveis aplicações; O processo de KDD inclui a limpeza, integração, seleção e transformação dos dados, data mining, avaliação dos padrões e apresentação do conhecimento; A mineração pode ser executada em vários repositórios de informação; Funcionalidades do DM: caracterização, discriminação, associação, classificação, agrupamento, desvios, análise de tendências, etc. Classificação dos sistemas de DM; Pontos centrais em DM. 36

Referências P. Adriaans, D. Zantinge. Data Mining. Addison-Wesley, 1996. U. M. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press, 1996. J. Han and M. Kamber. Data Mining: Concepts and Techniques. Morgan Kaufmann, 2000. A. Berson, S.J. Schimdt. Data Warehousing, Data Mining & OLAP. McGraw-Hill, 1997. G. Piatetsky-Shapiro and W. J. Frawley. Knowledge Discovery in Databases. AAAI/MIT Press, 1991. 37