Data Mining. Rodrigo Leite Durães



Documentos relacionados
O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2

SBC - Sistemas Baseados em Conhecimento

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

SEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Inteligência nos Negócios (Business Inteligente)

Descoberta de Conhecimento em Bancos de Dados - KDD

Extração de Conhecimento & Mineração de Dados

MINERAÇÃO DE DADOS DATA MINING AGO/ TEN AV ZEDNIK

ANALYTICS: Dados e Atenção

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

Inteligência nos Negócios (Business Inteligente)

KDD E MINERAÇÃO DE DADOS

KDD E MINERAÇÃO DE DADOS:

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing

Arquitetura de um Ambiente de Data Warehousing

Data Mining. Rodrigo Leite Durães

DATA MINING. Prof. Fulvio Cristofoli. Mineração De Dados.

Metodologia de Desenvolvimento de Sistemas Informação

KDD, Mineração de Dados e Algoritmo Apriori

Inteligência Artificial

Data Mining. O Processo de KDD. Mauricio Reis

Universidade Federal do Paraná

Banco de Dados Data Mining Data Warehouse Big Data

Mineração de Dados em Biologia Molecular

Sistemas de Informações Contábeis e outros Sistemas de Informação do Ambiente Empresarial

Prof. Martius Vicente Rodriguez y Rodriguez, DSc.

Agenda. Conceitos Iniciais. Modelos de aprendizado. Oportunidades e casos de uso. Ferramentas. Desafios

Data Mining. Felipe E. Barletta Mendes. 21 de maio de 2008

VÁ ALÉM DO BI TRADICIONAL ADICIONANDO PODER ANALÍTICO... MARIANA FONTANEZI ESTATÍSTICA

Introdução ao Data Mining (Mineração de Dados)

Data Warehouse ETL. Rodrigo Leite Durães.

Business Intelligence (BI)

Introdução a Sistemas Inteligentes

Data Warehousing: Conceitos Básicos e Arquitetura

20/3/2012. Gerenciamento Estratégico de Dados. Gerenciamento Estratégico de Dados. Gerenciamento Estratégico de Dados. Prof. Luiz A.

Aplicações de Sistemas Inteligentes

Aprendizado de Máquina

Evandro Deliberal Aula 01

KDD E MINERAÇÃO DE DADOS

DATA MINING. Sistemas Financeiros. MIEGI (1º ano) Projeto FEUP Turma 5 - Grupo 3

Sistemas de Informação. Alberto Felipe Friderichs Barros

Negociação Comercial

Data Warehousing: Conceitos Básicos e Arquitetura

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

INFOIMAGEM Princípios. Essenciais do. Data Mining. Sergio Navega. Intelliwise Research and Training

Tópicos Especiais em Informática Fatec Indaiatuba

BCC390 - Monografia I

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio

Aula 03. Evandro Deliberal

Sumário. 1 Introdução 2 BD Orientado a Objetos 3 BD Objeto-Relacional 4 Noções Básicas de Data Warehouse 5 XML e BD XML. Motivação

BIOLOGIA COMPUTACIONAL. by

Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse. Fases para um Projeto de Data Warehouse

TECNOLOGIA DE INFORMAC A O APLICADAS

DATA WAREHOUSE. Prof. Fulvio Cristofoli. Armazenagem De Dados.

Descoberta de Conhecimento em Bancos de Dados - KDD. NeuroTech Ltda.

Apresentação. Rodrigo Leite Durães

MINERAÇÃO DE DADOS EDUCACIONAIS: UM ESTUDO DE CASO APLICADO AO PROCESSO SELETIVO DO IFSULDEMINAS CÂMPUS MUZAMBINHO

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

Sistemas de Informação Executiva - SIE

Inteligência Artificial

Estudo de Técnicas e Utilização de Mineração de Dados em uma Base de Dados da Saúde Pública

Tecnologia RFID aplicada a agrocomputação: Um estudo de caso utilizando descoberta de conhecimento em base de dados

Introdução ao Data Mining. Sumário

Sistemas de Informação

Banco de Dados. Disciplina: Teoria e Fundamentos de Sistemas de Informação. Professor: Thiago Silva Prates

A Computação e as Classificações da Ciência

Aula 01. Prof. Diemesleno Souza Carvalho

Informática Parte 19 Prof. Márcio Hunecke

Data Mining: Conceitos e Técnicas

DATA MINING DATA MINING ICA ELÉTRICA PUC-RIO KDD KNOWLEDGE DISCOVERY DATA BASE POSICIONAMENTO

Aprendizado de Máquina (Machine Learning)

Minerando Padrões Sequenciais para Bases de Dados de Lojas Virtuais

Sistemas de Apoio à Tomada de Decisão. Prof a. Dr a. Silvia Inês Dallavalle de Pádua

Inteligência do Negócio

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

ADMINISTRAÇÃO DE SISTEMAS DE INFORMAÇÃO. Lista de Exercícios 05. Luiz Leão

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

Sistemas de Apoio a Decisão

O que é preciso para ser Cientista de Dados?

Identifique um número! MINERAÇÃO DE DADOS E TEXTOS MOTIVAÇÃO. Observe a imagem... SCC-230 Inteligência Artificial

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos

Roteiro. PCC142 / BCC444 - Mineração de Dados. Por que pré-processar os dados? Introdução. Limpeza de Dados

Conceitos Básicos. Processamento Analítico de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri Prof. Dr. Ricardo Rodrigues Ciferri

SCC0173 Mineração de Dados Biológicos

Microsoft Innovation Center

Aprendizado de Máquina (Machine Learning)

Mineração de Dados em Biologia Molecular

Introdução à teoria de Data Warehouse. Prof. Rodrigo Leite Durães

OLAP. Rodrigo Leite Durães.

Transcrição:

Rodrigo Leite Durães rodrigo_l_d@yahoo.com.br

Processo de mineração de dados e descoberta de informações relevantes em grandes volumes de dados. "... processo não-trivial de identificar, em dados, padrões válidos, novos, potencialmente úteis e ultimamente compreensíveis (Fayyad et al. 1996).

O problema dessa abordagem é que além da possibilidade de garimpagem de relacionamento inúteis, o número de correlações possíveis de serem obtidas é muito grande, o que impede a análise de cada uma delas, exigindo, dessa forma, algoritmos inteligentes que possam selecionar os padrões mais relevantes para certas aplicações. É usado quando é necessário análises complexas, tendências escondidas, inferências, detecções de fraude, perfil de comportamento, análise de grau de fidelização, formulações e verificações de hipóteses colocadas pela direção da empresa.

As ferramentas de Mining estão muito relacionadas com o tratamento especial da informação, por isso, um subconjunto de dados extraídos do Data Warehouse e de Data Marts será o alvo dessas análises mais sofisticadas. Dependendo da complexidade do projeto pode ser necessário a presença de um estatístico,, com conhecimento em técnicas e algoritmos estatísticos, por exemplo, árvores de decisão, análises de conglomerados, análise de regressão, métodos preditivos com séries temporais e o recurso matemático/computacional de redes neurais.

O Data Mining ainda requer uma interação muito forte com analistas humanos, que são, em última instância, os principais responsáveis pela determinação do valor dos padrões encontrados. Além disso, o direcionamento da exploração de dados é também tarefa fundamentalmente confiada a analistas humanos, um aspecto que não pode ser desprezado em nenhum projeto que queira ser bem sucedido.

Para uma mineração bem sucedida, é preciso: a partir de fontes de dados (bancos de dados, relatórios, logs de acesso, transações, etc.) efetuar uma limpeza (consistência, preenchimento de informações, remoção de ruído e redundâncias, etc). Disto nascem os repositórios organizados (Data Marts e Data Warehouses), que já são úteis para outros fins. Mas é a partir deles que se pode selecionar algumas colunas para atravessarem o processo de mineração.

DW / DM Conjunto total de dados Outros dados Internos Outros dados Externos Dado preparado

De forma interativa e freqüentemente usando visualização gráfica, um analista refina e conduz o processo até que valiosos padrões apareçam. Observe que todo esse processo parece indicar uma hierarquia, algo que começa em instâncias elementares (embora volumosas) e terminam em um ponto relativamente concentrado, mas muito valioso. Encontrar padrões requer que os dados brutos sejam sistematicamente "simplificados" de forma a desconsiderar aquilo que é específico e privilegiar aquilo que é genérico. Faz-se isso porque não é necessário muito conhecimento a extrair de eventos isolados.

Uma loja de sua rede que tenha vendido a um cliente em particular uma quantidade impressionante de um determinado produto em uma única data pode apenas significar que esse cliente em particular procurava grande quantidade desse produto naquele exato momento, mas isso provavelmente não indica nenhuma tendência de mercado. Que é o contrário as correlações existentes entre a venda de fraudas junto com cervejas, salsichas junto com catchup, ou até mesmo CD de music com remédio para o fígado.

Não há como explorar uma informação em particular para que no futuro a empresa lucre mais. Apenas com conhecimento genérico é que isto pode ser obtido. Por essa razão devemos, em Data Mining, controlar nossa vontade de "não perder dados". Para que o processo dê certo, é necessário sim desprezar os eventos particulares para só manter aquilo que é genérico.

OLAP x Data Mining: OLAP ajuda as organizações a descobrir as medidas, por exemplo, descobrir que as vendas caíram, produtividade melhorou, qual está sendo o tempo de resposta de um serviço, o estoque disponível. Simplesmente OLAP nos diz O que aconteceu. Data Mining ajuda as organizações a descobrir o porque isso aconteceu, além de poder ser usado para prever, ou seja, nos dizer O que vai acontecer no futuro, esses resultados são gerados através da percepção de padrões de dados disponíveis dentro e fora da organização.

Exemplos: Prever resposta a campanhas de marketing; Identificar associações entre clientes por características demográficas; Identificar clientes leais; Prever a aceitação de novos tipos de seguros por perfil de consumidor.