Introdução ao Data Mining (Mineração de Dados)

Documentos relacionados
Aprendizado de Máquina (Machine Learning)

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Agenda. Conceitos Iniciais. Modelos de aprendizado. Oportunidades e casos de uso. Ferramentas. Desafios

Informática Parte 19 Prof. Márcio Hunecke

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

VÁ ALÉM DO BI TRADICIONAL ADICIONANDO PODER ANALÍTICO... MARIANA FONTANEZI ESTATÍSTICA

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2

Inteligência nos Negócios (Business Inteligente)

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

Inteligência nos Negócios (Business Inteligente)

Evandro Deliberal Aula 01

Informática. Aprendizado de Máquina. Professor Márcio Hunecke.

Banco de Dados Data Mining Data Warehouse Big Data

Data Mining. Felipe E. Barletta Mendes. 21 de maio de 2008

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Metodologia Aplicada a Computação.

Data Mining. Rodrigo Leite Durães

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall

Mineração de Dados em Biologia Molecular

Data mining ganha espaço na estratégia empresarial

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

DATA MINING. Prof. Fulvio Cristofoli. Mineração De Dados.

Descoberta de Conhecimento em Bancos de Dados - KDD

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

SEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke

KDD E MINERAÇÃO DE DADOS

Aprendizado de Máquina (Machine Learning)

Inteligência nos Negócios (Business Inteligente)

Data Mining. O Processo de KDD. Mauricio Reis

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Profissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada

Aprendizagem de Máquinas

Sistemas de Informação. Alberto Felipe Friderichs Barros

Métodos para Classificação: - Naïve Bayes.

Inteligência Artificial

7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS

Inteligência nos Negócios (Business Inteligente)

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

Aprendizado de Máquina

Professora: Cira Souza Pitombo. Disciplina: Aplicações de técnicas de análise de dados

Professora: Susana Costa

A Computação e as Classificações da Ciência

Técnicas de mineração de dados

ESCOLA SECUNDÁRIA DE CALDAS DAS TAIPAS

REGRESSÃO E CORRELAÇÃO

Mineração de Dados em Biologia Molecular

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

Use a análise de marketing direto do SPSS Statistics para obter insight

Fundamentos de Inteligência Artificial [5COP099]

BANCO DE DADOS I. Prof. Luiz Antônio Vivacqua C. Meyer

ESPECIALIZAÇÃO A DISTÂNCIA EM. Ciência de Dados e Big Data Aplicada à Administração Tributária. Área de conhecimento: Tecnologia da Informação

Aula 01. Prof. Diemesleno Souza Carvalho

Sistemas de Informação

M08. Introdução a Técnicas de Data Mining DM

PLANIFICAÇÃO. 2007/2008 Matemática Aplicada às Ciências Sociais 1º ano. Blocos previstos

KDD E MINERAÇÃO DE DADOS

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Planificação Anual 11º Ano Matemática Aplicada às Ciências Sociais

étodos uméricos AJUSTE DE FUNÇÕES Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

Existem diversas formas de tratar dados e este conjunto de formas chama-se Data

Aprendizado de Máquina

Estatística Aplicada. Árvore de Decisão. Prof. Carlos Alberto Stechhahn PARTE II. Administração. p(a/b) = n(a B)/ n(b)

O que é preciso para ser Cientista de Dados?

Inteligência Artificial. Algoritmos Genéticos. Aula I Introdução

DEPARTAMENTO DE MATEMÁTICA E CIÊNCIAS EXPERIMENTAIS - Grupo 500. Planificação Anual /Critérios de avaliação. Disciplina: MACS 11º ano 2014/2015

CC-226 Introdução à Análise de Padrões

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

ANALYTICS: Dados e Atenção

Exame de Aprendizagem Automática

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Inteligência Artificial

Figura: Capa do Livro Hamburger, H., Richards, D. Logic and Language Models for Computer Science, Prentice Hall.

Uso de Índices na Otimização e Processamento de Consultas. Otimização e Processamento de Consultas. Otimização e Processamento de Consultas

KDD E MINERAÇÃO DE DADOS

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Utilização de Funções Estatísticas no Excel

Aprendizado de Máquina

Clustering: k-means e Agglomerative

Matriz de Referência da área de Matemática Ensino Fundamental

Classificadores. André Tavares da Silva.

Redes Neurais e Sistemas Fuzzy

Mineração de Dados em Biologia Molecular

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

5 Modelagem e análise dos resultados

Extração de Conhecimento & Mineração de Dados

DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias

Mineração de Dados - Introdução. Elaine Ribeiro de Faria UFU 2018

Sistemas de Informação e Decisão. Douglas Farias Cordeiro

ORGANIZAÇÃO E TRATAMENTO DE DADOS

Introdução a Sistemas Inteligentes

Aprendizagem Bayesiana

Transcrição:

Introdução ao Data Mining (Mineração de Dados) Quem é da área de TI, provavelmente já ouviu sobre Data Mining, mesmo que não saiba o que é. É uma das últimas modas relacionados à BD. Para se ter uma noção do que seja, pense no provérbio encontrar uma agulha no palheiro, onde a agulha é uma peça única de inteligência das necessidades de seu negócio e o palheiro é o Data Warehouse (DW) que foi construído ao longo do tempo. Através do uso de técnicas de análise estática automatizada, ou seja, o Data Mining, as empresas estão descobrindo as tendências e padrões de comportamento que antes passava despercebidos. Uma vez descoberta essa inteligência vital, ela pode ser usada de forma preditiva para uma variedade de coisas. Brian James, assistente técnico do time de basquete Toronto Raptors, usa técnicas de mineração de dados para preparar o sua contra o resto dos times da NBA. O programa de Business Inteligence (BI) e de Descoberta do Conhecimento do Banco de Montrealeal usa para obter insights sobre o comportamento dos clientes. Com isso, dá pra perceber a potencialidade deste conceito. O modelo de mineração que um algoritmo cria pode assumir vários formatos, incluindo: Um conjunto de regras que descreve como são agrupados produtos em uma transação. Uma árvore de decisão que prevê se um determinado cliente comprará um produto. Um modelo matemático que prevê as vendas. Um conjunto de clusters que descreve como os casos em um conjunto de dados estão relacionados.

Coleta de Dados Logicamente o primeiro passo de para construir um programa de Mineração de Dados é a Coleta de Dados. A maioria das empresas já realizam essas tarefas de coleta de dados, até certo ponto a chave aqui é para localizar os dados críticos para o seu negócio, refiná-lo e prepará-lo para o processo de Mineração de Dados. Se você está atualmente rastreando os dados do cliente em um SGBD modernos, as chances são que você está quase pronto. Selecionando o Algoritmo Neste ponto, você tem um armazem de dados. O próximo passo é escolher um ou mais algoritmos de mineração de dados para aplicar para o seu problema. Se você está apenas começando, é provavelmente uma boa ideia para experimentar várias técnicaspara se dar uma idéia de como eles funcionam. Sua escolha do algoritmo irádepender dos dados que você recolheu, o problema que você está tentando resolver e as ferramentas de computação que você tem disponível para você.vamos dar uma breve olhada em dois dos algoritmos mais popular: Regressão Esta técnica estática é a mais antiga e conhecida da comunidade que faz DM. Prevêem uma ou mais variáveis contínuas, como lucro ou perda, com base nos outros atributos do conjunto de dados. Basicamente, leva-se um conjunto de dados numéricos e desenvolve-se uma fórmula matemática que se ajusta aos dados. Quando está tudo pronto para prever os resultados do comportamento futuro, você simplesmente captura seus novos dados, conecta-o à fórmula desenvolvida e você tem uma previsão! A principal limitação desta técnica é que

ela só funciona bem com dados contínuos quantitativos (peso, velocidade ou idade). Se você está trabalhando com dados categóricos onde a ordem não é importante (como nome, cor ou sexo) é melhor escolher uma outra técnica. Classificação Trabalhando com dados categóricos ou uma mistura de dados numéricos contínuos e categóricos? A análise de Classificação pode atender às suas necessidades também. Prevêem uma ou mais variáveis discretas, com base nos outros atributos do conjunto de dados. Esta técnica é capaz de processar uma variedade maior de dados do que de regressão e está crescendo em popularidade. Você também vai encontrar saída que é muito mais fácil de interpretar. Em vez da fórmula matemática complicada dada pela técnica de Regressão, você receberá uma árvore de decisão que requer uma série de decisões binárias. Um algoritmo de classificação popular é o Algoritmo de Agrupamento K-Means. Existe o algoritmo de Classificação Bayesiana recebe este nome por ser baseado no teorema de probabilidade de Bayes. Tem como objetivo calcular a probabilidade que uma amostra desconhecida pertença a cada uma das classes possíveis, ou seja, predizer a classe mais provável. Este tipo de predição é chamada de classificação estatística, pois é completamente baseada em probabilidades. Segmentação Os algoritmos dividem dados em grupos ou clusters de itens que têm propriedades semelhantes. Usa técnicas iterativas para agrupar casos em um conjunto de dados em clusters que contenham características semelhantes. Esses agrupamentos são úteis para explorar dados, identificando anomalias nos dados e criar previsões.

Modelos de clustering identificam as relações em um conjunto de dados que não podem ser derivados de forma lógica através de observação casual. Por exemplo, você pode discernir logicamente que pessoas que se vão para o trabalho de bicicleta normalmente não moram longe do local onde trabalham. Porém, o algoritmo pode encontrar outras características dos usuários de bicicleta que não são tão óbvias. No diagrama a seguir, o cluster A representa dados sobre pessoas que pretendem ir de carro para o trabalho, enquanto o cluster B representa dados sobre pessoas que pretendem ir de bicicleta para o trabalho. O algoritmo de clustering difere dos demais algoritmos de mineração de dados, como o algoritmo Árvores de Decisão da Microsoft, porque você não precisa designar uma coluna previsível para poder criar um modelo de clustering. O algoritmo de clustering treina o modelo estritamente a partir das relações existentes nos dados e a partir dos clusters que o algoritmo identifica. Associação Encontram correlações entre atributos diferentes em um conjunto de dados. A aplicação mais comum desse tipo de algoritmo é para criar regras de associação, que podem ser usadas em uma análise de cesta básica. É um algoritmo de associação é útil para mecanismos de recomendação. Um mecanismo de recomendação recomenda produtos aos clientes com base nos itens que eles já compraram ou pelos quais mostraram interesse.

Modelos de associação são criados a partir de conjuntos de dados que contêm identificadores de casos individuais e de itens contidos em casos. Um grupo de itens de um caso é chamado de conjunto de itens. Um modelo de associação é formado por uma série de conjuntos de itens e regras que descrevem como esses itens são agrupados nos casos. As regras que o algoritmo identificar podem ser usadas para prever as prováveis compras futuras do cliente com base nos itens já existentes em seu carrinho de compras. O diagrama a seguir mostra uma série de regras em um conjunto de itens. Exemplo: A empresa Adventure Works Cycle está redesenhando a funcionalidade de seu site. A meta do redesenho é aumentar a venda direta de produtos. Como a empresa registra cada venda em um banco de dados transacional, pode usar o algoritmo Associação da Microsoft para identificar conjuntos de produtos que tendem a ser comprados juntos. Ela pode então prever outros itens pelos o quais o cliente poderia interessar-se com base nos itens que já estão no carrinho de compras. Espero que o texto tenha ajudado a entender a idéia do que seja o Data Mining. Abraços e até a próxima!