Prof. Daniela Barreiro Claro

Documentos relacionados
Extração de Conhecimento & Mineração de Dados

Aprendizado de Máquina (Machine Learning)

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Aprendizado de Máquina (Machine Learning)

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

KDD, Mineração de Dados e Algoritmo Apriori

KDD E MINERAÇÃO DE DADOS

Descoberta de Conhecimento em Bancos de Dados - KDD

INSTITUTO TECNOLÓGICO DE AERONÁUTICA DIVISÃO DE ENGENHARIA ELETRÔNICA LABORATÓRIO DE GUERRA ELETRÔNICA

SBC - Sistemas Baseados em Conhecimento

Integração de Mineração de Dados com SGBD Detecção de Agrupamentos

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

MINERAÇÃO DE DADOS APLICADA. Pedro Henrique Bragioni Las Casas

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall

Clustering: K-means and Aglomerative


Data Mining. O Processo de KDD. Mauricio Reis

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Aprendizado de Máquina (Machine Learning)

Extração de Conhecimento & Mineração de Dados

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

KDD E MINERAÇÃO DE DADOS

Data Mining: Conceitos e Técnicas

Redes Neurais (Inteligência Artificial)

Aprendizado de Máquina. Combinando Classificadores

Aprendizado de Máquina (Machine Learning)

Aula 02: Conceitos Fundamentais

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Exame de Aprendizagem Automática

Inteligência Artificial

Exame de Aprendizagem Automática

Metodologia Aplicada a Computação.

Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Mineração de Dados Aplicada no Contexto Educacional

INF 1771 Inteligência Artificial

MINERAÇÃO DE DADOS. Thiago Marzagão CLUSTERIZAÇÃO. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 9

Redes Neurais (Inteligência Artificial)

INF 1771 Inteligência Artificial

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING Asterio K. Tanaka

Mineração de padrões frequentes

SCC0173 Mineração de Dados Biológicos

SCC0173 Mineração de Dados Biológicos

Arquitetura de um Ambiente de Data Warehousing

4 Sistemas de Equações Lineares

Descoberta de conhecimento em redes sociais e bases de dados públicas

Otimização Combinatória - Parte 4

Roteiro. PCC142 / BCC444 - Mineração de Dados. Por que pré-processar os dados? Introdução. Limpeza de Dados

MB 756 PESQUISA OPERACIONAL APLICADA À PRODUÇÃO. Professor: Rodrigo A. Scarpel

E-Faces - Um classificador capaz de analisar imagens e classificá-las como faces ou não faces utilizando o método Eigenfaces

Tópicos Avançados em IA. Prof. Eduardo R. Hruschka

Estatística e Modelos Probabilísticos - COE241

Consultas por Similaridade em Domínios de Dados Complexos

Estatística e Modelos Probabilísticos - COE241

Les-0773: ESTATÍSTICA APLICADA III ANÁLISE DE AGRUPAMENTO. Junho de 2017

UTFPR - Universidade Tecnológica Federal do Paraná. Processamento e otimização de consultas

Aprendizagem de Máquina

Espaços Vectoriais. Espaços Vectoriais

Reconhecimento de Padrões

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Otimização da Paleta de Cores

Introdução ao Data Mining (Mineração de Dados)

Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos

Tabelas Hash. informação, a partir do conhecimento de sua chave. Hashing é uma maneira de organizar dados que:

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

Transcrição:

O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2

Processo de Descoberta do Conhecimento utilizando os dados armazenados Segundo Fayyad 1996, KDD é: The nontrivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data KDD envolve algumas etapas: Seleção, pré-processamento, transformação, interpretação/avaliação e conhecimento 3

4

1. Conhecimento do dominio 2. Criação de um conjunto de dados 3. Pré-Processamento e Transformação 4. Escolha da Técnica de DM 5. Escolha do algoritmo de DM 6. Interpretação e avaliação dos padrões encontrados 7. Descoberta do conhecimento 5

Algumas etapas do KDD podem ser visualizadas como um Data Warehouse (DW) 6

Tres macros etapas Pre- Processamento Data Cleaning Data Integration Data Transformation Data Reduction Data Mining Técnicas de MD Algoritmos de MD Pos-Processamento Análise e Avaliação dos padrões encontrados 7

Os dados do mundo real, normalmente tem as seguintes características: Incompleto Faltam valores de atributos, atributos são agregados Errados Contém erros; atributos com valores não esperados Inconsistentes Contem discrepâncias entre os itens de dados; alguns atributos que representam um conceito, podem ter nomes distintos em bases distintas. Grande massa de dados Grande número de dados torna o processo de mineração muito lento 8

Na etapa de pré-processamento pode-se evidenciar 4 fases: Data Cleaning Limpar os dados Completar os dados que estão faltando Resolve inconsistencias Suaviza os erros Elimina ou minimiza as discrepancias entre os dados Se os dados estão sujos, consequentemente os resultados obtidos não serão confiáveis. 9

Data Integration Integra os dados de diversas bases, cubos de dados, arquivos, etc Alguns atributos que representam um conceito podem ter nomes distintos em bases distintas Ex. IdCliente, ClienteID, Cli_ID, Alguns atributos podem ser inferidos por outros Ex. Salário annual, quantidade total Muitas vezes o processo de integração gera redundâncias. Nestes casos, a fase de Data Cleaning deve ser reexecutada para eliminar as redundâncias geradas por esta fase 10

Data Transformation Esta fase envolve dois procedimentos principais Agregação Combinação de dois ou mais objetos em um único Ex. Agregar os 365 dias em 12 meses Mudança de escala Conjunto de dados menores requerem menos memoria e tempo de processamento Quantidades agregadas, como médias e totais tem menos variabilidade do que objetos individuais Desvantagem Perda de detalhes interessantes 11

Data Transformation Normalização ou padronização Conjunto inteiro de valores tem uma determinada propriedade Se variaveis diferentes devem ser combinadas, é necessário transformar para evitar que valores grandes dominem os resultados Ex. Duas variáveis: idade e renda Diferença dos valores da variável renda é muito maior (milhares de dolares) que os valores referentes à idade (menos de 130) 12

Data Reduction Reduz a representação dos dados em termos de volume, ainda que produza o mesmo resultado analitico (ou similar). Estratégias Agregaçao construção de um cubo de dados Selecao de atributos eliminação de atributos irrelevantes por meio de uma análise de correlação Redução de dimensão Discretização dos dados 13

Data Reduction Redução de dimensão Dimensão considera o numero de atributos Pode eliminar características irrelevantes e reduzir o ruído Pode gerar um modelo mais compreensível Pode reduzir os dados ou muitas vezes examiná-los aos pares ou aos trios. Muitas vezes é usado para a junçao de atributos gerando novos atributos, ou seja, uma combinação de atributo antigos Discretização dos dados Transformação de um atributo continuo em um atributo categorizado (discretização) ou em atributos binários(binarização) 14

É uma das etapas do processo de KDD Dois macro objetivos Prediction Description Prediction Algumas variáveis ou atributos em um BD que prediz valores de variáveis futuras ou não conhecidas Description Descoberta de padrões que descrevem os dados 15

Data Mining Prediction Description Classification Regression Clustering Summarization Association 16

Analisa um conjunto de dados de treinamento (i.e. a classe resultado é conhecida) Constrói uma árvore de decisão para cada classe baseada nas características dos dados Regras de classificação podem ser utilizadas para: Classificar dados futuros Desenvolver um melhor entendimento das classes na base de dados 17

Consiste em 4 etapas: 1. Divisão dos dados de treinamento e dos dados de teste 2. Analise da escolha do atributo de classificação Verifica os atributos mais relevantes 3. Constrói a árvore de classificação (decision tree) 4. Testa a eficiência da classificação usando o conjunto de dados de teste 18

19

20

Representa uma função que prediz um número Pode-se prever a altura de uma criança dada a sua idade por meio do algoritmo de regressão Regressão linear é a mais simples de utilização Exemplos de algoritmos GLM _ Generalized Linear Model Baseado em técnica estatística SVM Support Vector Machines Suporta regressão linear e não-linear 21

Mapear o dado para uma das categorias das classes (cluster/grupo) As classes são determinadas pelos dados (diferente da classificação onde as classes são pré-definidas) Algoritmo mais utilizado: K-means Determina o número de clusters (k) Valores selecionados aleatoriamente e colocados dentro de cada cluster; representando os centros de cada cluster Cada ponto (valor) é associado a um cluster que ele é mais similar (proximo) close to Proximidade é determinada pela menor distancia de um ponto (valor) ao centro do cluster Ex. Semelhança entre cossenos. 22

Quando todos os pontos forem analisados, o centro de cada cluster é recalculado baseado nos pontos dentro do cluster Novos clusters sao formados baseado nos novos centros O processo se repete até que nenhum ponto (valor) seja mais realocado ou seja fique no seu cluster ou o usuario define o número finito de iterações 23

Dado os dados: A1(2,10) A2(2,5),A3(8,4), A4(5,8), A5(7,5),A6(6,4), A7(1,2), A8(4,9) Distancia Euclidiana entre estes dados Considere os seeds(centros) A1, A4, A7 24

d(a,b) denota a distancia Euclidiana entre a e b Seed1=A1=(2,10); seed2=a4=(5,8), seed3=a7=(1,2) Pode ser obtida via a matrix dada ou d(a,b)=sqrt((x b -x a ) 2 +(y b -y a ) 2 ) 25

S O L U Ç Ã O 26

Pontos CentroID 1a Itetação Novos centroid S O L U Ç Ã O 27

28

Analisa dados que normalmente ocorrem juntos, sugerindo uma associação entre eles. Considerando o dado d1 -> d2 Uma regra de associação define que se um dado d1 ocorre, é frequente que o dado d2 também ocorra. Ex. Se cliente compra pão, é frequente que compre manteiga Algoritmo mais utilizado: A priori 29

Medidas de Suporte e Confiança Suporte É a probabilidade que a transação contém A B (frequencia da implicação) Confiança Probabilidade que a transação que contém A, também contenha B (rigidez da implicação) 30

Conceitos principais Conjunto de elementos frequentes: conjunto de itens que tem suporte mínimo (L i para cada i th conjunto de elementos). Propriedade do Apriori: Qualquer subconjunto de itens frequentes deve ser frequente. Operação de Junção: Encontrar L k, um conjunto de itens candidatos k gerado pela junção L k -1 com ele mesmo. 31

32

Apriori propriedade 33

E as associações? Estes conjuntos de dados frequentes serão utilizados para gerar regras de associação que satisfaçam ambos suporte minimo e confiança mínima Considerando S={2,3,5} analisa todos os subconjuntos não vazios {2,3}, {2,5}, {3,5}, {2}, {3}, {5} Analise a confiança entre o conjunto S e os subconjuntos; Regra 2 3 5 {2,3,5}/{2,3} = 2/2=100% Regra 2 5 3 {2,3,5}/{2,5} = 2/3=67% - rejeitado due to confiança 70% 34

Considere o banco de dados ao lado, consistindo de 9 transações Suporte mínimo é quantidade de ocorrências = 2 (min_sup = 2/9 = 22 %) Confiança mínima é 70%. Conjunto de dados k Regras encontradas: Regra 1: I1 I5 I2 Regra 2: I2 I5 I1 Regra 3: I5 I1 I2 35