Prof. Daniela Barreiro Claro

O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2

Processo de Descoberta do Conhecimento utilizando os dados armazenados Segundo Fayyad 1996, KDD é: The nontrivial process of identifying valid, novel, potentially useful and ultimately understandable patterns in data KDD envolve algumas etapas: Seleção, pré-processamento, transformação, interpretação/avaliação e conhecimento 3

1. Conhecimento do dominio 2. Criação de um conjunto de dados 3. Pré-Processamento e Transformação 4. Escolha da Técnica de DM 5. Escolha do algoritmo de DM 6. Interpretação e avaliação dos padrões encontrados 7. Descoberta do conhecimento 5

Algumas etapas do KDD podem ser visualizadas como um Data Warehouse (DW) 6

Tres macros etapas Pre- Processamento Data Cleaning Data Integration Data Transformation Data Reduction Data Mining Técnicas de MD Algoritmos de MD Pos-Processamento Análise e Avaliação dos padrões encontrados 7

Os dados do mundo real, normalmente tem as seguintes características: Incompleto Faltam valores de atributos, atributos são agregados Errados Contém erros; atributos com valores não esperados Inconsistentes Contem discrepâncias entre os itens de dados; alguns atributos que representam um conceito, podem ter nomes distintos em bases distintas. Grande massa de dados Grande número de dados torna o processo de mineração muito lento 8

Na etapa de pré-processamento pode-se evidenciar 4 fases: Data Cleaning Limpar os dados Completar os dados que estão faltando Resolve inconsistencias Suaviza os erros Elimina ou minimiza as discrepancias entre os dados Se os dados estão sujos, consequentemente os resultados obtidos não serão confiáveis. 9

Data Integration Integra os dados de diversas bases, cubos de dados, arquivos, etc Alguns atributos que representam um conceito podem ter nomes distintos em bases distintas Ex. IdCliente, ClienteID, Cli_ID, Alguns atributos podem ser inferidos por outros Ex. Salário annual, quantidade total Muitas vezes o processo de integração gera redundâncias. Nestes casos, a fase de Data Cleaning deve ser reexecutada para eliminar as redundâncias geradas por esta fase 10

Data Transformation Esta fase envolve dois procedimentos principais Agregação Combinação de dois ou mais objetos em um único Ex. Agregar os 365 dias em 12 meses Mudança de escala Conjunto de dados menores requerem menos memoria e tempo de processamento Quantidades agregadas, como médias e totais tem menos variabilidade do que objetos individuais Desvantagem Perda de detalhes interessantes 11

Data Transformation Normalização ou padronização Conjunto inteiro de valores tem uma determinada propriedade Se variaveis diferentes devem ser combinadas, é necessário transformar para evitar que valores grandes dominem os resultados Ex. Duas variáveis: idade e renda Diferença dos valores da variável renda é muito maior (milhares de dolares) que os valores referentes à idade (menos de 130) 12

Data Reduction Reduz a representação dos dados em termos de volume, ainda que produza o mesmo resultado analitico (ou similar). Estratégias Agregaçao construção de um cubo de dados Selecao de atributos eliminação de atributos irrelevantes por meio de uma análise de correlação Redução de dimensão Discretização dos dados 13

Data Reduction Redução de dimensão Dimensão considera o numero de atributos Pode eliminar características irrelevantes e reduzir o ruído Pode gerar um modelo mais compreensível Pode reduzir os dados ou muitas vezes examiná-los aos pares ou aos trios. Muitas vezes é usado para a junçao de atributos gerando novos atributos, ou seja, uma combinação de atributo antigos Discretização dos dados Transformação de um atributo continuo em um atributo categorizado (discretização) ou em atributos binários(binarização) 14

É uma das etapas do processo de KDD Dois macro objetivos Prediction Description Prediction Algumas variáveis ou atributos em um BD que prediz valores de variáveis futuras ou não conhecidas Description Descoberta de padrões que descrevem os dados 15

Data Mining Prediction Description Classification Regression Clustering Summarization Association 16

Analisa um conjunto de dados de treinamento (i.e. a classe resultado é conhecida) Constrói uma árvore de decisão para cada classe baseada nas características dos dados Regras de classificação podem ser utilizadas para: Classificar dados futuros Desenvolver um melhor entendimento das classes na base de dados 17

Consiste em 4 etapas: 1. Divisão dos dados de treinamento e dos dados de teste 2. Analise da escolha do atributo de classificação Verifica os atributos mais relevantes 3. Constrói a árvore de classificação (decision tree) 4. Testa a eficiência da classificação usando o conjunto de dados de teste 18

Representa uma função que prediz um número Pode-se prever a altura de uma criança dada a sua idade por meio do algoritmo de regressão Regressão linear é a mais simples de utilização Exemplos de algoritmos GLM _ Generalized Linear Model Baseado em técnica estatística SVM Support Vector Machines Suporta regressão linear e não-linear 21

Mapear o dado para uma das categorias das classes (cluster/grupo) As classes são determinadas pelos dados (diferente da classificação onde as classes são pré-definidas) Algoritmo mais utilizado: K-means Determina o número de clusters (k) Valores selecionados aleatoriamente e colocados dentro de cada cluster; representando os centros de cada cluster Cada ponto (valor) é associado a um cluster que ele é mais similar (proximo) close to Proximidade é determinada pela menor distancia de um ponto (valor) ao centro do cluster Ex. Semelhança entre cossenos. 22

Quando todos os pontos forem analisados, o centro de cada cluster é recalculado baseado nos pontos dentro do cluster Novos clusters sao formados baseado nos novos centros O processo se repete até que nenhum ponto (valor) seja mais realocado ou seja fique no seu cluster ou o usuario define o número finito de iterações 23

Dado os dados: A1(2,10) A2(2,5),A3(8,4), A4(5,8), A5(7,5),A6(6,4), A7(1,2), A8(4,9) Distancia Euclidiana entre estes dados Considere os seeds(centros) A1, A4, A7 24

d(a,b) denota a distancia Euclidiana entre a e b Seed1=A1=(2,10); seed2=a4=(5,8), seed3=a7=(1,2) Pode ser obtida via a matrix dada ou d(a,b)=sqrt((x b -x a ) 2 +(y b -y a ) 2 ) 25

S O L U Ç Ã O 26

Pontos CentroID 1a Itetação Novos centroid S O L U Ç Ã O 27

Analisa dados que normalmente ocorrem juntos, sugerindo uma associação entre eles. Considerando o dado d1 -> d2 Uma regra de associação define que se um dado d1 ocorre, é frequente que o dado d2 também ocorra. Ex. Se cliente compra pão, é frequente que compre manteiga Algoritmo mais utilizado: A priori 29

Medidas de Suporte e Confiança Suporte É a probabilidade que a transação contém A B (frequencia da implicação) Confiança Probabilidade que a transação que contém A, também contenha B (rigidez da implicação) 30

Conceitos principais Conjunto de elementos frequentes: conjunto de itens que tem suporte mínimo (L i para cada i th conjunto de elementos). Propriedade do Apriori: Qualquer subconjunto de itens frequentes deve ser frequente. Operação de Junção: Encontrar L k, um conjunto de itens candidatos k gerado pela junção L k -1 com ele mesmo. 31

Apriori propriedade 33

E as associações? Estes conjuntos de dados frequentes serão utilizados para gerar regras de associação que satisfaçam ambos suporte minimo e confiança mínima Considerando S={2,3,5} analisa todos os subconjuntos não vazios {2,3}, {2,5}, {3,5}, {2}, {3}, {5} Analise a confiança entre o conjunto S e os subconjuntos; Regra 2 3 5 {2,3,5}/{2,3} = 2/2=100% Regra 2 5 3 {2,3,5}/{2,5} = 2/3=67% - rejeitado due to confiança 70% 34

Considere o banco de dados ao lado, consistindo de 9 transações Suporte mínimo é quantidade de ocorrências = 2 (min_sup = 2/9 = 22 %) Confiança mínima é 70%. Conjunto de dados k Regras encontradas: Regra 1: I1 I5 I2 Regra 2: I2 I5 I1 Regra 3: I5 I1 I2 35