Aula 02: Conceitos Fundamentais Profa. Ms. Rosângela da Silva Nunes 1 de 26
Roteiro 1. Por que mineração de dados 2. O que é Mineração de dados 3. Processo 4. Que tipo de dados podem ser minerados 5. Que tipo de padrões/tarefas podem ser minerados 6. Quais tecnologias são usadas 2 de 26
Por que mineração de dados? Estamos vivendo na era da informação ou Estamos vivendo na era dos dados 3 de 26
O que é mineração de dados Data mining Knowledge Discovery from data Extração de padrões ou conhecimentos interessantes (não-trivial, implícito, previamente desconhecido e potencialmente útil) de um grande conjunto de dados 4 de 26
Outros nomes... Knowledge Extraction Information discovery Information harvesting Data archaeology Data pattern processing Knowledge Discovery in Databases 5 de 26
DM e KDD KDD Knowledge Discovery in Databases É o processo geral de conversão de dados brutos em informações úteis Processo geral de descoberta de conhecimentos úteis previamente desconhecidos a partir de grandes bancos de dados DM Data Mining Parte integral da descoberta de conhecimento em bancos dados Um passo particular do processo de KDD 6 de 26
Processo 7 de 26
Processo visão típica da comunidade estatítica e machine learning Input Data Data Pre- Processing Data Mining Post- Processing Data integration Normalization Feature selection Dimension reduction Pattern discovery Association & correlation Classification Clustering Outlier analysis Pattern evaluation Pattern selection Pattern interpretation Pattern visualization 8 de 26
Business Intelligence e Data Mining Increasing potential to support business decisions Decision Making Data Presentation Visualization Techniques Data Mining Information Discovery End User Business Analyst Data Analyst Data Exploration Statistical Summary, Querying, and Reporting Data Preprocessing/Integration, Data Warehouses Data Sources Paper, Files, Web documents, Scientific experiments, Database Systems DBA 9 de 26
Que tipo de dados podem ser minerados? Conjuntos de dados e aplicações orientada a banco de dados Banco de dados relacional, data warehouse Outros tipos de conjunto de dados Séries de dados temporais, Dados sequenciais Data streams Dados espaciais hipertexto 10 de 26
Que tipo de padrões/tarefas podem ser minerados? 11 de 26
Classificação Tarefas Classificação/Regressão Aprendizado de uma função que pode ser usada para mapear dados em uma de varias classes discretas definidas previamente. Regressão ou Predição Aprendizado de uma função que pode ser sada para mapear os valores associados aos dados em um ou mais valores reais. 12 de 26
Tarefas Classificação 13 de 26
Tarefas Predição 14 de 26
Tarefas Clustering Identificação de grupos de dados onde os dados tem características semelhantes aos do mesmo grupo e onde os grupos tenham características diferentes entre si. 15 de 26
Tarefas Regra de associação Identificação de grupos de dados que apresentam coocorrência entre si (ex. cesta de compras). 60% dos clientes que acessaram /products também acessaram /products/software/webminer.htm 30% dos clientes que acessaram /specialoffer.htm submeteram um pedido on-line para /products/software 16 de 26
Tarefas Detecção de desvios Identificação de dados que deveriam seguir um padrão esperado mas não o fazem. 17 de 26
Tarefas Detecção de desvios 18 de 26
Todos os padrões são interessantes? Um padrão é interessante se Facilmente pode ser compreendido por humanos É válido em dados de teste com um certo grau de certeza Pontencialmente útil Novo Se valida uma hipótese do usuário 19 de 26
Um sistema de mineração de dados pode gerar todos os padrões interessantes? Completeza dos algoritmos Não-realístico Foco da busca Uso de medidas Uso de restrições 20 de 26
Um sistema de mineração de dados gera somente somente padrões interessantes? Problema de otimização Busca através dos padrões gerados para identificar aqueles realmente interessantes Desafio futuos 21 de 26
Quais tecnologias são usadas? Machine Learning Pattern Recognition Statistics Data Mining Visualization Algorithm Database Technology High-Performance Computing 22 de 26
Por que a confluência de múltiplas disciplinas Grande quantidade de dados Algoritmos deve ser altamente escalável para manipular por exemplo terabytes de dados Alta dimensionalidade dos dados Um objeto pode ter centenas de dimensões Alta complexidade dos dados Novas e sofisticadas aplicações 23 de 26
Maiores desafios em Mineração de dados Metodologia Novos tipos de conhecimento Espaço multidimensional Esforço interdisciplinas Manipular ruídos, incetezas e dados incompletos Avaliação de padrões 24 de 26
Maiores desafios em Mineração de Interação com o usuário Mineração interativa dados Incorporação de conhecimento já adquirido Apresentação e visualização dos resultados obtidos Eficiência e Escalabilidade Algoritmos eficientes e escaláveis Métodos de mineração incremental, paralela e distribuída 25 de 26
Maiores desafios em Mineração de dados Tipos diversos de dados Manipular tipos de dados complexos Repositório de dados global e dinâmica Sociedade e Mineração de dados Impacto social Privacidade Invisibilidade 26 de 26