TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE

Documentos relacionados
SBC - Sistemas Baseados em Conhecimento

Descoberta de Conhecimento em Bancos de Dados - KDD

Extração de Conhecimento & Mineração de Dados

KDD E MINERAÇÃO DE DADOS

Data Mining. O Processo de KDD. Mauricio Reis

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

KDD E MINERAÇÃO DE DADOS

Prof. Daniela Barreiro Claro

Tópicos Especiais em Informática Fatec Indaiatuba 13/07/2017

Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Data Mining. Rodrigo Leite Durães

FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS

GESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida

Banco de Dados Data Mining Data Warehouse Big Data

Conceitos Básicos. Fundação Centro de Análise, Pesquisa e Inovação Tecnológica Instituto de Ensino Superior - FUCAPI. Disciplina: Banco de Dados

KDD E MINERAÇÃO DE DADOS:

ANALYTICS: Dados e Atenção

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Arquitetura de um Ambiente de Data Warehousing

BCC390 - Monografia I

Aula 02. Evandro Deliberal

Bancos de Dados IV. Data Warehouse Conceitos. Rogério Costa

Arquitetura de um Ambiente de Data Warehousing

CRÉDITOS DO CURSO. Carga Horária Créditos IN1030 Seminários 30 2

Inteligência nos Negócios (Business Inteligente)

Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU

Mineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -

Fundamentos de sistemas de informação

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Data Warehousing: Conceitos Básicos e Arquitetura

Banco de Dados. Disciplina: Teoria e Fundamentos de Sistemas de Informação. Professor: Thiago Silva Prates

Informática. Business Intelligence (BI), Data Warehouse, OLAP e Data Mining. Prof. Márcio Hunecke

Evandro Deliberal Aula 01

Data Warehousing: Conceitos Básicos e Arquitetura

Tópicos Especiais em Informática Fatec Indaiatuba

GERENCIAMENTO DE DADOS Exercícios

Metodologia de Desenvolvimento de Sistemas Informação

Sistemas de Informação

Banco de Dados. SGBD - Sistema de Gerenciamento de Banco de Dados Parte 1. Prof. Leonardo Vasconcelos

SISTEMAS DE APOIO À INTELIGÊNCIA DE NEGÓCIOS

Universidade Federal do Paraná

Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR

KDD, Mineração de Dados e Algoritmo Apriori

SISTEMA DE INFORMAÇÃO EXECUTIVA PARA A ÁREA DE VENDAS APLICADO À INDÚSTRIA METALÚRGICA

Introdução. Conceitos Básicos. Conceitos Básicos. Conceitos Básicos

Introdução ao Data Mining. Sumário

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

índice 2. Vetores e Tipos Primitivos PARTE 1- O Sistema R 1. Introdução ao Sistema R

Mineração de Dados em Biologia Molecular

Gerência de Projetos de TI

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

UNIVERSIDADE PRESBITERIANA MACKENZIE

Engenharia de Software II

Sistemas de Informações Gerenciais Prof. Esp. André Luís Belini Bacharel em Sistemas de Informações MBA em Gestão Estratégica de Negócios

O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2

Motivação e Conceitos Básicos

Roteiro. PCC142 / BCC444 - Mineração de Dados. Cenário

Plano de Testes VideoSystem

Autor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução

Arquitetura de um Ambiente de Data Warehousing

Algoritmo CLIQUE (Clustering In QUEst)

Aprendizado de Máquina

Introdução INTRODUÇÃO AO SWEBOK. Origens do corpo de conhecimentos da Engenharia de Software: Introdução a Computação e Engenharia de Software

TCE Informática Pré-Processamento de Dados Prof. Marcelo Ribeiro

Metodologia CRISP-DM. NeuroTech Ltda.

Mineração de Dados. Arthur Emanuel de O. Carosia Cristina Dutra de Aguiar Ciferri

Mineração de Dados. Curso de Especialização em Sistemas de Banco de Dados. Centro de Ciências Exatas e Naturais. Universidade Federal do Pará

Aprendizado de Máquina (Machine Learning)

Campus Capivari Análise e Desenvolvimento de Sistemas (ADS) Prof. André Luís Belini /

Inteligência Artificial

ET586 -ESTATIST PROBABILIDADE COMPUTACAO OBRIGATÓRIO IF685 -GERENCIAMENTO DADOS E INFORMACAO OBRIGATÓRIO

Inteligência nos Negócios (Business Inteligente)

BACHARELADO EM SISTEMAS DE INFORMAÇÃO

Aprendizado de Máquina

ORGANIZANDO DADOS E INFORMAÇÕES: Bancos de Dados

MATRIZ CURRICULAR BACHARELADO EM ENGENHARIA DA COMPUTAÇÃO. 1º Período

18º Congresso de Iniciação Científica TRATAMENTO DE REGRAS DA ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA

Reconhecimento de Padrões

Tomada de Decisão Estratégica

Banco de Dados Profa. Dra. Cristina Dutra de Aguiar Ciferri. Banco de Dados Processamento e Otimização de Consultas

Metodologia Aplicada a Computação.

RESUMO UMA ARQUITETURA PARA DISTRIBUIÇÃO DE COMPONENTES ECNOLÓGICOS DE SISTEMAS DE INFORMAÇÕES BASEADOS EM DATA WAREHOUSE. Denilson Sell 2001

SEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke

Seleção de Atributos FSS. Relevância de Atributos. Relevância de Atributos. Seleção de Atributos - FSS. FSS como Busca no Espaço de Estados

INTELIGÊNCIA ARTIFICIAL

10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR

Sistemas de Informação Geográficos. Informação na Organização. O Valor da Informação. Sistemas de Informação Tradicionais. O Valor da Informação

Figura 4.2: Matriz Curricular

Aula 2 BD Introdução. Profa. Elaine Faria UFU

1. Conceitos de Bancos de Dados

Banco de Dados e Aplicações em Negócios: Introdução.

Sistema Gestor de Bancos de Dados (SGBD)

Ciência da Computação

Sistemas de Informação e Decisão. Douglas Farias Cordeiro

Estilos Arquiteturais

FUNDAMENTOS DE ENGENHARIA DE SOFTWARE. Professor: Paulo Vencio

Processos de Software by Pearson Education Ian Sommerville 2006 Engenharia de Software, 8ª. edição. Capítulo 4 Slide 1

Os componentes e o ambiente para O desenvolvimento de um SAD. Prof. Walteno Martins Parreira Jr

Transcrição:

TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto

O processo de descoberta do conhecimento - KDD

Roteiro Introdução Definição Etapas Desafios Conclusão

Introdução KDD envolve a interseção de várias áreas de pesquisas tais como: - Bancos de dados - Aprendizagem de Máquina - Reconhecimento de padrões - Estatísticas - Inteligência artificial

Banco de Dados A teoria e ferramentas de banco de dados fornecem a infra-estrutura necessária para armazenar, acessar e manipular dados. Data warehousing referencia uma coleção de dados transacionais para analises on-line e suporte a decisão. Uma abordagem popular para análise de data warehouses é chamada online analytical processing (OLAP).

Banco de Dados As ferramentas OLAP focam em prover analises multi dimensional que é superior a linguagem SQL no calculo de sumarizações e quebras de várias dimensões. Enquanto as ferramentas OLAP tem como objetivo analise interativa dos dados, o processo de descoberta do conhecimento KDD propõe automação dos componentes de descoberta do conhecimento.

Como o KDD difere dos outros campos? KDD foca no processo geral de descoberta do conhecimento, incluindo como os dados estão armazenados e acessados, como os algoritmos podem ser escaláveis para grandes massas de dados e ainda executar de forma eficiente e como os resultados podem ser interpretados e visualizados.

Definição "The nontrivial process of identifying valid, novel, potentially useful, and ultimately understandable patterns in data. Fayyad et al.

Etapas do KDD 1- Aprender o domínio da aplicação: inclui o conhecimento prévio relevante do domínio e os objetivos da aplicação. 2- Criação de uma base de dados alvo: inclui selecionar uma base de dados ou focar em um subconjunto de variáveis ou amostra de dados para desenvolvimento do projeto.

Etapas do KDD 3- Limpeza dos dados e pré-processamento: inclui operações básicas, tais como remover ruídos ou outliers se for apropriado, decidir estratégias para manipulação de missing data. 4- Redução e projeção dos dados: inclui buscar atributos úteis para representar os dados, dependendo do objetivo da tarefa, e usar métodos para redução da dimensionalidade dos dados ou transformações para reduzir o número de variáveis.

Etapas do KDD 5- Escolher a função de mineração de dados: inclui decidir o objetivo do modelo derivado pelo algoritmo de mineração de dados (Sumarização, Classificação, Regressão e Agrupamento). 6- Escolher o algoritmo de mineração de dados: inclui selecionar o método que será utilizado na busca por padrões nos dados, quais modelos e parâmetros são apropriados para o objetivo do projeto.

Etapas do KDD 7- Mineração de dados: inclui a busca por padrões de interesse em uma forma particular de representação, incluindo regras de classificação ou árvore, regressão, clustering entre outros. 8- Interpretação: inclui a interpretação dos padrões descoberto e possivelmente um retorno a qualquer etapa anterior do processo, assim como a visualização dos padrões extraídos, remoção de padrões redundantes ou irrelevantes, e traduzir os padrões úteis em termos compreensíveis pelos usuários

Etapas do KDD 9- Utilização do conhecimento descoberto: inclui incorporar esse conhecimento dentro de um sistema de desempenho, realizar ações baseada neste conhecimento, ou simplesmente documentá-lo e reportar para as partes interessadas.

Etapas do KDD

Desafios Grandes bases de dados e alta dimensionalidade Interação com usuário e conhecimento a priori Overfitting Valores ausentes Compreensão dos padrões Gerenciamento de mudanças dos dados e do conhecimento Integração

Grandes bases de dados e alta dimensionalidade Bases de dados com Terabyte e milhões de registros, com um grande número de campos (atributos e variáveis) são comuns. Esses conjuntos de dados criam uma explosão combinatória no espaço de busca para a indução do modelo e aumentam as chances de que um algoritmo de mineração de dados encontre padrões irrelevantes. As soluções possíveis incluem algoritmos muito eficientes, amostragem, métodos de aproximação, processamento paralelo, técnicas de redução de dimensionalidade, e incorporação de conhecimento prévio.

Interação com usuário e conhecimento a priori Muitos dos atuais métodos de KDD e ferramentas não são verdadeiramente interativa e não disponibiliza meios para incorporar o conhecimento prévio sobre um problema, exceto em formas simples. Uso de conhecimento de domínio é importante em todas as etapas do processo de KDD.

Overfitting Quando um algoritmo busca pelos melhores parametros para um particular modelo utilizando um conjunto limitado de dados, ele pode memorizar os dados, resultando em um desempenho pobre do modelo. Soluções possíveis incluem validação cruzada e outras sofisticas estratégias estatísticas

Valores ausentes Este problema é bastante comum em bancos de dados de empresas. Atributos importantes podem estar faltando, se o banco de dados não foi projetado para a descoberta do conhecimento ou um erro do operador, falhas de medição, ou a partir de uma revisão do processo de coleta de dados ao longo do tempo (por exemplo, novas variáveis). As soluções possíveis incluem mais sofisticadas estratégias estatísticas para identificar variáveis ocultas e dependências.

Compreensão dos padrões Em muitas aplicações, é importante tornar os padrões descobertos mais compreensíveis por seres humanos. As soluções possíveis incluem representações gráficas, estruturação de regra, geração de linguagem natural, e técnicas de visualização de dados e conhecimento.

Gerenciamento de mudanças dos dados e do conhecimento Mudança rápida dos dados podem fazer padrões previamente descobertos inválido. Além disso, as variáveis medidas numa base de dados pode ser modificada, eliminada ou aumentada com novas medições ao longo do tempo. As soluções possíveis incluem métodos incrementais para atualizar os padrões.

Integração Há uma oportunidade em potencial e um desafio para o desenvolvimento de técnicas para integrar as ferramentas OLAP da comunidade de banco de dados e as ferramentas de mineração de dados de aprendizado de máquina e modelos estatísticos.

Conclusão Diante do rápido crescimento, o campo de KDD ainda está na sua infância. Existem vários desafios para serem superados, mas muito sucesso já foi alcançado.