KDD E MINERAÇÃO DE DADOS:

Documentos relacionados
MINERAÇÃO DE DADOS EM REDES COMPLEXAS

KDD E MINERAÇÃO DE DADOS:

Inteligência Artificial. Prof. Ilaim Costa Jr.

KDD E MINERAÇÃO DE DADOS

SBC - Sistemas Baseados em Conhecimento

EEL891 Aprendizado de Máquina Prof. Heraldo L. S. Almeida. Introdução

CURSO DE GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO MATRIZ CURRICULAR MATUTINO Fase N.

2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados

BACHARELADO EM SISTEMAS DE INFORMAÇÃO

BIG DATA,DATA SCIENCE e ANALYTICS aplicados ao MARKETING MANUAL DO CURSO ESPM. Rua Joaquim Távora, 1240 Vila Mariana São Paulo/SP.

Mineração de Dados. Eduardo Raul Hruschka. Baseado no curso de Gregory Piatetsky-Shapiro, disponível no sítio


CRÉDITOS DO CURSO. Carga Horária Créditos IN1030 Seminários 30 2

INTELIGÊNCIA COMPUTACIONAL

Sistema Gestor de Bancos de Dados (SGBD)

Definição IHC. Disciplina ou campo de estudo interessada no design, implementação e avaliação de sistemas computacionais interativos para uso humano.

Os novos desafios da Manutenção Inteligente. Daniel E. Castro ABRESIN

Extração de Conhecimento & Mineração de Dados

Figura 4.2: Matriz Curricular

Aprendizado de Máquina (Machine Learning)

Fundamentos da Computação Digital

MATRIZ CURRICULAR BACHARELADO EM ENGENHARIA DA COMPUTAÇÃO. 1º Período

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

Data Mining. O Processo de KDD. Mauricio Reis

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Material Complementar - BI. Grinaldo Lopes de Oliveira Curso Superior de Tecnologia em Análise e Desenvolvimento de Sistemas

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

2011 Profits Consulting. Inteligência Computacional

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO Data: 29/08/2011 Currículo de Cursos Hora: 16:19:21

UNIVERSIDADE FEDERAL DE LAVRAS PRÓ-REITORIA DE GRADUAÇÃO. Currículo Pleno

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO Data: 23/09/2015 Currículo de Cursos Hora: 07:48:26

UNIVERSIDADE FEDERAL DO ESPÍRITO SANTO Data: 05/07/2017 Currículo de Cursos Hora: 17:30:22

Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.

Banco de Dados Data Mining Data Warehouse Big Data

Disciplinas isoladas para o 1º semestre de 2017

CURSO: ENGENHARIA DE CONTROLE E AUTOMAÇÃO EMENTAS º PERÍODO

Introdução a Sistemas Inteligentes

Fundamentos de Inteligência Artificial [5COP099]

Descoberta de Conhecimento em Bancos de Dados - KDD

BRÁULIO VELOSO Presidente. VITOR MANGARAVITE Vice - Presidente

CURSO DE CIÊNCIA DA COMPUTAÇÂO (65C) HABILITAÇÃO: BACHARELADO TURNO: DIURNO (a partir de 2014)

USO DE CANAIS DIGITAIS NA VENDA DE IMÓVEIS TECNOLOGIAS QUE IRÃO TRANSFORMAR A INTERMEDIAÇÃO IMOBILIÁRIA NOS PRÓXIMOS ANOS SERGIO LANGER

Aprendizado de Máquina

Aprendizagem de Máquina

SCC0173 Mineração de Dados Biológicos

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

SERVIÇO PÚBLICO FEDERAL MINISTÉRIO DA EDUCAÇÃO INSTITUTO FEDERAL DE EDUCAÇÃO, CIÊNCIA E TECNOLOGIA DE MINAS GERAIS IFMG

Técnicas de Inteligência Artificial

Transformação Digital

ET586 -ESTATIST PROBABILIDADE COMPUTACAO OBRIGATÓRIO IF685 -GERENCIAMENTO DADOS E INFORMACAO OBRIGATÓRIO

Redes Neurais. Motivação. Componentes do neurônio. Cérebro humano. Criar máquinas capazes de operar independentemente do homem:

Introdução a Sistemas Distribuídos

Computaçã. Visão Geral. Sistema Gráfico. Computação Gráfica. Pixels. Sistema Gráfico e o Frame Buffer. Introdução à Computação Gráfica

DOCUMENTO DE ADEQUAÇÃO MESTRADO EM ENGENHARIA INFORMÁTICA FACULDADE DE CIÊNCIAS E TECNOLOGIA UNIVERSIDADE NOVA DE LISBOA PEÇA B

A Matemática como Serviço a Ciência da Computação. Prof. Dr. Carlos Eduardo de Barros Paes Coordenador do Curso de Ciência da Computação

BIG DATA. Jorge Rady de Almeida Jr. Escola Politécnica da U SP

Transcrição:

KDD E MINERAÇÃO DE DADOS: Prof. Ronaldo R. Goldschmidt Instituto Militar de Engenharia Seção de Engenharia de Computação (SE/8) ronaldo.rgold@ime.eb.br / ronaldo.rgold@gmail.com

Coleta de dados em vários formatos, por meio de diversos recursos/aplicações em várias áreas: Internet, dispositivos móveis, sensores, sistemas de automação, sistemas de informação,... Redes sociais, AVAs, redes de telecomunicações, operações com cartões de crédito,... Governo, (Bio)Ciências, Finanças, Seguros, Segurança,... IoT (Internet of Things Internet das Coisas) Quanta informação é criada a cada ano?

Segundo a revista Science (2011): o mundo foi capaz de armazenar 295 exabytes de informação no ano de 2007. 1 exabyte = 1012 megabytes Cerca de 800 megabytes para cada ser humano. Equivalente ao conteúdo textual de mais de 300 livros. Atualmente a NASA possui dados na ordem de bilhões de gigabytes. Estima-se que em 2020, a humanidade disporá de 44 zettabytes de dados. 1 zettabyte = 44 trilhões de gigabytes (44 x 2 70 bytes) Taxa de crescimento de dados mundial em torno de 40% ao ano na próxima década. Fontes: www.sciencemag.org/content/early/2011/02/09/science.1200970.full.pdf http://www.nasa.gov/open/plan/data-gov.html www.emc.com/leadership/digital-universe/index.htm

Nossa situação atual é a de sobrecarga de informação...

70% 60% 50% 40% 30% 20% 10% 0% -10% 21% 33% Até 3 70% 60% 50% 40% 30% 20% 10% 0% -10% 21% 33% Até 3 57%56% 47% 49% 45% De 4 a 8 23% 24% 14% 13% De 9 a 15 57%56% 47% 49% 45% De 4 a 8 17% 23% 6% 6%4%5%5% 1% 0%0% 1%0% De 16 a 25 24% 14% 13% De 9 a 15 17% De 16 a 25 2005-2 2006-1 2006-2 2007-1 2007-2 De 26 a 30 2005-2 2006-1 2006-2 2007-1 2007-2 De 26 a 30 70% 60% 50% 40% 30% 20% 10% 0% -10% 21% 33% Até 3 57%56% 47% 49% 45% De 4 a 8 23% 24% 14% 13% De 9 a 15 17% De 16 a 25 2005-2 2006-1 2006-2 2007-1 2007-2 De 26 a 30 Grandes Volumes de Dados Distribuídos Vários formatos: texto, imagem, vídeos, sons, gráficos, etc... 22% 24% 21% 22% 24% 21% 6% 6%4%5%5% 1% 0%0% 1%0% 22% 24% 21% 6% 6%4%5%5% 1% 0%0% 1%0%

Em vez de reduzir o problema, mecanismos de busca o amplificam, pois tornam novos documentos textuais rapidamente disponíveis. Muitos dados, pouca informação. Google: 150M consultas/dia (2000/segundo) Google: 4.2B documentos em seu índice Consequência: mais difícil extrair algo útil a partir dos dados (padrões, relacionamentos ou tendências subjacentes aos dados) A extração manual de informação é impossível. Fonte: The Anatomy of a Large-Scale Hypertextual Web Search Engine Sergey Brin and Lawrence Page, http://www-db.stanford.edu/~backrub/google.html

Exemplos de Instituições com BDs Massivos: FedEx UPS Wal-Mart NASA Projeto Genoma Caixa Econômica Banco do Brasil Dentre muitos outros

Necessidade: Ferramentas inteligentes que auxiliem na análise de dados e na busca por conhecimentos em GRANDES conjuntos de dados (nos mais diversos formatos).

Avanços em TI Crescimento Exponencial de BDs Necessidade de Ferramentas para Análise Grandes BDs Área da Descoberta do Conhecimento em Bases de Dados (KDD)

Descoberta de Conhecimento em Bases de Dados KDD É um processo, de várias etapas, não trivial, interativo e iterativo, para identificação de padrões compreensíveis, válidos, novos e potencialmente úteis a partir de grandes conjuntos de dados. [Fayyad et al., 1996] Interação Especialista de Domínio Especialista em KDD Etapas Operacionais do Processo de KDD Dados Estruturados Pré-Processamento Mineração de Dados Iteração Pós-Processamento Modelo de Conhecimento

Hierarquia Dado - Informação - Conhecimento: SE Capacidade de Endividamento Mensal > 0.6 ENTÃO Crédito = Sim CONHECIMENTO Capacidade de Endividamento Mensal = 1 Despesa Mensal / Renda Mensal INFORMAÇÃO Renda Mensal, Despesa Mensal 2.345,20; 463,00; 10.048,21; 294,12 DADO

Exemplo de aplicação de KDD na área de concessão de crédito: Conjunto de dados (Fatos)

Exemplo de aplicação de KDD na área de concessão de crédito: Padrão: Se renda > R$ t Então Crédito = SIM (Cto)

BUSCA VS DESCOBERTA Busca Descoberta Dados estruturados Data Retrieval Data Mining Dados não-estruturados (Texto) Information Retrieval Text Mining

Na verdade, há vários tipos de mining, dependendo da natureza dos dados: Data Mining Web Mining Conteúdo Estrutura Log dos servidores Multimídia Mining (Som, Imagem, ) Text Mining Terminologia acima não é um consenso.

70% 60% 50% 40% 30% 20% 10% 0% -10% 21% 33% Até 3 22% 24% 21% De 4 a 8 23% 24% 14% 13% De 9 a 15 17% 6% 6%4%5%5% 1% 0%0% 1%0% De 16 a 25 2005-2 2006-1 2006-2 2007-1 2007-2 De 26 a 30 DESCOBERTA DE CONHECIMENTO - UMA TAXONOMIA Descoberta de Conhecimento Dados Estruturados Dados Textuais Dados Multimídia Mineração de Dados Clássica Mineração de Dados Textuais Mineração de Dados Multimídia 47% 45% 49% 57%56%

Áreas de Origem ESTATÍSTICA RECONHECIMENTO DE PADRÕES DATA WAREHOUSING KDD VISUALIZAÇÃO INTELIGÊNCIA ARTIFICIAL BANCO DE DADOS APRENDIZADO DE MÁQUINA

EXEMPLOS DE ÁREAS DE APLICAÇÃO: Comércio Finanças Medicina Educação Energia Telecomunicações Meio-Ambiente Indústria Etc...

Comércio / Marketing Perfil do Consumidor (Marketing Direto), Promoção de Produtos, Segmentação de Mercado, etc;... Finanças Análise de Investimentos, Análise de Crédito, Detecção de Fraudes em compras de Cartão de Crédito, etc;... Medicina Diagnóstico e Prevenção de Doenças, Detecção de Fraudes em Planos de Saúde, etc;...

Educação Energia Análise de Matrículas e Demandas por Escolas, Evasão Escolar, Um Computador por Aluno;... Previsão de Demanda, Distribuição de Recursos;... Telecomunicações Detecção de falhas, Dimensionamento de Sistemas de Comunicação, Detecção de Fraudes;...

Meio Ambiente Monitoramento ambiental, Prevenção de desequilíbrios ecológicos;... Indústria Previsão de demanda, Planejamento da produção e distribuição;... Área Social Caracterização de Perfil para Reintegração Social;...

Exemplos na área da Segurança Como saber se uma mensagem é lixo ou de fato interessa? Como saber se um dado comportamento de usuário é suspeito e com lidar com isto? Detecção de intrusão e filtragem de spam

Exemplos de aplicação de Mineração de Dados: Classificação de imagens baseada em conteúdo Identificação por impressões digitais Reconhecimento automático de assinaturas

Exemplos de aplicação de Mineração de Dados: Classificação de imagens baseada em conteúdo Autêntico ou Fraude Projeto PORTINARI

Exemplos de aplicação de Mineração de Dados: Extração e correção de padrões em músicas

Exemplos de aplicação de Mineração de Dados: Reconhecimento e classificação de sons Reconhecimento de Voz e de Locutores

Exemplos de aplicação de Mineração de Dados: Reconhecimento e busca de objetos em imagens ou vídeos Identificação de Elementos Reconhecimento de face

Exemplos de aplicação de Mineração de Dados: Reconhecimento e busca de objetos em imagens ou vídeos Diagnóstico a partir de radiografia Diagnóstico a partir de tomografia computadorizada Diagnóstico a partir de ressonância magnética

Exemplos na área Financeira Previsão da cotação de ações na bolsa de valores

Exemplos na área de Energia (Petróleo) Identificação de locais para perfuração de poços de petróleo

Exemplos de aplicação de Mineração de Dados: Reconhecimento de imagens baseada em conteúdo Reconhecimento de usuários pela íris

Atividades em KDD - uma Taxonomia Atividades em KDD Desenvolvimento Tecnológico Execução de KDD Aplicação de Resultados [Goldschmidt et al., 2002a]

Atividades em KDD - uma Taxonomia Desenvolvimento Tecnológico Tarefas, Algoritmos e Técnicas Otimização de Desempenho Processo de KDD [Goldschmidt et al., 2002a]

Tópicos Relacionados: Mineração de Textos Mineração de Dados Multimídia Mineração de Grafos Big Data Mineração de Dados Paralela e Distribuída

Tópicos Relacionados: Opinion Mining Educational Data Mining Social Data Mining Web Mining Etc