Introdução ao Data Mining 1
|
|
- Wagner Branco Chaplin
- 7 Há anos
- Visualizações:
Transcrição
1 INTEGRAÇÃO E PROCESSAMENTO ANALÍTICO DE INFORMAÇÃO Introdução ao Data Mining 1 António Manuel Silva Ferreira UNIVERSIDADE DE LISBOA FACULDADE DE CIÊNCIAS DEPARTAMENTO DE INFORMÁTICA asfe@di.fc.ul.pt
2 Sumário Data mining Propósito Tarefas Wpicas Aplicações právcas Ciclo virtuoso Dificuldades de uso Métodos Supervisionados e não supervisionados Agrupamento Hierárquico aglomeravvo IteraVvo k- means Classificação Árvores de decisão 2
3 Data Mining Prospeção de Informação Tem como propósito descobrir informação escondida nos dados Descoberta de padrões úteis em grandes quan9dades de dados Reúne conhecimento de várias áreas Análise estawsvca: descrição de dados e inferência Inteligência arvficial: geração automávca de modelos Sistemas de informação: modelação e disponibilidade dos dados No contexto do data warehousing Extrair (Fontes Operacionais) Transformar (Data Staging) Carregar (Data Warehouse) Mudança no negócio Decidir Analisar e Modelar 3
4 Infra- Estrutura para o Data Mining Sistemas operacionais: olhos e ouvidos Permitem a entrada de dados na organização Focados no funcionamento dos processos de negócio Pouco vocacionados para a prospeção de dados Data warehouse: memória Guarda dados coerentes, de várias fontes, e com histórico Permite a recuperação de factos relevantes dispersos no tempo Fonte de dados mais importante para a prospeção de dados Sistemas de data mining: inteligência Exploram dados históricos para gerar informação ú9l no futuro Detetam padrões nos dados e sugerem novas regras de negócio Permitem tomar decisões informadas e traçar planos de ação 4
5 Data Mining ao Longo do Tempo Anos 20 a finais de 70 Métodos estawsvcos descrivvos e inferenciais Visualização de dados, seleção de atributos, deteção de outliers Data mining = análise estawsvca Anos 80 e 90 Vulgarização dos computadores e aprendizagem arvficial Geração automá9ca de modelos de dados Data mining = machine learning Tempos mais recentes Proliferação de data warehouses e explosão de dados Interligação de sistemas de informação e cruzamento de dados Data mining = tarefa integrada no processo de tomada de decisão 5
6 Tarefas Típicas de Data Mining Interpretação Explorar visual e interavvamente os dados Matrizes de gráficos, linhas de tendência, gráficos tridimensionais Agrupamento Agrupar dados com caraterís9cas idên9cas desconhecidas à par9da Métodos hierárquico aglomeravvo e iteravvo k- means Classificação Gerar modelos que organizam dados em classes pré- determinadas Métodos com árvores de decisão e redes neuronais Associação Descobrir grupos frequentes: que coisas costumam ir juntas Método com regras de associação 6
7 Aplicações Prá9cas de Data Mining Deteção de situações suspeitas Transferências bancárias internacionais para paraísos fiscais UVlização pouco comum do cartão de crédito Fidelização de clientes Promoções personalizadas com base no histórico de compras Sugestões de produtos relacionados comprados por outros clientes Indexação automávca Atribuição de palavras- chave e relevância a conteúdos na Internet Seleção de publicidade a acompanhar resultados de pesquisa Previsão de eventos Chuva para amanhã com base no histórico de condições atmosféricas Manutenção preventiva de máquinas industriais pela forma das vibrações 7
8 Ferramentas de Data Mining Dedicadas So<ware estawsvco de referência Maior controlo e confiança nos resultados Acesso menos eficiente aos dados do data warehouse Ex. R, S, SPSS, SAS Integradas em sistemas SQL Server Módulos que executam métodos mais habituais Regras de associação, árvores de decisão, redes neuronais, agrupamento Tem linguagem própria: DMX (data mining expressions) Outros sistemas Oracle Data Mining, IBM DB2 Intelligent Miner 8
9 Ciclo Virtuoso do Data Mining 1 1. IdenVficar um problema de negócio Com base na análise dos dados no data warehouse 2. Aplicar métodos de data mining Para transformar dados em informação Envolve construção de modelos dos dados 3. Agir sobre a informação obvda Decisão afeta o funcionamento do negócio 4. Medir resultados da decisão Avaliar se problema de negócio foi resolvido Voltar ao ponto 1 Analisar Modelar Decidir Avaliar 9
10 Ciclo Virtuoso do Data Mining Avaliar resultados 1. Traduzir problema de negócio em problema de data mining 2. Selecionar fontes de dados 9. Implantar modelos no negócio Ciclo do data mining pode ser não linear 3. Conhecer as fontes de dados 8. Avaliar modelos 4. Criar conjuntos de dados 7. Gerar modelos dos dados 6. Preparar dados para uso em métodos 5. Corrigir problemas nos dados 10
11 Conjuntos de Dados Dados de treino Usados para criar o modelo inicial Deve ter quanvdade considerável de dados (ex. dois terços ou 70%) Dados de validação Usados para o9mizar o modelo inicial MiVgar overfiang devido a idiossincrasias nos dados de treino Tipicamente uma pequena porção dos dados Dados de teste (ou avaliação) Usados para calcular taxa de erro do modelo Permite esvmar taxa de erro com os dados ainda não analisados Cerca de um terço dos dados Três conjuntos devem ter dados diferentes e representa9vos 11
12 Dificuldades no Uso de Data Mining 1 Problemas nos dados Outliers causados por ruído ou más medições Dados biased, irrelevantes, incompletos, em atualização, Dados não estruturados (mulvmédia, texto, ) Problemas nos modelos Sobre- ajustamento (overfiang) Modelo bem adaptado aos dados de treino mas não é generalizável Possível corrigir com conjunto de validação Modelos alternavvos podem ser comparados e escolhido o melhor Tendo o cuidado de usar os mesmos dados de treino Visualizações não apropriadas Gráficos incompletos ou desapropriados Problemas de nível de detalhe e escala 12
13 Dificuldades no Uso de Data Mining 2 Interpretações abusivas dos resultados Correlação não implica causalidade! No oeste selvagem americano havia uma correlação quase perfeita entre o consumo de whisky e o número de missas celebradas Ambos quadruplicaram em 25 anos Aumento de whisky levou as pessoas a arrependerem- se mais? Claro que não! O que aconteceu foi a população ter quadruplicado Desempenho Alguns métodos não escalam bem Bons e rápidos com poucos dados Demasiado lentos com muitos dados Paralelização é um desafio Ferramentas populares de data mining não Vram parvdo de CPUs mulecore Execution Time (seconds) K = 4 K = 16 K = 64 Paralelização do método k- means na PlaystaVon 3 0 PPE PPE+SIMD SPE 1 SPE 2 SPE 4 SPE 6 SPE 8 13
14 Métodos e Supervisão Métodos não supervisionados Sem obje9vo inicial ExpetaVva de resultados interessantes e inesperados Processo Wpico 1. Selecionar fontes de dados 2. Preparar dados para análise 3. Gerar modelo dos dados 4. Avaliar modelo 5. Aplicar modelo a novos dados 6. IdenVficar possíveis objevvos específicos Métodos supervisionados Com obje9vo específico Exemplo: esvmar atributo com base noutros atributos Processo Wpico 1. Selecionar fontes de dados pré- classificados 2. Preparar dados para análise 3. Gerar modelo dos dados 4. Avaliar modelo comparando com dados pré- classificados 5. Aplicar modelo a novos dados 14
15 Agrupamento (Clustering) Agrupar dados com caraterísticas idênticas desconhecidas à partida Ex. agrupar clientes com base nas preferências de consumo Métodos não supervisionados Desnecessário conhecer agrupamentos (clusters) prévios dos dados O que significa ter bons clusters? Quando cada cluster tem vários elementos Quando os clusters são distantes entre si Duas abordagens principais Hierárquica: clusters vão sendo formados a parvr de sub- clusters Método de agrupamento hierárquico aglomeravvo Itera9va: inclusão sucessiva de elementos em clusters fixos à parvda Método k- means 15
16 Agrupamento Hierárquico Aglomera9vo Clusters compostos por sub- clusters Algoritmo bogom- up Construção dos sub- clusters para os clusters 1. Considerar tantos clusters quantos os dados disponíveis 2. Procurar par com os clusters mais próximos entre si De acordo com critério de distância (cada dado representa um ponto) 3. Juntar dois clusters mais próximos entre si num só 4. RepeVr passo 2, exceto se: a) Número de clusters for suficiente, ou b) Distância entre clusters for muito grande Condições de paragem do algoritmo 16
17 Critérios de Distância para Juntar Clusters Single linkage Clusters juntam- se escolhendo pontos mais próximos de cada cluster Clusters com formas alongadas Sensível a outliers Average linkage Clusters juntam- se escolhendo pontos médios de cada cluster Clusters com formas intermédias Mais resistente a outliers Complete linkage Clusters juntam- se escolhendo pontos que têm menor distância maior entre clusters Clusters com formas compactas Sensível a outliers 17
18 Dendrogramas 1 Representação dos clusters em forma de árvore Grandes clusters no topo Pontos individuais na base Dendrograma Dados 18
19 Dendrogramas 2 Distância guia a análise dos clusters de dados interessantes Grande distância significa maior disvnção entre clusters Single Linkage Average Linkage Complete Linkage Zona de corte com boa disvnção entre os dois clusters principais Grande distância entre os dois clusters principais Clusters muito próximos entre si (dados muito semelhantes) hcs <- hclust(dist(dados), "single"); plot(hcs, labels = FALSE); hca <- hclust(dist(dados), "average"); plot(hca, labels = FALSE); hcc <- hclust(dist(dados), "complete"); plot(hcc, labels = FALSE); 19
20 Exemplo de Agrupamento 50 animais selvagens Dados sobre cada animal Número de patas De 0 a 6 No intervalo [0, 1] 15 atributos lógicos Tem penas? É venenoso? Verdadeiro = 1 Falso = 0 Alguns clusters Javali, chita, leopardo, leão, lince, e mangusto AnWlope, búfalo, veado, elefante, e girafa aardvark bear boar cheetah leopard lion lynx mongoose mink antelope buffalo deer elephant giraffe calf goat human gorilla cavy hamster fruitbat hare mole bass catfish chub herring dogfish carp haddock dolphin chicken dove lark duck flamingo crow hawk gull kiwi clam crab crayfish lobster frog flea gnat housefly ladybird honeybee 20
21 Agrupamento Itera9vo K- Means Método mais rápido que agrupamento hierárquico aglomeravvo Também constrói clusters a parvr de sub- clusters Número inicial de clusters (k) é inferior ao total de pontos Centro dos k clusters iniciais escolhido aleatoriamente Resultados podem ser diferentes em cada execução Apesar de tudo, resultados tendem a ser coerentes Algoritmo bogom- up 1. Escolher k pontos aleatórios para centros de clusters 2. Associar cada ponto de dados ao cluster mais próximo 3. Para cada cluster calcular o seu novo centro 4. RepeVr passo 2, exceto se não houver troca de pontos entre clusters 21
22 Exemplos de K- Means 22 d1 <- matrix(rnorm(n = 100, mean = 0.5, sd = 0.1), ncol = 2); d2 <- matrix(rnorm(n = 100, mean = 1.5, sd = 0.1), ncol = 2); d0 <- rbind(d1, d2); plot(d0, xlim = c(0, 2), ylim = c(0, 2)); Dados iniciais k2 <- kmeans(d0, centers = 2); plot(d0, col = k2$cluster, xlim = c(0, 2), ylim = c(0, 2), cex = 1.5); points(k2$centers, col = 8, pch = 3, cex = 15); k5 <- kmeans(d0, centers = 5); plot(d0, col = k5$cluster, xlim = c(0, 2), ylim = c(0, 2), cex = 1.5); points(k5$centers, col = 8, pch = 3, cex = 15); Cenário ó9mo Dados em torno de 2 clusters iniciais Mau agrupamento Dados em torno de 5 clusters iniciais
23 Árvores de Decisão 1 Método supervisionado de classificação Modelo afinado com base em dados pré- classificados Exemplo: aprovação de crédito num banco Empregado do Banco? Não Sim Rendimento Alto Baixo Aprovar Rejeitar Conceitos Nós da árvore representam atributos Arestas são valores de atributos Folhas são classes (decisões) possíveis, pré- determinadas Processo de classificação faz- se descendo na árvore Aprovar 23
24 Árvores de Decisão 2 Regras de classificação são fáceis de entender Se é empregado do banco, tem crédito aprovado Se não é empregado do banco Se tem rendimento elevado, tem crédito aprovado Se tem rendimento reduzido, o crédito é rejeitado Interessa obter árvores pequenas e simples Para salientar quais os atributos mais importantes para classificar Árvores complexas sujeitas a mais erros e a overfiang A explicação mais simples é geralmente a mais verdadeira Construção da árvore guiada por heurísvcas Ex. corte de ramos da árvore que diferenciam pouco os dados 24
25 Construção de Árvores de Decisão 1 Situação ideal (mas infrequente) Um atributo determinar imediatamente classes (decisões) Ex. se empregado do banco tem sempre aprovação do crédito Situação mais comum Escolher atributos pela ordem que melhor diferencia os dados Esta árvore é preferível à anterior? Sim Aprovar Rendimento Alto Baixo Empregado do Banco? Empregado do Banco? Não Sim Aprovar Aprovar Não Rejeitar 25
26 Construção de Árvores de Decisão 2 Considerando D = dados pré- classificados e D o número de elementos em D C = classes possíveis dos dados, c 1, c 2,, c n A = um atributo dos dados, com valores possíveis a 1, a 2,, a n D a = subconjunto de D onde o atributo A tem o valor a Algoritmo simplificado 1. Calcular ganho de informação para cada atributo A!"#$%!&"'# = (#)*%+,"!&#! " # ) "=" $ & & "(#)*%+,"!& # ( " ( ' 2. Colocar atributo com maior ganho na árvore 3. RepeVr sucessivamente desde o topo até à base da árvore SubsVtuindo D por D a, consoante o ramo da árvore percorrido # % % $ & " 26
27 Construção de Árvores de Decisão 3 Entropia mede a desordem nos dados Para um conjunto de dados D, com classes possíveis c 1, c 2,, c n!"#$%&'(!)" =!& * "#$% &!& * " p c = proporção da classe c no universo das classes possíveis em D Exemplo c 1 = aprovado p c1 = 4/5 c 2 = rejeitado p c2 = 1/5 * " # *=* ' ( ) Dsim Dnão Empregado do Banco? Rendimento Crédito Sim Alto Aprovado Sim Baixo Aprovado Sim Baixo Aprovado Não Alto Aprovado Não Baixo Rejeitado )!"#$%&'(!)" =! # $ "%&' # # &, + % (. ( * + $ $ '-. + )!) $ "%&' #) % &, + ( * + $ $ ' (. -. = *+,( 27
28 Construção de Árvores de Decisão 4 Entropia ÓVma para detetar atributos que melhor diferenciam os dados Pois tem valor reduzido nas seguintes situações Quase todos os dados pertencem a uma classe c i Quase nenhum dos dados pertence a uma classe c j Ganho de informação para um atributo A Indica qual a redução esperada da entropia dos dados decorrente da navegação na árvore através do atributo A Ex. A = empregado do banco? navegação pelo valores sim e não Ex. A = rendimento navegação pelos valores alto e baixo Quanto maior a redução da entropia Menor o número de classes possíveis do respevvo subconjunto dos dados Mais próxima está a decisão final 28
29 Construção de Árvores de Decisão 5 Qual o atributo com maior ganho de informação? Isto é, qual o atributo que melhor diferencia os dados? Empregado do banco? ou rendimento? #!"#$%!&"'()*+,"-%# = '#.*%)/"!&#! & 0/( & "'#.*%)/"!& #+ & & % #1% 0/( & "'#.*%)/"!& # ( % #1% ( $ ' # = $"%&! % ' ( "$+ & $ ( ") & ( = $"%&!$"* = $"'& ' #!"#$%!&"'(#)*+(#,%# = -#,.%/*"!&#! & "0,% & "-#,.%/*"!& #+ & & % 1"*2% "0,% & "-#,.%/*"!& # ( % 1"*2% ( $ ' # = $"%&! % & ' "$+ ( $ ' "$")& & ( = $"%&!$"'' = $"*% ' Resultados Empregado do banco? deve constar no topo da árvore Rendimento deve estar no ramo não empregado do banco 29
30 Bibliografia Jiawei Han, Micheline Kamber, e Jian Pei, Data Mining: Concepts and Techniques, Morgan Kaufmann, 2ª edição, 2005 Michael Berry e Gordon Linoff, Data Mining Techniques for MarkeEng, Sales, and Customer Support, Wiley, 2ª edição, 2011 Tipos de tarefas Cap. 1 Ciclo virtuoso Caps. 2 e 3 Árvores de decisão Cap. 6 Agrupamento Cap. 11 Trevor HasVe, Robert Tibshirani, e Jerome Friedman, The Elements of StaEsEcal Learning: Data Mining Inference and PredicEon, Springer, 2ª edição,
LVQ Learning Vector Quantization. Sarajane Marques Peres
LVQ Learning Vector Quantization Sarajane Marques Peres Bibliografia } Slides baseados em: } Fundamentals of Neural Networks: architectures, algorithms and applications. Laurene Fausett. Prentice-Hall,
Leia maisIntrodução ao Data Mining. Sumário
Introdução ao Data Mining Instituto Nacional de Estatística 20-24 de Abril de 2009 Módulo 1 - Data Warehousing e Data Mining - André Falcão (afalcao@di.fc.ul.pt) Graça Gaspar (gg@di.fc.ul.pt) Sumário Data-mining
Leia maisTÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE
TÓPICOS AVANÇADOS EM ENGENHARIA DE SOFTWARE Engenharia de Computação Professor: Rosalvo Ferreira de Oliveira Neto O processo de descoberta do conhecimento - KDD Roteiro Introdução Definição Etapas Desafios
Leia maisIntegração de Mineração de Dados com SGBD Detecção de Agrupamentos
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Centro de Matemática Computação e Cognição-UFABC Jéssica Andressa de Souza Pós-Graduação em Ciência da Computação Sistemas de Banco de
Leia maisClustering: k-means e Agglomerative
Tópicos Avançados em Avaliação de Desempenho de Sistemas Jackson Nunes Marco Eugênio Araújo Outubro de 2014 1 Sumário Contextualização Classificação Agrupamento (Clustering) Cenários de Aplicação Clustering
Leia maisEvandro Deliberal Aula 01
Evandro Deliberal evandro@deljoe.com.br https://www.linkedin.com/in/evandrodeliberal http://www.deljoe.com.br/professor Aula 01 Agenda DATA MINING. Data mining Motivações Grande disponibilidade de dados
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Leia maisAprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquinas Introdução à Aprendizado Não- Supervisionado David Menotti, Ph.D. http://web.inf.ufpr.br/menotti Objetivos
Leia maisInformática. Aprendizado de Máquina. Professor Márcio Hunecke.
Informática Aprendizado de Máquina Professor Márcio Hunecke www.acasadoconcurseiro.com.br Informática Aula XX NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês:
Leia mais10 FORMAS ESTATÍSTICA MODELAGEM PARA USAR
10 FORMAS PARA USAR MODELAGEM ESTATÍSTICA Introdução Conheça um pouco mais sobre algumas modelagens estatísticas e como você pode implantar dentro da sua organização A análise preditiva é capaz de descobrir
Leia maisAprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR
Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 16 Aprendizado Não-Supervisionado Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisPLANO DE ENSINO DA DISCIPLINA BLOCO I IDENTIFICAÇÃO
CURSO DE GRADUAÇÃO: SÉRIE: SEMESTRE LETIVO DO ANO: ( ) 1º SEMESTRE ( X ) 2º SEMESTRE ( ) 1º e 2º SEMESTRES ANO: PLANO DE ENSINO DA DISCIPLINA BLOCO I IDENTIFICAÇÃO Código da Disciplina: Nome da Disciplina:
Leia maisPÓS-GRADUAÇÃO ANÁLISE DE DATA MINING
PÓS-GRADUAÇÃO ANÁLISE DE DATA MINING OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de
Leia maisMinerando regras de associação
Minerando regras de associação Proposto por Rakesh Agrawal em 1993. É o modelo de mineração de dados mais estudado pela comunidade de banco de dados. Utiliza dados categóricos. Não há bons algoritmos para
Leia maisAprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR
Aprendizagem de Máquina - 2 Prof. Júlio Cesar Nievola PPGIa - PUCPR Inteligência versus Aprendizado Aprendizado é a chave da superioridade da Inteligência Humana Para que uma máquina tenha Comportamento
Leia maisSistemas de Informação e Decisão. Douglas Farias Cordeiro
Sistemas de Informação e Decisão Douglas Farias Cordeiro Decisão Tomamos decisões a todo momento! O que é uma decisão? Uma decisão consiste na escolha de um modo de agir, entre diversas alternativas possíveis,
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisUniversidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.
Universidade Federal do Paraná Departamento de Informática Reconhecimento de Padrões Tipos de Aprendizagem Luiz Eduardo S. Oliveira, Ph.D. http://lesoliveira.net Objetivos Introduzir diferentes tipos de
Leia maisInformática Parte 19 Prof. Márcio Hunecke
Escriturário Informática Parte 19 Prof. Márcio Hunecke Informática NOÇÕES DE ALGORITMOS DE APRENDIZADO O aprendizado automático, aprendizado de máquina (em inglês: "machine learning") ou aprendizagem
Leia maisIntrodução ao Data Mining (Mineração de Dados)
Introdução ao Data Mining (Mineração de Dados) Quem é da área de TI, provavelmente já ouviu sobre Data Mining, mesmo que não saiba o que é. É uma das últimas modas relacionados à BD. Para se ter uma noção
Leia maisDATA MINING. Prof. Fulvio Cristofoli. Mineração De Dados.
DATA MINING Mineração De Dados fulviocristofoli@uol.com.br www.fulviocristofoli.com.br Conceito As organizações perseguem inteligência. Nessa perseguição, elas processam informação, formulam planos e aspirações,
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 18 Aprendizado Não-Supervisionado Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia maisProf. Daniela Barreiro Claro
O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2
Leia maisAnálise de Agrupamento. Cluster Analysis
Análise de Agrupamento Cluster Analysis Objetivo Classificar objetos, itens ou indivíduos de acordo com as suas semelhanças. Os objetos semelhantes são alocados em um mesmo grupo e, portanto, aqueles que
Leia maisAprendizagem a partir de observações. Capítulo 18 (Secções 1-3)
Aprendizagem a partir de observações Capítulo 18 (Secções 1-3) Sumário Agentes aprendizes Aprendizagem indutiva Aprendizagem com árvores de decisão Aprendizagem Aprendizagem é essencial em ambientes desconhecidos
Leia mais2284-ELE/5, 3316-IE/3. Universidade da Beira Interior, Departamento de Informática
INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem A aprendizagem é um aspecto crucial da Inteligência
Leia mais7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS
7 Congresso de Pós-Graduação MODELAGEM DE BASE DE CONHECIMENTO PARA TAREFA DE CLASSIFICAÇÃO EM MINERAÇÃO DE DADOS Autor(es) LIDIA MARTINS DA SILVA Orientador(es) ANA ESTELA ANTUNES DA SILVA 1. Introdução
Leia maisFACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS
FACULDADE CAMPO LIMPO PAULISTA (FACCAMP) COORDENADORIA DE EXTENSÃO E PESQUISA CURSO DE PÓS-GRADUAÇÃO LATO SENSU EM MINERAÇÃO E CIÊNCIA DOS DADOS PROJETO PEDAGÓGICO CAMPO LIMPO PAULISTA 2015 1. Público
Leia maisDescoberta de conhecimento em textos - Análise semântica. Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes
Descoberta de conhecimento em textos - Análise semântica Diogo Cardoso Eduardo Camilo Inácio Eduardo Monteiro Dellandréa Guilherme Gomes Introdução Diversidade de textos não padronizados; Emails, artigos,
Leia maisSEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga mvieira@sc.usp.br
Leia maisInteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
Leia maisAprendizado de Máquina
Aprendizado de Máquina Árvores de Decisão Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 28
Leia maisData Analytics Prevenção e deteção de Fraude
www.pwc.pt Data Analytics Prevenção e deteção de Fraude 21 Agenda Auditoria Interna e Fraude Agenda Introdução à Fraude Papel da Auditoria Interna Cases Studies Data Analytics Exemplos Reconhecer 3 Conceito
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia maisIntrodução à Programação
Introdução à Program João Manuel R. S. Tavares Sumário 1. Ciclo de desenvolvimento de um programa; 2. Descrição de algoritmos; 3. Desenvolvimento modular de programas; 4. Estruturas de controlo de um programa.
Leia maisANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa
ANÁLISE DE AGRUPAMENTOS (Cluster Analysis) Flávia F. Feitosa BH1350 Métodos e Técnicas de Análise da Informação para o Planejamento Julho de 2015 ANÁLISE DE AGRUPAMENTOS É uma técnica analítica pra identificar
Leia maisAprendizado de Máquina
Aprendizado de Máquina A necessidade de inserir aprendizado nas máquinas surgiu após a construção dos Sistemas Especialistas (SEs). Os primeiros SEs não possuíam mecanismo de aprendizado e tornavam-se
Leia maisPor que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Leia maisAula 8 - Reconhecimento e Interpretação. Prof. Adilson Gonzaga
Aula 8 - Reconhecimento e Interpretação Prof. Adilson Gonzaga Elementos de Visão Computacional: Visão Computacional Processamento de Baio Nível Processamento de Nível Intermediário Processamento de Alto
Leia maisUniversidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica. Árvores de Decisão. David Menotti.
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Árvores de Decisão David Menotti www.inf.ufpr.br/menotti/ci171-182 Árvores de Decisão Agenda Introdução Representação Quando Usar
Leia maisA contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe
A contribuição de Mineração de Dados no processo de Autoavaliação dos cursos superiores do Instituto Federal de Sergipe Leopoldo Ramos de Oliveira 1, Fausto Bernard Melo Soares 2, José Acácio de Jesus
Leia maisÁrvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Árvore de Decisão George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Tópicos Introdução Representando Árvores de Decisão O algoritmo ID3 Definições Entropia Ganho de Informação Overfitting Objetivo
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Duda e Hart Capítulo 1 Reconhecimento de Padrões (imagem) Objetivo: Interpretar um conjunto de dados através de um mapeamento (classificação)
Leia maisFundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados by Prentice Hall
Fundamentos da Inteligência de Negócios: Gerenciamento da Informação e de Bancos de Dados 5.1 2007 by Prentice Hall A Abordagem de Banco de Dados para Gerenciamento de Dados Banco de dados: conjunto de
Leia maisProfissinais que desejam adquirir ou aprimorar seus conhecimentos em modelagem de dados, analytics e estatística aplicada
MBA ANALYTICS OBJETIVOS Na era da informação, as empresas capturam e armazenam muitos dados, e existe a real necessidade da aplicação de técnicas adequadas para a rápida tomada de decisão com base nas
Leia maisIntrodução à Programação. João Manuel R. S. Tavares
Introdução à Programação João Manuel R. S. Tavares Sumário 1. Ciclo de desenvolvimento de um programa; 2. Descrição de algoritmos; 3. Desenvolvimento modular de programas; 4. Estruturas de controlo de
Leia maisíndice 2. Vetores e Tipos Primitivos PARTE 1- O Sistema R 1. Introdução ao Sistema R
índice Os Autores Prólogo XI XIII PARTE 1- O Sistema R 1. Introdução ao Sistema R 1.1. O que é o R? 1.2. Instalar o R 1.3. Edição de Comandos e Ambientes de Desenvolvimento 1.. Objetos, Funções e Packages
Leia maisDescoberta de Conhecimento em Bancos de Dados - KDD
Descoberta de Conhecimento em Bancos de Dados - KDD Professor: Rosalvo Ferreira de Oliveira Neto Disciplina: Inteligência Artificial Tópicos 1. Definições 2. Fases do processo 3. Exemplo do DMC 4. Avaliação
Leia maisAutor(es) HARLEI MIGUEL DE ARRUDA LEITE. Orientador(es) MARINA TERESA PIRES VIEIRA. Apoio Financeiro PIBIC/CNPQ. 1. Introdução
19 Congresso de Iniciação Científica IMPLEMENTAÇÃO DE GUIAS E ALGORITMOS PARA REGRAS DE ASSOCIAÇÃO MULTIRELACIONAL NA FERRAMENTA DE MINERAÇÃO DE DADOS KIRA Autor(es) HARLEI MIGUEL DE ARRUDA LEITE Orientador(es)
Leia maisOrganização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo
Leia maisO QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2
O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2 O QUE É O BIG DATA? Os dados são o novo petróleo O Big Data, tal como o
Leia maisTrilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization
Leia maisRoteiro. PCC142 / BCC444 - Mineração de Dados. Cenário
Roteiro PCC142 / BCC444 - Mineração de Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto luizhenrique@iceb.ufop.br www.decom.ufop.br/luiz Introdução Tarefas
Leia maisANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA
CURTA DURAÇÃO ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA CARGA HORÁRIA: 80 horas COORDENAÇÃO: Prof.ª Dr.ª Alessandra de Ávila Montini OBJETIVOS Introduzir o conceito de Big Data,
Leia maisAprendizagem a partir de observações
Aprendizagem a partir de observações Aprendizagem é essencial para ambientes desconhecidos, i.e., quando o projetista não prevê tudo Útil como um método de construção de sistemas i.e., expor o agente à
Leia maisClassificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si
Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si Classificação de Dados Os modelos de classificação de dados são preditivos, pois desempenham inferências
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 12 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 12 de Janeiro de 2017 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:
Leia maisExtração de Árvores de Decisão com a Ferramenta de Data Mining Weka
Extração de Árvores de Decisão com a Ferramenta de Data Mining Weka 1 Introdução A mineração de dados (data mining) pode ser definida como o processo automático de descoberta de conhecimento em bases de
Leia maisCLARA. Resumo. Introdução. Artigo de Referência [1] Introdução PAM. Modelagem como grafo CLARANS. Comparação de eficiência Conclusão
Resumo CLARANS Diego Raphael Amancio Introdução PAM CLARA CLARANS Comparação de eficiência Conclusão 2 Artigo de Referência [1] Introdução Imagem do artigo original entitulado Efficient and Effective Clustering
Leia maisInteligência Artificial
https://www.pinterest.com/carlymundo/decision-tree-infographics/ Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial
Leia maisCC-226 Introdução à Análise de Padrões
CC-226 Introdução à Análise de Padrões Apresentação do Curso Carlos Henrique Q. Forster 1 1 Divisão de Ciência da Computação Instituto Tecnológico de Aeronáutica 25 de fevereiro de 2008 C. H. Q. Forster
Leia maisAlgoritmos Indutores de Árvores de. Fabrício J. Barth
Algoritmos Indutores de Árvores de Decisão Fabrício J. Barth Maio de 2018 Problema: Diagnóstico para uso de lentes de contato 2 Diagnóstico para o uso de lentes de contato O setor de oftalmologia de um
Leia maisAprendizagem de Máquina
Problema do Agrupamento Aprendizagem de Máquina Alessandro L. Koerich Seja x = (x 1, x 2,, x d ) um vetor d dimensional de características Seja D um conjunto de x vetores, D = { x(1), x(2),, x(n) } Problema
Leia maisInteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões
Leia maisAnálise de Clusters. Aplicações da formação de Grupos (Clustering)
Análise de Clusters Aplicações da formação de Grupos (Clustering) Ver e analisar vastas quantidades de dados biológicos como um todo pode ser difícil É mais fácil interpretar os dados se forem divididos
Leia maisAlgoritmos de Agrupamento - Aprendizado Não Supervisionado
Algoritmos de Agrupamento - Aprendizado Não Supervisionado Fabrício Jailson Barth fabricio.barth@gmail.com Agosto de 2016 Sumário Introdução e Definições Aplicações Algoritmos de Agrupamento Agrupamento
Leia maisMetodologia Aplicada a Computação.
Metodologia Aplicada a Computação gaudenciothais@gmail.com Pré-processamento de dados Técnicas utilizadas para melhorar a qualidade dos dados; Eliminam ou minimizam os problemas como ruídos, valores incorretos,
Leia maisAprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
Leia maisInteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
Leia maisÁrvores de Decisão. Sistemas Inteligentes
Árvores de Decisão Sistemas Inteligentes Uma Abordagem típica em aprendizagem simbólica Árvores de decisão: inductive decision trees (ID3) Instâncias (exemplos) são representadas por pares atributo-valor
Leia maisInteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 7) Fundamentação da disciplina Analise de dados Decisões
Leia maisExtracção de Conhecimento
Programa Doutoral em Engenharia Informática Mestrado Integrado em Engenharia Informática LIACC/FEUP Universidade do Porto www.fe.up.pt/ ec rcamacho@fe.up.pt Outubro 2007 conceitos básicos Conteúdo Definições
Leia maisÁrvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015
Árvores de decisão Marcelo K. Albertini 17 de Agosto de 2015 2/31 Árvores de Decisão Nós internos testam o valor de um atributo individual ramificam de acordo com os resultados do teste Nós folhas especificam
Leia maisTópicos em Mineração de Dados
Tópicos em Mineração de Dados Descoberta de agrupamentos Método k-médias 1. Introdução A descoberta de agrupamentos é uma tarefa descritiva que procura agrupar dados utilizando a similaridade dos valores
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se
Leia maisGESTÃO DE DADOS NAS ORGANIZAÇÕES. Prof. Robson Almeida
GESTÃO DE DADOS NAS ORGANIZAÇÕES Prof. Robson Almeida INFRA-ESTRUTURA DE SISTEMAS DE INFORMAÇÃO 3 CONCEITOS Bit: Menor unidade de dados; dígito binário (0,1) Byte: Grupo de bits que representa um único
Leia maisDedicados em exclusivo à área analítica desde 1994, somos o parceiro ideal para a realização de projetos de análise de dados.
Dedicados em exclusivo à área analítica desde 1994, somos o parceiro ideal para a realização de projetos de análise de dados. Os serviços Data Mining Services têm como objetivo disponibilizar às organizações
Leia maisMineração de Dados - Contextualização. Fonte: Prof. Fabrício J. Barth -
Mineração de Dados - Contextualização Fonte: Prof. Fabrício J. Barth - http://fbarth.net.br/ Mineração de Dados - Contextualização Uso da informação Síntese do conhecimento; Manter, disseminar, organizar,
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Leia maisSEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke
SEFAZ INFORMÁTICA Data Mining Prof. Márcio Hunecke www.acasadoconcurseiro.com.br Informática DATA MINING Data mining (ou mineração de dados) é o processo de extrair informação válida, previamente desconhecida
Leia mais2 Mineração de Dados Processo de Busca de Conhecimento (KDD) 2 Mineração de Dados
2 Mineração de Dados 2 Mineração de Dados A mineração de dados, ou data mining, é uma das principais etapas do processo de busca de conhecimento. Este conceito é utilizado para identificar técnicas avançadas
Leia mais2COP229 Inteligência Computacional. Aula 3. Clusterização.
Aula 3 Clusterização Sumário (Clusterização) - Introdução - Aprendizado Não Supervisionado - Aprendizado Supervisionado - Introdução: Clusterização - Etapas para o processo de Clusterização - Distância
Leia maisPrograma do Curso. Transformação de Dados. Sistemas Inteligentes Aplicados. Carlos Hall. Discretização de Variáveis Contínuas
Sistemas Inteligentes Aplicados Carlos Hall Programa do Curso Limpeza/Integração de Dados Transformação de Dados Discretização de Variáveis Contínuas Transformação de Variáveis Discretas em Contínuas Transformação
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos
Leia maisMineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães.
Mineração de Dados e Aprendizado de Máquinas. Rodrigo Leite Durães. O que é mineração de dados Mineração de Dados é um passo no processo de KDD que consiste na aplicação de análise de dados e algoritmos
Leia maisExtração de Conhecimento & Mineração de Dados
Extração de Conhecimento & Mineração de Dados Nesta apresentação é dada uma breve introdução à Extração de Conhecimento e Mineração de Dados José Augusto Baranauskas Departamento de Física e Matemática
Leia maisAgrupamento Espectral e Hierárquico
Agrupamento Espectral e Hierárquico Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Agrupamento Espectral 2. Agrupamento Hierárquico 1 Agrupamento Espectral Agrupamento Espectral Nem
Leia maisMáquinas de Vetores de Suporte - Support Vector Machines (SVM) Germano Vasconcelos
Máquinas de Vetores de Suporte - Support Vector Machines (SVM) Germano Vasconcelos Introdução * Método supervisionado de aprendizagem de máquina * Empregado em classificação de dados Classificação binária
Leia maisDE BASE DE CONHECIMENTO E MOTOR DE INFERÊNCIA PARA O PROCESSO DE MINERAÇÃO DE DADOS DA FERRAMENTA KIRA
18º Congresso de Iniciação Científica IMPLEMENTAÇÃO DE BASE DE CONHECIMENTO E MOTOR DE INFERÊNCIA PARA O PROCESSO DE MINERAÇÃO DE DADOS DA FERRAMENTA KIRA Autor(es) ANDRÉ DE ANDRADE BINDILATTI Orientador(es)
Leia maisProfessor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Professor: Eduardo R Hruschka Estagiário PAE: Luiz F S Coletta (luizfsc@icmcuspbr) Sumário Definição do projeto 1 Desenvolvimento de algoritmo de Aprendizado de Máquina (AM); 2 Pré-processamento dos dados;
Leia maisMineração de Dados. Análise e Seleção de Variáveis
Mineração de Dados Análise e Seleção de Variáveis 1 Análise e Seleção de Variáveis Parte da uma área chamada de Redução de Dados Obtenção de uma representação reduzida em volume mas que produz resultados
Leia mais