BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING Asterio K. Tanaka
|
|
|
- Débora Brandt Paixão
- 8 Há anos
- Visualizações:
Transcrição
1 BANCO DE DADOS DISTRIBUÍDOS e DATAWAREHOUSING Asterio K. Tanaka [email protected] Introdução a Data Mining Árvores de Decisão
2 Categorização de Dados Parte II Rogério Atem de Carvalho Adaptado de Companion slides for the text by Dr. M.H.Dunham, Data Mining, Introductory and Advanced Topics, Prentice Hall, 2002.
3 Objetivos de Data Mining Modelos e Tarefas
4 Tarefas Básicas de Data Mining I Classificação mapeia dados em classes prédefinidas Aprendizado supervisionado Reconhecimento de Padrões Predição Regressão mapeia dados a variáveis de predição. Clustering agrupa itens similares em clusters (grupos). Aprendizado Não-supervisionado Segmentação Particionamento
5 Tarefas Básicas de Data Mining II Sumarização mapeia dados em subconjuntos associados a descrições simples. Caracterização Generalização Link Analysis descobre relações entre dados (correlação). Análise de Afinidade Regras de Associação
6 Ex: Análise de Séries Temporais Exemplo: Mercado de Ações Predição de valores futuros Determinação de padrões no tempo Classificação de comportamento
7 Classificação I - Sumário Objetivo: Prover uma visão geral do problema de classificação e introduzir alguns dos algoritmos básicos. Visão Geral do Problema de Classificação Técnicas de Classificação Regressão Distância Árvores de Decisão Regras Redes Neuronais Artificiais
8 Classificação II - O Problema Dado uma base de dados D={t 1,t 2,,t n } e um conjunto de classes C={C 1,,C m }, o Problema de Classificação consiste em definir um mapeamento f:d C onde cada t i é associado a uma classe. Na prática divide D em classes de equivalência. Predição é similar, mas pode ser vista como tendo um número infinito de classes.
9 Classificação III - Exemplos Professores classificam o desempenho de estudantes em A, B, C, D, ou F. Identificar cogumelos como venenosos ou não. Predizer quando um rio irá transbordar. Identificar indivíduos com risco de crédito. Reconhecimento de Padrões em geral.
10 Classificação IV Ex: Gradação If x >= 90 then grau =A. If 80<=x<90 then grau =B. If 70<=x<80 then grau =C. If 60<=x<70 then grau =D. If x<50 then grau =F <50 <70 x F <80 <90 x x x >=70 >=60 D C >=90 >=80 B A
11 Classificação V: Técnicas Abordagem: 1. Criar um modelo específico através de análise dos dados de treinamento ou utilizar o conhecimento de especialistas do domínio. 2. Aplicar o modelo desenvolvido aos novos dados. Classes devem ser pré-definidas. Técnicas devem ser baseadas em distâncias ou métodos estatísticos.
12 Classificação VI: Definindo Classes Bas. Em Distância Baseado em Particionamento
13 Classificação VII: Questões Dados Faltando Ignorar. Substituir por valor assumido. Avaliação de Desempenho Mede a precisão da classificação nos dados de teste. Confusion Matrix. Operation Characteristic Curve.
14 Classificação VIII: Exemplo Name Gender Height Output1 Output2 Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Short Medium Worth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium Wynette F 1.75m Medium Medium
15 Classificação VIII: Desempenho Positivo Verdadeiro Falso Negativo Falso Positivo Negativo Verdadeiro
16 Classificação VIII: Confusion Matrix Usando exemplo anterior com Output1 corrigido e Output2 mantido Actual Assignment Membership Short Medium Tall Short Medium Tall 0 1 2
17 Operating Characteristic Curve
18 Árvores de Decisão I Árvores de Decisão (Decision Trees - DT): Raiz e cada nó interno são entitulados com uma pergunta. Arcos representam cada resposta possível para a pergunta associada. Cada folha representa uma predição de uma solução para o problema. Técnica popular para classificação, onde nós folha correspondem à classe a qual a tupla pertence.
19 Árvores de Decisão II -Exemplo
20 Árvores de Decisão III Um Modelo de Árvore de Decisão éum modelo computacional que consiste de três partes: Árvore de Decisão Algoritmo para criar a árvores Algoritmo de aplicação da árvore aos dados Criação da árvore é a parte mais difícil. Processamento é uma busca similar ás tradicionais em árvores.
21 Árvores de Decisão IV - Algoritmo
22 Árvores de Decisão V Vantagens/Desvantagens Vantagens: Fácil de entender. Fácil de gerar regras. Desvantagens: Classifica por particionamento retangular. Não manipulam bem dados não numéricos. Podem ser muito grandes.
23 Classificação Usando Árvores de Decisão Baseada em particionamento: Divide o espaço de busca em regiões retangulares. Tupla é colocada em classe com base na região na qual ela cai. Abordagem DT difere na forma como a árvore é criada: DT Induction Nós internos são associados com atributos e arcos com valores para cada atributo. Algoritmos: ID3, C4.5, CART
24 Dado: Árvore de Decisão D = {t 1,, t n } onde t i =<t i1,, t ih > Esquema do BD contém {A 1, A 2,, A h } Classes C={C 1,., C m } Árvore de Decisão ou de Classificação é uma árvore associada com D tal que Cada nó interno é rotulado com um atributo, A i Cada arco é rotulado com um predicado que pode ser aplicado ao atributo. Cada nó folha é rotulado com uma classe, C j
25 AD: Indução
26 AD: Splits Area Sexo M F Altura
27 Comparando ADs Balanceada Profunda
28 Tópicos em DT Escolha de Splitting Attributes Ordenação de Splitting Attributes Splits Estrutura da Árvore Critério de Parada Dados de Treinamento Pruning (poda)
29 Informação/Entropia Dadas as probabilidades p 1, p 2,.., p s cuja soma é a unidade, Entropia é definida como: Entropia mede a quantidade de aleatoriedade ou incerteza. Objetivo na classificação: Sem surpresas Entropia = 0
30 Entropia log (1/p) H(p,1-p)
31 ID3 Creates tree using information theory concepts and tries to reduce expected number of comparison.. ID3 chooses split attribute with the highest information gain:
32 ID3 Example (Output1) Starting state entropy: 4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = Gain using gender: Female: 3/9 log(9/3)+6/9 log(9/6)= Male: 1/6 (log 6/1) + 2/6 log(6/2) + 3/6 log(6/3) = Weighted sum: (9/15)(0.2764) + (6/15)(0.4392) = Gain: = Gain using height: (2/15)(0.301) = Choose height as first splitting attribute
33 C4.5 ID3 favors attributes with large number of divisions Improved version of ID3: Missing Data Continuous Data Pruning Rules GainRatio:
34 CART Create Binary Tree Uses entropy Formula to choose split point, s, for node t: P L,P R probability that a tuple in the training set will be on the left or right side of the tree.
35 CART Example At the start, there are six choices for split point (right branch on equality): P(Gender)=2(6/15)(9/15)(2/15 + 4/15 + 3/15)=0.224 P(1.6) = 0 P(1.7) = 2(2/15)(13/15)(0 + 8/15 + 3/15) = P(1.8) = 2(5/15)(10/15)(4/15 + 6/15 + 3/15) = P(1.9) = 2(9/15)(6/15)(4/15 + 2/15 + 3/15) = P(2.0) = 2(12/15)(3/15)(4/15 + 8/15 + 3/15) = 0.32 Split at 1.8
Aprendizado de Máquina
Aprendizado de Máquina Sistemas de Informação Inteligente Prof. Leandro C. Fernandes Adaptação dos materiais de: Thiago A. S. Pardo, Daniel Honorato e Bianca Zadrozny APRENDIZADO SIMBÓLICO: ÁRVORES DE
Créditos. SCC0173 Mineração de Dados Biológicos. Aula de Hoje. Introdução. Classificação III: Árvores de Decisão
SCC073 Mineração de Dados Biológicos Classificação III: Árvores de Decisão Créditos O material a seguir consiste de adaptações e extensões dos originais: gentilmente cedidos pelo Prof. André C. P. L. F.
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos
Fundamentos de Inteligência Artificial [5COP099]
Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 10 Modelos Preditivos - Árvore de Decisão 2 de 20 Aula 10 - Árvore de
Weka. Universidade de Waikato - Nova Zelândia. Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining
Weka Universidade de Waikato - Nova Zelândia Coleção de algoritmos de aprendizado de máquina para resolução de problemas de Data Mining implementado em Java open source software http://www.cs.waikato.ac.nz/ml/weka/
Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Aurora Trinidad Ramirez Pozo Universidade Federal do Paraná
Aurora Trinidad Ramirez Pozo Universidade Federal do Paraná 1 Um dos métodos práticos mais usados Induz funções discretas robustas a ruído Capaz de aprender expressões disjuntivas Se pais = Inglaterra
Classificação: Definição. Classificação: conceitos básicos e árvores de decisão. Exemplos de Tarefas de Classificação
Classificação: Definição Mineração de dados Classificação: conceitos básicos e árvores de decisão Apresentação adaptada do material de apoio do livro: Introduction to Data Mining Tan, Steinbach, Kumar
Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação
Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais
Prof. Daniela Barreiro Claro
O volume de dados está crescendo sem parar Gigabytes, Petabytes, etc. Dificuldade na descoberta do conhecimento Dados disponíveis x Análise dos Dados Dados disponíveis Analisar e compreender os dados 2
Aprendizagem de Máquina. Prof. Júlio Cesar Nievola PPGIA - PUCPR
Aprendizagem de Máquina Prof. Júlio Cesar Nievola PPGIA - PUCPR Introdução Justificativa Recente progresso em algoritmos e teoria Disponibilidade crescente de dados online Poder computacional disponível
Introdução à Mineração de Dados com Aplicações em Ciências Espaciais
Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 2: 1 /59 Programa Dia 1: Apresentação
Inteligência Artificial
https://www.pinterest.com/carlymundo/decision-tree-infographics/ Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que
Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
Árvore de Decisão. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Árvore de Decisão George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Tópicos Introdução Representando Árvores de Decisão O algoritmo ID3 Definições Entropia Ganho de Informação Overfitting Objetivo
Inteligência nos Negócios (Business Inteligente)
Inteligência nos Negócios (Business Inteligente) Sistemas de Informação Sistemas de Apoio a Decisão Aran Bey Tcholakian Morales, Dr. Eng. (Apostila 6) Fundamentação da disciplina Analise de dados Decisões
Aula 6 Mineração Streams Representação dos Dados. Profa. Elaine Faria UFU
Aula 6 Mineração Streams Representação dos Dados Profa. Elaine Faria UFU - 2017 Agradecimentos Este material é baseado No livro Tan et al, 2006 Nos slides do prof. Andre C. P. L. F. Carvalho Agradecimentos
Lista de Exercícios - Capítulo 8 [1] SCC Inteligência Artificial 1o. Semestre de Prof. João Luís
ICMC-USP Lista de Exercícios - Capítulo 8 [1] SCC-630 - Inteligência Artificial 1o. Semestre de 2011 - Prof. João Luís 1. Seja breve na resposta às seguintes questões: (a) o que você entende por Aprendizado
Aprendizagem de Máquinas
Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Aprendizagem de Máquinas DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Aprendizagem de Máquinas
Aprendizado por Árvores de Decisão
Universidade Federal de Santa Maria Departamento de Eletrônica e Computação Prof. Cesar Tadeu Pozzer Disciplina de Programação de Jogos 3D E-mail: [email protected] Período: 2006/01 Aprendizado por Árvores
Aprendizado de Máquina
Aprendizado de Máquina Introdução ao WEKA Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://web.inf.ufpr.br/luizoliveira Luiz S. Oliveira (UFPR) Aprendizado de
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Introdução ao Data Mining (Mineração de Dados)
Introdução ao Data Mining (Mineração de Dados) Quem é da área de TI, provavelmente já ouviu sobre Data Mining, mesmo que não saiba o que é. É uma das últimas modas relacionados à BD. Para se ter uma noção
Regras de Associação. José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP
Regras de Associação A compra de um produto quando um outro produto é comprado representa uma Regra de Associação Regras de Associação são frequentemente utilizadas para apoiar campanhas de marketing e
Mineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular Tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Mineração de Dados Introdução Mineração de Dados Aprendizado de Máquina Métodos Preditivos Métodos
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 12 Árvores de Decisão Prof. Augusto Baffa Árvores de Decisão Uma das formas de algoritmo de aprendizado mais simples e de maior sucesso. Uma
Aprendizado de Máquina
Aprendizado de Máquina André C. P. L. F. de Carvalho Posdoutorando: Isvani Frias-Blanco ICMC-USP Agrupamento de dados Tópicos Agrupamento de dados Dificuldades em agrupamento Algoritmos de agrupamento
Prof. Heitor Silvério Lopes
Prof. Heitor Silvério Lopes WEKA WEKA: Waikato Environment for Knowledge Analysis Iniciado em 1992, versão estável atual: 3.8.1 É um software para mineração de dados desenvolvido em Java com código aberto
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos
Trilha Learning Machine Cluster Analysis em 4 passos Marco Siqueira Campos Marco Siqueira Campos Sócio fundador Siqueira Campos Associados e sos-stat Estatístico UFRGS Certificado Data Science Specialization
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos
Integração de Mineração de Dados com SGBD Detecção de Agrupamentos Centro de Matemática Computação e Cognição-UFABC Jéssica Andressa de Souza Pós-Graduação em Ciência da Computação Sistemas de Banco de
Técnicas para vetorização de código. Bruno Cardoso Lopes Instituto de Computação - Unicamp
Técnicas para vetorização de código Bruno Cardoso Lopes Instituto de Computação - Unicamp Agenda Introdução Código Vetorial Vetorização Manual Vetorização Automática Superword Level Paralelism (SLP) Introdução
Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters
Organização. Introdução 2. Medidas de Similaridade 3. Métodos de Agrupamento (métodos hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters Métodos de Partição Cada exemplo
Exame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores
Árvores de Decisão. Sistemas Inteligentes
Árvores de Decisão Sistemas Inteligentes Uma Abordagem típica em aprendizagem simbólica Árvores de decisão: inductive decision trees (ID3) Instâncias (exemplos) são representadas por pares atributo-valor
Tutorial: Árvore de Decisão com Weka para a classificação de carne suína
Universidade Estadual de Londrina - UEL 2 CTA 121 - Processamento de Imagens em Alimentos Prática de Aprendizado de Máquina com Weka 28/07/2016 Prof. Dr. Sylvio Barbon Jr Tutorial: Árvore de Decisão com
Inteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Conceitos básicos Classificação não-supervisionada:
O Processo de KDD. Data Mining SUMÁRIO - AULA1. O processo de KDD. Interpretação e Avaliação. Seleção e Pré-processamento. Consolidação de dados
SUMÁRIO - AULA1 O Processo de KDD O processo de KDD Interpretação e Avaliação Consolidação de dados Seleção e Pré-processamento Warehouse Data Mining Dados Preparados p(x)=0.02 Padrões & Modelos Conhecimento
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas
Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas Wrapper Filtros Muitos algoritmos de AM são projetados de modo a selecionar os
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo (knn) Um algoritmo supervisionado usado para classificar
Aprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) ÁRVORES DE DECISÃO Plano de Aula Introdução Representação de Árvores
Introdução às Redes Neurais Artificiais
Introdução às Redes Neurais Artificiais Mapas Auto-Organizáveis Prof. João Marcos Meirelles da Silva http://www.professores.uff.br/jmarcos Departamento de Engenharia de Telecomunicações Escola de Engenharia
Fundamentos de Mineração de Dados
Fundamentos de Mineração de Dados Prof. Ricardo Fernandes [email protected] O que é Mineração de Dados? Uso de ferramentas matemáticas, clássicas ou inteligentes, no processo de descoberta de conhecimento
O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2
O QUE É O BIG DATA? Big Data é o termo que descreve uma quantidade enorme de informações (volume de dados). BIG DATA ALGORITMOS 2 O QUE É O BIG DATA? Os dados são o novo petróleo O Big Data, tal como o
Time Series Trend Detection and Forecasting Using Complex Network Topology Analysis
WAIAF 2018 Time Series Trend Detection and Forecasting Using Complex Network Topology Analysis Leandro Anghinoni Universidade de São Paulo DCM/RP Liang Zhao Universidade de São Paulo DCM/RP AGENDA Introdução
