IA: Aprendizado III. Professor Paulo Gurgel Pinheiro. 28 de Setembro de 2010

Documentos relacionados
Inteligência Artificial

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

CLASSIFICADORES ELEMENTARES -II

2284-ELE/5, 3316-IE/3. Universidade da Beira Interior, Departamento de Informática

Aprendizado de Máquina

Prof. Daniela Barreiro Claro

Aprendizado Bayesiano Anteriormente...

Paradigmas de Aprendizagem

INF 1771 Inteligência Artificial

Introdução a Sistemas Inteligentes

(d) Quais das sentenças abaixo são verdadeiras? Explique sua resposta. (a) 3 IR (b) IN IR (c) Z IR. IR Q (i) 3 2

5 Experimentos Conjunto de Dados

RECONHECIMENTO IDENTIFICAÇÃO BASEADA EM APARÊNCIA

Maldição da dimensionalidade

Análise de Imagens. Aula 20: Sistemas com Múltiplos Classificadores. Prof. Alexandre Xavier Falcão.

Métodos de Ordenação Parte 3

Matemática Básica Relações / Funções

Classificação e Predição de Dados - Profits Consulting - Consultoria Empresarial - Serviços SAP- CRM Si

Composição de Funções

Image Descriptors: color

Árvore Binária de Busca Ótima

Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k

Grafos: componentes fortemente conexos, árvores geradoras mínimas

CÁLCULO NUMÉRICO. Profa. Dra. Yara de Souza Tadano

Exercícios de ANÁLISE E SIMULAÇÃO NUMÉRICA

Sistemas numéricos e a Representação Interna dos Dado no Computador

Tópicos em Mineração de Dados

INTELIGÊNCIA ARTIFICIAL

Transformada de Discreta de Co senos DCT

TEOREMA DE PITÁGORAS AULA ESCRITA

Matriz Hessiana e Aplicações

Intervalos de conança

Introdução aos Algoritmos

Descoberta de Conhecimento em Bases de Dados. Pesquisa de Clusters

Aula 5: Conversões Entre Bases Numéricas

03 Análise de Algoritmos (parte 3) SCC201/501 - Introdução à Ciência de Computação II

Projeto e Análise de Algoritmos NP Completude. Prof. Humberto Brandão

Complemento a Um e Complemento a Dois

Método de Newton. Podemos escrever este problema na forma vetorial denindo o vetor x = [x 1, x 2,..., x n ] T e a função vetorial

aula DISTRIBUIÇÃO NORMAL - PARTE I META OBJETIVOS PRÉ-REQUISITOS Apresentar o conteúdo de distribuição normal

UNIVERSIDADE DE SÃO PAULO INSTITUTO DE MATEMÁTICA E ESTATÍSTICA Licenciatura em Matemática MAT1514 Matemática na Educação Básica 2º semestre 2014 TG1

2 Representação numérica

Sugestão: Use papel transparente para copiar as figuras e comparar os lados e os ângulos.

Cálculo Numérico. Santos Alberto Enriquez-Remigio FAMAT-UFU 2015

7 Resultados. F i (x j ) = j=1

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Aprendizado por Árvores de Decisão

FILTROS ESPACIAIS PASSA-BAIXA

Descrevendo Distribuições com Números TADI

3 Redes Neurais Artificiais

4 Extração direta das PELs

3 Aprendizado por reforço

Lista de Exercícios Glossário Básico

Inteligência Artificial

Organização de Arquivos. SCE-183 Algoritmos e Estruturas de Dados II

Análise Discriminante

ANÁLISE DE AGRUPAMENTOS

Algoritmos de Compressão sem Perdas

Aprendizagem de Máquina

Interpolação polinomial: Polinômio de Lagrange

SME Cálculo Numérico. Lista de Exercícios: Gabarito

Teoria da Computação. Clique de um Grafo. Alexandre Renato Rodrigues de Souza 1

Grafos: árvores geradoras mínimas. Graça Nunes

Uma pessoa caminha diariamente m. Ao final de 10 dias, quantos quilômetros terá caminhado?

Recomendação de políticas Privacidade Pessoal

Sistemas Digitais Universidade Católica do Salvador Professor Marco Antônio C. Câmara. Aula 03 Simplificação de Expressões Lógicas.

Ficha de Exercícios nº 3

Outliers Detecção de Anomalias AULA DATA MINING

Inteligência Computacional para Jogos Eletrônicos

Sumário. RObust Clustering using links ROCK. Thiago F. Covões. Motivação. Motivação. Links. Market basket analys. Motivação

Quinta-feira, 11 de abril

Considere a função f(x). Para algum x a f (x) pode não existir. Suponha que. Max f(x) s. a a x b

Buscas Informadas ou Heurísticas - Parte II

ESTRUTURAS DE REPETIÇÃO - PARTE 1

LISTA DE EXERCÍCIOS 5 Algoritmos Estruturas de Controle - Seleção

Mineração de Dados para Detecção de Padrões de Mudança de Cobertura da Terra. Padrões e processos em Dinâmica de uso e Cobertura da Terra

PLANO CURRICULAR DISCIPLINAR. MATEMÁTICA 7º Ano

Aprendizado de Máquina Conceitos. Conceitos. Introdução... Projeto de um Sistema de Aprendizado. Conceitos

MATEMÁTICA FINANCEIRA

Gênesis S. Araújo Pré-Cálculo

GSI024 - Organização e Recuperação da

Aprendizado Bayesiano

CÁLCULO I. Aula n o 02: Funções. Determinar o domínio, imagem e o gráco de uma função; Reconhecer funções pares, ímpares, crescentes e decrescentes;

MINERAÇÃO DE DADOS. Thiago Marzagão MINERAÇÃO DE TEXTOS. Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1/ / 25

Sumário Raciocínio Baseado em Casos

Aprendizagem de Máquina

Extração de Características

Fundamentos de Algoritmos (5175/31)

VISÃO COMPUTACIONAL. Marcelo Henrique dos Santos

Resolução de problemas com apenas restrições lineares de igualdade

Sumário Ciclo RBC. Ciclo RBC Recuperação. Objetivo. Recuperação Reutilização Revisão Retenção

ALGORITMOS COM SELEÇÃO 1 - ESTRUTURA CONDICIONAL (ESTRUTURAS DE CONTROLE)

Inteligência Computacional

Programação Linear - Parte 3

Computação I: Representações de Algoritmos

Métodos Quantitativos Aplicados

INTERPOLAÇÃO LINEAR E BILINEAR: APLICAÇÃO EM TRANSFORMAÇÕES GEOMÉTRICAS DE IMAGEM INTRODUÇÃO

Reconhecimento de cores do MSX por lógica fuzzy

Indexação de dados espaciais R-Tree. CCO229 Bancos de dados Espaciais e Biológicos Prof. Ricardo Rodrigues Ciferri Debora Marrach

Matrizes esparsas: definição

Transcrição:

IA: Aprendizado III Professor Paulo Gurgel Pinheiro MC906A - Inteligência Articial Instituto de Computação Universidade Estadual de Campinas - UNICAMP 28 de Setembro de 2010 1 / 72

http://www.ic.unicamp.br/ pinheiro/ pinheiro@ic.unicamp.br [MC906] 2 / 72

O que vamos aprender hoje? O que vamos aprender hoje? 1 Vizinho mais próximo K vizinhos O que veremos na próxima aula? 1 Categorização K-means 3 / 72

Relembrando... 4 / 72

Relembrando Relembrando Supervisionado: Dado um conjunto de exemplos na forma entrada/saída, encontre uma regra, uma função, que possa prever a saída de novas entradas. Não supervisionado Dado apenas um conjunto de entradas, identique padrões nesse conjunto Não sabe exatamente o que aprender Clustering (agrupamento) 5 / 72

6 / 72

Técnica supervisionada que classica novas instâncias em uma ou mais classes conhecidas Possui um número denido de classes Frequentemente apenas duas (classicação binária) Exemplos: Diagnóstico, análise de crédito, playtennis, esperar-no-restaurante... Já vimos alguns classicadores: Classicadores Bayesianos Árvores de decisão 7 / 72

Exemplo Introduction to Data Mining- Pang-Ning Tan, Michael Steinbach, Vipin Kumar 8 / 72

Exemplo Como classicar? Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 9 / 72

Exemplo Problema linear Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 10 / 72

Exemplo Como classicar? Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 11 / 72

Exemplo Problema não linear Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 12 / 72

Exemplo Como classicar? Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 13 / 72

Exemplo Problema não linear Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 14 / 72

Existem várias técnicas Para diferentes contextos de aplicação Sucesso do método depende do domínio e do problema em particular. Técnicas simples funcionam muito bem! 15 / 72

16 / 72

Simplesmente armazenam os exemplos de treino, muitas vezes, sem construir função alvo Classica exemplos não vistos por semelhanças com os que já conhecem Toda vez que uma instância deve ser classicada, sua relação com os exemplos armazenados é examinada, de modo a dar um valor-alvo para essa instância. Vantagens: Fácil, rápido e direto. 17 / 72

Ideia Básica: Se anda como um pato, se "quacks"como um pato, então provavelmente será um pato. Introduction to Data Mining- Pang-Ning Tan, Michael Steinbach, Vipin Kumar 18 / 72

Desvantagens: Uso Os métodos tipicamente consideram todos os atributos das instâncias quando tentam buscar exemplos similares na memória. Se o conceito alvo depender de uns poucos atributos, então instâncias que são mais similares podem ser descartadas, o que é um erro. Reconhecimento de caracteres, por exemplo. 19 / 72

Exemplo Partição de Voronoi Ruído 20 / 72

Exemplo Partição de Voronoi Ruído Lembre-se de todos os dados Quando alguém zer uma pergunta: Encontre o dado conhecido mais próximo Retorne a resposta associada a ele 21 / 72

Exemplo Partição de Voronoi Ruído Ideia Básica: É provável que as propriedades de qualquer entrada particular x sejam similares às dos pontos na vizinhança de x. O que signica "vizinhança"? O que signica "ser o vizinho mais próximo"? Tipicamente, a distância euclidiana 22 / 72

Exemplo Partição de Voronoi Ruído Distância Euclidiana nem sempre é a melhor E se quisermos prever o consumo de um carro? Variáveis Peso (em Kg) e número de cilindros A primeira varia na ordem de centenas ou milhares A segunda, em unidades. Por mais que aumentemos o número de cilindros, a inuência na distância é pequena Não corresponde ao fato real 23 / 72

Exemplo Partição de Voronoi Ruído Soluções Pode-se mudar a escala Para cada atributo a j, faça a j = a j min(a j ) max(a j ) min(a j ) Onde min(a j ) é o valor mínimo já observado para este atributo. Contudo max(a j ) min(a j ) pode ainda ser muito grande. Uma alternativa poderia ser a normalização: 24 / 72

Exemplo Partição de Voronoi Ruído Soluções Estas técnicas colocam os atributos em um mesmo patamar, de modo que eles inuenciam igualmente. Contudo, algumas vezes, sabemos que algumas características são mais importantes e não queremos perder esta informação. Multiplique os valores para essa característica por um peso, aumentando sua inuência 25 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência 26 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Suponha que decidimos que G deveria ser multiplicado por 5 para ser apropriadamente comparado com A. Então utilizamos distância euclidiana com G multiplicado por 5. 27 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Suponha que temos o ponto <2,0.3>.Qual o seu valor para F? 28 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Buscamos o ponto mais próximo Note que no gráco os eixos estão em escala diferente, por isso o círculo. Como o ponto é vermelho, nossa resposta é não. 29 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Vejamos outro exemplo: 30 / 72

Exemplo Partição de Voronoi Ruído Qual a hipótese usada pelo método? Diferente dos demais algoritmos, não constrói explicitamente uma descrição da hipótese com base nos dados que vê (apenas acha seu valor). Dado um conjunto de pontos e uma medida de distância, podemos dividir o espaço em regiões Uma para cada ponto, representando o conjunto de pontos no espaço que estão mais próximos do ponto designado que quaisquer outros pontos. Partição de Voronoi do espaço. 31 / 72

Exemplo Partição de Voronoi Ruído Partição de Voronoi Georgy Voronoy Diagrama de voronoi: Dado um conjunto de n pontos, decompor um espaço em regiões de modo que se determine qual conjunto de pontos do plano está mais próximo de um determinado ponto de referência. 32 / 72

Exemplo Partição de Voronoi Ruído Partição de Voronoi "Como dividir uma cidade em áreas irregulares de forma a que a área coberta por um carteiro vinculado a uma determinada agência de correio seja otimizada?" 33 / 72

Exemplo Partição de Voronoi Ruído Partição de Voronoi Área de inuência dos McDonalds do centro de San Francisco, CA., segundo Ottmann. 34 / 72

Exemplo Partição de Voronoi Ruído Continuando... 35 / 72

Exemplo Partição de Voronoi Ruído A hipótese será representada pelas arestas na partição de Voronoi, que separam a região de pontos positivos da região com pontos negativos. 36 / 72

Exemplo Partição de Voronoi Ruído Problemas Como temos que "lembrar"de todos os dados, podemos car sem memória. Ruído: Apague os pontos que estão longe do limite da partição de Voronoi Ocorre quando não há como fazer uma partição de Voronoi perfeita. Neste caso: Ou assumimos que não é ruído, ou seja, que há algum fator válido que gera esse ponto. Ou dizemos que esse ponto é uma anomalia (outlier). Representa um caso incomum que preferimos ignorar, não incorporando à hipótese. 37 / 72

Exemplo Partição de Voronoi Ruído Ruído 38 / 72

Exemplo Partição de Voronoi Ruído Ruído 39 / 72

Exemplo Partição de Voronoi Ruído Ruído Encontramos o vizinho mais próximo: Resposta: Sim Consistente com a primeira visão: o ponto representa alguma propriedade importante do problema 40 / 72

Exemplo Partição de Voronoi Ruído Ruído Se acharmos que pode ser um ruído (uma anomalia), devemos mudar o algoritmo de forma a ignorá-lo. Com isso, encontre os K pontos mais próximos 41 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade 42 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Dene a vizinhança de um ponto como sendo algo grande o suciente para incluir K pontos k deve ser grande o suciente para garantir uma estimativa signicativa. Funciona da mesma forma que o vizinho mais próximo Exceto que quando queremos saber o valor de um ponto: Buscamos os k pontos mais próximos a ele. Damos, como resposta, a resposta associada à maioria desses k elementos. 43 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Requer 3 coisas: Base de treinamento Uma medida de similaridade entre os objetos (distância) O valor de k (número de vizinhos mais próximos a recuperar) 44 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Para classicar um objeto não visto: Calcule a similaridade para todos os objetos de treinamento Obtenha os k objetos da base mais similares (mais próximos) Classique o objeto não visto na classe da maioria dos k-vizinhos. 45 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade K-NN: Visão geométrica para 2 atributos com similaridade por distância euclidiana 46 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Para k xo, o tamanho da vizinhança varia Grande quando os dados são esparsos. Pequeno para dados densos. Exemplo para K=10: 47 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Nada óbvia Quanto menor mais sensível a ruídos Maior o risco de overtting. Dado um espaço de hipóteses H, uma hipótese h H super-especializa (overts) os dados de treinamento se existir uma outra hipótese h' H, tal que h tem menor erro que h' no conjunto de treinamento, mas h' tem um menor erro que h sobre a distribuição total de instâncias (incluindo instâncias fora do conjunto de treinamento). Quanto maior mais obscura será (no limite, sempre associaríamos a resposta da maioria) Arriscamos não sermos capazes de expressar a hipótese É comum escolher o K por meio de validação cruzada cross-validation 48 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Muito pequeno Discriminação de classes muito exível. Porém, sensível a ruídos pode ser instável (por exemplo, k=1 abaixo) 49 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Muito grande Mais robusto a ruídos Porém, menor exibilidade de discriminação entre as classes Privilegia classe majoritária 50 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Calculando a similaridade Existem dezenas de medidas. A mais apropriada dependerá: Dos tipos de atributo Do domínio da aplicação Por exemplo: Distância euclidiana, distância de Manhattan, Jaccard, Cosseno... 51 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Condicionando os dados A ideia de normalizar os dados vistos para o vizinho mais próximo, continua valendo. Atributos normalizados: Evitam que alguns dominem completamente a medida de similaridade. Exemplos: Altura de uma pessoa adulta: 1.4m a 2.2m Peso de uma pessoa adulta sadia: 50kg a 150kg Salário de uma pessoa adulta: $400 a $30.000 52 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Algoritmo A função-alvo ( que se pretende denir) pode ser discreta ou contínua: Função-alvo discreta: O resultado será o valor mais comum dentre os k exemplos de treino mais próximos do ponto-alvo Sejam: f: função-alvo a ser aprendida V={v 1,...v s} os valores possíveis para f f : a hipótese da função-alvo f 53 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Algoritmo f discreta Treinamento Para cada exemplo de treino <x,f(x)>, adicione o exemplo à lista Exemplos Dada uma nova instância x q a ser classicada: Sejam x 1,.., x k as k instâncias de Exemplos que estão mais próximas de x q V={v 1,...v s} os valores possíveis para f Retorne o máximo dos somatórios dos deltas 54 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Algoritmo f discreta 55 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Exercício Normalize os dados abaixo para em [0,1] e classique a última instância com KNN, com distância euclidiana e K =1, 3 e 5. Discuta os resultados. 56 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade com pesos Na versão básica do algoritmo, a indicação da classe de cada vizinho possui o mesmo peso para o classicador: 1 voto (+1 ou -1) por vizinho mais próximo Isso torna o algoritmo muito sensível a escolha de k Uma solução é ponderar cada voto em função da distância Heurística Usual: Peso referente ao voto de um vizinho decai de forma inversamente proporcional à distância entre este vizinho e o objeto em questão. 57 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Exercício Repita o exercício anterior com a ponderação de votos pelo inverso da Distância Euclidiana e discuta o resultado comparando com o resultado anterior. 58 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade com pesos A média normal é: com pesos: Damos um peso proporcional à distância 59 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Características K-NN não constrói explicitamente um modelo Isso torna a classicação de novos objetos relativamente custosa computacionalmente É necessário calcular todas as distâncias de cada um dos objetos a ser classicado a todos os objetos da base. Sensíveis ao projeto Escolha do k e da medida de similaridade Podem ser sensíveis a ruídos Pouco robustos para k pequeno É sensível a atributos relevantes distorcem o cálculo da distância Mas podem ter poder de classicação elevado! Função de discriminação muito exível para k pequeno 60 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade A maldição da dimensionalidade 61 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade A maldição da dimensionalidade A maldição da dimensionalidade Vizinho mais próximo e k-vizinhos funcionam muito bem para baixas dimensões Na medida em que aumentam as dimensões: Quase todos os pontos estão longe uns dos outros. Maldição da dimensionalidade Quando a distância entre vizinhos é dominada pelo grande número de atributos irrelevantes. A distância é medida com base em todos os atributos. Alguns destes atributos podem ser irrelevantes. Atributos irrelevantes podem distanciar pontos Atributos irrelevantes podem aproximar erroneamente os pontos. 62 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade A maldição da dimensionalidade A maldição da dimensionalidade Como evitar: Podemos dar pesos diferentes a cada atributo quando calcularmos a distância Podemos eliminar os atributos menos relevantes do espaço de instâncias Reduzimos o problema a um de baixa dimensão Seleção de características (feature selection) 63 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection 64 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Princípio da economia cientíca "Quanto menos se sabe a respeito de um fenômeno, maior o número de variáveis exigidas para explicá-lo" Se você não está tão perdido assim, verique se não tem variáveis demais. 65 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Motivação Precisão x Número de Features 66 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Motivação Erro x Número de Features 67 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Motivação Seleção de variáveis (feature selection) é aplicada especialmente em aplicações que usam datasets com muitos atributos Processamento de texto Recuperação em banco de imagem Química e Bioinformática 68 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Objetivos Melhorar o desempenho dos algoritmos de aprendizado de máquina Reduzir custo computacional, reduzindo os modelos Obter uma representação reduzida do dataset, mas que produza os mesmos (ou quase os mesmos) resultados. Eliminar atributos redundantes: Variáveis altamente correlacionadas não agregam informação Exemplo: preço de um produto e o valor de imposto pago por ele. Eliminar atributos irrelevantes: Não contém informação útil RA do estudante é irrelevante para a tarefa de predição do CR. 69 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Determinação de Relevância Abordagem se baseia no Ganho de Informação Portanto é possível utilizar: ID3 C4.5 (J48) CART Calcula o ganho de informação das variáveis. Elege aquelas mais representativas (as que representam os nós mais próximos da raiz na árvore de decisão) Outras abordagens Seleção baseada em correlação (CFS) Qui-Quadrado 70 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Paulo Pinheiro pinheiro@ic.unicamp.br 71 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Cross-Validation Técnica que utilizamos até então para reduzir o overtting Separe uma fração dos dados conhecidos Use-a para testar o desempenho de uma hipótese induzida dos restantes dos dados Conjunto de teste e treino K-fold cross-validation Execute k experimentos, separando a cada vez um conjunto diferente de 1/k dos dados para testar. Tire a média dos resultados Valores populares 5 e 10 72 / 72