IA: Aprendizado III. Professor Paulo Gurgel Pinheiro. 28 de Setembro de 2010

IA: Aprendizado III Professor Paulo Gurgel Pinheiro MC906A - Inteligência Articial Instituto de Computação Universidade Estadual de Campinas - UNICAMP 28 de Setembro de 2010 1 / 72

http://www.ic.unicamp.br/ pinheiro/ pinheiro@ic.unicamp.br [MC906] 2 / 72

O que vamos aprender hoje? O que vamos aprender hoje? 1 Vizinho mais próximo K vizinhos O que veremos na próxima aula? 1 Categorização K-means 3 / 72

Relembrando... 4 / 72

Relembrando Relembrando Supervisionado: Dado um conjunto de exemplos na forma entrada/saída, encontre uma regra, uma função, que possa prever a saída de novas entradas. Não supervisionado Dado apenas um conjunto de entradas, identique padrões nesse conjunto Não sabe exatamente o que aprender Clustering (agrupamento) 5 / 72

6 / 72

Técnica supervisionada que classica novas instâncias em uma ou mais classes conhecidas Possui um número denido de classes Frequentemente apenas duas (classicação binária) Exemplos: Diagnóstico, análise de crédito, playtennis, esperar-no-restaurante... Já vimos alguns classicadores: Classicadores Bayesianos Árvores de decisão 7 / 72

Exemplo Introduction to Data Mining- Pang-Ning Tan, Michael Steinbach, Vipin Kumar 8 / 72

Exemplo Como classicar? Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 9 / 72

Exemplo Problema linear Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 10 / 72

Exemplo Problema não linear Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 12 / 72

Exemplo Problema não linear Introdução a sistemas inteligentes - Ricardo Campello ICMC/USP 14 / 72

Existem várias técnicas Para diferentes contextos de aplicação Sucesso do método depende do domínio e do problema em particular. Técnicas simples funcionam muito bem! 15 / 72

16 / 72

Simplesmente armazenam os exemplos de treino, muitas vezes, sem construir função alvo Classica exemplos não vistos por semelhanças com os que já conhecem Toda vez que uma instância deve ser classicada, sua relação com os exemplos armazenados é examinada, de modo a dar um valor-alvo para essa instância. Vantagens: Fácil, rápido e direto. 17 / 72

Ideia Básica: Se anda como um pato, se "quacks"como um pato, então provavelmente será um pato. Introduction to Data Mining- Pang-Ning Tan, Michael Steinbach, Vipin Kumar 18 / 72

Desvantagens: Uso Os métodos tipicamente consideram todos os atributos das instâncias quando tentam buscar exemplos similares na memória. Se o conceito alvo depender de uns poucos atributos, então instâncias que são mais similares podem ser descartadas, o que é um erro. Reconhecimento de caracteres, por exemplo. 19 / 72

Exemplo Partição de Voronoi Ruído 20 / 72

Exemplo Partição de Voronoi Ruído Lembre-se de todos os dados Quando alguém zer uma pergunta: Encontre o dado conhecido mais próximo Retorne a resposta associada a ele 21 / 72

Exemplo Partição de Voronoi Ruído Ideia Básica: É provável que as propriedades de qualquer entrada particular x sejam similares às dos pontos na vizinhança de x. O que signica "vizinhança"? O que signica "ser o vizinho mais próximo"? Tipicamente, a distância euclidiana 22 / 72

Exemplo Partição de Voronoi Ruído Distância Euclidiana nem sempre é a melhor E se quisermos prever o consumo de um carro? Variáveis Peso (em Kg) e número de cilindros A primeira varia na ordem de centenas ou milhares A segunda, em unidades. Por mais que aumentemos o número de cilindros, a inuência na distância é pequena Não corresponde ao fato real 23 / 72

Exemplo Partição de Voronoi Ruído Soluções Pode-se mudar a escala Para cada atributo a j, faça a j = a j min(a j ) max(a j ) min(a j ) Onde min(a j ) é o valor mínimo já observado para este atributo. Contudo max(a j ) min(a j ) pode ainda ser muito grande. Uma alternativa poderia ser a normalização: 24 / 72

Exemplo Partição de Voronoi Ruído Soluções Estas técnicas colocam os atributos em um mesmo patamar, de modo que eles inuenciam igualmente. Contudo, algumas vezes, sabemos que algumas características são mais importantes e não queremos perder esta informação. Multiplique os valores para essa característica por um peso, aumentando sua inuência 25 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência 26 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Suponha que decidimos que G deveria ser multiplicado por 5 para ser apropriadamente comparado com A. Então utilizamos distância euclidiana com G multiplicado por 5. 27 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Suponha que temos o ponto <2,0.3>.Qual o seu valor para F? 28 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Buscamos o ponto mais próximo Note que no gráco os eixos estão em escala diferente, por isso o círculo. Como o ponto é vermelho, nossa resposta é não. 29 / 72

Exemplo Partição de Voronoi Ruído Exemplo - Falência Vejamos outro exemplo: 30 / 72

Exemplo Partição de Voronoi Ruído Qual a hipótese usada pelo método? Diferente dos demais algoritmos, não constrói explicitamente uma descrição da hipótese com base nos dados que vê (apenas acha seu valor). Dado um conjunto de pontos e uma medida de distância, podemos dividir o espaço em regiões Uma para cada ponto, representando o conjunto de pontos no espaço que estão mais próximos do ponto designado que quaisquer outros pontos. Partição de Voronoi do espaço. 31 / 72

Exemplo Partição de Voronoi Ruído Partição de Voronoi Georgy Voronoy Diagrama de voronoi: Dado um conjunto de n pontos, decompor um espaço em regiões de modo que se determine qual conjunto de pontos do plano está mais próximo de um determinado ponto de referência. 32 / 72

Exemplo Partição de Voronoi Ruído Partição de Voronoi "Como dividir uma cidade em áreas irregulares de forma a que a área coberta por um carteiro vinculado a uma determinada agência de correio seja otimizada?" 33 / 72

Exemplo Partição de Voronoi Ruído Partição de Voronoi Área de inuência dos McDonalds do centro de San Francisco, CA., segundo Ottmann. 34 / 72

Exemplo Partição de Voronoi Ruído Continuando... 35 / 72

Exemplo Partição de Voronoi Ruído A hipótese será representada pelas arestas na partição de Voronoi, que separam a região de pontos positivos da região com pontos negativos. 36 / 72

Exemplo Partição de Voronoi Ruído Problemas Como temos que "lembrar"de todos os dados, podemos car sem memória. Ruído: Apague os pontos que estão longe do limite da partição de Voronoi Ocorre quando não há como fazer uma partição de Voronoi perfeita. Neste caso: Ou assumimos que não é ruído, ou seja, que há algum fator válido que gera esse ponto. Ou dizemos que esse ponto é uma anomalia (outlier). Representa um caso incomum que preferimos ignorar, não incorporando à hipótese. 37 / 72

Exemplo Partição de Voronoi Ruído Ruído 38 / 72

Exemplo Partição de Voronoi Ruído Ruído 39 / 72

Exemplo Partição de Voronoi Ruído Ruído Encontramos o vizinho mais próximo: Resposta: Sim Consistente com a primeira visão: o ponto representa alguma propriedade importante do problema 40 / 72

Exemplo Partição de Voronoi Ruído Ruído Se acharmos que pode ser um ruído (uma anomalia), devemos mudar o algoritmo de forma a ignorá-lo. Com isso, encontre os K pontos mais próximos 41 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade 42 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Dene a vizinhança de um ponto como sendo algo grande o suciente para incluir K pontos k deve ser grande o suciente para garantir uma estimativa signicativa. Funciona da mesma forma que o vizinho mais próximo Exceto que quando queremos saber o valor de um ponto: Buscamos os k pontos mais próximos a ele. Damos, como resposta, a resposta associada à maioria desses k elementos. 43 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Requer 3 coisas: Base de treinamento Uma medida de similaridade entre os objetos (distância) O valor de k (número de vizinhos mais próximos a recuperar) 44 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Para classicar um objeto não visto: Calcule a similaridade para todos os objetos de treinamento Obtenha os k objetos da base mais similares (mais próximos) Classique o objeto não visto na classe da maioria dos k-vizinhos. 45 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade K-NN: Visão geométrica para 2 atributos com similaridade por distância euclidiana 46 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Para k xo, o tamanho da vizinhança varia Grande quando os dados são esparsos. Pequeno para dados densos. Exemplo para K=10: 47 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Nada óbvia Quanto menor mais sensível a ruídos Maior o risco de overtting. Dado um espaço de hipóteses H, uma hipótese h H super-especializa (overts) os dados de treinamento se existir uma outra hipótese h' H, tal que h tem menor erro que h' no conjunto de treinamento, mas h' tem um menor erro que h sobre a distribuição total de instâncias (incluindo instâncias fora do conjunto de treinamento). Quanto maior mais obscura será (no limite, sempre associaríamos a resposta da maioria) Arriscamos não sermos capazes de expressar a hipótese É comum escolher o K por meio de validação cruzada cross-validation 48 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Muito pequeno Discriminação de classes muito exível. Porém, sensível a ruídos pode ser instável (por exemplo, k=1 abaixo) 49 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Muito grande Mais robusto a ruídos Porém, menor exibilidade de discriminação entre as classes Privilegia classe majoritária 50 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Calculando a similaridade Existem dezenas de medidas. A mais apropriada dependerá: Dos tipos de atributo Do domínio da aplicação Por exemplo: Distância euclidiana, distância de Manhattan, Jaccard, Cosseno... 51 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Condicionando os dados A ideia de normalizar os dados vistos para o vizinho mais próximo, continua valendo. Atributos normalizados: Evitam que alguns dominem completamente a medida de similaridade. Exemplos: Altura de uma pessoa adulta: 1.4m a 2.2m Peso de uma pessoa adulta sadia: 50kg a 150kg Salário de uma pessoa adulta: $400 a $30.000 52 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Algoritmo A função-alvo ( que se pretende denir) pode ser discreta ou contínua: Função-alvo discreta: O resultado será o valor mais comum dentre os k exemplos de treino mais próximos do ponto-alvo Sejam: f: função-alvo a ser aprendida V={v 1,...v s} os valores possíveis para f f : a hipótese da função-alvo f 53 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Algoritmo f discreta Treinamento Para cada exemplo de treino <x,f(x)>, adicione o exemplo à lista Exemplos Dada uma nova instância x q a ser classicada: Sejam x 1,.., x k as k instâncias de Exemplos que estão mais próximas de x q V={v 1,...v s} os valores possíveis para f Retorne o máximo dos somatórios dos deltas 54 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Algoritmo f discreta 55 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Exercício Normalize os dados abaixo para em [0,1] e classique a última instância com KNN, com distância euclidiana e K =1, 3 e 5. Discuta os resultados. 56 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade com pesos Na versão básica do algoritmo, a indicação da classe de cada vizinho possui o mesmo peso para o classicador: 1 voto (+1 ou -1) por vizinho mais próximo Isso torna o algoritmo muito sensível a escolha de k Uma solução é ponderar cada voto em função da distância Heurística Usual: Peso referente ao voto de um vizinho decai de forma inversamente proporcional à distância entre este vizinho e o objeto em questão. 57 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Exercício Repita o exercício anterior com a ponderação de votos pelo inverso da Distância Euclidiana e discuta o resultado comparando com o resultado anterior. 58 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade com pesos A média normal é: com pesos: Damos um peso proporcional à distância 59 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Características K-NN não constrói explicitamente um modelo Isso torna a classicação de novos objetos relativamente custosa computacionalmente É necessário calcular todas as distâncias de cada um dos objetos a ser classicado a todos os objetos da base. Sensíveis ao projeto Escolha do k e da medida de similaridade Podem ser sensíveis a ruídos Pouco robustos para k pequeno É sensível a atributos relevantes distorcem o cálculo da distância Mas podem ter poder de classicação elevado! Função de discriminação muito exível para k pequeno 60 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade A maldição da dimensionalidade 61 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade A maldição da dimensionalidade A maldição da dimensionalidade Vizinho mais próximo e k-vizinhos funcionam muito bem para baixas dimensões Na medida em que aumentam as dimensões: Quase todos os pontos estão longe uns dos outros. Maldição da dimensionalidade Quando a distância entre vizinhos é dominada pelo grande número de atributos irrelevantes. A distância é medida com base em todos os atributos. Alguns destes atributos podem ser irrelevantes. Atributos irrelevantes podem distanciar pontos Atributos irrelevantes podem aproximar erroneamente os pontos. 62 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade A maldição da dimensionalidade A maldição da dimensionalidade Como evitar: Podemos dar pesos diferentes a cada atributo quando calcularmos a distância Podemos eliminar os atributos menos relevantes do espaço de instâncias Reduzimos o problema a um de baixa dimensão Seleção de características (feature selection) 63 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection 64 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Princípio da economia cientíca "Quanto menos se sabe a respeito de um fenômeno, maior o número de variáveis exigidas para explicá-lo" Se você não está tão perdido assim, verique se não tem variáveis demais. 65 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Motivação Precisão x Número de Features 66 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Motivação Erro x Número de Features 67 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Motivação Seleção de variáveis (feature selection) é aplicada especialmente em aplicações que usam datasets com muitos atributos Processamento de texto Recuperação em banco de imagem Química e Bioinformática 68 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Objetivos Melhorar o desempenho dos algoritmos de aprendizado de máquina Reduzir custo computacional, reduzindo os modelos Obter uma representação reduzida do dataset, mas que produza os mesmos (ou quase os mesmos) resultados. Eliminar atributos redundantes: Variáveis altamente correlacionadas não agregam informação Exemplo: preço de um produto e o valor de imposto pago por ele. Eliminar atributos irrelevantes: Não contém informação útil RA do estudante é irrelevante para a tarefa de predição do CR. 69 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Feature Selection Determinação de Relevância Abordagem se baseia no Ganho de Informação Portanto é possível utilizar: ID3 C4.5 (J48) CART Calcula o ganho de informação das variáveis. Elege aquelas mais representativas (as que representam os nós mais próximos da raiz na árvore de decisão) Outras abordagens Seleção baseada em correlação (CFS) Qui-Quadrado 70 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Paulo Pinheiro pinheiro@ic.unicamp.br 71 / 72

Escolha do K Calculando a similaridade Condicionando os dados Algoritmo Características A maldição da dimensionalidade Escolha do K Cross-Validation Técnica que utilizamos até então para reduzir o overtting Separe uma fração dos dados conhecidos Use-a para testar o desempenho de uma hipótese induzida dos restantes dos dados Conjunto de teste e treino K-fold cross-validation Execute k experimentos, separando a cada vez um conjunto diferente de 1/k dos dados para testar. Tire a média dos resultados Valores populares 5 e 10 72 / 72