Aula 1: k-nearest Neighbors

Transcrição

1 Aula 1: k-nearest Neighbors Paulo C. Marques F. Aula ministrada no Insper 29 de Janeiro de 2016 Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

2 O problema geral de classificação Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

3 O problema geral de classificação Imagine uma fábrica na qual temos uma esteira pela qual descem peixes de duas espécies: salmões e robalos. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

4 O problema geral de classificação Imagine uma fábrica na qual temos uma esteira pela qual descem peixes de duas espécies: salmões e robalos. Nosso objetivo é construir uma máquina que, tomando o peso e o maior comprimento dos peixes, classifique cada um deles como salmão ou robalo. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

5 O problema geral de classificação Imagine uma fábrica na qual temos uma esteira pela qual descem peixes de duas espécies: salmões e robalos. Nosso objetivo é construir uma máquina que, tomando o peso e o maior comprimento dos peixes, classifique cada um deles como salmão ou robalo. Formalmente, temos um vetor de variáveis preditoras x R d, uma variável resposta y C = {0,...,c}, e queremos construir um classificador ϕ : R d C. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

6 O problema geral de classificação Imagine uma fábrica na qual temos uma esteira pela qual descem peixes de duas espécies: salmões e robalos. Nosso objetivo é construir uma máquina que, tomando o peso e o maior comprimento dos peixes, classifique cada um deles como salmão ou robalo. Formalmente, temos um vetor de variáveis preditoras x R d, uma variável resposta y C = {0,...,c}, e queremos construir um classificador ϕ : R d C. Sem perda de generalidade, vamos supor que temos apenas duas classes: C = {0,1} (salmão e robalo). Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

7 O problema geral de classificação Imagine uma fábrica na qual temos uma esteira pela qual descem peixes de duas espécies: salmões e robalos. Nosso objetivo é construir uma máquina que, tomando o peso e o maior comprimento dos peixes, classifique cada um deles como salmão ou robalo. Formalmente, temos um vetor de variáveis preditoras x R d, uma variável resposta y C = {0,...,c}, e queremos construir um classificador ϕ : R d C. Sem perda de generalidade, vamos supor que temos apenas duas classes: C = {0,1} (salmão e robalo). O caso em que existe um classificador ϕ que nunca erra é de pouco interesse prático/científico. Existem salmões e robalos que tem exatamente o mesmo peso e comprimento. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

8 Aprendizagem supervisionada Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

9 Aprendizagem supervisionada Introduzimos incertezas em nossa descrição através de um vetor aleatório (X,Y) R d C com função de distribuição conjunta F X,Y. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

10 Aprendizagem supervisionada Introduzimos incertezas em nossa descrição através de um vetor aleatório (X,Y) R d C com função de distribuição conjunta F X,Y. Metáfora: um oráculo gera um x a partir da função de distribuição marginal F X e depois disso gera um y a partir da função de distribuição condicional F X Y ( x) (conhecida como distribuição do supervisor). Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

11 Aprendizagem supervisionada Introduzimos incertezas em nossa descrição através de um vetor aleatório (X,Y) R d C com função de distribuição conjunta F X,Y. Metáfora: um oráculo gera um x a partir da função de distribuição marginal F X e depois disso gera um y a partir da função de distribuição condicional F X Y ( x) (conhecida como distribuição do supervisor). A função de distribuição conjunta fica determinada formalmente por F X,Y (x,y) = F Y X (y t)df X (t), (,x] na qual usamos a notação (,x] := (,x 1 ] (,x d ]. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

12 Aprendizagem supervisionada Introduzimos incertezas em nossa descrição através de um vetor aleatório (X,Y) R d C com função de distribuição conjunta F X,Y. Metáfora: um oráculo gera um x a partir da função de distribuição marginal F X e depois disso gera um y a partir da função de distribuição condicional F X Y ( x) (conhecida como distribuição do supervisor). A função de distribuição conjunta fica determinada formalmente por F X,Y (x,y) = F Y X (y t)df X (t), (,x] na qual usamos a notação (,x] := (,x 1 ] (,x d ]. Estamos fazendo inferência: não conhecemos F X,Y. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

13 Aprendizagem supervisionada Introduzimos incertezas em nossa descrição através de um vetor aleatório (X,Y) R d C com função de distribuição conjunta F X,Y. Metáfora: um oráculo gera um x a partir da função de distribuição marginal F X e depois disso gera um y a partir da função de distribuição condicional F X Y ( x) (conhecida como distribuição do supervisor). A função de distribuição conjunta fica determinada formalmente por F X,Y (x,y) = F Y X (y t)df X (t), (,x] na qual usamos a notação (,x] := (,x 1 ] (,x d ]. Estamos fazendo inferência: não conhecemos F X,Y. Nosso contexto é não paramétrico: a menos do suporte, não impomos quaisquer restrições a F X,Y. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

14 Erro de classificação Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

15 Erro de classificação Definimos o erro de classificação de um classificador ϕ pela probabilidade do classificador errar: L[ϕ] = Pr{ϕ(X) Y}. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

16 Erro de classificação Definimos o erro de classificação de um classificador ϕ pela probabilidade do classificador errar: L[ϕ] = Pr{ϕ(X) Y}. Defina o classificador de Bayes por { ϕ 1 se Pr{Y = 1 X = x} =: η(x) > 1/2; (x) = 0 caso contrário. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

17 Erro de classificação Definimos o erro de classificação de um classificador ϕ pela probabilidade do classificador errar: L[ϕ] = Pr{ϕ(X) Y}. Defina o classificador de Bayes por { ϕ 1 se Pr{Y = 1 X = x} =: η(x) > 1/2; (x) = 0 caso contrário. O classificador de Bayes tem um papel formal: em um problema real não conhecemos F X,Y. Portanto, também não conhecemos η(x) e não conseguimos construir ϕ. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

18 Erro de classificação Definimos o erro de classificação de um classificador ϕ pela probabilidade do classificador errar: L[ϕ] = Pr{ϕ(X) Y}. Defina o classificador de Bayes por { ϕ 1 se Pr{Y = 1 X = x} =: η(x) > 1/2; (x) = 0 caso contrário. O classificador de Bayes tem um papel formal: em um problema real não conhecemos F X,Y. Portanto, também não conhecemos η(x) e não conseguimos construir ϕ. Apesar do nome, não estamos fazendo inferência bayesiana. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

19 Erro de classificação Definimos o erro de classificação de um classificador ϕ pela probabilidade do classificador errar: L[ϕ] = Pr{ϕ(X) Y}. Defina o classificador de Bayes por { ϕ 1 se Pr{Y = 1 X = x} =: η(x) > 1/2; (x) = 0 caso contrário. O classificador de Bayes tem um papel formal: em um problema real não conhecemos F X,Y. Portanto, também não conhecemos η(x) e não conseguimos construir ϕ. Apesar do nome, não estamos fazendo inferência bayesiana. Quando temos dados simulados a partir de uma distribuição conhecida, podemos construir o classificador de Bayes ϕ. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

20 Erro de classificação Definimos o erro de classificação de um classificador ϕ pela probabilidade do classificador errar: L[ϕ] = Pr{ϕ(X) Y}. Defina o classificador de Bayes por { ϕ 1 se Pr{Y = 1 X = x} =: η(x) > 1/2; (x) = 0 caso contrário. O classificador de Bayes tem um papel formal: em um problema real não conhecemos F X,Y. Portanto, também não conhecemos η(x) e não conseguimos construir ϕ. Apesar do nome, não estamos fazendo inferência bayesiana. Quando temos dados simulados a partir de uma distribuição conhecida, podemos construir o classificador de Bayes ϕ. O classificador de Bayes é ótimo: para qualquer classificador ϕ, temos que L[ϕ ] L[ϕ]. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

21 O classificador de Bayes é ótimo (1) Demonstração Para qualquer classificador ϕ e todo x R d, note que Pr{ϕ(X) = Y X = x} = Pr{ϕ(x) = Y X = x} é igual a Pr{Y = 0 X = x} = 1 η(x), quando ϕ(x) = 0, e é igual a Pr{Y = 1 X = x} = η(x), quando ϕ(x) = 1. Assim, Pr{ϕ(X) Y X = x} = 1 Pr{ϕ(X) = Y X = x} = 1 ( I {ϕ(x)=0} (1 η(x))+i {ϕ(x)=1} η(x) ) = η(x) (2η(x) 1)I {ϕ(x)=1}, uma vez que I {ϕ(x)=0} = 1 I {ϕ(x)=1}. Portanto, Pr{ϕ(X) Y X = x} Pr{ϕ (X) Y X = x} = (2η(x) 1) ( I {ϕ (x)=1} I {ϕ(x)=1} ). Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

22 O classificador de Bayes é ótimo (2) Demonstração (continuação) Temos dois casos: se ϕ (x) = 0, então, pela definição do classificador de Bayes, temos que 2η(x) 1 0 e I {ϕ (x)=1} I {ϕ(x)=1} 0. Quando ϕ (x) = 1, temos que 2η(x) 1 0 e I {ϕ (x)=1} I {ϕ(x)=1} 0. Assim, em ambos os casos, temos que Pr{ϕ(X) Y X = x} Pr{ϕ (X) Y X = x} 0. ( ) Pela definição de probabilidade condicional, para todo classificador ϕ, temos que Pr{ϕ(X) Y} = Pr{ϕ(X) Y X = x}df X (x). (,x] Obtemos o resultado desejado integrando ( ) com respeito a df X (x). Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

23 Vapnik e Chervonenkis (1) Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

24 Vapnik e Chervonenkis (1) Já que em geral o classificador de Bayes é inacessível, como escolher um bom classificador dentro de uma classe de classificadores C = {ϕ 1,...,ϕ m }? Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

25 Vapnik e Chervonenkis (1) Já que em geral o classificador de Bayes é inacessível, como escolher um bom classificador dentro de uma classe de classificadores C = {ϕ 1,...,ϕ m }? Dada uma amostra de pares (X 1,Y 1 ),...,(X n,y n ) independentes e identicamente distribuídos com função de distribuição F X,Y. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

26 Vapnik e Chervonenkis (1) Já que em geral o classificador de Bayes é inacessível, como escolher um bom classificador dentro de uma classe de classificadores C = {ϕ 1,...,ϕ m }? Dada uma amostra de pares (X 1,Y 1 ),...,(X n,y n ) independentes e identicamente distribuídos com função de distribuição F X,Y. Defina o erro empírico de classificação de um classificador ϕ C por ˆL n [ϕ] = 1 n I n {ϕ(xi ) Y i }. i=1 Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

28 Vapnik e Chervonenkis (2) Vapnik e Chernonenkis preconizam que devemos escolher o classificador ˆϕ que minimiza o erro empírico: ˆϕ = argminˆl n [ϕ]. ϕ C Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

29 Vapnik e Chervonenkis (2) Vapnik e Chernonenkis preconizam que devemos escolher o classificador ˆϕ que minimiza o erro empírico: ˆϕ = argminˆl n [ϕ]. ϕ C Note-se que, pela lei forte dos grandes números, ˆL n [ϕ] é um estimador fortemente consistente de L[ϕ], ou seja, ˆL n [ϕ] L[ϕ] com probabilidade 1, quando n, para toda F X,Y. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

30 Vapnik e Chervonenkis (2) Vapnik e Chernonenkis preconizam que devemos escolher o classificador ˆϕ que minimiza o erro empírico: ˆϕ = argminˆl n [ϕ]. ϕ C Note-se que, pela lei forte dos grandes números, ˆL n [ϕ] é um estimador fortemente consistente de L[ϕ], ou seja, ˆL n [ϕ] L[ϕ] com probabilidade 1, quando n, para toda F X,Y. Muito importante: isto não ocorreria, em geral, se o classificador ϕ fosse uma função de toda a amostra aleatória (X 1,Y 1 ),...,(X n,y n ). Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

31 Vapnik e Chervonenkis (2) Vapnik e Chernonenkis preconizam que devemos escolher o classificador ˆϕ que minimiza o erro empírico: ˆϕ = argminˆl n [ϕ]. ϕ C Note-se que, pela lei forte dos grandes números, ˆL n [ϕ] é um estimador fortemente consistente de L[ϕ], ou seja, ˆL n [ϕ] L[ϕ] com probabilidade 1, quando n, para toda F X,Y. Muito importante: isto não ocorreria, em geral, se o classificador ϕ fosse uma função de toda a amostra aleatória (X 1,Y 1 ),...,(X n,y n ). Vale lembrar: ϕ é simplesmente uma função de R d em C. O classificador ϕ não é um objeto aleatório. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

32 Vapnik e Chervonenkis (2) Vapnik e Chernonenkis preconizam que devemos escolher o classificador ˆϕ que minimiza o erro empírico: ˆϕ = argminˆl n [ϕ]. ϕ C Note-se que, pela lei forte dos grandes números, ˆL n [ϕ] é um estimador fortemente consistente de L[ϕ], ou seja, ˆL n [ϕ] L[ϕ] com probabilidade 1, quando n, para toda F X,Y. Muito importante: isto não ocorreria, em geral, se o classificador ϕ fosse uma função de toda a amostra aleatória (X 1,Y 1 ),...,(X n,y n ). Vale lembrar: ϕ é simplesmente uma função de R d em C. O classificador ϕ não é um objeto aleatório. Menos importante: o estimador é não viciado: E[ˆL n [ϕ]] = L[ϕ]. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

34 Vapnik e Chervonenkis (3) Desigualdade de Hoeffding: sejam U 1,...U n variáveis aleatórias independentes tais que Pr{a i U i b i ]} = 1. Definindo Ū n = (U 1 + +U n )/n, temos que Pr { Ūn E[Ū n ] } 2n ǫ 2exp ( 2 ǫ 2 ) n i=1 (b i a i ) 2. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

35 Vapnik e Chervonenkis (3) Desigualdade de Hoeffding: sejam U 1,...U n variáveis aleatórias independentes tais que Pr{a i U i b i ]} = 1. Definindo Ū n = (U 1 + +U n )/n, temos que Pr { Ūn E[Ū n ] } 2n ǫ 2exp ( 2 ǫ 2 ) n i=1 (b i a i ) 2. Usando a desigualdade de Hoeffding, temos que } Pr{ ˆL n [ˆϕ] L[ˆϕ] ǫ 2e 2nǫ2. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

36 Vapnik e Chervonenkis (3) Desigualdade de Hoeffding: sejam U 1,...U n variáveis aleatórias independentes tais que Pr{a i U i b i ]} = 1. Definindo Ū n = (U 1 + +U n )/n, temos que Pr { Ūn E[Ū n ] } 2n ǫ 2exp ( 2 ǫ 2 ) n i=1 (b i a i ) 2. Usando a desigualdade de Hoeffding, temos que } Pr{ ˆL n [ˆϕ] L[ˆϕ] ǫ 2e 2nǫ2. Portanto, para algum α = (0,1], fazendo 2e 2nǫ2 = α, temos que ( ) 1 2 ˆL n [ˆϕ]± 2n log. α é um intervalo de confiança para L[ˆϕ] com nível de confiança não menor do que (1 α)%. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

37 k-nearest Neighbors (1) Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

38 k-nearest Neighbors (1) Para uma certa distância definida em R d, dados n pares (x 1,y 1 ),...,(x n,y n ) e um novo x R d, o classificador k-nn determina os k pontos em {x 1,...,x n } mais próximos de x e classifica x como pertencente à classe mais frequente entre os y i s destes k vizinhos mais próximos (voto da maioria). Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

39 k-nearest Neighbors (1) Para uma certa distância definida em R d, dados n pares (x 1,y 1 ),...,(x n,y n ) e um novo x R d, o classificador k-nn determina os k pontos em {x 1,...,x n } mais próximos de x e classifica x como pertencente à classe mais frequente entre os y i s destes k vizinhos mais próximos (voto da maioria). Diversas distâncias podem ser utilizadas. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

40 k-nearest Neighbors (1) Para uma certa distância definida em R d, dados n pares (x 1,y 1 ),...,(x n,y n ) e um novo x R d, o classificador k-nn determina os k pontos em {x 1,...,x n } mais próximos de x e classifica x como pertencente à classe mais frequente entre os y i s destes k vizinhos mais próximos (voto da maioria). Diversas distâncias podem ser utilizadas. Euclidiana: d(x,z) = (x z) (x z). Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

41 k-nearest Neighbors (1) Para uma certa distância definida em R d, dados n pares (x 1,y 1 ),...,(x n,y n ) e um novo x R d, o classificador k-nn determina os k pontos em {x 1,...,x n } mais próximos de x e classifica x como pertencente à classe mais frequente entre os y i s destes k vizinhos mais próximos (voto da maioria). Diversas distâncias podem ser utilizadas. Euclidiana: d(x,z) = (x z) (x z). Mahalanobis: d(x,z) = (x z) S 1 (x z), em que S é a matriz de covariâncias amostral. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

42 k-nearest Neighbors (1) Para uma certa distância definida em R d, dados n pares (x 1,y 1 ),...,(x n,y n ) e um novo x R d, o classificador k-nn determina os k pontos em {x 1,...,x n } mais próximos de x e classifica x como pertencente à classe mais frequente entre os y i s destes k vizinhos mais próximos (voto da maioria). Diversas distâncias podem ser utilizadas. Euclidiana: d(x,z) = (x z) (x z). Mahalanobis: d(x,z) = (x z) S 1 (x z), em que S é a matriz de covariâncias amostral. E muitas outras. Especialmente quando algumas das preditoras são categóricas. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

43 k-nearest Neighbors (1) Para uma certa distância definida em R d, dados n pares (x 1,y 1 ),...,(x n,y n ) e um novo x R d, o classificador k-nn determina os k pontos em {x 1,...,x n } mais próximos de x e classifica x como pertencente à classe mais frequente entre os y i s destes k vizinhos mais próximos (voto da maioria). Diversas distâncias podem ser utilizadas. Euclidiana: d(x,z) = (x z) (x z). Mahalanobis: d(x,z) = (x z) S 1 (x z), em que S é a matriz de covariâncias amostral. E muitas outras. Especialmente quando algumas das preditoras são categóricas. Quando temos muitas preditoras, o classificador k-nn sofre a maldição da dimensionalidade, pois, grosso modo, em um espaço euclidiano de dimensão muito alta todos os x i s estariam aproximadamente à mesma distância da origem. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

44 k-nearest Neighbors (2) Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

45 k-nearest Neighbors (2) No caso k = 1, os pontos x 1,...,x n definem células de classificação que formam uma estrutura geométrica conhecida como tesselação (mosaico) de Voronoi. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

46 k-nearest Neighbors (2) No caso k = 1, os pontos x 1,...,x n definem células de classificação que formam uma estrutura geométrica conhecida como tesselação (mosaico) de Voronoi. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

47 k-nearest Neighbors (2) No caso k = 1, os pontos x 1,...,x n definem células de classificação que formam uma estrutura geométrica conhecida como tesselação (mosaico) de Voronoi. Cover e Hart provaram que, assintoticamente, o erro de classificação da regra 1-NN nunca é maior do que o dobro do erro de Bayes, de maneira universal, ou seja, para qualquer F X,Y. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

48 Como escolher k? (1) Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

49 Como escolher k? (1) A escolha de k é crítica. As regiões de classificação podem ser substancialmente diferentes para k s distintos. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

50 Como escolher k? (1) A escolha de k é crítica. As regiões de classificação podem ser substancialmente diferentes para k s distintos. Se, erroneamente, tentassemos minimizar o erro empírico do classificador contruído com toda a amostra, escolheríamos sempre k = 1, pois a regra 1-NN, aparentemente, teria erro empírico igual a zero. Conforme discutido em slides anteriores, esta interpretação é incorreta. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

51 Como escolher k? (1) A escolha de k é crítica. As regiões de classificação podem ser substancialmente diferentes para k s distintos. Se, erroneamente, tentassemos minimizar o erro empírico do classificador contruído com toda a amostra, escolheríamos sempre k = 1, pois a regra 1-NN, aparentemente, teria erro empírico igual a zero. Conforme discutido em slides anteriores, esta interpretação é incorreta. O procedimento clássico em Statistical Learning é dividir a amostra em m dados de treinamento e n m dados de teste: (X 1,Y 1 ),...,(X m,y m ),(X }{{} m+1,y m+1 ),...,(X n,y n ). }{{} dados de treinamento dados de teste Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

52 Como escolher k? (2) Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

53 Como escolher k? (2) Usa-se os dados de treinamento para construir classificadores com k = 1,...,m e calcula-se o erro empírico de cada classificador usando apenas os n m dados de teste. O menor erro empírico determina o valor de k. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

54 Como escolher k? (2) Usa-se os dados de treinamento para construir classificadores com k = 1,...,m e calcula-se o erro empírico de cada classificador usando apenas os n m dados de teste. O menor erro empírico determina o valor de k. Há critérios assintóticos (tipo Stone) para a divisão da amostra em dados de treinamento e dados de teste. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

55 Como escolher k? (2) Usa-se os dados de treinamento para construir classificadores com k = 1,...,m e calcula-se o erro empírico de cada classificador usando apenas os n m dados de teste. O menor erro empírico determina o valor de k. Há critérios assintóticos (tipo Stone) para a divisão da amostra em dados de treinamento e dados de teste. Não há critérios universais para n finito. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

56 Como escolher k? (2) Usa-se os dados de treinamento para construir classificadores com k = 1,...,m e calcula-se o erro empírico de cada classificador usando apenas os n m dados de teste. O menor erro empírico determina o valor de k. Há critérios assintóticos (tipo Stone) para a divisão da amostra em dados de treinamento e dados de teste. Não há critérios universais para n finito. O que se vê entre os praticamentes são critérios de divisão do tipo Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

57 Como escolher k? (2) Usa-se os dados de treinamento para construir classificadores com k = 1,...,m e calcula-se o erro empírico de cada classificador usando apenas os n m dados de teste. O menor erro empírico determina o valor de k. Há critérios assintóticos (tipo Stone) para a divisão da amostra em dados de treinamento e dados de teste. Não há critérios universais para n finito. O que se vê entre os praticamentes são critérios de divisão do tipo Matematicamente, o classificador obtido depende de como a amostra foi dividida. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

58 Como escolher k? (2) Usa-se os dados de treinamento para construir classificadores com k = 1,...,m e calcula-se o erro empírico de cada classificador usando apenas os n m dados de teste. O menor erro empírico determina o valor de k. Há critérios assintóticos (tipo Stone) para a divisão da amostra em dados de treinamento e dados de teste. Não há critérios universais para n finito. O que se vê entre os praticamentes são critérios de divisão do tipo Matematicamente, o classificador obtido depende de como a amostra foi dividida. Uma variante da k-nn é utilizada para regressão não paramétrica: ao invés do voto da maioria, toma-se a média das respostas dos k vizinhos mais próximos. Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14

59 Obrigado pela presença! Insper Aula 1: k-nearest Neighbors 29 de Janeiro de / 14