K-Nearest Neighbours & RSTUDIO

Tamanho: px

Começar a partir da página:

Download "K-Nearest Neighbours & RSTUDIO"

Eduardo Vilaverde da Fonseca
8 Há anos
Visualizações:

1 K-Nearest Neighbours & RSTUDIO Rodrigo Augusto Igawa Universidade Estadual de Londrina 17 de novembro de 2015 Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

2 Sumário 1 Revisão 2 KNN no Software R 3 Atividades 4 Considerações Finais Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

3 Relembrando a última aula KNN Amplamente usado Aprendizado de máquina supervisionado Modelo simples Buscar os vizinhos mais próximos pode ser custoso Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

4 Na aula de hoje Na aula de hoje Como usar o KNN no R KNN e sua performance em alguns datasets Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

5 KNN no R Package class O pacote class disponibiliza alguns algorítimos para classificação. Um deles é o KNN train conjunto de teste (sem a classe) test conjunto de treino (sem a classe) cl a coluna das classes do conjunto de treino k número de vizinho a serem considerados prob distribuição probabiĺıstica dos resultados Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

6 Detalhes de implementação do KNN no R Limitações A distância a ser usada é exclusivamente a euclidiana Não existe possibilidade de ponderar atributos Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

7 Atividades Exercícios Efetuar testes nos datasets descritos nos próximos slides. Para cada conjunto de dados computar a matriz de confusão usando KNN e Random Forest. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

8 O Dataset de iris Descrição Conjunto de dados com 150 instâncias (75 para teste, 75 para treino). Objetivo: Separar o conjunto de dados em três classes distintas. Atributos: 4 atributos numéricos Exemplos: Petal.length{1, 6.9}, Petal.width{0.1, 2.5} Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

9 Atividade - Dataset de iris Objetivo Dividir o conjunto de dados em duas partes de mesmo tamanho e, em seguida, construir a matriz de confusão usando o 5NN e Random Forest como classificadores. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

10 O Dataset de sites de phishing Descrição Conjunto de dados com instâncias (11054 para treino, 524 para teste). Objetivo: Deseja-se classificar se um site é usado para a prática de phishing. Cada exemplar do conjunto de dados possui seu rótulo na última coluna. Atributos: Todos numéricos, variando entre -1, 0 e 1. Exemplos: Shortining Service{1, -1}, Having Sub Domain{-1, 0, 1}, Domain registeration length{-1, 1} Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

11 Atividade - Dataset de sites de phishing Objetivo Dividir o conjunto de dados em duas partes de mesmo tamanho e, em seguida, construir a matriz de confusão usando o 5NN como classificador. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

12 O Dataset de mãos de poker Descrição Conjunto de dados com instâncias (25009 para treino, todo o resto para teste). Objetivo: Deseja-se classificar se a mão do jogador possui: nada, um par, dois pares,.... Atributos: Todos numéricos. Alguns variando de 1 a 13 representando o número da carta e de 1 a 4 para os símbolos. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

13 Atividade - Dataset de mão de poker Objetivo Dividir o conjunto de dados em duas partes do mesmo tamanho e, em seguida, construir a matriz de confusão usando 5NN e Random Forest como classificadores. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

14 Considerações finais Resumo da aula KNN possui dificuldades para trabalhar com grandes quantidades de dados KNN assim como outros classificadores não apresenta boa performance para problemas com mais de duas classes. Ambos os itens anteriores são justificados na acurácia obtida em experimentos Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

15 Dúvidas Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

16 Muito Obrigado Rodrigo A. Igawa Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de / 16

Documentos relacionados

Aprendizado de Máquina (Machine Learning)

Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo (knn) Um algoritmo supervisionado usado para classificar