K-Nearest Neighbours & RSTUDIO

Documentos relacionados
Aprendizado de Máquina (Machine Learning)

INF 1771 Inteligência Artificial

MLaaS com Azure: Que tipo de flor de íris é essa?

Aprendizado de Máquina (Machine Learning)

SCC0173 Mineração de Dados Biológicos

Inteligência nos Negócios (Business Inteligente)

Mineração de Dados - II

DCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...

Mapeamento do uso do solo para manejo de propriedades rurais

UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica

APRENDIZAGEM DE MÁQUINA

Silva (2014) faz a classificação dos elementos no trabalho Data Mining sobre um dataset de Câncer de Mama:

Objetivos. 1. O método desenvolvido usa características de pares de pixeis para fazer estatísticas e formar

Introdução ao Reconhecimento. Prof. Dr. Geraldo Braz Junior

Aprendizado de Máquina (Machine Learning)

Conceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional

Inteligência Artificial

Aprendizado por Instâncias Janelas de Parzen & Knn

Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21

Aula 7 Medidas de Distância. Profa. Elaine Faria UFU

MAC 0425/ Inteligência Artificial

INF 1771 Inteligência Artificial

Exame de Aprendizagem Automática

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

Mineração de Dados em Biologia Molecular

2COP355 INTELIGÊNCIA COMPETITIVA. Algoritmos. Sylvio Barbon Junior 27 de novembro de 2015 DC-UEL Sylvio Barbon Jr 1

Laboratório Classificação com o WEKA Explorer

INF 1771 Inteligência Artificial

Aula 1: k-nearest Neighbors

Metodologia KNN-Fuzzy: Uma Abordagem da Classificação de Dados por Similaridade

Processamento digital de imagens

Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação

1 o Teste de Aprendizagem Automática

Aprendizagem de Máquina

Saída: Representação de conhecimento

Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka

MCZA Processamento de Linguagem Natural Classificação de textos

Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Tipos de Aprendizagem. Luiz Eduardo S. Oliveira, Ph.D.

Mensurando o desenvolvimento do Pensamento Computacional por meio de Mapas Auto-Organizáveis: um estudo preliminar em uma Oficina de Jogos Digitais

Construindo um chatbot com Retrieval-based models. Bárbara

6 Aplicação da Metodologia Proposta

Por que atributos irrelevantes são um problema Quais tipos de algoritmos de aprendizado são afetados Abordagens automáticas

Aprendizado de Máquina (Machine Learning)

Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta

Teoria do aprendizado

Tutorial: Árvore de Decisão com Weka para a classificação de carne suína

Algoritmos de Agrupamento - Aprendizado Não Supervisionado

scikit-learn: Aprendizado de máquina 101 com Python

Reconhecimento de texturas utilizando padrão binário local e classificador knn.

Análise comparativa dos algoritmos de clusterização k-means e fuzzy c-fuzzy com uso de dados oriundos do plantio de canade-açucar

Aprendizagem de Máquina

Rede complexa probabilística baseada em similaridade na classificação de dados com ruídos

CLASSIFICADORES ELEMENTARES

Aula 9. Prof. Adilson Gonzaga

Redes Neurais Artificiais. Everton Gago

SUPPORT VECTOR MACHINE - SVM

CLASSIFICADORES ELEMENTARES -II

Regressão Linear. Fabrício Olivetti de França. Universidade Federal do ABC

Aprendizado de Máquina

Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]

Função discriminante linear de Fisher

Reconhecimento de Padrões aplicado à Bioinformática

Métodos Não Paramétricos

Redes Neurais (Inteligência Artificial)

Tutorial básico de classificação em RapidMiner

Aprendizado de Máquinas

Análise de dados: clustering e redução de dimensionalidade

Aprendizado de Máquina

ANÁLISE DE BIG DATA E INTELIGÊNCIA ARTIFICIAL PARA A ÁREA MÉDICA

Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes

Reconhecimento de Padrões/Objetos

Aprendizado de Máquinas. Introdução à Aprendizado Não- Supervisionado

IA: Aprendizado III. Professor Paulo Gurgel Pinheiro. 28 de Setembro de 2010

UMA ANÁLISE DA APLICAÇÃO DE ALGORITMOS DE IMPUTAÇÃO DE VALORES FALTANTES EM BASES DE DADOS MULTIRRÓTULO

Descoberta de Conhecimento em Bancos de Dados - KDD

Inteligência Computacional

Aprendizagem de Máquina - 2. Prof. Júlio Cesar Nievola PPGIa - PUCPR

PROCESSAMENTO DE TEXTO

Aula 3: Manipulando Textos e Imagens

Aprendizado de Máquina

ESTATÍSTICA Aula de 07/08/2017. Introdução ao R Variáveis Qualitativas: gráficos

Aprendizado de Supervisionado

Aprendizado de Máquina

Nov/2016. José Roberto Motta Garcia

Mineração de Dados - Introdução. Elaine Ribeiro de Faria UFU 2018

Inteligência Artificial Agrupamento de Dados. prof. Dr. Rogério R. de Vargas. Universidade Estadual de Santa Cruz - UESC. Ilhéus-Ba, Outubro de 2013

Aprendizado de Supervisionado

Classificação. Prof. Fabrício Olivetti de França Universidade Federal do ABC

M08. Introdução a Técnicas de Data Mining DM

CC-226 Introdução à Análise de Padrões

Aprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014

Redução de Dimensionalidade, DCDistance, e CARFRE

4 Construção dos Classificadores

Visão computacional. Juliana Patrícia Detroz Orientador: André Tavares Silva

- lnteligência Artificial. Seminário sobre o artigo: Beans quality inspection using correlationbased granulometry

Organização. 1. Introdução 2. Medidas de Similaridade. hierárquicos, de partição) 4. Critérios numéricos para definir o número de clusters

Transcrição:

K-Nearest Neighbours & RSTUDIO Rodrigo Augusto Igawa Universidade Estadual de Londrina igawa@uel.br 17 de novembro de 2015 Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 1 / 16

Sumário 1 Revisão 2 KNN no Software R 3 Atividades 4 Considerações Finais Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 2 / 16

Relembrando a última aula KNN Amplamente usado Aprendizado de máquina supervisionado Modelo simples Buscar os vizinhos mais próximos pode ser custoso Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 3 / 16

Na aula de hoje Na aula de hoje Como usar o KNN no R KNN e sua performance em alguns datasets Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 4 / 16

KNN no R Package class O pacote class disponibiliza alguns algorítimos para classificação. Um deles é o KNN train conjunto de teste (sem a classe) test conjunto de treino (sem a classe) cl a coluna das classes do conjunto de treino k número de vizinho a serem considerados prob distribuição probabiĺıstica dos resultados Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 5 / 16

Detalhes de implementação do KNN no R Limitações A distância a ser usada é exclusivamente a euclidiana Não existe possibilidade de ponderar atributos Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 6 / 16

Atividades Exercícios Efetuar testes nos datasets descritos nos próximos slides. Para cada conjunto de dados computar a matriz de confusão usando KNN e Random Forest. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 7 / 16

O Dataset de iris Descrição Conjunto de dados com 150 instâncias (75 para teste, 75 para treino). Objetivo: Separar o conjunto de dados em três classes distintas. Atributos: 4 atributos numéricos Exemplos: Petal.length{1, 6.9}, Petal.width{0.1, 2.5} Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 8 / 16

Atividade - Dataset de iris Objetivo Dividir o conjunto de dados em duas partes de mesmo tamanho e, em seguida, construir a matriz de confusão usando o 5NN e Random Forest como classificadores. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 9 / 16

O Dataset de sites de phishing Descrição Conjunto de dados com 11578 instâncias (11054 para treino, 524 para teste). Objetivo: Deseja-se classificar se um site é usado para a prática de phishing. Cada exemplar do conjunto de dados possui seu rótulo na última coluna. Atributos: Todos numéricos, variando entre -1, 0 e 1. Exemplos: Shortining Service{1, -1}, Having Sub Domain{-1, 0, 1}, Domain registeration length{-1, 1} Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 10 / 16

Atividade - Dataset de sites de phishing Objetivo Dividir o conjunto de dados em duas partes de mesmo tamanho e, em seguida, construir a matriz de confusão usando o 5NN como classificador. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 11 / 16

O Dataset de mãos de poker Descrição Conjunto de dados com 1025010 instâncias (25009 para treino, todo o resto para teste). Objetivo: Deseja-se classificar se a mão do jogador possui: nada, um par, dois pares,.... Atributos: Todos numéricos. Alguns variando de 1 a 13 representando o número da carta e de 1 a 4 para os símbolos. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 12 / 16

Atividade - Dataset de mão de poker Objetivo Dividir o conjunto de dados em duas partes do mesmo tamanho e, em seguida, construir a matriz de confusão usando 5NN e Random Forest como classificadores. Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 13 / 16

Considerações finais Resumo da aula KNN possui dificuldades para trabalhar com grandes quantidades de dados KNN assim como outros classificadores não apresenta boa performance para problemas com mais de duas classes. Ambos os itens anteriores são justificados na acurácia obtida em experimentos Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 14 / 16

Dúvidas Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 15 / 16

Muito Obrigado Rodrigo A. Igawa Rodrigo Augusto Igawa (UEL) KNN PARTE 2 17 de novembro de 2015 16 / 16