Aprendizado de Máquina
|
|
- Rita Sintra Santos
- 6 Há anos
- Visualizações:
Transcrição
1 Aprendizado de Máquina Um pouco de teoria Formalização (Classificação Binária) Entrada X: Espaço de exemplos D: Distribuição de probabilidade sobre os exemplos de X S X: Conjunto de treino obtido sorteando elementos de X de acordo com a distribuição D c*: função (conceito alvo) que mapeia cada ponto x X em {0,1}. O Valor de c* só é conhecido para os pontos em S c* pode ser pensado como o conjunto de pontos positivos. Formalização (Classificação Binária) Objetivo Obter uma função h: X {0,1} que minimize o true error err D (h)= Pr D [ h(x) <> c*(x) ] Conceitos Importantes Erro de Treinamento Fração dos pontos em S que a função h erra err S (h)= x S : h(x) <> c*(x) / S É fácil ter um erro treinamento igual a 0, basta construir uma função h tal que h(x)=c(x) para todo x S. O desafio é conseguir garantir que o true error seja pequeno 1
2 Conceitos Importantes Conceitos Importantes Overfitting True error bem maio que erro no conjunto de treino baixo poder de generalização Classe de hipóteses (conceitos ou funções) Para lidar com overfitting e tornar o problema de learning computacionalmente tratável restringimos as possibilidades da função h para uma classe de funções H Exemplos de classes: funções booleanas, separadores linerares Teorema 1. Seja H uma classe de hipóteses. Além disso, seja >0 e >0. Se o conjunto S de tamanho n >( ln H + ln(1/ ) ) / é obtido a partir da distribuição de probabilidade D, então com probabilidade 1-, toda hipótese h em H tal que err D (h) satisfaz err S (h)>0. De forma, equivalente com probabilidade maior ou igual a 1-, toda hipótese h em H com err S (h)=0 tem true erro < Prova. Seja h hipótese tal que err D (h). Então a probabilidade dela ter erro no conjunto S de 0 é (1- ) n. Portanto, a probabilidade de existir uma hipótese h em H com err D (h) e err S (h)=0 é limitada por H (1- ) n (union bound) Substituindo n por seu limite inferior concluímos que H (1- ) n < 2
3 Em palavras Se o conjunto de treino é grande o suficiente é muito improvável que uma hipótese com erro 0 no treino tenha um resultado ruim (erro > ) no conjunto todo. O resultado apresesentado é conhecido na literatura como um PAC bound Em palavras O grande está relacionado com o número de hipóteses possíveis (ln H) já que se existe um número grande de hipóteses, por um efeito do acaso uma pode acabar indo mal no conjunto todo `(erro > ) e muito bem no treino (erro= 0) O grande está relacionado com o erro (1/ ). Se o erro é pequeno, é razoável ter uma hipótese que erre mas que no conjunto todo mas não erre no treino devido a variância. Teorema 2. Seja H uma classe de hipóteses. Além disso, seja >0 e >0. Se o conjunto S tem tamanho n >[ ln H + ln(1/ ) ] / 2 2 é obtido a partir da distribuição D, então com probabilidade 1-, toda hipótese h em H satisfaz err D (h) - err S (h). Em palavras Generalização do primeiro teorema que leva em conta a diferença entre o erro da hipótese no treino e no conjunto todo 3
4 Classificador de Escolhermos um conjunto U com d palavras chaves (cialis, viagra, loan,,) Classifcamos um como spam se pelo menos uma das palavras do subconjunto W de U está presente. Atributo x(i)=1 se palavra i está presente e x(i)=0, caso contrário. O conjunto W deve ser aprendido H: classe das hipóteses {W W U} H tem 2 d hipóteses Classificador de Segue do Teorema 1 que se encontrarmos uma hipótese com erro 0 em um conjunto de treino de tamanho maior ou igual a (d ln(2) + ln(1/ )) / garantimos uma acurácia de 1-, com prob (1- ) d=50, =0.05 =0.01 precisamos de conjunto de treino de tamanho 800 d=1000, =0.05 =0.01, precisamos de conjunto de treino de tamanho Learning Disjunctions H: classe de funções expressas como disjunção de variáveis positivas Exemplos: h1: x(1) OR x(3) OR x(4) h2: x(1) OR x(2) Occam Razor Devemos priorizar explicações (modelos) mais simples Classificador que classifica de forma positiva se uma das variáveis está presente no conjunto 4
5 Occam Razor Occam Razor Conexão com o PAC bound Se temos duas hipóteses com o mesmo erro no conjunto de treino devemos escolher a mais simples (pertence a uma classe com menos de hipóteses) pois teremos uma garantia teórica melhor Termo ln (H) nos Teoremas 1 e 2 Conexão com o PAC bound O método M1 constroi a melhor árvore de decisão dentre aquelas de altura altura 3 O método M2 constroi a melhor árvore de decisão dentre aquelas de altura 5 Assuma que os dois métodos obtiveram árvores de decisão com erro de treino 0. Qual árvore devemos escolher? Occam Razor Para árvore de M1 conseguimos garantir um bound melhor já que M1 é uma classe com menos hipóteses (árvores) que enquanto M2 Isso não quer dizer que M1 é necessariamente melhor que M2 Regularização Forma de penalizar hipóteses mais complexas Minimizamos o erro de treinamento mais uma penalidade 5
6 Regularização Corolário. Seja L uma linguagem utilizada para representar hipóteses. Seja S um conjunto de treino obtido a partir da distribuição D. Então com probabilidade 1-, toda hipótese h satisfaz Regularização A regularização abaixo é natural onde size(h) é o número de bits necessários para representar a hipótese na linguagem L Uma sequência de exemplos x 1,,x t chega ao longo do tempo Devemos classificar cada exemplo no momento que ele chega. Pagamos um custo c i pela classificação de x i e descobrimos então a classe real do exemplo Aplicação Classificação de como importante ou não importante Usuário informa se o algoritmo está correto ou não Não é razoável assumir independência neste caso já que muitos s são resposta de outros ou contruídos a partir de outros 6
7 Halving Algorithm 1. O algoritmo começa com todas as hipóteses da classe H 2. Ao chegar um novo exemplo x, o algoritmo classifica x a partir de uma votação com base nas hipóteses consistentes. 3. Se um erro ocorre, o algoritmo descarta as hipóteses que erraram Halving Algorithm Se ocorre um erro o novo conjunto de hipóteses consistentes tem no máximo metade do tamanho do conjunto anterior Portanto, se existe uma hipótese com erro 0, o método erra no máximo log H vezes Algoritmo é muito caro computacionalmente Interessante do ponto de vista teórico. Online Perceptron Algoritmo simples e eficiente para encontrar um separador linear em R d A premissa é a existência de um separador linear w* tal que: (i) para todo exemplo positivo x, w*x>=1 (ii) para todo negativo, w*x -1 Online Perceptron Todo ponto x i está a distância de pelo menos 1/ w* do hiperplano w*x=0. A distância de x i ao hiperplano é a projeção de x i na direção w* que é dada por w*x i / w* >=1 Essa distância 1/ w* é a margem do separador 7
8 Online Perceptron w=0 Para t=1,2,3, 1. Dado um exemplo x t prediz sgn(x tt w) 2. Se a predição não está correta (a) Se x t é positivo, w w + x t (b) Se x t é negativo, w w - x t Teorema (Perceptron). Para qualquer sequência de exemplos x 1 x 2,,x t se existe um vetor w* tal que: (i) w*x 1 para os exemplos positivos (ii) w*x -1 para os exemplos negativos, então o Perceptron comete no máximo w* 2 R 2 erros onde R=max t x t Prova Investigamos a evolução de w T w* e w 2 Ao cometer um erro, w T w* aumenta de pelo menos uma unidade: Se x t é positivo: (w+x t ) T w* = w T w* +x t T w* w T w*+1 Se x t é negativo (similar) Prova Ao cometer um erro, w 2 aumenta de no máximo R 2 x t é positivo: (w+x t ) 2 - w 2 = 2 x t w + x t 2 R 2 onde a desigualdade segue do fato que x t w 0 se erramos um exemplo positivo x t é negativo (similar) 8
9 Prova 1. Se comentemos M erros: w 2 aumenta de no máximo MR 2 unidades w T w* aumenta pelo menos M unidades 2. Temos também w T w* / w* 2 w projeção de w na direção w* é menor que w, 3. Juntando (1) e (2) estabelecemos o resultado Consequência Se a margem é grande, w* é pequeno e, portanto, cometemos poucos erros Observação O resultado é invariante a escala porque se muitiplicarmos os exemplo por K podemos multiplicar w* por 1/K Perceptron (dados não linearmente separáveis) Assumimos que existe um separador linear w* O que acontece quando não existe w*? Hinge Loss O hinge-loss de w* em um exemplo positivo x t é max{0,1- w* x t } O hinge-loss de w* em um exemplo negativo x t é max{0,1+ w* x t } Defina L Hinge (w*,s) como a soma dos hingeloss dos exemplos de um conjunto S 9
10 Teorema. Para qualquer sequência de exemplos x 1 x 2,,x t o Perceptron comete no máximo ( w* 2 R 2 + 2L Hinge ) erros onde R=max t x t Classes não linearmente separáveis E se o hinge loss for muito alto? O que acontece com a fronteira abaixo? Classes não linearmente separáveis Criamos novas features x 1 x 2, x 1 2, x 2 2 associadas ao ponto x=(x 1,x 2 ) Representamos x por x = (x 1, x 2, x 1 2, x 1 x 2, x 2 2 ) Logo, brancos e pretos são separados pelo hiperplano w*x 4, onde w*=(0,0,1,0,1). Classes não linearmente separáveis Classes que não são separáveis em dimensão mais baixa podem separadas linearmente quando introduzimos novas features Quais features devem ser incluidas? Como evitar um custo computacional muito alto? Para mapear um ponto (x 1,, x d ) em todos os produtos com grau no máximo k precisamos de um espaço de dimensão d k 10
11 Kernel Trick Kernel Trick Suponha a existência de uma função K(x,y): R d x R d ->R e uma função :R d -> R N com K(x,y) = (x) (y) Produto interno (x) (y) pode ser calculado usando a função K. Bem mais eficiente se N>>d K com essas propriedas é chamada de Kernel K(x,y) = (1+xy) 2 corresponde a (x) = (1, 2 x 1, 2 x 2, x 1 2, 2 x 1 x 2, x 22 ) (y) = (1, 2 y 1, 2 y 2, y 1 2, 2 y 1 y 2, y 22 ) Em geral, K(x,y) = (1+xy) k corresponde a (x) (y), onde :R d -> R N, com N d k Complexidade de calcular o produto interno é reduzida de O(d k ) para O(d+log k) Kernel Trick Perceptron -Kernelization Seja w*=(-4,0,0,1,0,1). O hiperplano w* (x)=0 no espaço aumentado, corresponde ao círculo x x 22 =4 no espaço original Brancos e pretos são linearmente separáveis no espaço aumentado Online Perceptron (espaço aumentado) w=0 For t=1,2,3, 1. Given an example x t predict sgn( (x tt )w ) 2. If the prediction is not correct (a) If x t is positive, w w + (x t ) (b) If x t is negative, w w - (x t ) 11
12 Perceptron -Kernelization Percerpton s Kernelization 1. Devemos computar w=w+ (x i ) e sgn(w (x)) 2. Em vez de calcular explicitamente w+ (x i ) guardamos apenas os exemplos que somamos e os que subtraímos 3. Para calcular sgn(w (x)) utilizamos o kernel K Exemplo Se cometemos os seguintes erros na classificação: x 1 =positivo x 3 =negativo e x 6 =positivo, então w= (x 1 )- (x 3 )+ (x 6 ) Para classificar x 7 temos que computar ( (x 1 )- (x 3 )+ (x 6 )) (x 7 ) =K(x 1,x 7 )-K(x 3,x 7 )+K(x 6,x 7 ) Kernels Kernels Obtendo Kernels Teorema. Se K 1 e K 2 são kernels então 1. c K 1 é um kernel 2. K 1 + K 2 é um kernel 3. K 1 x K 2 é um kernel Aplicação. (1+xy) k é um kernel já que: (1+xy) é um kernel correspondente a (x)= (1,x) e (1+xy) k-1 é um kernel por hipótese de indução Kernel gaussiano K(x,x )=e-c ( x-x x-x ) 12
13 SVM SVM Which of the linear separators is optimal? d k Examples closest to the hyperplane are support vectors. Margin ρ of the separator is the distance between support vectors. r ρ SVM Dados os exemplos (x 1,,x n ), O SVM encontra o separador w que minimize soma ponderada do inverso da margem com erros de classificação SVM Admite kernelization Boas propriedades teóricas Existem implementações eficientes para encontrar separador (SVMLIB) c é usado para priorizar a importância da margem 13
14 Boosting Definição. Um -weak learner é um algoritmo A com a seguinte propriedade: dado um conjunto de n exemplos, seus rótulos e um peso w(i) associado a cada exemplo x(i), A soma dos pesos dos exemplos classificados corretamente por A é maior ou igual a +(w(1)+ +w(n))/2 É uma classificador ligeiramente melhor que o aleatório Boosting Boosting Boosting Funcionamento Em cada iteração exemplos com classificação errada tem seus pesos aumentados Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova M: número de exemplos classificados de forma incorreta no final weight(t): soma dos pesos no final da iteração t 14
15 Boosting Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova Como cada um dos M exemplos é classificado errado por pelo menos t 0 /2 classificadores então weight(t(0)) M t(0)/2 (*) Boosting Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova Como no máximo (1/2- ) dos exemplos são classificados errados weight(t+1) (1+2 )weight(t) Como o peso inicial é n então weight(t 0 ) n (1+2 ) t(0) (**) Boosting Boosting Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova Combinando os bounds (*) e (**) concluímos que M<1 CQD É possível relaxar a definição de weak learner 15
16 Bibliografia Cap 5. Foundations of Data Science, Avrim Blum, John Hopcroft and Ravindran Kannan Combining Expert Advice 16
UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem
Leia maisTeoria do aprendizado
Teoria do aprendizado Marcelo K. Albertini 7 de Agosto de 2014 2/37 Teoria do aprendizado Teoremas não existe almoço grátis Viés e variância Aprendizado PAC Dimensão VC Máquinas de vetores suporte 3/37
Leia maisClassificadores Lineares
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Classificadores Lineares David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Funções Discriminantes Lineares Perceptron Support
Leia maisSUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
Leia maisDados no R n. Dados em altas dimensões 29/03/2017
Dados no R n Dados em altas dimensões Alguns dados são apresentados como vetores em R n Alguns dados não são apresentados como vetores mas podem ser representados como vetores (e.g. Texto) Texto Dados
Leia maisThiago Zavaschi Orientador: Alessandro Koerich Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade
Thiago Zavaschi (zavaschi@ppgia.pucpr.br) Orientador: Alessandro Koerich Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUC-PR) Conceitos relacionados a classificação
Leia maisAdriana da Costa F. Chaves. Máquina de Vetor Suporte (SVM) para Classificação Binária 2
Máquina de Vetor Suporte (SVM) para Classificação Binária Adriana da Costa F. Chaves Conteúdo da Apresentação Introdução Máquinas de Vetor Suporte para Classificação binária Exemplos Conclusão Máquina
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisAprendizagem de Máquina
Plano de Aula Aprendizagem de Máquina Bagging,, Support Vector Machines e Combinação de Classificadores Alessandro L. Koerich Uma visão geral de diversos tópicos relacionados à Aprendizagem de Máquina:
Leia maisUma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law
Uma Introdução a SVM Support Vector Machines Obs: Baseada nos slides de Martin Law Sumário Historia das SVMs Duas classes, linearmente separáveis O que é um bom limite para a decisão? Duas classes, não
Leia maisAprendizado de Máquinas. Classificadores Lineares
Universidade Federal do Paraná (UFPR) Departamento de Informática Aprendizado de Máquinas Classificadores Lineares David Menotti, Ph.D. web.inf.ufpr.br/menotti Objetivos Introduzir o conceito de classificação
Leia maisAprendizado de Máquina. Combinando Classificadores
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 13 Support Vector Machines (SVM) Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisSVD. Single Value Decomposition 18/09/2017. Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T =
SVD Single Value Decomposition Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T = U é uma matriz com n linhas e r colunas (r rank de A) D é uma matriz diagonal r x r; V é uma
Leia mais4 Construção dos Classificadores
4 Construção dos Classificadores 4.1. Modelagem O aprendizado supervisionado contém a etapa de modelagem, nessa etapa definimos quais serão as características encaminhadas ao classificador para o treinamento.
Leia maisMINERAÇÃO DE DADOS. Thiago Marzagão 1 MÁQUINAS DE SUPORTE VETORIAL. 1 Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 27
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu MÁQUINAS DE SUPORTE VETORIAL Thiago Marzagão (UnB) MINERAÇÃO DE DADOS 1 / 27 máquinas de suporte vetorial (Livro-texto faz distinção entre classificador
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 12 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 12 de Janeiro de 2017 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisAprendizado de Máquinas
Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais
Leia maisMáquinas de Vetores de Suporte
Máquinas de Vetores de Suporte Marcelo K. Albertini 14 de Setembro de 2015 2/22 Máquinas de Vetores de Suporte Support Vector Machines (SVM) O que é? Perceptron revisitado Kernels (núcleos) Otimização
Leia maisÁrvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015
Árvores de decisão Marcelo K. Albertini 17 de Agosto de 2015 2/31 Árvores de Decisão Nós internos testam o valor de um atributo individual ramificam de acordo com os resultados do teste Nós folhas especificam
Leia maisscikit-learn: Aprendizado de máquina 101 com Python
scikit-learn: Aprendizado de máquina 101 com Python Luciana Fujii Campus Party BH 2016 1 / 30 Introdução Aprendizado de máquina Aprendizado de máquina é o campo da ciência da computação que dá aos computadores
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Leia maisMáquinas de Vetores de Suporte - Support Vector Machines (SVM) Germano Vasconcelos
Máquinas de Vetores de Suporte - Support Vector Machines (SVM) Germano Vasconcelos Introdução * Método supervisionado de aprendizagem de máquina * Empregado em classificação de dados Classificação binária
Leia maisRedes Neurais e Sistemas Fuzzy
Redes Neurais e Sistemas Fuzzy Redes de uma única camada O Perceptron elementar Classificação de padrões por um perceptron A tarefa de classificação consiste em aprender a atribuir rótulos a dados que
Leia maisMáquinas de suporte vetorial e sua aplicação na detecção de spam
e sua aplicação na detecção de spam Orientador: Paulo J. S. Silva (IME-USP) Universidade de São Paulo Instituto de Matemática e Estatística Departamento de Ciência da Computação MAC499 Trabalho de Formatura
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR) Combinação de Classificadores Filosofia O objetivo da combinação de
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos
Leia maisAgregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting
Leia maisMistura de modelos. Marcelo K. Albertini. 31 de Julho de 2014
Mistura de modelos Marcelo K. Albertini 31 de Julho de 2014 2/11 Mistura de modelos Ideia básica Em vez de aprender somente um modelo, aprender vários e combiná-los Isso melhora acurácia Muitos métodos
Leia maisInteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção
Leia maisInteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
Leia maisRedes Neurais Artificiais
Redes Neurais Artificiais Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Redes Neurais Biológicas 2. Neurônio Artificial 3. Rede Neural Artificial 4. Keras 1 Redes Neurais Biológicas
Leia maisFundamentos de Inteligência Artificial [5COP099]
Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 10 Modelos Preditivos - Árvore de Decisão 2 de 20 Aula 10 - Árvore de
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um
Leia maisRedes Neurais Artificiais - Introdução. Visão Computacional
Redes Neurais Artificiais - Introdução Visão Computacional Inspiração 2 Inspiração 3 Inspiração Atividade seletivanas conexões Soma os impulsos e passa a diante 4 Inspiração As conexões entre os dendritos
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que
Leia maisCombinação de Classificadores (seleção)
Combinação de Classificadores (seleção) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Seleção de classificadores Estimativa independente de decisão Estimativa dependente de decisão
Leia mais2. Redes Neurais Artificiais
Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.2. Perceptron 2.2.1. Introdução 2.2.2. Funcionamento do perceptron
Leia mais2284-ELE/5, 3316-IE/3
INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem Supervisionada 2 Os vários algoritmos de Aprendizagem
Leia maisIntrodução ao Reconhecimento. Prof. Dr. Geraldo Braz Junior
Introdução ao Reconhecimento Prof. Dr. Geraldo Braz Junior O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos Vários 4 Pergunta:
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular Principais tópicos André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Métodos baseados em distância Aprendizado baseado em instâncias Conceitos básicos KNN
Leia maisAprendizado de Supervisionado
Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendendo com Exemplos 2. Classificação 3. Conceitos Gerais 4. Vizinho Mais Próximo 1 Aprendendo com Exemplos
Leia maisRede Perceptron. Capítulo 3
Rede Perceptron Capítulo 3 Rede Perceptron É a forma mais simples de configuração de uma RNA (idealizada por Rosenblatt, 1958) Constituída de apenas uma camada, tendo-se ainda somente um neurônio nesta
Leia maisCodificação de Huffman
Codificação de Huffman Bruna Gregory Palm 11 de setembro de 2017 A codificação de Huffman é um método de compressão que considera as probabilidades de ocorrência de cada símbolo no conjunto de dados a
Leia maisAprendizado de Máquina
Classificação Aprendizado de Máquina Aula http://www.ic.uff.br/~bianca/aa/ Dados: A descrição de uma instância, x X, onde X é um espaço de instâncias. Um conjunto fixo de classes: C={c, c, c n } Determine:
Leia mais1 o Teste de Aprendizagem Automática
o Teste de Aprendizagem Automática 3 páginas com 6 perguntas e 2 folhas de resposta. Duração: 2 horas DI, FCT/UNL, 22 de Outubro de 205 Pergunta [4 valores] As figuras abaixo mostram o erro de treino e
Leia maisIntrodução à Mineração de Dados com Aplicações em Ciências Espaciais
Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 2: 1 /59 Programa Dia 1: Apresentação
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Leia maisAprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014
Aprendizado indutivo Marcelo K. Albertini 17 de Abril de 2014 2/22 Aprendizado indutivo O que é? Porque é difícil? Como podemos resolver problemas de indução? 3/22 Aprendizado supervisionado Temos: exemplos
Leia maisImplementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words
Leia maisClassificação Linear. André Tavares da Silva.
Classificação Linear André Tavares da Silva andre.silva@udesc.br Roteiro Introduzir os o conceito de classificação linear. LDA (Linear Discriminant Analysis) Funções Discriminantes Lineares Perceptron
Leia maisCLASSIFICADORES ELEMENTARES -II
CLASSIFICADORES ELEMENTARES -II Estimando a densidade 2 A função densidade de probabilidade é um conceito fundamental em estatística Permite associar probabilidades a uma variável aleatória x Especificar
Leia maisRedes Neurais. Prof. Aurora Pozo. Obs: slides baseados em Prof. Marcílio Souto e Prof. Marley Vellasco
Redes Neurais Prof. Aurora Pozo Obs: slides baseados em Prof. Marcílio Souto e Prof. Marley Vellasco CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico Conceitos Básicos
Leia maisHP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.
HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)
Leia maisAprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação
Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais
Leia maisAprendizado Bayesiano
Aprendizado Bayesiano Marcelo K. Albertini 26 de Junho de 2014 2/20 Conteúdo Teorema de Bayes Aprendizado MAP Classificador ótimo de Bayes 3/20 Dois papéis para métodos bayesianos Algoritmos de aprendizado
Leia maisIMPLEMENTAÇÃO DO FREx_SVM: MÁQUINAS DE VETOR SUPORTE PARA CLASSIFICAÇÃO EM MÚLTIPLAS CLASSES
IMPLEMENTAÇÃO DO FREx_SVM: MÁQUINAS DE VETOR SUPORTE PARA CLASSIFICAÇÃO EM MÚLTIPLAS CLASSES Aluno: Aarão Irving Manhães Marins Orientador: Marley Maria Bernardes Rebuzzi Vellasco Introdução A máquina
Leia maisAPRENDIZAGEM DE MÁQUINA
APRENDIZAGEM DE MÁQUINA (usando Python) Thiago Marzagão ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão APRENDIZAGEM DE MÁQUINA 1 / 20 árvore de decisão Aulas passadas: queríamos prever variáveis quantitativas.
Leia maisAprendizagem de Máquinas
Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Aprendizagem de Máquinas DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Aprendizagem de Máquinas
Leia maisRedes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce
Leia maisTópicos Especiais: Inteligência Artificial REDES NEURAIS
Tópicos Especiais: Inteligência Artificial REDES NEURAIS Material baseado e adaptado do Cap. 20 do Livro Inteligência Artificial de Russell & Norvig Bibliografia Inteligência Artificial Russell & Norvig
Leia maisMineração de Dados - II
Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior barbon@uel.br 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework
Leia maisCC-226 Aula 07 - Estimação de Parâmetros
CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições
Leia maisFundamentos de Inteligência Artificial [5COP099]
Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL Disciplina Anual Assunto Aula 16 Redes Neurais Artificiais (MLP) 2 de 24 (MLP) Sumário Introdução
Leia maisModelos Múltiplos. João Gama Diferentes algoritmos de aprendizagem exploram:
Modelos Múltiplos João Gama jgama@liacc.up.pt Modelos Múltiplos Diferentes algoritmos de aprendizagem exploram: Diferentes linguagens de representação. Diferentes espaços de procura. Diferentes funções
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 15 Árvores de Decisão Árvores de Decisão Uma das formas de algoritmo de aprendizado mais simples e de maior sucesso.
Leia maisSCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:
Leia maisInteligência Artificial
Inteligência Artificial Aula 14 Aprendizado de Máquina Avaliação de s Preditivos (Classificação) Hold-out K-fold Leave-one-out Prof. Ricardo M. Marcacini ricardo.marcacini@ufms.br Curso: Sistemas de Informação
Leia maisProfs.: Eduardo Vargas Ferreira Walmes Marques Zeviani
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Introdução Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani O que é Machine Learning? Estatística Machine Learning
Leia maisEduardo Vargas Ferreira
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Considerações finais Eduardo Vargas Ferreira Como obter boas predições 1 Entenda os dados: explore as características, crie
Leia maisdecisão em comparação com a curva para árvores de decisão.
function Decision-Learning(examplos) returns a decision list or failure if examples is empty then return the trivial decision list t a test that matches a nonempty subset examples t of examples such that
Leia maisTÉCNICAS DE CODIFICAÇÃO DE SINAIS
TÉCNICAS DE CODIFICAÇÃO DE SINAIS COMPRESSÃO SEM PERDAS Evelio M. G. Fernández - 2010 Exemplo Símbolo Prob I II III IV A 1/2 00 0 0 0 B 1/4 01 11 10 01 C 1/8 10 00 110 011 D 1/8 11 01 1110 0111 Entropia
Leia maisAprendizado de Máquina
Aprendizado de Máquina Aprendizagem de Conceito Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina
Leia maisMCZA Processamento de Linguagem Natural Classificação de textos
MCZA017-13 Processamento de Linguagem Natural Classificação de textos Prof. Jesús P. Mena-Chalco jesus.mena@ufabc.edu.br 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:
Leia maisRoteiro. PCC142 / BCC444 - Mineração de Dados Classicadores Bayesianos. Representação dos Dados. Introdução
Roteiro PCC142 / BCC444 - Mineração de Dados Classicadores Bayesianos Introdução Representação dos Dados Luiz Henrique de Campos Merschmann Departamento de Computação Universidade Federal de Ouro Preto
Leia maisRedes Neurais Artificiais
Redes Neurais Artificiais Marcelo K. Albertini 24 de Julho de 2014 2/34 Conteúdo Perceptron Gradiente descendente Redes multicamadas Retropropagação de erros 3/34 Modelos conexionistas Humanos Tempo de
Leia maisMinera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33
Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33 Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto
Leia maisModelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Leia maisCompressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:
Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume
Leia maisSCC Capítulo 4 Perceptron de Camada Única
Perceptron LMS SCC-5809 - Capítulo 4 Perceptron de Camada Única João Luís Garcia Rosa 1 1 SCC-ICMC-USP - joaoluis@icmc.usp.br 2011 João Luís G. Rosa c 2011 - SCC-5809: Redes Neurais 1/45 Sumário Perceptron
Leia maisThiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
Leia maisSISTEMAS INTELIGENTES
SISTEMAS INTELIGENTES Profa. Roseli Ap. Francelin Romero Representação de Árvores de Decisão Algoritmo ID3 Conceito de e Ganho de Informação Overfitting Sistemas Inteligentes 1 Sistemas Inteligentes 2
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Modelos gráficos probabilísticos Redes bayesianas Modelos gráficos probabilísticos Os modelos gráficos probabilísticos utilizam representações diagramáticas das distribuições de
Leia maisAGA Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares
1 / 0 AGA 0505- Análise de Dados em Astronomia I 7. Modelagem dos Dados com Máxima Verossimilhança: Modelos Lineares Laerte Sodré Jr. 1o. semestre, 018 modelos modelagem dos dados dado um conjunto de dados,
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 11 Aprendizado de Máquina Edirlei Soares de Lima Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 12 Árvores de Decisão Prof. Augusto Baffa Árvores de Decisão Uma das formas de algoritmo de aprendizado mais simples e de maior sucesso. Uma
Leia maisEstruturas de Dados 2
Estruturas de Dados 2 Algoritmos de Ordenação em Tempo Linear IF64C Estruturas de Dados 2 Engenharia da Computação Prof. João Alberto Fabro - Slide 1/38 Algoritmos de Ordenação em Tempo Linear Limite Assintótico
Leia maisMáquina de Vetores Suporte
Máquina de Vetores Suporte André Ricardo Gonçalves andreric [at] dca.fee.unicamp.br www.dca.fee.unicamp.br/~andreric Sumário 1 Máquina de Vetores Suporte p. 3 1.1 Teoria da Aprendizado Estatístico.......................
Leia maisClassificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Leia maisAprendizado de Máquina
Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 03 Aprendizado Supervisionado / : Modelo MCP e Perceptron Max Pereira Neurônio Booleano de McCulloch- Pitts (Modelo MCP) Proposto em
Leia mais