Aprendizado de Máquina
|
|
|
- Rita Sintra Santos
- 7 Há anos
- Visualizações:
Transcrição
1 Aprendizado de Máquina Um pouco de teoria Formalização (Classificação Binária) Entrada X: Espaço de exemplos D: Distribuição de probabilidade sobre os exemplos de X S X: Conjunto de treino obtido sorteando elementos de X de acordo com a distribuição D c*: função (conceito alvo) que mapeia cada ponto x X em {0,1}. O Valor de c* só é conhecido para os pontos em S c* pode ser pensado como o conjunto de pontos positivos. Formalização (Classificação Binária) Objetivo Obter uma função h: X {0,1} que minimize o true error err D (h)= Pr D [ h(x) <> c*(x) ] Conceitos Importantes Erro de Treinamento Fração dos pontos em S que a função h erra err S (h)= x S : h(x) <> c*(x) / S É fácil ter um erro treinamento igual a 0, basta construir uma função h tal que h(x)=c(x) para todo x S. O desafio é conseguir garantir que o true error seja pequeno 1
2 Conceitos Importantes Conceitos Importantes Overfitting True error bem maio que erro no conjunto de treino baixo poder de generalização Classe de hipóteses (conceitos ou funções) Para lidar com overfitting e tornar o problema de learning computacionalmente tratável restringimos as possibilidades da função h para uma classe de funções H Exemplos de classes: funções booleanas, separadores linerares Teorema 1. Seja H uma classe de hipóteses. Além disso, seja >0 e >0. Se o conjunto S de tamanho n >( ln H + ln(1/ ) ) / é obtido a partir da distribuição de probabilidade D, então com probabilidade 1-, toda hipótese h em H tal que err D (h) satisfaz err S (h)>0. De forma, equivalente com probabilidade maior ou igual a 1-, toda hipótese h em H com err S (h)=0 tem true erro < Prova. Seja h hipótese tal que err D (h). Então a probabilidade dela ter erro no conjunto S de 0 é (1- ) n. Portanto, a probabilidade de existir uma hipótese h em H com err D (h) e err S (h)=0 é limitada por H (1- ) n (union bound) Substituindo n por seu limite inferior concluímos que H (1- ) n < 2
3 Em palavras Se o conjunto de treino é grande o suficiente é muito improvável que uma hipótese com erro 0 no treino tenha um resultado ruim (erro > ) no conjunto todo. O resultado apresesentado é conhecido na literatura como um PAC bound Em palavras O grande está relacionado com o número de hipóteses possíveis (ln H) já que se existe um número grande de hipóteses, por um efeito do acaso uma pode acabar indo mal no conjunto todo `(erro > ) e muito bem no treino (erro= 0) O grande está relacionado com o erro (1/ ). Se o erro é pequeno, é razoável ter uma hipótese que erre mas que no conjunto todo mas não erre no treino devido a variância. Teorema 2. Seja H uma classe de hipóteses. Além disso, seja >0 e >0. Se o conjunto S tem tamanho n >[ ln H + ln(1/ ) ] / 2 2 é obtido a partir da distribuição D, então com probabilidade 1-, toda hipótese h em H satisfaz err D (h) - err S (h). Em palavras Generalização do primeiro teorema que leva em conta a diferença entre o erro da hipótese no treino e no conjunto todo 3
4 Classificador de Escolhermos um conjunto U com d palavras chaves (cialis, viagra, loan,,) Classifcamos um como spam se pelo menos uma das palavras do subconjunto W de U está presente. Atributo x(i)=1 se palavra i está presente e x(i)=0, caso contrário. O conjunto W deve ser aprendido H: classe das hipóteses {W W U} H tem 2 d hipóteses Classificador de Segue do Teorema 1 que se encontrarmos uma hipótese com erro 0 em um conjunto de treino de tamanho maior ou igual a (d ln(2) + ln(1/ )) / garantimos uma acurácia de 1-, com prob (1- ) d=50, =0.05 =0.01 precisamos de conjunto de treino de tamanho 800 d=1000, =0.05 =0.01, precisamos de conjunto de treino de tamanho Learning Disjunctions H: classe de funções expressas como disjunção de variáveis positivas Exemplos: h1: x(1) OR x(3) OR x(4) h2: x(1) OR x(2) Occam Razor Devemos priorizar explicações (modelos) mais simples Classificador que classifica de forma positiva se uma das variáveis está presente no conjunto 4
5 Occam Razor Occam Razor Conexão com o PAC bound Se temos duas hipóteses com o mesmo erro no conjunto de treino devemos escolher a mais simples (pertence a uma classe com menos de hipóteses) pois teremos uma garantia teórica melhor Termo ln (H) nos Teoremas 1 e 2 Conexão com o PAC bound O método M1 constroi a melhor árvore de decisão dentre aquelas de altura altura 3 O método M2 constroi a melhor árvore de decisão dentre aquelas de altura 5 Assuma que os dois métodos obtiveram árvores de decisão com erro de treino 0. Qual árvore devemos escolher? Occam Razor Para árvore de M1 conseguimos garantir um bound melhor já que M1 é uma classe com menos hipóteses (árvores) que enquanto M2 Isso não quer dizer que M1 é necessariamente melhor que M2 Regularização Forma de penalizar hipóteses mais complexas Minimizamos o erro de treinamento mais uma penalidade 5
6 Regularização Corolário. Seja L uma linguagem utilizada para representar hipóteses. Seja S um conjunto de treino obtido a partir da distribuição D. Então com probabilidade 1-, toda hipótese h satisfaz Regularização A regularização abaixo é natural onde size(h) é o número de bits necessários para representar a hipótese na linguagem L Uma sequência de exemplos x 1,,x t chega ao longo do tempo Devemos classificar cada exemplo no momento que ele chega. Pagamos um custo c i pela classificação de x i e descobrimos então a classe real do exemplo Aplicação Classificação de como importante ou não importante Usuário informa se o algoritmo está correto ou não Não é razoável assumir independência neste caso já que muitos s são resposta de outros ou contruídos a partir de outros 6
7 Halving Algorithm 1. O algoritmo começa com todas as hipóteses da classe H 2. Ao chegar um novo exemplo x, o algoritmo classifica x a partir de uma votação com base nas hipóteses consistentes. 3. Se um erro ocorre, o algoritmo descarta as hipóteses que erraram Halving Algorithm Se ocorre um erro o novo conjunto de hipóteses consistentes tem no máximo metade do tamanho do conjunto anterior Portanto, se existe uma hipótese com erro 0, o método erra no máximo log H vezes Algoritmo é muito caro computacionalmente Interessante do ponto de vista teórico. Online Perceptron Algoritmo simples e eficiente para encontrar um separador linear em R d A premissa é a existência de um separador linear w* tal que: (i) para todo exemplo positivo x, w*x>=1 (ii) para todo negativo, w*x -1 Online Perceptron Todo ponto x i está a distância de pelo menos 1/ w* do hiperplano w*x=0. A distância de x i ao hiperplano é a projeção de x i na direção w* que é dada por w*x i / w* >=1 Essa distância 1/ w* é a margem do separador 7
8 Online Perceptron w=0 Para t=1,2,3, 1. Dado um exemplo x t prediz sgn(x tt w) 2. Se a predição não está correta (a) Se x t é positivo, w w + x t (b) Se x t é negativo, w w - x t Teorema (Perceptron). Para qualquer sequência de exemplos x 1 x 2,,x t se existe um vetor w* tal que: (i) w*x 1 para os exemplos positivos (ii) w*x -1 para os exemplos negativos, então o Perceptron comete no máximo w* 2 R 2 erros onde R=max t x t Prova Investigamos a evolução de w T w* e w 2 Ao cometer um erro, w T w* aumenta de pelo menos uma unidade: Se x t é positivo: (w+x t ) T w* = w T w* +x t T w* w T w*+1 Se x t é negativo (similar) Prova Ao cometer um erro, w 2 aumenta de no máximo R 2 x t é positivo: (w+x t ) 2 - w 2 = 2 x t w + x t 2 R 2 onde a desigualdade segue do fato que x t w 0 se erramos um exemplo positivo x t é negativo (similar) 8
9 Prova 1. Se comentemos M erros: w 2 aumenta de no máximo MR 2 unidades w T w* aumenta pelo menos M unidades 2. Temos também w T w* / w* 2 w projeção de w na direção w* é menor que w, 3. Juntando (1) e (2) estabelecemos o resultado Consequência Se a margem é grande, w* é pequeno e, portanto, cometemos poucos erros Observação O resultado é invariante a escala porque se muitiplicarmos os exemplo por K podemos multiplicar w* por 1/K Perceptron (dados não linearmente separáveis) Assumimos que existe um separador linear w* O que acontece quando não existe w*? Hinge Loss O hinge-loss de w* em um exemplo positivo x t é max{0,1- w* x t } O hinge-loss de w* em um exemplo negativo x t é max{0,1+ w* x t } Defina L Hinge (w*,s) como a soma dos hingeloss dos exemplos de um conjunto S 9
10 Teorema. Para qualquer sequência de exemplos x 1 x 2,,x t o Perceptron comete no máximo ( w* 2 R 2 + 2L Hinge ) erros onde R=max t x t Classes não linearmente separáveis E se o hinge loss for muito alto? O que acontece com a fronteira abaixo? Classes não linearmente separáveis Criamos novas features x 1 x 2, x 1 2, x 2 2 associadas ao ponto x=(x 1,x 2 ) Representamos x por x = (x 1, x 2, x 1 2, x 1 x 2, x 2 2 ) Logo, brancos e pretos são separados pelo hiperplano w*x 4, onde w*=(0,0,1,0,1). Classes não linearmente separáveis Classes que não são separáveis em dimensão mais baixa podem separadas linearmente quando introduzimos novas features Quais features devem ser incluidas? Como evitar um custo computacional muito alto? Para mapear um ponto (x 1,, x d ) em todos os produtos com grau no máximo k precisamos de um espaço de dimensão d k 10
11 Kernel Trick Kernel Trick Suponha a existência de uma função K(x,y): R d x R d ->R e uma função :R d -> R N com K(x,y) = (x) (y) Produto interno (x) (y) pode ser calculado usando a função K. Bem mais eficiente se N>>d K com essas propriedas é chamada de Kernel K(x,y) = (1+xy) 2 corresponde a (x) = (1, 2 x 1, 2 x 2, x 1 2, 2 x 1 x 2, x 22 ) (y) = (1, 2 y 1, 2 y 2, y 1 2, 2 y 1 y 2, y 22 ) Em geral, K(x,y) = (1+xy) k corresponde a (x) (y), onde :R d -> R N, com N d k Complexidade de calcular o produto interno é reduzida de O(d k ) para O(d+log k) Kernel Trick Perceptron -Kernelization Seja w*=(-4,0,0,1,0,1). O hiperplano w* (x)=0 no espaço aumentado, corresponde ao círculo x x 22 =4 no espaço original Brancos e pretos são linearmente separáveis no espaço aumentado Online Perceptron (espaço aumentado) w=0 For t=1,2,3, 1. Given an example x t predict sgn( (x tt )w ) 2. If the prediction is not correct (a) If x t is positive, w w + (x t ) (b) If x t is negative, w w - (x t ) 11
12 Perceptron -Kernelization Percerpton s Kernelization 1. Devemos computar w=w+ (x i ) e sgn(w (x)) 2. Em vez de calcular explicitamente w+ (x i ) guardamos apenas os exemplos que somamos e os que subtraímos 3. Para calcular sgn(w (x)) utilizamos o kernel K Exemplo Se cometemos os seguintes erros na classificação: x 1 =positivo x 3 =negativo e x 6 =positivo, então w= (x 1 )- (x 3 )+ (x 6 ) Para classificar x 7 temos que computar ( (x 1 )- (x 3 )+ (x 6 )) (x 7 ) =K(x 1,x 7 )-K(x 3,x 7 )+K(x 6,x 7 ) Kernels Kernels Obtendo Kernels Teorema. Se K 1 e K 2 são kernels então 1. c K 1 é um kernel 2. K 1 + K 2 é um kernel 3. K 1 x K 2 é um kernel Aplicação. (1+xy) k é um kernel já que: (1+xy) é um kernel correspondente a (x)= (1,x) e (1+xy) k-1 é um kernel por hipótese de indução Kernel gaussiano K(x,x )=e-c ( x-x x-x ) 12
13 SVM SVM Which of the linear separators is optimal? d k Examples closest to the hyperplane are support vectors. Margin ρ of the separator is the distance between support vectors. r ρ SVM Dados os exemplos (x 1,,x n ), O SVM encontra o separador w que minimize soma ponderada do inverso da margem com erros de classificação SVM Admite kernelization Boas propriedades teóricas Existem implementações eficientes para encontrar separador (SVMLIB) c é usado para priorizar a importância da margem 13
14 Boosting Definição. Um -weak learner é um algoritmo A com a seguinte propriedade: dado um conjunto de n exemplos, seus rótulos e um peso w(i) associado a cada exemplo x(i), A soma dos pesos dos exemplos classificados corretamente por A é maior ou igual a +(w(1)+ +w(n))/2 É uma classificador ligeiramente melhor que o aleatório Boosting Boosting Boosting Funcionamento Em cada iteração exemplos com classificação errada tem seus pesos aumentados Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova M: número de exemplos classificados de forma incorreta no final weight(t): soma dos pesos no final da iteração t 14
15 Boosting Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova Como cada um dos M exemplos é classificado errado por pelo menos t 0 /2 classificadores então weight(t(0)) M t(0)/2 (*) Boosting Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova Como no máximo (1/2- ) dos exemplos são classificados errados weight(t+1) (1+2 )weight(t) Como o peso inicial é n então weight(t 0 ) n (1+2 ) t(0) (**) Boosting Boosting Teorema. Seja A um -weak learner para o conjunto S. Se t 0 Omega(1/ 2 log n), então MAJ(h 1,,h t0 ) tem erro de treino 0. Prova Combinando os bounds (*) e (**) concluímos que M<1 CQD É possível relaxar a definição de weak learner 15
16 Bibliografia Cap 5. Foundations of Data Science, Avrim Blum, John Hopcroft and Ravindran Kannan Combining Expert Advice 16
UNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem
Teoria do aprendizado
Teoria do aprendizado Marcelo K. Albertini 7 de Agosto de 2014 2/37 Teoria do aprendizado Teoremas não existe almoço grátis Viés e variância Aprendizado PAC Dimensão VC Máquinas de vetores suporte 3/37
Classificadores Lineares
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Classificadores Lineares David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Funções Discriminantes Lineares Perceptron Support
SUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
Thiago Zavaschi Orientador: Alessandro Koerich Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade
Thiago Zavaschi ([email protected]) Orientador: Alessandro Koerich Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUC-PR) Conceitos relacionados a classificação
Adriana da Costa F. Chaves. Máquina de Vetor Suporte (SVM) para Classificação Binária 2
Máquina de Vetor Suporte (SVM) para Classificação Binária Adriana da Costa F. Chaves Conteúdo da Apresentação Introdução Máquinas de Vetor Suporte para Classificação binária Exemplos Conclusão Máquina
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Aprendizagem de Máquina
Plano de Aula Aprendizagem de Máquina Bagging,, Support Vector Machines e Combinação de Classificadores Alessandro L. Koerich Uma visão geral de diversos tópicos relacionados à Aprendizagem de Máquina:
Uma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law
Uma Introdução a SVM Support Vector Machines Obs: Baseada nos slides de Martin Law Sumário Historia das SVMs Duas classes, linearmente separáveis O que é um bom limite para a decisão? Duas classes, não
Aprendizado de Máquinas. Classificadores Lineares
Universidade Federal do Paraná (UFPR) Departamento de Informática Aprendizado de Máquinas Classificadores Lineares David Menotti, Ph.D. web.inf.ufpr.br/menotti Objetivos Introduzir o conceito de classificação
Aprendizado de Máquina. Combinando Classificadores
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores
Redes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 13 Support Vector Machines (SVM) Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
SVD. Single Value Decomposition 18/09/2017. Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T =
SVD Single Value Decomposition Lema. Toda matriz A, com n linhas e d colunas, admite uma fatoração A= UDV T = U é uma matriz com n linhas e r colunas (r rank de A) D é uma matriz diagonal r x r; V é uma
4 Construção dos Classificadores
4 Construção dos Classificadores 4.1. Modelagem O aprendizado supervisionado contém a etapa de modelagem, nessa etapa definimos quais serão as características encaminhadas ao classificador para o treinamento.
Exame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 12 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 12 de Janeiro de 2017 Nota: O exame está cotado para 40 valores. Os 20 valores
Aprendizado de Máquinas
Aprendizado de Máquinas Objetivo A área de aprendizado de máquina preocupa-se em construir programas que automaticamente melhorem seu desempenho com a experiência. Conceito AM estuda métodos computacionais
scikit-learn: Aprendizado de máquina 101 com Python
scikit-learn: Aprendizado de máquina 101 com Python Luciana Fujii Campus Party BH 2016 1 / 30 Introdução Aprendizado de máquina Aprendizado de máquina é o campo da ciência da computação que dá aos computadores
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 13 K-Nearest Neighbor (KNN) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest Neighbor
Redes Neurais e Sistemas Fuzzy
Redes Neurais e Sistemas Fuzzy Redes de uma única camada O Perceptron elementar Classificação de padrões por um perceptron A tarefa de classificação consiste em aprender a atribuir rótulos a dados que
Máquinas de suporte vetorial e sua aplicação na detecção de spam
e sua aplicação na detecção de spam Orientador: Paulo J. S. Silva (IME-USP) Universidade de São Paulo Instituto de Matemática e Estatística Departamento de Ciência da Computação MAC499 Trabalho de Formatura
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 09 Árvores de Decisão Max Pereira Classificação É a tarefa de organizar objetos em uma entre diversas categorias pré-definidas. Exemplos
Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta ([email protected]) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting
Inteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
Reconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva [email protected] Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção
Inteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
Redes Neurais Artificiais
Redes Neurais Artificiais Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Redes Neurais Biológicas 2. Neurônio Artificial 3. Rede Neural Artificial 4. Keras 1 Redes Neurais Biológicas
Fundamentos de Inteligência Artificial [5COP099]
Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL 1 o Semestre Assunto Aula 10 Modelos Preditivos - Árvore de Decisão 2 de 20 Aula 10 - Árvore de
Redes Neurais Artificiais - Introdução. Visão Computacional
Redes Neurais Artificiais - Introdução Visão Computacional Inspiração 2 Inspiração 3 Inspiração Atividade seletivanas conexões Soma os impulsos e passa a diante 4 Inspiração As conexões entre os dendritos
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 07 Classificação com o algoritmo knn Max Pereira Classificação com o algoritmo k-nearest Neighbors (knn) Como os filmes são categorizados em gêneros? O que
2. Redes Neurais Artificiais
Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.2. Perceptron 2.2.1. Introdução 2.2.2. Funcionamento do perceptron
Introdução ao Reconhecimento. Prof. Dr. Geraldo Braz Junior
Introdução ao Reconhecimento Prof. Dr. Geraldo Braz Junior O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos Vários 4 Pergunta:
Rede Perceptron. Capítulo 3
Rede Perceptron Capítulo 3 Rede Perceptron É a forma mais simples de configuração de uma RNA (idealizada por Rosenblatt, 1958) Constituída de apenas uma camada, tendo-se ainda somente um neurônio nesta
Codificação de Huffman
Codificação de Huffman Bruna Gregory Palm 11 de setembro de 2017 A codificação de Huffman é um método de compressão que considera as probabilidades de ocorrência de cada símbolo no conjunto de dados a
Aprendizado de Máquina
Classificação Aprendizado de Máquina Aula http://www.ic.uff.br/~bianca/aa/ Dados: A descrição de uma instância, x X, onde X é um espaço de instâncias. Um conjunto fixo de classes: C={c, c, c n } Determine:
1 o Teste de Aprendizagem Automática
o Teste de Aprendizagem Automática 3 páginas com 6 perguntas e 2 folhas de resposta. Duração: 2 horas DI, FCT/UNL, 22 de Outubro de 205 Pergunta [4 valores] As figuras abaixo mostram o erro de treino e
Introdução à Mineração de Dados com Aplicações em Ciências Espaciais
Introdução à Mineração de Dados com Aplicações em Ciências Espaciais Escola de Verão do Laboratório Associado de Computação e Matemática Aplicada Rafael Santos Dia 2: 1 /59 Programa Dia 1: Apresentação
Aprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 01 Motivação, áreas de aplicação e fundamentos Max Pereira Nem todo conhecimento tem o mesmo valor. O que torna determinado conhecimento mais importante que
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes
Implementação de Kernel Customizado Aplicado à Análise de Sentimentos em Resenhas de Filmes Luciana Kayo e Paulo Mei Prof. Dr. Marco Dimas Gubitoso Introdução Inspiração na competição When Bag of Words
Classificação Linear. André Tavares da Silva.
Classificação Linear André Tavares da Silva [email protected] Roteiro Introduzir os o conceito de classificação linear. LDA (Linear Discriminant Analysis) Funções Discriminantes Lineares Perceptron
CLASSIFICADORES ELEMENTARES -II
CLASSIFICADORES ELEMENTARES -II Estimando a densidade 2 A função densidade de probabilidade é um conceito fundamental em estatística Permite associar probabilidades a uma variável aleatória x Especificar
Redes Neurais. Prof. Aurora Pozo. Obs: slides baseados em Prof. Marcílio Souto e Prof. Marley Vellasco
Redes Neurais Prof. Aurora Pozo Obs: slides baseados em Prof. Marcílio Souto e Prof. Marley Vellasco CONTEÚDO Introdução Motivação, Objetivo, Definição, Características Básicas e Histórico Conceitos Básicos
Aprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação
Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais
Aprendizado Bayesiano
Aprendizado Bayesiano Marcelo K. Albertini 26 de Junho de 2014 2/20 Conteúdo Teorema de Bayes Aprendizado MAP Classificador ótimo de Bayes 3/20 Dois papéis para métodos bayesianos Algoritmos de aprendizado
Aprendizagem de Máquinas
Universidade Federal do Rio Grande do Norte Departamento de Engenharia de Computação e Automação Aprendizagem de Máquinas DCA0121 Inteligência Artificial Aplicada Heitor Medeiros 1 Aprendizagem de Máquinas
Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Redes Perceptron e Multilayer Perceptron aplicadas a base de dados IRIS Aluno: Fabricio Aparecido Breve Prof.: Dr. André Ponce
Tópicos Especiais: Inteligência Artificial REDES NEURAIS
Tópicos Especiais: Inteligência Artificial REDES NEURAIS Material baseado e adaptado do Cap. 20 do Livro Inteligência Artificial de Russell & Norvig Bibliografia Inteligência Artificial Russell & Norvig
Mineração de Dados - II
Tópicos Especiais: INTELIGÊNCIA DE NEGÓCIOS II Mineração de Dados - II Sylvio Barbon Junior [email protected] 10 de julho de 2015 DC-UEL Sylvio Barbon Jr 1 Sumário Etapa II Algoritmos Básicos Weka: Framework
Fundamentos de Inteligência Artificial [5COP099]
Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL Disciplina Anual Assunto Aula 16 Redes Neurais Artificiais (MLP) 2 de 24 (MLP) Sumário Introdução
INF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 15 Árvores de Decisão Árvores de Decisão Uma das formas de algoritmo de aprendizado mais simples e de maior sucesso.
SCC0173 Mineração de Dados Biológicos
SCC0173 Mineração de Dados Biológicos Classificação I: Algoritmos 1Rule e KNN Prof. Ricardo J. G. B. Campello SCC / ICMC / USP 1 Créditos O material a seguir consiste de adaptações e extensões dos originais:
Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Introdução Profs.: Eduardo Vargas Ferreira Walmes Marques Zeviani O que é Machine Learning? Estatística Machine Learning
TÉCNICAS DE CODIFICAÇÃO DE SINAIS
TÉCNICAS DE CODIFICAÇÃO DE SINAIS COMPRESSÃO SEM PERDAS Evelio M. G. Fernández - 2010 Exemplo Símbolo Prob I II III IV A 1/2 00 0 0 0 B 1/4 01 11 10 01 C 1/8 10 00 110 011 D 1/8 11 01 1110 0111 Entropia
MCZA Processamento de Linguagem Natural Classificação de textos
MCZA017-13 Processamento de Linguagem Natural Classificação de textos Prof. Jesús P. Mena-Chalco [email protected] 1Q-2018 1 Bibliografia Daniel Jurafsky & James H. Martin. Speech and language processing:
Redes Neurais Artificiais
Redes Neurais Artificiais Marcelo K. Albertini 24 de Julho de 2014 2/34 Conteúdo Perceptron Gradiente descendente Redes multicamadas Retropropagação de erros 3/34 Modelos conexionistas Humanos Tempo de
Modelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Compressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:
Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume
SCC Capítulo 4 Perceptron de Camada Única
Perceptron LMS SCC-5809 - Capítulo 4 Perceptron de Camada Única João Luís Garcia Rosa 1 1 SCC-ICMC-USP - [email protected] 2011 João Luís G. Rosa c 2011 - SCC-5809: Redes Neurais 1/45 Sumário Perceptron
Thiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 [email protected] ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
INF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 12 Árvores de Decisão Prof. Augusto Baffa Árvores de Decisão Uma das formas de algoritmo de aprendizado mais simples e de maior sucesso. Uma
Estruturas de Dados 2
Estruturas de Dados 2 Algoritmos de Ordenação em Tempo Linear IF64C Estruturas de Dados 2 Engenharia da Computação Prof. João Alberto Fabro - Slide 1/38 Algoritmos de Ordenação em Tempo Linear Limite Assintótico
Máquina de Vetores Suporte
Máquina de Vetores Suporte André Ricardo Gonçalves andreric [at] dca.fee.unicamp.br www.dca.fee.unicamp.br/~andreric Sumário 1 Máquina de Vetores Suporte p. 3 1.1 Teoria da Aprendizado Estatístico.......................
Classificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Aprendizado de Máquina
Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução
Aprendizado de Máquina (Machine Learning)
Ciência da Computação Aprendizado de Máquina (Machine Learning) Aula 03 Aprendizado Supervisionado / : Modelo MCP e Perceptron Max Pereira Neurônio Booleano de McCulloch- Pitts (Modelo MCP) Proposto em
