Teoria do aprendizado
|
|
- Iago Delgado Ventura
- 5 Há anos
- Visualizações:
Transcrição
1 Teoria do aprendizado Marcelo K. Albertini 7 de Agosto de 2014
2 2/37 Teoria do aprendizado Teoremas não existe almoço grátis Viés e variância Aprendizado PAC Dimensão VC Máquinas de vetores suporte
3 3/37 Teoremas não existe almoço grátis Acc G (L) = acurácia de generalização do algoritmo L = acurácia de L em exemplos de teste F = conjunto de todos possíveis conceitos, y = f ( x) Teorema Para qualquer algoritmo de aprendizado L 1 F Acurácia G (L) = 1 2 F considerando a distribuição completa dos dados D e todos os possíveis conceitos F.
4 4/37 Teoremas não existe almoço grátis 1 F Acc G (L) = 1 2 F Acc G (L) = acurácia de generalização de L = acurácia de L em teste F = conj. de possíveis conceitos, y = f ( x) Ideia da prova Dado qualquer conjunto de treino S: para todo conceito f onde Acc G (L) = δ, existe um conceito f onde Acc G (L) = 1 2 δ. x S, f ( x) = f ( x) = y x / S, f ( x) = f ( x)
5 5/37 Teoremas não existe almoço grátis Corolário Para quaisquer dois algoritmos de aprendizado L 1 e L 2 : Se problema de aprendizado tal que Acc G (L 1 ) > Acc G (L 2 ) Então problema de aprendizado tal que Acc G (L 2 ) > Acc G (L 1 )
6 6/37 Significado prático Não espere que um algoritmo será sempre o melhor Tentar diferentes abordagens e comparar Mas, como dizer que uma rede de perceptrons será pior que apenas um perceptron? Overfitting
7 7/37 Viés e variância Decomposição viés-variância é peça-chave para entender algoritmos de aprendizado Ajuda explicar porque algoritmos simples podem superar algoritmos sofisticados Ajuda explicar porque mistura de modelos supera modelos simples Ajuda entender e evitar overfitting Decomposição padrão para perda quadrática Podem ser generalizados para perda zero-um
8 8/37 Definições Conjunto de treino: {( x 1, t 1 ),..., ( x n, t n )} Algoritmo de aprendizado y = f ( x) Medidas de perda avaliam a qualidade de predições Perda quadrática: L(t, y) = (t y) 2 Perda absoluta: L(t, y) = t y Perda zero-um: L(t, y) = 0 se y = t, 1 caso contrário Exemplo sobre viés e variância com dardos Perda = Viés + Variância + Ruído Nesta aula, ignoramos o ruído
9 Viés no aprendizado 9/37
10 Variância no aprendizado 10/37
11 11/37 Decomposição para perda quadrática Definição: E[y] = ȳ Podemos decompor a função de perda quadrática: (t y) 2 = (t ȳ + ȳ y) 2 = (t ȳ) 2 + (ȳ y) 2 + 2(t ȳ)(ȳ y) E[(t y) 2 ] = (t ȳ) 2 + E[(ȳ y) 2 ] Perda esperada = Viés + Variância A expectativa é sobre o conjunto de treino.
12 12/37 Como generalizar para outras funções de perda? E[(t y) 2 ] = (t ȳ) 2 + E[(ȳ y) 2 ] Para funções da forma (a b) 2 temos perda L(a, b) E[(t y) 2 ] E[L(t, y)] Perda esperada (t ȳ) 2 L(t, ȳ) Viés E[(ȳ y) 2 ] E[L(ȳ, y)] Variância
13 13/37 O que ȳ deve ser no caso da generalização? Predição principal Predição com menor perda média relativa a todas predições ȳ L = arg min y E[L(y, y )] Perda quadrática: ȳ = Média Perda absoluta: ȳ = Mediana Perda zero-um: ȳ = Moda
14 14/37 Definições generalizadas Viés: Perda causada pela predição principal = L(t, ȳ) Variância: perda média causada pela predição relativa à predição principal = E[L(ȳ, y)] Essas definições tem todas as propriedades necesárias. Por exemplo, para perda zero-um Viés = { 0 se predição principal está correta 1 caso contrário Variância = P(Predição Pred. principal) = P(y ȳ)
15 15/37 Como decompor perda zero-um? Assumir problema com 2 classes. Viés = 0 Perda = Viés + Variância Perda = P(y t) Variância = P(y ȳ) Viés = 0 y = t Viés = 1 Perda = Viés - Variância Perda = P(y t) = 1 P(y = t) = 1 P(y ȳ) porque se ȳ t então y = t y ȳ. Aumentar variância pode reduzir erro!
16 16/37 Generalização Perda = Viés + cvariância onde c = 1 se Viés = 0, caso contrário Se aplica para Perda quadrática: c = 1 Problemas com 2 classes: c = 1 Problemas multiclasses: c = P(y = t y ȳ) Custos variáveis: c = L(t, ȳ/l(ȳ, t)
17 17/37 Funções de perda métrica E sobre funções de perda em que a decomposição não se aplica? Para qualquer função de perda métrica: Perda Viés + Variância Perda max{viés Variância, Variância Viés}
18 18/37 Aprendizado PAC PAC learning = Probably approximately correct, ou seja, provavelmente aproximadamente correto Overfitting acontece porque erro de treino é uma estimativa ruim para o erro de generalização Podemos concluir algo sobre o erro de generalização a partir do erro de treino? Overfitting acontece quando o algoritmo de aprendizado não recebe exemplos o suficiente Podemos estimar quantos exemplos são o suficiente?
19 19/37 A definição do problema Conjunto de instâncias X Conjunto de hipóteses H Classificadores Conjunto de possíveis conceitos-alvo C Conceitos são funções booleanas Exemplos de treino gerados por uma distribuição de probabilidades D em X Algoritmo de aprendizado observa sequência D de exemplos de treino x, c( x), para algum conceito-alvo c C Instâncias x são obtidas da distribuição D Algoritmo de aprendizado provê valor-alvo c( x) para cada instância
20 20/37 Algoritmo de aprendizado deve produzir uma hipótese h estimando c h é avaliado por seu desempenho nas instâncias obtidas de D Nota: instâncias são probabiĺısticas e sem ruídos nas classificações
21 Erro verdadeiro de uma hipótese Figura: Em um espaço de instâncias X Definição: erro verdadeiro Erro é de uma hipótese h Escrito como erro D (h) Definido como uma probabilidade de classificação errada erro D (h) P x D [c(x) h(x)] 21/37
22 22/37 Duas noções de erro Erro de treino de hipótese h com respeito ao conceito-avo c Frequência de h(x) c(x) nos exemplos de treino Erro verdadeiro de h com respeito a c Frequência de h(x) c(x) em instâncias futuras Nossos problemas Podemos obter informações sobre o erro verdadeiro de h dado o erro de treino de h? Primeiro considere quando erro de treino de h é zero
23 23/37 Espaços de versões Espaço de versão VS H,D é um subconjunto de hipóteses em H consistente com exemplos de treino D Figura: Em um espaço de hipóteses H, r é o erro de treino e error é o erro verdadeiro.
24 24/37 Quantos exemplos são o suficiente? Teorema Se espaço de hipóteses H é finito E se D for uma sequência de m exemplos aleatórios do conceito-alvo C Então para algum 0 ɛ 1 a probabilidade de VSH,D conter uma hipótese com erro maior que ɛ é menor que H exp ɛm O porquê: P(1 hipót. c/ erro > ɛ consistente c/ 1exemplo) < 1 ɛ exp ɛ P(1 hipót. c/ erro > ɛ consistente c/ mexemplos) < exp ɛm P(1de H hipót. consistentes c/ mexemplos) < H exp ɛm
25 25/37 Algoritmos Consistentes Algoritmos de aprendizado consistentes segundo os resultados anteriores, produzirão hipóteses com error(h) ɛ Se queremos que essa probabilidade seja no máximo δ H exp ɛm δ Então m 1 (log H + log(1/δ)) ɛ
26 Aprendizado de conjunções Quantos exemplos para garantir com prob. (1 δ) que toda hipótese h em VS H,D tem erro erro D (h) ɛ? Usar o teorema m 1 (log H + log(1/δ)) ɛ Supondo que H contém conjunções de restrições de até n atributos booleanos. Então H = 3 n e m 1 ɛ (log 3n + log(1/δ)) 1 ɛ (n log 3 + log(1/δ)) 26/37
27 27/37 Exemplo: JogarTenis 1 atributo com 3 valores (apar^encia) 9 atributos com 2 valores (temp., umidade,... Linguagem: conjunção de atributos ou nulo H = = Garantir erro com prob. 95% m 1 (log log(1/δ)) ɛ VS tem somente hipót. com erro D (h) 10% Então, é suficente ter m exemplos m 1 (log log(1/0.05)) = Exemplos no domínio: = 1536
28 28/37 Aprendizado PAC Considere uma classe C de possíveis conceitos-alvo definidos sobre um conjunto de instâncias X de tamanho n, e um algoritmo de aprendizado L usando espaço de hipóteses H. Definição C é PAC-aprendível por L usando H se e somente se para todo c C, distribuições D sobre X, ɛ tal que 0 < ɛ < 1/2, e δ tal que 0 < δ < 1/2, alg. de aprendizado L irá com probabilidade pelo menos (1 δ) produzir uma hipótese h H tal que erro D (h) ɛ, em tempo que é polinomial em relação a 1/ɛ, a 1/δ e ao tamanho de c.
29 29/37 Aprendizado agnóstico Até agora, assumimos que c H Em aprendizado agnóstico: não assumir c H O que podemos afirmar nesse caso? Limites de Hoeffding: Pr(erro D(h) > erro D (h) + ɛ) e 2mɛ2 Para o espaço de hipóteses H: P(erro D(h best ) > erro D (h best ) + ɛ) H e 2mɛ2 Qual é a complexidade amostral nesse caso? m 1 (log H + log(1/δ)) 2ɛ 2
30 30/37 Dimensão VC O que podemos dizer sobre hipóteses com parâmetros numéricos? Ou seja, espaços de hipóteses infinitos Solução: usar dimensão VC em vez de log H
31 31/37 Dividindo um conjunto de instâncias Definição: uma dicotomia de um conjunto S é uma partição de S em dois subconjuntos disjuntos Definição: um conjunto de instâncias S é dividida pelo espaço de hipóteses H se e somente se para toda dicotomia de S existe alguma hipótese em H consistente com essa dicotomia
32 32/37 Três instâncias divididas Figura: Espaço de instâncias X
33 33/37 A dimensão de Vapnik-Chervonenkis Definição A dimensão de Vapnik-Chervonenkis, VC(H), do espaço de hipóteses H definido sobre o espaço de instâncias X é o tamanho do maior subconjunto finito de X que pode ser dividido por H. Se conjuntos arbitrariamente grandes de X pode ser dividido por H, então VC(H).
34 34/37 Dimensão VC de superfícies de decisão linear Figura: Dimensão VC de hiperplano em um espaço d-dimensional é d + 1.
35 35/37 Complexidade amostral a partir da dimensão VC Quantas amostras sorteadas aleatoriamente são suficientes para garantir um erro de no máximo ɛ com probabilidade pelo menos (1 δ)? m 1 ɛ (4 log 2(2/δ) + 8VC(H) log 2 (13/ɛ))
36 Support Vector Machines - Máquinas de vetores-suporte 36/37
37 37/37 Support Vector Machines - Máquinas de vetores-suporte Muitos hiperplanos diferentes podem separar exemplos positivos de negativos Escolhe-se o hiperplano com margem máxima Margem: distância mínima entre plano e exemplos Limite na dimensão VC diminui de acordo com a margem Vetores de suporte: exemplos que determinam o plano E[erro D (h)] E[num.vetoresdesuporte] num.vetoresdetreino 1 Dados com ruído: usar variáveis de folga Evita overfitting mesmo em espaços de alta-dimensionalidade: e.g. textos e imagens Não-linear: estender dados em atributos derivados
Máquinas de Vetores de Suporte
Máquinas de Vetores de Suporte Marcelo K. Albertini 14 de Setembro de 2015 2/22 Máquinas de Vetores de Suporte Support Vector Machines (SVM) O que é? Perceptron revisitado Kernels (núcleos) Otimização
Leia maisMáquinas de Vetores de Suporte
Máquinas de Vetores de Suporte Prof. Marcelo Keese Albertini Faculdade de Computação Universidade Federal de Uberlândia 19 de Junho de 2017 2/27 Máquinas de Vetores de Suporte Support Vector Machines (SVM)
Leia maisAprendizado Bayesiano
Aprendizado Bayesiano Marcelo K. Albertini 26 de Junho de 2014 2/20 Conteúdo Teorema de Bayes Aprendizado MAP Classificador ótimo de Bayes 3/20 Dois papéis para métodos bayesianos Algoritmos de aprendizado
Leia maisSUPPORT VECTOR MACHINE - SVM
SUPPORT VECTOR MACHINE - SVM Definição 2 Máquinas de Vetores Suporte (Support Vector Machines - SVMs) Proposto em 79 por Vladimir Vapnik Um dos mais importantes acontecimentos na área de reconhecimento
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 12 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 12 de Janeiro de 2017 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisAprendizado de Máquina
Aprendizado de Máquina Um pouco de teoria Formalização (Classificação Binária) Entrada X: Espaço de exemplos D: Distribuição de probabilidade sobre os exemplos de X S X: Conjunto de treino obtido sorteando
Leia maisÁrvores de decisão. Marcelo K. Albertini. 17 de Agosto de 2015
Árvores de decisão Marcelo K. Albertini 17 de Agosto de 2015 2/31 Árvores de Decisão Nós internos testam o valor de um atributo individual ramificam de acordo com os resultados do teste Nós folhas especificam
Leia maisRedes Neurais Artificiais
Redes Neurais Artificiais Marcelo K. Albertini 24 de Julho de 2014 2/34 Conteúdo Perceptron Gradiente descendente Redes multicamadas Retropropagação de erros 3/34 Modelos conexionistas Humanos Tempo de
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Árvores de Decisão Poda e extensões Prof. Paulo Martins Engel UFRGS 2 Questões sobre Árvores de Decisão Questões práticas do aprendizado de AD incluem: Determinar até quando se
Leia maisInferência Estatistica
Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns
Leia maisINF 1771 Inteligência Artificial
Edirlei Soares de Lima INF 1771 Inteligência Artificial Aula 17 Support Vector Machines (SVM) Formas de Aprendizado Aprendizado Supervisionado Árvores de decisão. K-Nearest Neighbor
Leia maisNeural Network Interest Group
Neural Network Interest Group Título/Title: Estudo sobre a Capacidade de Aprendizagem das Redes Neuronais Autor(es)/Author(s): J.P. Marques de Sá Relatório Técnico/Technical Report No. 5 /23 FEUP/INEB,
Leia mais2284-ELE/5, 3316-IE/3
INTELIGÊNCIA ARTIFICIAL 2284-ELE/5, 3316-IE/3 Universidade da Beira Interior, Departamento de Informática Hugo Pedro Proença, 2007/2008 Aprendizagem Supervisionada 2 Os vários algoritmos de Aprendizagem
Leia maisUNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS MÁQUINA DE VETOR DE SUPORTE (SUPPORT VECTOR MACHINES) Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Introdução Poderosa metodologia para resolver problemas de aprendizagem
Leia maisMistura de modelos. Marcelo K. Albertini. 31 de Julho de 2014
Mistura de modelos Marcelo K. Albertini 31 de Julho de 2014 2/11 Mistura de modelos Ideia básica Em vez de aprender somente um modelo, aprender vários e combiná-los Isso melhora acurácia Muitos métodos
Leia maisAprendizagem de Máquina
Plano de Aula Aprendizagem de Máquina Bagging,, Support Vector Machines e Combinação de Classificadores Alessandro L. Koerich Uma visão geral de diversos tópicos relacionados à Aprendizagem de Máquina:
Leia maisInteligência Artificial. Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo]
Inteligência Artificial Raimundo Osvaldo Vieira [DComp IFMA Campus Monte Castelo] Aprendizagem de Máquina Área da Inteligência Artificial cujo objetivo é o desenvolvimento de técnicas computacionais sobre
Leia maisUma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law
Uma Introdução a SVM Support Vector Machines Obs: Baseada nos slides de Martin Law Sumário Historia das SVMs Duas classes, linearmente separáveis O que é um bom limite para a decisão? Duas classes, não
Leia maisUniversidade Federal de Lavras
Universidade Federal de Lavras Departamento de Estatística Prof. Daniel Furtado Ferreira 6 a Lista de Exercícios Teoria da Estimação pontual e intervalar 1) Marcar como verdadeira ou falsa as seguintes
Leia mais2. Redes Neurais Artificiais
Computação Bioinspirada - 5955010-1 2. Redes Neurais Artificiais Prof. Renato Tinós Depto. de Computação e Matemática (FFCLRP/USP) 1 2.5. Support Vector Machines 2.5. Support Vector Machines (SVM) 2.5.2.
Leia maisINF 1771 Inteligência Artificial
INF 1771 Inteligência Artificial Aula 14 Support Vector Machines (SVM) 2016.1 Prof. Augusto Baffa Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisThiago Zavaschi Orientador: Alessandro Koerich Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade
Thiago Zavaschi (zavaschi@ppgia.pucpr.br) Orientador: Alessandro Koerich Programa de Pós-Graduação em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUC-PR) Conceitos relacionados a classificação
Leia maisMúltiplos Classificadores
Universidade Federal do Paraná (UFPR) Bacharelado em Informátia Biomédica Múltiplos Classificadores David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Múltiplos classificadores Combinação de classificadores
Leia maisAprendizado indutivo. Marcelo K. Albertini. 17 de Abril de 2014
Aprendizado indutivo Marcelo K. Albertini 17 de Abril de 2014 2/22 Aprendizado indutivo O que é? Porque é difícil? Como podemos resolver problemas de indução? 3/22 Aprendizado supervisionado Temos: exemplos
Leia maisEstatística e Modelos Probabilísticos - COE241
Estatística e Modelos Probabilísticos - COE241 Aula passada Algoritmo para simular uma fila Medidas de interesse Média amostral Aula de hoje Teorema do Limite Central Intervalo de Confiança Variância amostral
Leia maisModelagem da Rede Neural. Modelagem da Rede Neural. Back Propagation. Modelagem da Rede Neural. Modelagem da Rede Neural. Seleção de Variáveis:
Back Propagation Fatores importantes para a modelagem da Rede Neural: Seleção de variáveis; veis; Limpeza dos dados; Representação das variáveis veis de entrada e saída; Normalização; Buscando melhor Generalização
Leia maisPCC104 - Projeto e Análise de Algoritmos
PCC104 - Projeto e Análise de Algoritmos Marco Antonio M. Carvalho Departamento de Computação Instituto de Ciências Exatas e Biológicas Universidade Federal de Ouro Preto 1 de novembro de 2018 Marco Antonio
Leia maisMinera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33
Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33 Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto
Leia maisAPRENDIZAGEM DE MÁQUINA
APRENDIZAGEM DE MÁQUINA (usando Python) Thiago Marzagão ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão APRENDIZAGEM DE MÁQUINA 1 / 20 árvore de decisão Aulas passadas: queríamos prever variáveis quantitativas.
Leia maisInteligência Artificial
Aprendizagem por que? lnteligência Artificial Aprendizagem em IA Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com
Leia maisAprendizado de Máquina. Combinando Classificadores
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores
Leia maislnteligência Artificial Aprendizagem em IA
lnteligência Artificial Aprendizagem em IA 1 Aprendizagem por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado permite lidar com
Leia maisMétodos de reamostragem
Universidade Federal do Paraná Laboratório de Estatística e Geoinformação - LEG Métodos de reamostragem Eduardo Vargas Ferreira Função custo 2 Função custo Matriz de confusão: é um layout de tabela que
Leia maisAula 14. Aula de hoje. Aula passada
Aula 14 Aula passada Autovalores, autovetores, decomposição Convergência para estacionaridade Tempo de mistura Spectral gap Tempo de mistura de passeios aleatórios Aula de hoje Caminho amostral Teorema
Leia maisClassificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Árvores de Decisão Métodos para aproximar funções discretas, representadas por meio de uma árvore de decisão; Árvores de decisão podem ser
Leia maisESTATÍSTICA. x(s) W Domínio. Contradomínio
Variáveis Aleatórias Variáveis Aleatórias são funções matemáticas que associam números reais aos resultados de um Espaço Amostral. Uma variável quantitativa geralmente agrega mais informação que uma qualitativa.
Leia maisCOS767 - Modelagem e Análise Aula 3 - Simulação
COS767 - Modelagem e Análise Aula 3 - Simulação Validando resultados da simulação Média e variância amostral Teorema do Limite Central Intervalo de confiança Organizando as execuções da simulação Verificando
Leia maisAprendizado em IA. Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação
Aprendizado em IA Prof. Carlos H. C. Ribeiro ITA Divisão de Ciência da Computação Tópicos Agentes baseados em aprendizado Aprendizado indutivo Árvores de decisão Método ID3 Aprendizado em redes neurais
Leia maisRegressão Linear. Prof. Dr. Leandro Balby Marinho. Análise de Dados II. Introdução Regressão Linear Regressão Múltipla
Regressão Linear Prof. Dr. Leandro Balby Marinho Análise de Dados II Prof. Leandro Balby Marinho 1 / 36 UFCG DSC Roteiro 1. Introdução 2. Regressão Linear 3. Regressão Múltipla Prof. Leandro Balby Marinho
Leia maisInteligência Artificial
Universidade Federal de Campina Grande Departamento de Sistemas e Computação Pós-Graduação em Ciência da Computação Inteligência Artificial Aprendizagem Outras Técnicas Prof. a Joseana Macêdo Fechine Régis
Leia maisAprendizado de Máquina
Classificação Aprendizado de Máquina Aula http://www.ic.uff.br/~bianca/aa/ Dados: A descrição de uma instância, x X, onde X é um espaço de instâncias. Um conjunto fixo de classes: C={c, c, c n } Determine:
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um
Leia maisRafael Izbicki 1 / 38
Mineração de Dados Aula 7: Classificação Rafael Izbicki 1 / 38 Revisão Um problema de classificação é um problema de predição em que Y é qualitativo. Em um problema de classificação, é comum se usar R(g)
Leia maisThiago Marzagão 1. 1 Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21
MINERAÇÃO DE DADOS Thiago Marzagão 1 1 marzagao.1@osu.edu ÁRVORE DE DECISÃO & VALIDAÇÃO Thiago Marzagão (Universidade de Brasília) MINERAÇÃO DE DADOS 1 / 21 árvore de decisão Aulas passadas: queríamos
Leia maisConceitos de Aprendizagem de Máquina e Experimentos. Visão Computacional
Conceitos de Aprendizagem de Máquina e Experimentos Visão Computacional O que você vê? 2 Pergunta: Essa imagem tem um prédio? Classificação 3 Pergunta: Essa imagem possui carro(s)? Detecção de Objetos
Leia maisConsiderações de Desempenho
Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 1 Dicas para o BP Os pesos devem
Leia maisAprendizagem Provavelmente Aproximadamente Correta (PAC)
Aprendizagem Provavelmente Aproximadamente Correta (PAC) Renato Vicente 13demarçode2017 1 O Problema da Aprendizagem Estatística y=1 y=0 Vamos começar por um cenário simples: temos um conjunto de objetos
Leia maisHP UFCG Analytics Abril-Maio Um curso sobre Reconhecimento de Padrões e Redes Neurais. Por Herman Martins Gomes.
HP UFCG Analytics Abril-Maio 2012 Um curso sobre Reconhecimento de Padrões e Redes Neurais Por Herman Martins Gomes hmg@dsc.ufcg.edu.br Programa Visão Geral (2H) Reconhecimento Estatístico de Padrões (3H)
Leia maisRedes Neurais (Inteligência Artificial)
Redes Neurais (Inteligência Artificial) Aula 13 Support Vector Machines (SVM) Edirlei Soares de Lima Formas de Aprendizado Aprendizado Supervisionado Árvores de Decisão. K-Nearest
Leia maisBack Propagation. Dicas para o BP
Back Propagation Considerações de Desempenho Dicas para o BP O uso da função de ativação simétrica geralmente acelera o treinamento TANH +1 logistic linear 0 tanh -1-4 +4 11 Dicas para o BP Os pesos devem
Leia maisAula 1: k-nearest Neighbors
Aula 1: k-nearest Neighbors Paulo C. Marques F. Aula ministrada no Insper 29 de Janeiro de 2016 Insper Aula 1: k-nearest Neighbors 29 de Janeiro de 2016 1 / 14 O problema geral de classificação Insper
Leia maisAdriana da Costa F. Chaves. Máquina de Vetor Suporte (SVM) para Classificação Binária 2
Máquina de Vetor Suporte (SVM) para Classificação Binária Adriana da Costa F. Chaves Conteúdo da Apresentação Introdução Máquinas de Vetor Suporte para Classificação binária Exemplos Conclusão Máquina
Leia maisClassificação: Árvores de Decisão e k-nn. Eduardo Raul Hruschka
Classificação: Árvores de Decisão e k-nn Eduardo Raul Hruschka Agenda: Conceitos de Classificação Técnicas de Classificação One Rule (1R) Naive Bayes (com seleção de atributos) Árvores de Decisão K-Vizinhos
Leia maisRedes Complexas Aula 7
Redes Complexas Aula 7 Aula retrasada Lei de potência Distribuição Zeta Propriedades Distribuição Zipf Exemplo Wikipedia Aula de hoje Distribuição de Pareto Medindo lei de potência Estimando expoente Exemplos
Leia maisProfessora Ana Hermínia Andrade. Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise. Período 2017.
Professora Ana Hermínia Andrade Universidade Federal do Amazonas Faculdade de Estudos Sociais Departamento de Economia e Análise Período 2017.1 Distribuições Amostrais O intuito de fazer uma amostragem
Leia maisAprendizado Bayesiano
Aprendizado Bayesiano Marcelo K. Albertini 3 de Julho de 2014 2/1 Conteúdo Aprendizado Naive Bayes Exemplo: classificação de texto Redes Bayesiana Algoritmo EM Regressão probabiĺıstica 3/1 Classificador
Leia maisDISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL INTRODUÇÃO ROTEIRO POPULAÇÃO E AMOSTRA. Estatística Aplicada à Engenharia
ROTEIRO 1. Introdução; DISTRIBUIÇÃO AMOSTRAL E ESTIMAÇÃO PONTUAL. Teorema Central do Limite; 3. Conceitos de estimação pontual; 4. Métodos de estimação pontual; 5. Referências. 1 POPULAÇÃO E AMOSTRA População:
Leia maisAprendizagem de máquina
Aprendizagem de máquina Aprendizado de Conceitos Busca guiada por exemplos Aprendizado supervisionado: classificação Aprender uma classe a partir de exemplos é encontrar uma descrição que é compartilhada
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Redes Neurais Artificiais Plano de Aula Introdução Motivação Biológica
Leia maisAULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado)
AULA 9 - MQO em regressão múltipla: Propriedades Estatísticas (Valor Esperado) Susan Schommer Econometria I - IE/UFRJ Valor esperado dos estimadores MQO Nesta aula derivamos o valor esperado dos estimadores
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR) Redes Neurais Artificiais Plano de Aula Introdução Motivação Biológica
Leia maisConteúdo da Apresentação
Máquina de Vetor Suporte (SVM) para Classificação em Múltiplas Classes Adriana da Costa F. Chaves Conteúdo da Apresentação Introdução Métodos para Classificação em Múltiplas Classes Decomposição um por
Leia maisInteligência Artificial
Inteligência Artificial Aula 14 Aprendizado de Máquina Avaliação de s Preditivos (Classificação) Hold-out K-fold Leave-one-out Prof. Ricardo M. Marcacini ricardo.marcacini@ufms.br Curso: Sistemas de Informação
Leia maisAprendizado de Supervisionado
Aprendizado de Supervisionado Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendendo com Exemplos 2. Classificação 3. Conceitos Gerais 4. Vizinho Mais Próximo 1 Aprendendo com Exemplos
Leia maisRede RBF (Radial Basis Function)
Rede RBF (Radial Basis Function) André Tavares da Silva andre.silva@udesc.br Roteiro Introdução à rede neural artificial RBF Teorema de Cover da separabilidade de padrões RBF x MLP RBF Função de ativação
Leia mais14/03/2014. Tratamento de Incertezas TIC Aula 1. Conteúdo Espaços Amostrais e Probabilidade. Revisão de conjuntos. Modelos Probabilísticos
Tratamento de Incertezas TIC-00.176 Aula 1 Conteúdo Espaços Amostrais e Probabilidade Professor Leandro Augusto Frata Fernandes laffernandes@ic.uff.br Material disponível em http://www.ic.uff.br/~laffernandes/teaching/2014.1/tic-00.176
Leia maisFundamentos de Inteligência Artificial [5COP099]
Fundamentos de Inteligência Artificial [5COP099] Dr. Sylvio Barbon Junior Departamento de Computação - UEL Disciplina Anual Assunto Aula 16 Redes Neurais Artificiais (MLP) 2 de 24 (MLP) Sumário Introdução
Leia maisMáquina de Vetores Suporte
Máquina de Vetores Suporte André Ricardo Gonçalves andreric [at] dca.fee.unicamp.br www.dca.fee.unicamp.br/~andreric Sumário 1 Máquina de Vetores Suporte p. 3 1.1 Teoria da Aprendizado Estatístico.......................
Leia mais1 o Teste de Aprendizagem Automática
o Teste de Aprendizagem Automática 3 páginas com 6 perguntas e 2 folhas de resposta. Duração: 2 horas DI, FCT/UNL, 22 de Outubro de 205 Pergunta [4 valores] As figuras abaixo mostram o erro de treino e
Leia maisAnálise Multivariada Aplicada à Contabilidade
Mestrado e Doutorado em Controladoria e Contabilidade Análise Multivariada Aplicada à Contabilidade Prof. Dr. Marcelo Botelho da Costa Moraes www.marcelobotelho.com mbotelho@usp.br Turma: 2º / 2016 1 Agenda
Leia maislnteligência Artificial Introdução a Aprendizado de Máquina
lnteligência Artificial Introdução a Aprendizado de Máquina 1 Aprendizado por que? Capacidade de aprender é parte fundamental do conceito de inteligência. Um agente aprendiz é mais flexível aprendizado
Leia mais2 o Teste de Aprendizagem Automática
2 o Teste de Aprendizagem Automática 3 páginas de enunciado com 6 perguntas mais 2 folhas de resposta. Duração: 1h 30m DI, FCT/UNL, 21 de Dezembro de 2017 Pergunta 1 [4 valores] Considere um problema de
Leia maisReconhecimento de Padrões/Objetos
Reconhecimento de Padrões/Objetos André Tavares da Silva andre.silva@udesc.br Capítulo 2 de Gonzales Classificação Linear Introdução Para utilizar uma função discriminante linear (Linear Discriminant Function)
Leia maisAula 8: Árvores. Rafael Izbicki 1 / 33
Mineração de Dados Aula 8: Árvores Rafael Izbicki 1 / 33 Revisão Vimos que a função de risco é dada por R(g) := E[I(Y g(x))] = P (Y g(x)), Nem sempre tal função nos traz toda informação sobre g. É comum
Leia maisMétodos Matemáticos na Ciência de Dados: Introdução Relâmpago. II
Métodos Matemáticos na Ciência de Dados: Introdução Relâmpago. II Vladimir Pestov 1 University of Ottawa / Université d Ottawa Ottawa, Ontario, Canadá 2 Universidade Federal de Santa Catarina Florianópolis,
Leia maisRedes Neurais Artificiais - Introdução. Visão Computacional
Redes Neurais Artificiais - Introdução Visão Computacional Inspiração 2 Inspiração 3 Inspiração Atividade seletivanas conexões Soma os impulsos e passa a diante 4 Inspiração As conexões entre os dendritos
Leia maisClassificação de Padrões. Abordagem prática com Redes Neurais Artificiais
Classificação de Padrões Abordagem prática com Redes Neurais Artificiais Agenda Parte I - Introdução ao aprendizado de máquina Parte II - Teoria RNA Parte III - Prática RNA Parte IV - Lições aprendidas
Leia maisAprendizado de Máquina
Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução
Leia maisTratamento de Incertezas TIC MINTER-IFMT
Tratamento de Incertezas TIC-10.005 MINTER-IFMT Aula 1 Conteúdo Espaços Amostrais e Probabilidade Professor Leandro Augusto Frata Fernandes laffernandes@ic.uff.br Material disponível em http://www.ic.uff.br/~laffernandes/teaching/2016.2/tic-10.005
Leia maisClassificadores Lineares
Universidade Federal do Paraná (UFPR) Bacharelado em Informática Biomédica Classificadores Lineares David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Funções Discriminantes Lineares Perceptron Support
Leia maisModelagem e Análise de Sistemas de Computação Aula 19
Modelagem e Análise de Sistemas de Computação Aula 19 Aula passada Intro a simulação Gerando números pseudo-aleatórios Aula de hoje Lei dos grandes números Calculando integrais Gerando outras distribuições
Leia maisControle Ótimo - Aula 8 Equação de Hamilton-Jacobi
Controle Ótimo - Aula 8 Equação de Hamilton-Jacobi Adriano A. G. Siqueira e Marco H. Terra Departamento de Engenharia Elétrica Universidade de São Paulo - São Carlos O problema de controle ótimo Considere
Leia maisAula 2. ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos
Aula 2 ESTATÍSTICA E TEORIA DAS PROBABILIDADES Conceitos Básicos 1. DEFINIÇÕES FENÔMENO Toda modificação que se processa nos corpos pela ação de agentes físicos ou químicos. 2. Tudo o que pode ser percebido
Leia maisModelos Lineares Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite. Professora Ariane Ferreira
Distribuições de Probabilidades Distribuição Normal Teorema Central do Limite Professora Ariane Ferreira Modelos Probabilísticos de v.a. continuas Distribuição de Probabilidades 2 IPRJ UERJ Ariane Ferreira
Leia maisCLASSIFICADORES ELEMENTARES -II
CLASSIFICADORES ELEMENTARES -II Estimando a densidade 2 A função densidade de probabilidade é um conceito fundamental em estatística Permite associar probabilidades a uma variável aleatória x Especificar
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Horários Aulas Sala 3 CCET [quinta-feira, 8:20 12:00] Atendimento
Leia mais> Princípios de Contagem e Enumeração Computacional 1/10
Princípios de Contagem e Enumeração Computacional > Princípios de Contagem e Enumeração Computacional 1/10 De quantas maneiras podemos selecionar um subconjunto de r objetos de um conjunto de n objetos?
Leia maisInferência para CS Tópico 10 - Princípios de Estimação Pontual
Inferência para CS Tópico 10 - Princípios de Estimação Pontual Renato Martins Assunção DCC - UFMG 2013 Renato Martins Assunção (DCC - UFMG) Inferência para CS Tópico 10 - Princípios de Estimação Pontual
Leia maisElementos de Análise Assintótica
Elementos de Análise Assintótica Marcelo Keese Albertini Faculdade de Computação Universidade Federal de Uberlândia 23 de Março de 2018 Aula de hoje Nesta aula veremos: Elementos de Análise Assintótica
Leia maisdecisão em comparação com a curva para árvores de decisão.
function Decision-Learning(examplos) returns a decision list or failure if examples is empty then return the trivial decision list t a test that matches a nonempty subset examples t of examples such that
Leia maisAprendizagem a partir de Observações
Aprendizagem a partir de Observações Descrição de agentes que podem melhorar o seu comportamento a partir do estudo diligente das próprias experiências Índice Formas de aprendizagem Aprendizagem indutiva
Leia maisDistribuição Amostral e Estimação Pontual de Parâmetros
Roteiro Distribuição Amostral e Estimação Pontual de Parâmetros 1. Introdução 2. Teorema Central do Limite 3. Conceitos de Estimação Pontual 4. Métodos de Estimação Pontual 5. Referências Estatística Aplicada
Leia maisCC-226 Aula 07 - Estimação de Parâmetros
CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições
Leia maisp( y θ ) depende de um parâmetro desconhecido θ.
55Modelação, Identificação e Controlo Digital 55 Método de Máxima Verosimilhança (Maximum Likelihood) Seja y uma variável aleatória (v. a.) cuja densidade de probabilidade p( y θ ) depende de um parâmetro
Leia maisContexto. Algoritmos para conjuntos massivos de dados. Aplicação. Modelo de Data Stream 20/10/2016
Contexto Algoritmos para conjuntos massivos de dados Eduardo Laber Algumas sequências são grandes demais para ser armazenadas na memória e/ou o tempo de processamento disponível é limitado. Dados oriundos
Leia maisDados no R n. Dados em altas dimensões 29/03/2017
Dados no R n Dados em altas dimensões Alguns dados são apresentados como vetores em R n Alguns dados não são apresentados como vetores mas podem ser representados como vetores (e.g. Texto) Texto Dados
Leia maisSeleção de Variáveis e Construindo o Modelo
Seleção de Variáveis e Construindo o Modelo Seleção de modelos candidatos A idéia é selecionar um conjunto menor de variáveis explanatórias de acordo com algum(s) critério(s), e assim selecionar o modelo
Leia mais