Combinação de Classificadores (seleção)
|
|
- Aurora Carneiro Corte-Real
- 5 Há anos
- Visualizações:
Transcrição
1 Combinação de Classificadores (seleção) André Tavares da Silva Livro da Kuncheva
2 Roteiro Seleção de classificadores Estimativa independente de decisão Estimativa dependente de decisão Algoritmo de seleção Estimando regiões de competência Fusão ou seleção? Mistura de especialistas Bagging Boosting
3 Seleção de classificadores A seleção de classificadores assume que exista um especialista em D = {D 1,D 2,...,D L } que melhor estima a classe de x. Suponha que R n é particionado em K > 1 regiões de competência, R 1,R 2,...,R K, tais que exista um classificador D i (j) = D i, 1 i L, 1 j K, com maior competência C(D i (j) x) para rotular x R j. A ideia é primeiro identificar a região R j que contém x e depois selecionar o classificador correspondente.
4 Seleção de classificadores A figura a seguir ilustra uma situação onde existem duas classes, w 1 e w 2, e três classificadores D 1, D 2 e D 3, tais que D 1 sempre associa x à w 1, D 2 é linear e D 3 sempre associa x à w 2. A divisão em regiões de competência R 1 de D 1, R 2 de D 2 e R 3 de D 3, faz com que a seleção seja mais exata do que a fusão por voto majoritário (onde a opinião de D 2 prevalece) e do que o uso isolado de qualquer um deles.
5 Seleção de classificadores
6 Seleção de classificadores Não é difícil mostrar que, se escolhermos o melhor classificador para cada região, a exatidão da seleção será sempre maior ou igual à exatidão de qualquer classificador isoladamente. Seja P(D i R j ) a probabilidade de acerto de D i (j) na região R j e D i o melhor classificador para R j, a probabilidade de acerto da seleção é: K P sel = j=1 P ( R j ) P (D i ( j ) R j ) onde P(R j ) é a probabilidade de x cair em R j.
7 Seleção de classificadores Sendo P(D i (j) R j ) P(D i R j ) para i=1,2,...,l, então P(D i R j ) P(D * R j ), onde D * é o melhor classificador em D para o espaço R n. Isto significa que P sel K P(R j )P(D * R j ) = P(D * ) As regiões de competência podem ou não serem encontradas explicitamente.
8 Seleção de classificadores Quando elas não são explícitas, dizemos que a estimativa de competência é local. A estimativa local pode ainda levar ou não em conta decisões corretas para outras amostras. O segundo caso é dito independente de decisão e o primeiro é dependente de decisão. Quando as regiões de competência são estimadas explicitamente, temos uma estimativa prévia de regiões de competência.
9 Estimativa independente de decisão Seja z um objeto com características x, podemos usar o conjunto Z 1 para achar qual classificador é mais exato em estimar o rótulo dos k-vizinhos z (j) Z 1, j=1,2,...,k, mais próximos de z. Este classificador é selecionado para rotular z (classe de x). A distância entre z e o vizinho z (j) Z 1 pode ser medida pela distância Euclideana d(x, x (j) ) entre os vetores de características x e x (j).
10 Estimativa independente de decisão No caso de classificadores com saídas contínuas, estas distâncias também podem ser usadas para estimar competência. Por exemplo, seja P i (l(z (j) ) z (j) ) a estimativa feita por D i sobre a probabilidade de z (j) pertencer a sua classe verdadeira em Z 1, independente de D i indicar outra classe. Então: K j=1 C (D i x)= P i (l (z ( j ) ) z ( j) )d 1 (x, x ( j ) ) K j=1 d 1 (x, x ( j ) )
11 Estimativa independente de decisão Outra estimativa de competência baseada em distâncias é C(D i x) = k ø(z,z (j) ), onde ø é uma função potencial definida como: φ( z, z ( j ) )= g ij 1+α ij d 2 ( x, x ( j) ) onde g ij =1 se D i classifica z (j) corretamente e g ij =-1 caso contrário. α ij é um peso para cada par (D i,z (j) ), mas também pode ser uma constante.
12 Estimativa dependente de decisão Seja s i Ω a saída de D i para um objeto z com (Si) características x e N k (z) o conjunto dos k-vizinhos em Z 1 mais próximos de z, para os quais o classificador D i também atribui rótulo s i, então a competência C(D i x) de D i para rotular x pode ser (Si) calculada pela proporção de elementos em N k (z) cuja classe verdadeira é s i. Da mesma forma, a competência pode levar em conta as distâncias d(x,x (j) ) entre vizinhos z e z(j) N quando o classificador tem saídas contínuas. k (Si) (z),
13 Estimativa dependente de decisão Seja P i (s i z (j) ) a estimativa de D i para a probabilidade de s i ser a classe de z (j) e N k (z) o conjunto dos k-vizinhos em Z 1 mais próximos de z, então a competência de D i para rotular x é medida levando em conta apenas os vizinhos cujo rótulo verdadeiro seja s i : C (D i x)= P (s i z ( j ) )d 1 (x, x ( j ) ) d 1 ( x, x ( j) ) quando l(z (j) )=s i
14 Algoritmo de classificação 1. Dada uma amostra x, cada classificador D i, i=1,2,...,l, atribui um rótulo para x. Se os rótulos forem iguais, o algoritmo pára. 2. Se os rótulos forem distintos, estimamos a competência C(D i x), i=1,2,...,l, de cada classificador. Se existe um único classificador mais competente, ele rotula x e o algoritmo pára. 3. Caso exista mais de um classificador com a maior competência, verifique os rótulos atribuídos a x. Se todos atribuem o mesmo rótulo, o algoritmo pára. 4. Se os rótulos atribuídos pelos mais competentes são diferentes, podemos decidir pelo rótulo mais indicado (ou qualquer outro método de fusão), com base no segundo mais competente, escolha aleatória, etc.
15 Pré-estimando regiões de competência O espaço de características pode ser particionado em regiões de competência R j, j=1,2,...,k da seguinte forma. Desconsiderando os rótulos das amostras em Z 1, usamos o algoritmo k-means para agrupar essas amostras em K clusters (K regiões R j ). Para as amostras em cada cluster R j, verificamos o classificador D i com maior exatidão (competência), visto que sabemos o rótulo verdadeiro dessas amostras. Este classificador pode ser treinado com todas as amostras em Z 1 ou com apenas as amostras em R j.
16 Pré-estimando regiões de competência Dada uma amostra x para classificação, usamos os centros dos clusters para encontrar a região R j cujo o centro é mais próximo de x. Outra ideia é calcular uma árvore geradora mínima no grafo completo das amostras de Z 1. Podemos estabelecer um número mínimo de amostras por região ao remover as arestas de maior peso, nós obtemos as regiões R j. O objetivo é encontrar o menor valor de peso, que gerará o maior número de regiões K satisfazendo o número mínimo de amostras por região.
17 Seleção ou fusão? Uma pergunta importante é quando devemos usar seleção ou fusão? A seleção assume que um classificador D i de uma coleção de classificadores D é significativamente melhor que os demais em uma dada região R j do espaço de caraterísticas. Portanto, podemos usar as amostras desta região para calcular a exatidão de cada classificador e os intervalos de 95% de confiança entre a exatidão de D i e a dos demais. Selecionamos D i se não houver superposição entre os intervalos, usamos a fusão de classificadores no caso contrário.
18 Seleção ou fusão? Outra estratégia é usar o teste-t e verificar se a significância estatística p da exatidão de D i com relação à exatidão dos demais é maior que O livro da Kuncheva mostra que em 100 amostras, por exemplo, onde D i acerta 76% e o segundo melhor classificador acerta 71%, o teste-t indica valor p = 0.438, insuficiente para escolhermos D i como o melhor classificador.
19 Mistura de especialistas Outra técnica de combinação interessante, normalmente utilizada com redes neurais, é a mistura de especialistas D i, i=1,2,...,l. Cada rede D i é treinada com um conjunto diferente de amostras. Uma L+1-ésima rede, denominada gating network, é treinada para encontrar a probabilidade (competência) p i (x) (saída da rede) de cada especialista D i, i=1,2,...,l, rotular corretamente uma amostra x (entrada da rede). Um seletor define qual classificador rotulará x com base nos valores p i (x), i=1,2,...,l.
20 Mistura de especialistas Por exemplo, o D i com maior valor p i (x) (winner-takesall) rotula x, ou os suportes d i,j (x) de cada D i para w j, j=1,2,...,c, são combinados por média ponderada, onde os pesos são p i (x), para estimar μ j (x). A combinação desses classificadores, no entanto, pode usar qualquer uma das técnicas de fusão ou seleção. Veremos a seguir dois métodos de treinamento para coleções de classificadores: bagging e boosting. Enquanto o primeiro gera apenas especialistas treinados com diferentes conjuntos de treinamento, o segundo gera um peso para cada um destes especialistas.
21 Bagging Bagging (Bootstrap AGGregatING) e boosting são técnicas de treinamento para coleções de classificadores instáveis a fim de criar uma coleção de classificadores distintos. Em bagging, esta diversidade surge por amostragem aleatória, independente e uniforme dos objetos em Z para criar um conjunto de treinamento Z1 i, com N1 i objetos, para cada classificador D i, i=1,2,...,l. Os conjuntos Z1 i podem ter um percentual de objetos em comum, mas devemos evitar objetos repetidos em um mesmo conjunto. A classificação é feita por voto majoritário.
22 Bagging Treinamento 1.Para um dado L, inicialize o conjunto de classificadores D. 2.Para i=1,2,...,l, faça: 3. Gere Z i por amostragem em Z. 4. Construa D i por treinamento com Z i. 5. Adicione D D D i. 6.Retorne D.
23 Bagging Classificação 1.Dada uma amostra x, cada classificador D i gera um rótulo s i Ω = {w 1,w 2,...,w c }, i=1,2,...,l. 2.O rótulo final é obtido por voto majoritário.
24 Bagging Em bagging, os classificadores são quase independentes. Nestas condições, a exatidão da coleção é maior que a individual. Espera-se, portanto, uma correlação ρ i,j 0 entre as saídas de quaisquer pares de classificadores D i e D j, i j, da coleção.
25 Bagging - variantes O bagging com árvores de decisão é denominado florestas aleatórias. O método pasting small votes é outro variante que busca minimizar o tamanho N1 1 dos conjuntos de treinamento. Conjuntos de treinamento com tamanho relativo pequeno são denominados bites. O bagging com bites é chamado Rvotes e apresenta péssimos resultados. A variação mais interessante é chamada Ivotes, onde a amostragem para gerar os conjuntos Z1 i, i=1,2,...,l, leva em conta a importância das amostras.
26 Bagging - Ivotes Em Ivotes, os classificadores são construídos um após o outro de forma que aproximadamente a metade das amostras em Z1 (l+1) são classificadas corretamente pela coleção D l = {D 1,D 2,...,D L }, 1 < l L 1, e a outra metade não. Seja D l uma coleção com erro e l < 0.5 em Z 3. As amostras em Z1 (l+1) são obtidas pelo seguinte algoritmo. 1. Obtenha aleatoriamente (com distribuição uniforme) um objeto z de Z1. 2.Identifique quais classificadores em D l não possuem z nos seus conjuntos de treinamento. Estes classificadores são chamados out-of-bag. Se z estiver em todos os conjuntos, ignore-o e volte para 1.
27 Bagging - Ivotes 3. Caso contrário, submeta z à classificação pelos classificadores out-of-bag e atribua-o um rótulo final por voto majoritário. 4. Se o rótulo de z estiver errado, insira z em Z1 (l+1). Caso contrário, insira ou não z em Z1 (l+1) respeitando a probabilidade e l /(1 e l ) de inserção. 5. Repita as etapas de 1 a 4 até obter N1 elementos em Z1 (l+1).
28 Bagging - Ivotes As próximas etapas são treinar o classificador D l+1 com Z1 (l+1) e estimar o erro e l +1. O processo todo se repete até l = L.
29 Boosting O método boosting foi inspirado em um algoritmo de aprendizado on-line, denominado Hedge(β). Este algoritmo atribui pesos para um conjunto de estratégias que predizem o resultado de um certo evento. As estratégias aqui são classificadores e os pesos são suas probabilidades de acerto.
30 Boosting O algoritmo assume que dispomos de um conjunto de classificadores D = {D 1,D 2,...,D L } já treinados e de um conjunto de avaliação Z 2 = {z 1,z 2,...,z N2 }. O objetivo é atualizar os pesos de forma a identificar o classificador mais adequado para o problema (o mais exato em Z 2 ).
31 Hedge(β) Seja: A taxa β [0,1] de aprendizado. j A perda l i = 1 do classificador D i quando erra o rótulo j de um objeto zj Z2 ( l i = 0 quando D i acerta). A perda λ i acumulada de D i. A perda Λ acumulada de D. O peso p i j de D i no instante que classifica z j Z 2, j=1,2,...,n 2. O peso normalizado p i j de D i quando classifica z j.
32 Hedge(β) O algoritmo hedge(β) busca minimizar Λ.
33 Adaboost O algoritmo Adaboost (ADAptive BOOSTing) está relacionado ao problema de predição exata por combinar regras mais simples e menos exatas. Os classificadores são construídos um após o outro, e seus objetos de treinamento são amostrados de Z de forma aleatória, inicialmente com distribuição uniforme e posteriormente com distribuição proporcional a sua dificuldade de classificação. A relação com hedge(β) está em que os eventos são os classificadores, as estratégias são os objetos, e as probabilidades de amostragem desses objetos são atualizadas durante o algoritmo.
34 Adaboost Considere: A probabilidade p i j do objeto z j Z, j=1,2,...,n, ser escolhido para o conjunto de treinamento Z1 i do classificador D i. O erro e i ponderado do classificador D i. O suporte ln(1/β i ) associado ao classificador D i, onde β i = e i / (1 e i ), para e (0, 0.5]. i
35 Treinamento em Adaboost 1.Para um dado L, faça p j 1 1 / N, j=1,2,...,n e D. 2.Para i=1,2,...,l faça: 3. Amostre os objetos em Z usando a distribuição de probabilidades [p 1i,p 2i,...,p Ni ] e insira esses objetos em Z1 i 4. Construa D i por treinamento com Z1 i 5. Calcule e i N j=1 p ji l ij, onde l i j = 0 se D i rotula z j corretamente e l i j = 1 caso contrário.
36 Treinamento em Adaboost 6. Se e i 0.5, ignore D i, reinicialize os pesos p j i 1/N e continue. Caso contrário, insira D D U D i, calcule β i e i / (1-e i ) e p j i+1 p ji β i (1-l j i ) para j=1,2,...,n N p i j l j=1 j i 7.Retorne D e β 1,β 2,...,β L. Obs.: o número final de classificadores pode ser menor que L.
37 Classificação em Adaboost 1. Para uma amostra x, calcule o suporte μ j (x) = D i (x)=w j ln β i, para j=1,2,...,c. 2. A classe w j com o maior suporte é escolhida como rótulo de x. O algoritmo arc-x4 é um variante do Adaboost. Nele, o peso p j é calculado como a proporção de vezes que z j foi classificado errado pelos i 1 classificadores construídos até o momento. Além disso, a decisão final é feita por voto majoritário em vez de voto majoritário ponderado.
38 arc-x4 - treinamento
39 arc-x4 - classificação A classificação é igual a do algoritmo bagging, ou seja, por voto majoritário. O desempenho é semelhante ao do adaboost.
40 Teoria das margens Uma das características interessantes do boosting é que mesmo após o erro de treinamento chegar a zero, ele continua reduzindo o erro de teste com o aumento do número de classificadores. Uma das explicações para o sucesso do método está na teoria das margens. O conceito de margens vem da teoria de aprendizado estatístico com relação à dimensão de Vapnik- Chervonenkis. Esta dimensão estabelece um limite superior para a habilidade de classificação de modelos de classificadores.
41 Teoria das margens A margem para um objeto z com características x é definida como a certeza de classificação m(x) = μ k (x) max j k {μ j (x)} onde w k é a classe verdadeira e c μ (x) = 1. j=1 j Amostras classificadas erroneamente geram margens negativas e as classificadas corretamente geram margens positivas. Esta medida pode ser usada para buscar coleções de classificadores que maximizam as margens.
Combinação de Classificadores (fusão)
Combinação de Classificadores (fusão) André Tavares da Silva andre.silva@udesc.br Livro da Kuncheva Roteiro Sistemas com múltiplos classificadores Fusão por voto majoritário voto majoritário ponderado
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Kuncheva pg. 8 a 25 (seções 1.3 e 1.4) Roteiro da aula Cálculo do erro de um classificador Técnicas de treinamento, avaliação e teste
Leia maisAnálise de Imagens. Aula 20: Sistemas com Múltiplos Classificadores. Prof. Alexandre Xavier Falcão.
A.X. Falcão p.1/17 Análise de Imagens Aula 20: Sistemas com Múltiplos Classificadores (Fusão) Prof. Alexandre Xavier Falcão afalcao@ic.unicamp.br. IC - UNICAMP A.X. Falcão p.2/17 Roteiro da Aula Sistemas
Leia maisMúltiplos Classificadores
Universidade Federal do Paraná (UFPR) Bacharelado em Informátia Biomédica Múltiplos Classificadores David Menotti www.inf.ufpr.br/menotti/ci171-182 Hoje Múltiplos classificadores Combinação de classificadores
Leia maisAprendizado de Máquina. Combinando Classificadores
Universidade Federal do Paraná (UFPR) Departamento de Informática (DInf) Aprendizado de Máquina Combinando Classificadores David Menotti, Ph.D. web.inf.ufpr.br/menotti Introdução O uso de vários classificadores
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich/Alceu S. Britto Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Combinação de Classificadores Filosofia O objetivo
Leia maisChristopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 14
Combinação de modelos Christopher Bishop, Pattern Recognition and Machine Learning, Springer, 2006 capítulo 4 Motivação Habitualmente, experimenta-se vários algoritmos (ou o mesmo com diferentes hiperparâmetros)
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Engenharia Elétrica Universidade Federal do Paraná (UFPR) Combinação de Classificadores Filosofia O objetivo da combinação de
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Duda e Hart Capítulo 1 Reconhecimento de Padrões (imagem) Objetivo: Interpretar um conjunto de dados através de um mapeamento (classificação)
Leia maisAvaliando Hipóteses. George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE
Avaliando Hipóteses George Darmiton da Cunha Cavalcanti Tsang Ing Ren CIn/UFPE Pontos importantes Erro da Amostra e Erro Real Como Calcular Intervalo de Confiança Erros de hipóteses Estimadores Comparando
Leia maisReconhecimento de Padrões
Reconhecimento de Padrões André Tavares da Silva andre.silva@udesc.br Roteiro da aula Conceitos básicos sobre reconhecimento de padrões Visão geral sobre aprendizado no projeto de classificadores Seleção
Leia maisMistura de modelos. Marcelo K. Albertini. 31 de Julho de 2014
Mistura de modelos Marcelo K. Albertini 31 de Julho de 2014 2/11 Mistura de modelos Ideia básica Em vez de aprender somente um modelo, aprender vários e combiná-los Isso melhora acurácia Muitos métodos
Leia maisAprendizagem de Máquina
Plano de Aula Aprendizagem de Máquina Bagging,, Support Vector Machines e Combinação de Classificadores Alessandro L. Koerich Uma visão geral de diversos tópicos relacionados à Aprendizagem de Máquina:
Leia maisAULA 03 Estimativas e tamanhos amostrais
1 AULA 03 Estimativas e tamanhos amostrais Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade
Leia maisExame de Aprendizagem Automática
Exame de Aprendizagem Automática 2 páginas com 11 perguntas e 3 folhas de resposta. Duração: 2 horas e 30 minutos DI, FCT/UNL, 5 de Janeiro de 2016 Nota: O exame está cotado para 40 valores. Os 20 valores
Leia maisClustering (k-means, SOM e hierárquicos)
Clustering (k-means, SOM e hierárquicos) André Tavares da Silva andre.silva@udesc.br (Capítulo 10 de Duda e Hart) Clustering Introdução e tipos Roteiro Agrupamentos hierárquicos AGNES, DIANA e Dendogram
Leia maisCapítulo 4. Comitê BAS 35
4 Comitê BAS Devido à flexibilidade do algoritmo BAS, que aceita qualquer distribuição inicial para os exemplos, diversas heurísticas podem ser implementadas com o objetivo de criar classificadores de
Leia maisAgregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta
Agregação de Algoritmos de Aprendizado de Máquina (AM) Professor: Eduardo R. Hruschka Estagiário PAE: Luiz F. S. Coletta (luizfsc@icmc.usp.br) Sumário 1. Motivação 2. Bagging 3. Random Forest 4. Boosting
Leia maisRede RBF (Radial Basis Function)
Rede RBF (Radial Basis Function) André Tavares da Silva andre.silva@udesc.br Roteiro Introdução à rede neural artificial RBF Teorema de Cover da separabilidade de padrões RBF x MLP RBF Função de ativação
Leia maisCurso de Data Mining
Curso de Data Mining Sandra de Amo Curvas Roc Uma curva ROC (Receiver Operating Characteristic) é um enfoque gráfico que permite visualizar os trade-offs entre as taxas de positivos verdadeiros e positivos
Leia maisDefinição. Os valores assumidos pelos estimadores denomina-se estimativas pontuais ou simplesmente estimativas.
1. Inferência Estatística Inferência Estatística é o uso da informção (ou experiência ou história) para a redução da incerteza sobre o objeto em estudo. A informação pode ou não ser proveniente de um experimento
Leia maisSexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo
Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Antônio Carlos Roque da Silva Filho e Cristiano R. F. Granzotti 26 de junho de 2017 Os exercícios desta lista devem ser resolvidos
Leia maisAULA 04 Teste de hipótese
1 AULA 04 Teste de hipótese Ernesto F. L. Amaral 03 de outubro de 2013 Centro de Pesquisas Quantitativas em Ciências Sociais (CPEQS) Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal
Leia maisUniversidade de São Paulo Instituto de Ciências Matemáticas e de Computação
Universidade de São Paulo Instituto de Ciências Matemáticas e de Computação Francisco A. Rodrigues Departamento de Matemática Aplicada e Estatística - SME Objetivo Dada M classes ω 1, ω 2,..., ω M e um
Leia maisEstatística Aplicada
Estatística Aplicada Intervalos de Confiança Professor Lucas Schmidt www.acasadoconcurseiro.com.br Estatística Aplicada INTERVALOS DE CONFIANÇA Processos de estimação Estimação por ponto: o processo em
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C.. L. F. de Carvalho Monitor: Valéria Carvalho lanejamento e Análise de Experimentos rincipais tópicos Estimativa do erro artição dos dados Reamostragem
Leia maisAULA 05 Teste de Hipótese
1 AULA 05 Teste de Hipótese Ernesto F. L. Amaral 03 de setembro de 2012 Faculdade de Filosofia e Ciências Humanas (FAFICH) Universidade Federal de Minas Gerais (UFMG) Fonte: Triola, Mario F. 2008. Introdução
Leia maisRalph S. Silva
ANÁLISE ESTATÍSTICA MULTIVARIADA Ralph S Silva http://wwwimufrjbr/ralph/multivariadahtml Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Revisão:
Leia maisMAE Introdução à Probabilidade e Estatística II Resolução Lista 5
MAE 229 - Introdução à Probabilidade e Estatística II Resolução Lista 5 Professor: Pedro Morettin e Profa. Chang Chian Exercício 1 (a) De uma forma geral, o desvio padrão é usado para medir a dispersão
Leia maisAprendizado de Máquina
Aprendizado de Máquina Introdução Luiz Eduardo S. Oliveira Universidade Federal do Paraná Departamento de Informática http://lesoliveira.net Luiz S. Oliveira (UFPR) Aprendizado de Máquina 1 / 19 Introdução
Leia maisAprendizado de Máquinas. Classificadores Lineares
Universidade Federal do Paraná (UFPR) Departamento de Informática Aprendizado de Máquinas Classificadores Lineares David Menotti, Ph.D. web.inf.ufpr.br/menotti Objetivos Introduzir o conceito de classificação
Leia maisProbabilidade e Estatística
Probabilidade e Estatística Aula 7: Intervalos de Confiança com uma amostra Leitura obrigatória: Devore, cap 7 ou Montgomery e Runger, cap 8 Chap 8-1 Objetivos Como inferir sobre um parâmetro da população,
Leia maisSeção 3.3 Construção de Intervalos de Confiança Bootstrap
Seção 3.3 Construção de Intervalos de Confiança Bootstrap Lock 5 Amostras bootstrap Sumário Distribuição bootstrap Erro-padrão de uma distribuição bootstrap Intervalo de confiança de 95% com base em erro-padrão
Leia maisMétodos de Amostragem. Métodos de Amostragem e Avaliação de Algoritmos. Métodos de Amostragem. Métodos de Amostragem. Métodos de Amostragem
e Avaliação de s José Augusto Baranauskas Departamento de Física e Matemática FFCLRP-USP AM é uma ferramenta poderosa, mas não existe um único algoritmo que apresente o melhor desempenho para todos os
Leia maisClassificadores. André Tavares da Silva.
Classificadores André Tavares da Silva andre.silva@udesc.br Reconhecimento de padrões (etapas) Obtenção dos dados (imagens, vídeos, sinais) Pré-processamento Segmentação Extração de características Obs.:
Leia maisInferência. 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média. Renata Souza
Inferência 1 Estimativa pontual de uma média 2 Estimativa intervalar de uma média Renata Souza Aspectos Gerais A estatística descritiva tem por objetivo resumir ou descrever características importantes
Leia maisInteligência Artificial
Inteligência Artificial Aula 14 Aprendizado de Máquina Avaliação de s Preditivos (Classificação) Hold-out K-fold Leave-one-out Prof. Ricardo M. Marcacini ricardo.marcacini@ufms.br Curso: Sistemas de Informação
Leia maisAprendizado de Máquina
Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCA UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com
Leia maisMinera c ao de Dados Aula 6: Finaliza c ao de Regress ao e Classifica c ao Rafael Izbicki 1 / 33
Mineração de Dados Aula 6: Finalização de Regressão e Classificação Rafael Izbicki 1 / 33 Como fazer um IC para o risco estimado? Vamos assumir que ( X 1, Ỹ1),..., ( X s, Ỹs) são elementos de um conjunto
Leia maisCap. 4 - Estimação por Intervalo
Cap. 4 - Estimação por Intervalo Amostragem e inferência estatística População: consiste na totalidade das observações em que estamos interessados. Nº de observações na população é denominado tamanho=n.
Leia maisLista de exercícios 2 Recuperação de Informação Textual
Lista de exercícios 2 Recuperação de Informação Textual 2 de dezembro de 2015 0.1 O que é o modelo bag-of-words? Porque ele é uma simplificação? Dê um exemplo em que ele estaria incorreto. 0.2 O que é
Leia maisUNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES NEURAIS ARTIFICIAIS AULA 03 Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 INTRODUÇÃO Aprendizagem é um processo pelo qual os parâmetros livres de uma rede neural são adaptados através de um processo
Leia maisUniversidade Federal de Alfenas Programa de Pós-graduação em Estatística Aplicada e Biometria-PPGEAB Prova de Conhecimentos Específicos
-PPGEAB Dados que podem ser necessários na resolução de algumas questões: Quantis de distribuições P (t > t α ) = α P (F > F 0,05 ) = 0, 05 ν 1 ν 0,05 0,025 ν 2 42 43 56 57 89 1,66 1,99 42 1,67 1,67 1,63
Leia maisGabarito P2. Álgebra Linear I ) Decida se cada afirmação a seguir é verdadeira ou falsa.
Gabarito P2 Álgebra Linear I 2008.2 1) Decida se cada afirmação a seguir é verdadeira ou falsa. Se { v 1, v 2 } é um conjunto de vetores linearmente dependente então se verifica v 1 = σ v 2 para algum
Leia maisCC-226 Aula 07 - Estimação de Parâmetros
CC-226 Aula 07 - Estimação de Parâmetros Carlos Henrique Q. Forster - Instituto Tecnológico de Aeronáutica 2008 Estimação de Parâmetros Para construir o classificador bayesiano, assumimos as distribuições
Leia maisPROCEDIMENTOS NÃO SUPERVISIONADOS E TÉCNICAS DE AGRUPAMENTO (parte 1)
PROCEDIMENTOS NÃO SUPERVISIONADOS E TÉCNICAS DE AGRUPAMENTO (parte 1) 1 Procedimentos não supervisionados Não se conhece a classificação das amostras de treinamento Qual é o interesse? 1) Coletar e rotular
Leia maisInferência Estatistica
Inferência Estatistica Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Modelos e Inferência Um modelo é uma simplificação da realidade (e alguns
Leia maisEstimativas e Tamanhos de Amostras
Estimativas e Tamanhos de Amostras 1 Aspectos Gerais 2 Estimativa de uma Média Populacional: Grandes Amostras 3 Estimativa de uma Média Populacional: Pequenas Amostras 4 Tamanho Amostral Necessário para
Leia maisDCBD. Avaliação de modelos. Métricas para avaliação de desempenho. Avaliação de modelos. Métricas para avaliação de desempenho...
DCBD Métricas para avaliação de desempenho Como avaliar o desempenho de um modelo? Métodos para avaliação de desempenho Como obter estimativas confiáveis? Métodos para comparação de modelos Como comparar
Leia maisAlgoritmos Genéticos
Algoritmos Genéticos Roteiro Introdução Algoritmos Genéticos Otimização Representação Seleção Operadores Genéticos Aplicação Caixeiro Viajante Introdução Algoritmos Genéticos (AGs), são métodos de otimização
Leia maisFernando Nogueira Simulação 1
Simulação a Eventos Discretos Fernando Nogueira Simulação Introdução Simulação não é uma técnica de otimização: estima-se medidas de performance de um sistema modelado. Modelos Contínuos X Modelos Discretos
Leia mais5 TORIA ELEMENTAR DA AMOSTRAGEM
5 TORIA ELEMENTAR DA AMOSTRAGEM É errôneo pensar que, caso tivéssemos acesso a todos os elementos da população, seríamos mais precisos. Os erros de coleta e manuseio de um grande número de dados são maiores
Leia maisAprendizado de Máquina
Universidade Federal do Espírito Santo Centro de Ciências Agrárias CCENS UFES Departamento de Computação Aprendizado de Máquina Inteligência Artificial Site: http://jeiks.net E-mail: jacsonrcsilva@gmail.com
Leia mais1) Considere Y N(1, 1) e X Y = y N(y, 4). A quantidade de interesse é θ = P (X > 1).
1 Considere Y N1, 1 e X Y y Ny, 4. A quantidade de interesse é θ P X > 1. a Explique como obter uma estimativa de θ via simulação. Solução: Uma maneira simples de obter uma estimativa de θ é simulando
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário (bootstrap) Este método foi proposto por Efron
Leia maisClassificação Linear. André Tavares da Silva.
Classificação Linear André Tavares da Silva andre.silva@udesc.br Roteiro Introduzir os o conceito de classificação linear. LDA (Linear Discriminant Analysis) Funções Discriminantes Lineares Perceptron
Leia maisAula 1: k-nearest Neighbors
Aula 1: k-nearest Neighbors Paulo C. Marques F. Aula ministrada no Insper 29 de Janeiro de 2016 Insper Aula 1: k-nearest Neighbors 29 de Janeiro de 2016 1 / 14 O problema geral de classificação Insper
Leia maisTécnicas computacionais em probabilidade e estatística II
Técnicas computacionais em probabilidade e estatística II Universidade de São Paulo Instituto de Matemática e Estatística http:www.ime.usp.br/ mbranco AULA 1: Problemas Computacionais em Inferência Estatística.
Leia maisSME0801- Probabilidade II Distribuições conjuntas. Primeiras definições e propriedades
SME0801- Probabilidade II Distribuições conjuntas. Primeiras definições e propriedades Pablo Martin Rodriguez SME ICMC USP Bacharelado em Estatística 20 Mar 2017 Vetores aleatórios Definição Sejam X 1,
Leia maisMétodos Matemáticos na Ciência de Dados: Introdução Relâmpago. II
Métodos Matemáticos na Ciência de Dados: Introdução Relâmpago. II Vladimir Pestov 1 University of Ottawa / Université d Ottawa Ottawa, Ontario, Canadá 2 Universidade Federal de Santa Catarina Florianópolis,
Leia maisProbabilidade e Estatística. Estimação de Parâmetros Intervalo de Confiança
Probabilidade e Estatística Prof. Dr. Narciso Gonçalves da Silva http://páginapessoal.utfpr.edu.br/ngsilva Estimação de Parâmetros Intervalo de Confiança Introdução A inferência estatística é o processo
Leia maisRicardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo
Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um
Leia maisDistribuições Amostrais - Tamanho da Amostra
Distribuições Amostrais - Tamanho da Amostra Prof. Eduardo Bezerra Inferência Estatística 21 de Setembro de 2018 Eduardo Bezerra (CEFET/RJ) Tamanho da Amostra 1 / 10 Motivação Suponha que queremos estimar
Leia maisÁlgebra Linear I - Aula 10. Roteiro
Álgebra Linear I - Aula 10 1. Combinação linear de vetores. 2. Subespaços e geradores. Roteiro 1 Combinação linear de vetores Definição 1 (Combinação linear de vetores). Dada um conjunto de vetores U =
Leia maisESTATÍSTICA COMPUTACIONAL
ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Simulação O que é simulação? Reprodução de um
Leia maisInteligência Artificial
Inteligência Artificial Aula 6 Algoritmos Genéticos M.e Guylerme Velasco Roteiro Introdução Otimização Algoritmos Genéticos Representação Seleção Operadores Geneticos Aplicação Caixeiro Viajante Introdução
Leia maisSISTEMAS BASEADOS EM ENSEMBLES DE CLASSIFICADORES
SISTEMAS BASEADOS EM ENSEMBLES DE CLASSIFICADORES INTRODUÇÃO PROCESSO DE TOMADA DE DECISÕES Procuramos uma segunda, terceira ou quarta opinião. Tratando de assuntos financeiros, médicos, sociais entre
Leia maisAs bases da Dinâmica Molecular - 7
As bases da Dinâmica Molecular - 7 Alexandre Diehl Departamento de Física - UFPel Considere um sistema com N partículas monoatômicas, que interagem através de um potencial do tipo Lennard-Jones (LJ). Tomando
Leia mais1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a
1 Introdução 1.1 Tema Aprendizado de Máquina (Mit97) é o campo da Inteligência Artificial responsável pelo desenvolvimento de modelos inferidos automaticamente a partir de dados. Existem diversas aplicações
Leia mais1 Probabilidade - Modelos Probabilísticos
1 Probabilidade - Modelos Probabilísticos Modelos probabilísticos devem, de alguma forma, 1. identificar o conjunto de resultados possíveis do fenômeno aleatório, que costumamos chamar de espaço amostral,
Leia maisSEL-0339 Introdução à Visão Computacional. Aula 7 Reconhecimento de Objetos
Departamento de Engenharia Elétrica - EESC-USP SEL-0339 Introdução à Visão Computacional Aula 7 Reconhecimento de Objetos Prof. Dr. Marcelo Andrade da Costa Vieira Prof. Dr. Adilson Gonzaga mvieira@sc.usp.br
Leia maisEstatística II Aula 2. Prof.: Patricia Maria Bortolon, D. Sc.
Estatística II Aula Prof.: Patricia Maria Bortolon, D. Sc. Distribuições Amostrais ... vocês lembram que: Antes de tudo... Estatística Parâmetro Amostra População E usamos estatíticas das amostras para
Leia maisEstatística Descritiva e Exploratória
Gledson Luiz Picharski e Wanderson Rodrigo Rocha 9 de Maio de 2008 Estatística Descritiva e exploratória 1 Váriaveis Aleatórias Discretas 2 Variáveis bidimensionais 3 Váriaveis Aleatórias Continuas Introdução
Leia maisInterpolação polinomial: Polinômio de Lagrange
Interpolação polinomial: Polinômio de Lagrange Marina Andretta ICMC-USP 09 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500 - cálculo
Leia maisIntervalos de Confiança
Intervalos de Confiança Jorge M. V. Capela, Marisa V. Capela, Instituto de Química - UNESP Araraquara, SP capela@iq.unesp.br Araraquara, SP - 2016 1 2 Teorema do Limite Central Se amostras de tamanho n
Leia maisModelo de Regressão Múltipla
Modelo de Regressão Múltipla Modelo de Regressão Linear Simples Última aula: Y = α + βx + i i ε i Y é a variável resposta; X é a variável independente; ε representa o erro. 2 Modelo Clássico de Regressão
Leia maisDisciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais
Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 03 / Detecção de Sinais Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa de Pós-Graduação em Engenharia Elétrica/PPGEE Universidade Federal
Leia maisCONHECIMENTOS ESPECÍFICOS
CONHECIMENTOS ESPECÍFICOS Julgue os itens que se seguem, acerca da estatística descritiva. 51 Na distribuição da quantidade de horas trabalhadas por empregados de certa empresa, é sempre possível determinar
Leia maisCaros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina.
Caros Alunos, segue a resolução das questões de Estatística aplicadas na prova para o cargo de Auditor Fiscal da Receita Municipal de Teresina. De forma geral, a prova manteve o padrão das questões da
Leia maisBioestatística INFERÊNCIA ESTATÍSTICA. Silvia Shimakura
Bioestatística INFERÊNCIA ESTATÍSTICA Silvia Shimakura AMOSTRAS E POPULAÇÕES Inferências sobre populações são geralmente feitas a partir de informações obtidas de amostras. amostras Válido se a amostra
Leia maisTÉCNICAS DE AMOSTRAGEM
TÉCNICAS DE AMOSTRAGEM Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Amostragem estratificada Divisão da população em
Leia maisFinal exam June 25, 2007 Statistics II
Final exam June 25, 2007 Statistics II 1. 7 points o Hospital Medecis, o número de doentes que recorrem ao serviço de urgências pediátricas e o número de doentes que recorrem ao serviço de urgências para
Leia maisEstatística: Aplicação ao Sensoriamento Remoto SER ANO Avaliação de Classificação
Estatística: Aplicação ao Sensoriamento Remoto SER 204 - ANO 2018 Avaliação de Classificação Camilo Daleles Rennó camilo@dpi.inpe.br http://www.dpi.inpe.br/~camilo/estatistica/ Classificação e Incerteza
Leia maisMineração de Dados em Biologia Molecular
Mineração de Dados em Biologia Molecular André C. P. L. F. de Carvalho Monitor: Valéria Carvalho Agrupamento de Dados Tópicos Agrupamento de dados Análise de cluster Dificuldades em agrupamento Algoritmos
Leia maisFunções Geradoras de Variáveis Aleatórias. Simulação Discreta de Sistemas - Prof. Paulo Freitas - UFSC/CTC/INE
Funções Geradoras de Variáveis Aleatórias 1 Funções Geradoras de Variáveis Aleatórias Nos programas de simulação existe um GNA e inúmeras outras funções matemáticas descritas como Funções Geradoras de
Leia maisLEEC Probabilidades e Estatística 1 a Chamada 13/06/2005. Parte Prática C (C) M 1% 9% 10% (M) 4% 86% 90% 5% 95% 100%
. Definição dos acontecimentos: M T-shirt tem manchas C T-shirt tem costuras defeituosas D T-shirt é defeituosa A Preço da t-shirt é alterado a) PM) = % PC) = 5% PM C) = % LEEC Probabilidades e Estatística
Leia maisUNIVERSIDADE DO ESTADO DE MATO GROSSO - UNEMAT. Faculdade de Ciências Exatas e Tecnológicas FACET / Sinop Curso de Bacharelado em Engenharia Elétrica
REDES DE FUNÇÃO DE BASE RADIAL - RBF Prof. Dr. André A. P. Biscaro 1º Semestre de 2017 Funções de Base Global Funções de Base Global são usadas pelas redes BP. Estas funções são definidas como funções
Leia mais4. ([Magalhães, 2011] - Seção 2.4) Seja X U( α, α), determine o valor do parâmetro α de modo que:
GET189 Probabilidade I Lista de exercícios - Capítulo 6 1. ([Ross, 21] - Capítulo 5) Em uma estação, trens partem para a cidade A de 15 em 15 minutos, começando às 7:h; e trens partem para a cidade B de
Leia maisOtimização em Grafos
Otimização em Grafos Luidi G. Simonetti PESC/COPPE 2017 Luidi Simonetti (PESC) EEL857 2017 1 / 33 Definição do Problema Dado: um grafo ponderado G = (V, E), orientado ou não, onde d : E R + define as distâncias
Leia maisMáquinas de suporte vetorial e sua aplicação na detecção de spam
e sua aplicação na detecção de spam Orientador: Paulo J. S. Silva (IME-USP) Universidade de São Paulo Instituto de Matemática e Estatística Departamento de Ciência da Computação MAC499 Trabalho de Formatura
Leia maisUma Introdução a SVM Support Vector Machines. Obs: Baseada nos slides de Martin Law
Uma Introdução a SVM Support Vector Machines Obs: Baseada nos slides de Martin Law Sumário Historia das SVMs Duas classes, linearmente separáveis O que é um bom limite para a decisão? Duas classes, não
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Alessandro L. Koerich Programa de Pós-Graduação em Informática Pontifícia Universidade Católica do Paraná (PUCPR) Aprendizagem Baseada em Instâncias Plano de Aula Introdução Espaço
Leia maisMétodos Quantitativos para Ciência da Computação Experimental
Métodos Quantitativos para Ciência da Computação Experimental Revisão Virgílio A. F. Almeida Maio de 2008 Departamento de Ciência da Computação Universidade Federal de Minas Gerais FOCO do curso Revisão
Leia mais(x 1, y 1 ) (x 2, y 2 ) = (x 1 x 2, y 1 y 2 ); e α (x, y) = (x α, y α ), α R.
INSTITUTO DE MATEMÁTICA E ESTATÍSTICA UNIVERSIDADE DE SÃO PAULO MAT-2457 Álgebra Linear para Engenharia I Terceira Lista de Exercícios - Professor: Equipe da Disciplina EXERCÍCIOS 1. Considere as retas
Leia mais3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução
3 Extração de Regras Simbólicas a partir de Máquinas de Vetores Suporte 3.1 Introdução Como já mencionado na seção 1.1, as SVMs geram, da mesma forma que redes neurais (RN), um "modelo caixa preta" de
Leia maisIND 1115 Inferência Estatística Aula 6
Conteúdo IND 5 Inferência Estatística Aula 6 Setembro de 004 A distribuição Lognormal A distribuição Beta e sua relação com a Uniforme(0,) Mônica Barros mbarros.com mbarros.com A distribuição Lognormal
Leia maisAprendizagem de Máquina
Aprendizagem de Máquina Aprendizagem Baseada em Instâncias Alessandro L. Koerich Mestrado/Doutorado em Informática (PPGIa) Pontifícia Universidade Católica do Paraná (PUCPR) Mestrado/Doutorado em Informática
Leia maisSegunda Lista de Exercícios Cálculo de Probabilidades II Prof. Michel H. Montoril
Exercício 1. Uma urna contém 4 bolas numeradas: {1, 2, 2, 3}. Retira-se dessa urna duas bolas aleatoriamente e sem reposição. Sejam 1 : O número da primeira bola escolhida; 2 : O número da segunda bola
Leia maisInferência Estatística: DEEST/UFOP Prof.: Spencer Barbosa da Silva
Inferência Estatística: Prof.: Spencer Barbosa da Silva Amostragem Estatística Descritiva Cálculo de Probabilidade Inferência Estatística Estimação Teste de Hipótese Pontual Por Intervalo Conceitos básicos
Leia mais