Cap.2 Aprendizagem Bayesiana e baseada em protótipos V 3.0, V.Lobo, EN/ISEGI, 2005

Transcrição

1 V 3.0, V.Lobo, E/ISEGI, 005 Classificação Bayesiana (revisões...) Victor Lobo Contexto Existem um conjunto de dados conhecidos Conjunto de treino Queremos prever o que vai ocorrer noutros casos Exemplo Empresa de seguros de saúde quer estimar custos com um novo cliente Conjunto de treino (dados históricos) E o Manel? Altura Peso Sexo Idade Ordenado Usa Encargos para ginásio seguradora M M F M F S S S S Altura=.73 Peso=5 Idade=3 Ordenado=00 Ginásio= Terá encargos para a seguradora? Tema central: Existe alguma maneira ÓPTIMA de fazer a classificação de um padrão de dados? O nosso exemplo... Dados completos Sim: classificação Bayesiana (óptima segundo um dado critério...) Conseguimos usar sempre esse método? ão: geralmente é impossível obter o classificador de Bayes É útil conhecê-lo? Sim: Dá um limite e um termo de comparação C/ variáveis largo estreito pequeno grande pomba pequeno Medição de características falcão águia grande Comprimento oção de Classificação Bayesiana Escolhe a classe mais provável, dado um padrão de dados max P(C i x) É sempre a escolha óptima! Problema: Estimar P(C i x) Solução: dado um dado, eu posso não saber à priori a classe, mas dado uma classe, eu talvez saiba à priori como são dos dados dessa classe... Teorema de Bayes Formulação do teorema de Bayes P(C,x ) = P(C x)p(x) = P(x C)P(C) logo.. P(C x) = P(x C)P(C) / P(x) Dado um x, P(x) é constante, o classificador Bayesiano escolhe a classe que maximiza P(x C)P(C) Classificador que maximiza P(C x) é conhecido como classificador MAP (maximum a posterioi)

2 V 3.0, V.Lobo, E/ISEGI, 005 Custos variáveis A escolha óptima da classe tem que ter em conta os custos de cometer erros Exemplos: detectar aviões num radar, detectar fraudes ou defeitos em peças Custo: ct(c i,c j ) = custo de escolher c j dado que a classe é de facto c j Matriz de custos Matriz com todos os custos de classificação Classificador de Bayes Custo de uma decisão: ct j (x) = Σ ct(c i, c j ) P(c i,x) Classificador de Bayes Escolhe a classe que minimiza o custo de classificação c=c : = arg min ct j (x) Determinação dos custos... Classificador de máxima verosimilhança Maximum Lielihood (ML) Muitas vezes podemos admitir que, à partida, todas as classes são equiprováveis esse caso, o classificador MAP simplifica para: P(C x) = P(x C)P(C) / P(x) = P(x C) Ou seja a classe mais provável é a que com maior probabilidade gera esse dado! a prática, um bom critério! Problemas em estimar P(x,C) Desconhece-se geralmente a forma analítica de P(x,C) Estimação de P(x,C) a partir dos dados Problema central em classificação!!! Estimação paramétrica Assumir que P(x,C) tem uma distribuição conhecida (gausseana, uniforme, etc), e estimar os parâmetros dessa distribuição Estimação não paramétrica Calcular P(x,C) directamente a partir dos dados Exemplo de classificação Bayesiana : Jogar ténis Caso : sabendo só o outloo Outloo Rainy Rainy Rainy Temperature Hot Hot Hot Cool Cool Humidity ormal ormal Windy Play o o o Queremos saber P(jogo outloo), em concreto, se outloo = overcast Classificador MAP: P(jogo outloo)=p(outloo jogo)p(jogo) Cool ormal Cool ormal ormal o P(jogo=sim)=9/4=0.4 P(jogo=não)=5/4=0.3 P(outrloo= overcast jogo=sim)=5/9=0.5 ormal P(jogo=sim outloo= overcast)=0.5 x 0.4 = 0.3 Hot ormal Rainy o

3 V 3.0, V.Lobo, E/ISEGI, 005 Problema quando x tem dimensão grande Se a dimensão de x é muito grande, devido à praga da dimensionalidade, é difícil calcular P(x,C) Solução: Assumir independência entre atributos Exemplo: Classificação de texto Classificador naive de Bayes Assume independência dos atributos: P(x,C) = Π P(x m,c) a prática tem bons resultados Evitar que P(x m,c) seja 0: Estimativa m: P=( n c + m x p) / (n + m) n c = exemplos de c n= total de exemplos m= ponderação (+/-prioi) p= estimativa à priori (equiprovável?) Algumas considerações... Aprendizagem incremental Um classificador Bayesiano por ir actulizando as suas estimativas Separababilide P(x,c i )>0 P(x,c j )=0 x Erro de Bayes = 0 ão separabilidade Inconsistência (com os atributos conhecidos): Um mesmo x, tanto pode pertencer a c i como c j Erro de Bayes > 0 Classificadores bayesianos: Classificador de Bayes Entra em linha de conta com custos MAP ML Assume custos iguais Assume classes equiprováveis aive de Bayes Assume independência entre atributos Erro de Bayes Erro do classificador bayesiano (geralmente MAP) Tema central Aprendizagem baseada em instâncias Victor Lobo Sistemas de aprendizagem que guardam exemplos dos dados Ex: Guardar a pomba típica ou som característico A classificação (ou decisão) é feita comparando a nova instância com os exemplos guardados Exemplos protótipos instâncias neurónios 3

4 V 3.0, V.Lobo, E/ISEGI, 005 Muitos nomes para a mesma coisa Estatística Kernel-based density estimation (Duda & Hart ) Locally-weighted regression (Hardle 90) Machine Learning Memory-based classification (Stanfill & Waltz ) Exemplar-based nowlegde acquisition (Bareiss 9) Instance-based classification (Aha 9) Case-based reasoning (Shan ) Lazy Learning ( Alpaydin 97) Redes euronais Prototype-based networs (Kohonen 95) RBF (Lowe ), LVQ, etc, etc... E muito, MUITO mais... (-means, -nn,etc,etc...) Fundamentos: Classificador óptimo escolhe classe mais provável: P(C x) = P(x C)P(C) / P(x) o caso de um classificador MAP, basta saber P(x C) Estimação de P(x C) quando os atributos de x têm valores contínuos: P(x C)=0, mas podemos calcular p(x C) o limite temos n p( x C) = / V Fundamentos n Para que p( x C) = / V É necessário que n, e V = um dado volume em torno da nova instância n= nº total de exemplos nesse volume =nº de exemplos que pertencem à classe C lim V = 0 n lim = n K-vizinhos Duas grandes famílias n=c te -vizinhos, vizinho mais próximo, etc V=c te Janelas de Parzen -vizinhos e vizinho mais próximo (=) Todos os exemplos são memorizados e usados na fase de aprendizagem. A classificação de um exemplo X consiste em encontrar os elementos do conjunto de treino mais próximos e decidir por um critério de maioria. Gasta muita memória!!! Algoritmo - vizinhos mais próximos Algoritmo de treino Para cada exemplo de treino (x, c(x)) adicionar à lista de exemplos de treino. Retorna lista de exemplos de treino. ão há dúvida é o mais simples!!! 4

5 V 3.0, V.Lobo, E/ISEGI, 005 Classificação por -vizinhos -earesteighbor(x, Exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna cˆ ( x) arg max δ( v, c( yi )) v V em que V é o conjunto de classes e Regressão por -vizinhos Algoritmo de regressão -earesteighbor(x, exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna cˆ ( x) c( y i ) δ ( x, y) 0 = se x se x y = y Fronteiras definidas pelo -nn Regressão linear grande Fronteiras suaves, ponderadas Estimador razoável da densidade de probabilidade pequeno Fronteiras mais rugosas, sensíveis a outrliers Mau estimador de densidade de probabilidade Margens de segurança Pode-se exigir uma diferença mínima para tomar uma decisão - Vizinho mais próximo 5 Vizinhos mais próximos 5

6 V 3.0, V.Lobo, E/ISEGI, 005 Exemplos de medidas de semelhança Distâncias Euclidiana Hamming Minowsi DM DMa ( X, Y, λ) Mahalanobis K λ λ = xi yi ( ) T ( X, Y, ϕ) = ( X Y ) Ψ[ ]( X Y ) KK Correlação ão normalizada C ( X, Y ) = X. Y = K x i y i Máxima correlação Cm K xi yi j j ( X, Y ) = max Classificação por -vizinhos pesados Algoritmo de classificação -earesteighbor(x, Exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna cˆ ( x) arg max ϖiδ( v, c( yi )) v V em que ϖi = D ( x, y) Regressão pelos -vizinhos pesados Algoritmo de classificação -earesteighbor(x, Exemplos de treino) Sejam y,, y, pertencentes à lista de exemplos de treino, os vizinhos mais próximos de x. Retorna ϖic( y i ) cˆ ( x) ϖi Vizinho mais próximo (=) É simples e eficaz Está muito bem estudado Erro assimptótico (quando n ) Zero, se as classes forem separáveis x erro de Bayes, se não o forem (Cover 7; Ripley 9; Krishna 00) Erro do vizinho mais próximo Com n finito,e c classes Fronteiras do vizinho mais próximo Partição de Voronoi do conjunto de treino E bayes E nneighbour E bayes c E c bayes + sup x X mx cebayes ( x)( ) c δ(x) é a função de semelhança (Draopoulos 95), que pode ser estimada, e tem geralmente um valor baixo

7 V 3.0, V.Lobo, E/ISEGI, 005 Problemas com -nn Exigem MUITA memória para guardar o conjunto de treino Exigem MUITO tempo na fase de classificação Variantes sobre - vizinhos São muito sensíveis a outliers São muito sensíveis à função de distância escolhida Só de pode resolver com conhecimento à priori... Edited earest eighbors Remover os outliers, e os exemplos demasiado próximos da fronteira Usar a regra de classificação (-nn) sobre o próprio conjunto de treino, e eliminar os exemplos mal classificados K=3 já produz bons resultados Minimização do nº de protótipos Reduzir o nº de protótipos resolve os primeiros problemas! Deixa de ser possível estimar p(x) Enquadramento formal Q-Sets Heurísticas Condensed earest eighbors ( = IB, RIBL, etc) Condensed earest eighbors [Hart ] Reduced earest eighbors [Gates 7] Let 3 Train Training Set 4 #train umber of patterns in the training set 5 C Condensed earest eighbor set 7 Do 9 C = {Train } 0 Repeat Additions =FALSE For i = to #train 3 Classify Train i with C 4 If Train i is incorrectly classified 5 C = C {Train i} Additions =TRUE 7 End_if End_for 9 Until Additions = FLASE Let 3 Train Training Set 4 #train umber of patterns in the training set 5 #cnn umber of patterns in the C set C Condensed earest eighbor set 7 R Reduced earest eighbor Set 9 Do 0 R = C For i = to #cnn 3 Let Candidate_R = R { Ri} 4 Classify all Train with Candidate_R 5 If all patterns in Train are correctly classified R = Candidate_R 7 End_if End_for 7

8 Cap. Aprendizagem Bayesiana e baseada em protótipos V 3.0, V.Lobo, E/ISEGI, 005 Toy problem para testes Double F ou Harts Problem Simples visualisação, fronteira complexa Distribuição uniforme nas áreas indicadas Usada por muitos autores como ref Harts problem com 400 padrões Avaliação experimental dos métodos - Gerar pontos para conjunto de treino - Aplicar o método para obter um classificador 3 - Gerar M pontos para conjunto de validação 4 - Calcular o erro E no conjunto de validação 5 - Repetir os passos -4 várias vezes, e calcular os valores médios e desvios padrões para: Erro, º de protótipos, Tempo de treino e classificação Cálculo do erro Qual o tamanho do conjunto de validação para estimar o erro? Para cada padrão de validação Erro médio ( y) = E( x ) = p E i ˆ ( erro) x = 0( certo) y = x i p p pˆ( pˆ) = ˆ σ ( p ( p) > 5) y C/ p % e =0e σ = 0.0% 0 Rotinas Matlab Class_plot(x,y,class) [vx,vy]=voronoi_boundary(x,y,class) [ c,cp ] = nn( t_data, t_label, x, ) [ c ] = nn_mat( t_data, t_label, x ) [cnn,cnn_label]=cnn(train, train_label ) [rnn,rnn_label]=rnn(train,train_label,cnn,cnn_label) outclass=selfclassify( dataset,inclass ) [data]=remove_col(data,index) Fronteiras típicas