Reconhecimento de Padrões. Reconhecimento de Padrões

Transcrição

1 Reconhecimento de Padrões Escola Superior de Tecnologia Engenharia Informática Reconhecimento de Padrões Prof. João Ascenso

2 Sumário: Métodos não paramétricos Introdução aos métodos não paramétricos Janelas de Parzen Método dos k vizinhos mais próximos Classificação com o método dos k vizinhos mais próximos Distâncias (métricas) Redução da dimensionalidade (PCA)

3 Métodos não paramétricos Na estimação de Bayes e de máxima verosimilhança a forma das probabilidades é conhecida: Na prática, as formas paramétricas mais conhecidas não são adequadas a muitos problemas do mundo real. Em particular, a maior parte das formas paramétricas são unimodais enquanto muitos problemas práticos envolvem densidades multimodais Uma forma de ultrapassar este obstáculo é utilizar uma mistura de densidades. A outra forma é utilizar a estimação de parâmetros não paramétrica

4 Técnicas de estimação de parâmetros não paramétrica Na estimação não paramétrica: Não se assume que se conhece a forma de distribuição. No entanto, calcula-se uma estimativa da função densidade de probabilidade a partir dos dados de treino. Existem dois tipos principais de estimação não paramétrica de parâmetros no reconhecimento de padrões: Estimação das funções de verosimilhança a partir das amostras de treino. Estimação directa das probabilidades à priori. O método mais simples de estimação de parâmetros é o método do histograma

5 Distribuição para características binárias As características só podem assumir os valores 0,1. Uma característica binária têm a probabilidade: P(x = 1) = p P(x = 0) = 1-p E escreve-se da forma: Px ( ) = p x (1 p) (1 x) Para um vector de d características i.i.d. d Px ( ) = p xi(1 p) i= 1 (1 x ) i

6 Método do histograma Divide-se o espaço de amostras em intervalos ou células e aproxima-se a densidade no centro de cada célula por uma fracção de pontos dos dados de treino: Intervalos de largura h e origem em x0,as células são definidas por: O histograma é definido como: ( ) x0 + mh; x0 + m 1 h

7 Método do histograma

8 Método do histograma h controla a granularidade da estimativa:

9 Método do histograma Se h é largo: A probabilidade no intervalo é estimada com mais fiabilidade, uma vez que é baseada num maior número de amostras. Por outro lado, a densidade estimada é plana numa região muito larga e a estrutura fina da distribuição é perdida. Se h é estreito: Preserva-se a estrutura fina da densidade, mas o grau de confiança diminui (no limite, pode haver intervalos sem amostras). Regra empírica: Sendo d o número de dimensões, o número de intervalos ou células deve ser: 1 ( ) d 1 n

10 Método do histograma: problemas Então, para ter n I intervalos por dimensão: d ( ) ( ) d + ni n sao necessarias n ni amostras de treino Exemplo: d=5;10 intervalos n 10 6 Problemas: 1 O histograma é descontínuo, é um artefacto da escolha dos intervalos. A escolha da origem pode ter um efeito significativo na estimativa da densidade. O número de intervalos cresce exponencialmente com o número de dimensões. Necessário um n.º elevado de amostras de treino. Não é muito usado, apenas para visualização dos dados

11 Conceitos fundamentais A maior parte das técnicas não paramétricas de estimação de parâmetros assentam nos seguintes teoremas: A probabilidade P que um vector x esteja contido na região R é dado por: P = p ( x) dx R Se tivermos n amostras, a probabilidade de k das n amostras fazerem parte de R é: P k n k = P k ) n k ( 1 P Ek [ ] = np

12 Conceitos fundamentais A distribuição binomial possui um pico muito acentuado em torno do valor esperado. O número de amostras observadas em R (k obs ) deve ser aproximadamente igual a k obs E[k] = np O que leva a P = k obs /n

13 Conceitos fundamentais

14 Conceitos fundamentais Se assumirmos p(x) como uma função contínua e a região R tão pequena que p(x) não varia, vamos ter: P = p ( x) dx p ( x ') V R em que x é um ponto na região R e V é o volume no espaço R Combinando as equações temos: p k obs ( x ') V / n

15 Conceitos fundamentais Existem duas aproximações nas relações anteriores: Se k (ou n) tender para infinito ou V convergir para zero. Então estas aproximações vão convergir para valores exactos

16 Conceitos fundamentais De forma a estimar a densidade em x defini-se as seguintes regiões que contêm o ponto x: R1, R2,..., Rn com 1, 2,..., n amostras k n / n p n ( x ) V De forma a p n (x) convergir para p(x): limv = 0 lim k n n n n Exemplos que cumprem estas condições: n kn = lim = 0 n n Parzen: O volume inicial Vo diminui: K-nn: Rn cresce até conter kn amostras: V n = Vo kn = n n

17 Conceitos fundamentais

18 Janelas de Parzen Assume-se que região Rn é um cubo com d dimensões e com o comprimento de cada contorno hn O número de amostras que se encontram na região Rn pode ser obtida analiticamente através da função de janela: ϕ( u) 1 u 1 j = 2 0 caso contrario O número de amostras e a estimativa para a densidade de probabilidade é dada por: k n x x n i = ϕ i= 1 hn p n ( x) n 1 = 1 x x ϕ n V = n hn i 1 i

19 Janelas de Parzen A função da janela φ é utilizada para interpolação: Cada amostra contribui para a estimativa de acordo com a sua distância a x. Se h n é muito grande então p n (x) é uma superposição de funções que variam pouco, sendo uma estimativa pouco fiável de p(x). Se h n é muito pequena então p n (x) é uma função de dirac e a sua estimativa é apenas a soma de pulsos pequenos. Com um número ilimitado de amostras p n (x) converge para p(x) para qualquer valor de h n. Com um número limitado de amostras, o melhor a fazer é procurar um compromisso

20 Janelas de Parzen Escolha das janelas de parzen

21 Janelas de Parzen

23 Condições de convergência Se p n (x) é uma variável aleatória que depende dos valores de {x 1,x 2,..., x n } com média e variância dadas por: A estimativa p n (x) converge para p(x) se: e as seguintes condições garantem convergência:

24 Janelas de Parzen Convergência da média

25 Janelas de Parzen Convergência da variância

26 Janelas de Parzen p(x) é uma normal: média zero variância unitária Univariada A função de janela é: ϕ( u) = 1 e 2π u p n (x) é uma média das densidades normais: p n n 1 1 x x i ( x) = ϕ n i= 1 hn hn

27 Janelas de Parzen Com duas densidades normais

29 Classificação utilizando Janelas de Parzen

30 Redes PNN (probabilistic neural networks) As janelas de Parzen podem ser implementadas como uma rede neuronal estatística. Considere n padrões com d dimensões, escolhidos aleatoriamente de c classes. A rede PNN consiste em: d unidades de entrada (input layer) n unidades intermédias (pattern layer) ligadas a apenas uma e só uma unidade de classe (output layer) Os pesos entre as unidades entrada e as unidades intermédias vão ser calculados através de uma fase de treino

31 Redes PNN (probabilistic neural networks)

32 Redes PNN - Treino

33 Redes PNN - Classificação

34 Redes PNN - vantagens Velocidade da aprendizagem. Memória reduzida. A classificação é realizada em paralelo. Novos padrões de treino podem ser incorporados facilmente

35 Estimação dos K n vizinhos mais próximos Um dos problemas com as janelas de Parzen é como determinar uma função de janela óptima. Outro problema é que as janelas de parzen dependem da selecção inicial do volume da célula V Uma solução é escolher o volume da célula de acordo com a distribuição dos dados. A estimação dos k vizinhos mais próximos permite resolver este problema: A região é agora em função dos dados de treino Para estimar p(x) em x, a região deve crescer até capturar k n amostras, onde k n é uma função especificada por n p n ( x ) k n V / n n

36 Exemplos

37 Exemplos

38 Exemplos

39 Estimação das probabilidades a Posteriori Todos os métodos estudados podem ser utilizados para obter as probabilidades a posteriori dos dados P(ω i x). Para uma célula de volume V em redor de x captura-se k amostras, das quais k i amostras pertencem a ω i p n ki / ( x, ω i) = V n P ( ω x) n i c pn( x, ωi) ki = = k pn( x, ω j) j= 1 Para obter o mínimo erro, escolhe-se a classe mais frequentemente representada na célula. Para um número suficientemente grande de células, as probabilidades a posteriori estimadas são fiáveis

40 Regra do vizinho mais próximo (NN) Ambos os métodos, janelas de parzen e Kn vizinhos mais próximos, podem ser utilizados para calcular as probabilidades a posteriori utilizando n-amostras de dados de treino. Esta probabilidade pode ser utilizada pela regra de Bayes. Uma abordagem radical é utilizar o método dos vizinhos mais próximos para classificar directamente os dados de treino desconhecidos regra do vizinho mais próximo. Enquanto a regra de Bayes (classificação MAP) é óptima para escolher entre as diferentes classes, a regra do vizinho mais próximo é sub-óptima

41 Regra do vizinho mais próximo Suponha que temos D n ={x 1,..., x n } amostras de treino classificadas (rotuladas). Seja x em D n o ponto mais próximo de x, que necessita de ser classificado. A regra do vizinho mais próximo consiste em atribuir ao elemento x a mesma classificação que o x. A regra do vizinho mais próximo cria partições no espaço de características em células de Voronoi

42 Regra do vizinho mais próximo

43 Limite para o erro Seja P* o mínimo erro possível (classificador MAP) Seja P o erro dado pela regra do vizinho mais próximo. Dado um número ilimitado de dados de treino podemos mostrar que: P * P P * (2 c c 1 P * )

44 Regra dos k-vizinhos mais próximo (KNN) As técnicas NN ou k-nn constróem directamente a regra de decisão sem estimar as densidades condicionadas às classes. Motivação: Padrões próximos no espaço de características possivelmente pertencem à mesma classe. Extensão do NN: a regra dos k-vizinhos mais próximos classifica x atribuindo-lhe a classe mais representada nos k vizinhos mais próximos do conjunto de treino. Por outras palavras, dado x procuramos as k amostras mais próximas. A classe mais frequente é atribuída a x. k é usualmente ímpar para evitar empates

45 Exemplo

46 Regra dos k-vizinhos mais próximos A selecção de k é um compromisso: Se k é muito alto alguns destes vizinhos k podem ter probabilidades diferentes. Se k é muito baixo A estimação pode não ser fiável. O comportamento óptimo é obtido à medida que k e n se aproxima de infinito

47 Regra do k-vizinhos mais próximo: métricas

48 Métricas O classificador dos vizinhos mais próximos baseia-se numa métrica ou função de distância entre dois padrões

49 Propriedades das métricas Não negativa: d(a,b) 0 Reflexiva: d(a,b) = 0 se e só se a = b Simétrica: d(a,b) = d(b,a) Inequação do triângulo: d(a,b) + d(b,c) d(a,c)

50 Métricas Distância de Minskowski, classe genérica de métricas para padrões com d dimensões: d L ( a, b) = a b k i i i= 1 k 1/ k Esta distância é parametrizável através do parâmetro k A distância euclidiana ou a norma L2 é dada por: L = d ( a, b) = a b 2 ( ) euclidiana i i i= 1 Dá mais ênfase às características com elevada dissimilaridade. d

51 Métricas A distância de manhattam, city-block ou diferença absoluta é calculada a partir da norma L1 : L1 = d ( a, b) = a b manhattam i i i= 1 Reduz tempo de cálculo em relação à distância euclidiana. Não é possível encurtar esquinas. d

52 Mais métricas Distância de máxima distância: d d ( a, b) = max b a max dist i i i= 1 Apenas considera o par de características mais distantes. Distância de Mahalanobis: d ( a, b) = x y Σ x y mahalanobis T ( ) 1 ( )

53 Variantes na decisão K-NNK Escolha da medida de distância no cálculo dos vizinhos No caso do conjunto de treino ser infinito, o desempenho é independente da métrica! Regra de k-nn com distâncias pesadas: Sejam x1,x2,..., xk os k vizinhos mais próximos da amostra a classificar x Seja dj = d(x,xj) Atribui-se um peso a cada vizinho xj de acordo com: ω j = d d k k d d j ω j Somam-se os pesos para os vizinhos pertencentes à mesma classe, atribuindo x à classe com maior peso

54 Exemplos de knn

55 Exemplos de knn (k=5)

56 Desvantagens e vantagens Propriedades ideais: Menos que 20 atributos por instância Muitos dados de treino Vantagens: O treino é rápido. Aprende funções complexas Desvantagens: As estimativas são sensíveis ao ruído. O método KNN produz estimativas com declives acentuados (heavy tails). A estimativa pode ter descontinuidades e o integral sobre todo o espaço de amostras diverge. A classificação é lenta. As estimativas podem se afastar muito se houver atributos irrelevantes

57 A maldição da dimensionalidade Uma história de horror: Suponha que os dados são descritos por n atributos, e.g. n=20 Apenas n são relevantes e.g. n = 2 Mau desempenho! Os problemas são usualmente tão maus como este ou mesmo piores (e.g. atributos correlacionados)! Maldição da dimensionalidade: O algoritmo dos k vizinhos mais próximos é usualmente enganado quando n é grande, i.e. dimensão de x é alta. Como solucionar este problema: Seleccionar características mais relevantes! Atribuir pesos às características Transformações que reduzem a dimensionalidade: PCA, SOM, etc

58 Redução da dimensionalidade Redução da dimensionalidade Triangulos Delaunay Voronoi (vizinhos mais próximos)

59 Redução da dimensionalidade (PCA) Noção Intuitiva: Porque motivo devemos usar transformadas que reduzem a dimensionalidade na aprendizagem supervisionada? Pode haver muitos atributos (ou características) com propriedades indesejadas. Irrelevância: xi têm pouco utilidade se as regiões de decisão g(x) = yi Dispersão da informação: a característica de interesse está espalhado por muitos xi s. Queremos aumentar a densidade de informação através da compressão de X Principal Components Analysis (PCA) Combina-se variáveis redundantes numa única variável, referida como componente, ou factor Factor Analysis (FA) Termo genérico para uma classe de algoritmos que incluem o PCA Tutorial:

60 Redução da dimensionalidade (PCA) Formulação do problema: Para o conjunto de dados {x 1,x 2,...,x n } temos: x i ={x 1 i,x 2 i,...,x d i} Assume-se que a dimensão d dos dados é alta. Pretende-se classificar x Problemas com dimensões elevadas: Se os conjunto de dados for pequeno: Confiança reduzida na estimativa de parâmetros. Overfit Atributos irrelevantes Muitas dimensões, poucos pontos

61 Principal Component Analysis (PCA) Objectivo: Pretende-se substituir os dados de entrada com uma dimensão elevada por um conjunto mais reduzido de características PCA: Transformação linear da entrada x de d dimensões para m dimensões de forma a que m < d e preservar o máximo de variância para os dados. Equivalentemente, é uma projecção linear para a qual o erro quadrático médio é minimizado

62 PCA

63 PCA

64 PCA

65 PCA

66 Método PCA O PCA é uma técnica de projecção linear: onde u são os dados com m dimensões, x são os dados originais com d dimensões e W é uma transformação linear. O W guarda os vectores de projecção que devem: Maximizar a variância dos dados transformados. ou fornecer distribuições não correlacionadas. ou minimizar os erro de reconstrução quadrático O W é constituído por funções (ou vectores) de base. u = W( x µ )

67 Obter as funções de base Pretende-se encontrar as funções de base que permitem a melhor aproximação dos dados, preservando o máximo de informação possível! Formalização: substituir d dimensões por M de z i coordenadas que representam x. Pretende-se obter o subconjunto M das funções de base. O erro para cada x n é:

68 Obter as funções de base Diferencia-se a função de erro em relação a todo o b i e iguala-se a zero: Rescrevendo: O erro é mínimo quando os vectores de base satisfazem:

69 Funções de base As melhores funções de base : eliminar d-m vectores com os valores próprios mais pequenos (ou manter os M vectores com os maiores vectores próprios) Os vectores próprios u i são referidos como componentes principais. Depois dos vectores próprios u i serem calculados, podemos transformar os dados de d dimensões em m dimensões. Para encontrar a verdadeira dimensionalidade dos dados basta encontrar os valores próprios que contribuem mais (os pequenos valores próprios são eliminados)

70 Algoritmo PCA completo Suponha que têm x 1, x 2,..., x M vectores de n 1 Passo 1: Cálculo da média µ i Passo 2: Subtrair a média aos dados v i = x i µ i Passo 3: Formar a matriz A = [v 1 v 2... v m ] (NxM) e calcular a matriz de covariância C = AA T Passo 4: Calcular os valores próprios e vectores próprios de C. Passo 5 (Redução da dimensionalidade): manter apenas os termos correspondentes aos K valores próprios maiores

71 Exemplo com duas dimensões GO

72 Exemplos do PCA x 2 y 2 z y z x

73 Como escolher a dimensionalidade (m) Como definir a dimensionalidade dos dados transformados? Proporção da variância retida: m é tipicamente 90% ou 95%. O resto é ruído!

74 Exemplos de PCA: Faces

75 Exemplos de PCA: Faces

76 Problemas do PCA Problemas: O PCA é um método linear. A verdadeira dimensionalidade pode ser sobre estimada. Os dados podem ser correlacionados de uma forma não linear. Existem muitas técnicas nesta área: NPCA (Nonlinear PCA): As projecções são não lineares. ICA (Independent Component Analysis): descorrelaciona totalmente as componentes