Markov random field - MRF Renato Assunção DCC-UFMG A partir de material de J. Chang
Processo e campo estocástico Processo estocástico: E uma coleção de v.a. s {X t : t T} T reta real, por e, um intervalo ou {0,1,2,..} Tipicamente, T e o tempo Campo aleatório: E uma coleção de v.a. s {X s : s S} S não precisa ser subconjunto da reta S pode ser conjunto de pontos de um plano ou vértices de um grafo.
Grafos como representação Mapa dividido em pequenas áreas Cada área e um vértice Aresta conectando os que partilham fronteiras Imagem: piels Rede social Web: coneão entre paginas
Definição
Definição
Notação VEJA QUE O GRAFO (E estrutura de vizinhança) e FIXO A PRIORI. NÃO EXISTE ALEATORIEDADE NAS ARESTAS. (não eiste ainda...)
Notação
Warning
HMM no tempo X t is hidden a Markov chain We observe Y t
HMM no plano
Especificação de um MRF Uma CADEIA de Markov e especificada fornecendo: A distribuição inicial A matriz de transição entre estados A partir desses elementos podemos calcular (em tese) o que quisermos. Podemos também gerar realizações da cadeia. E um MRF? Veja a definição de novo:
Especificar MRF com condicionais? Podemos então simplesmente declarar distribuições para cada vértice condicionado em sua vizinhança? Não: podemos terminar com inconsistências.
UM 1º eemplo simples Apenas dois vértices, X e Y, e uma aresta y X e Y estão no intervalo (0,1) X Y
UM 1º eemplo simples Apenas dois vértices, X e Y, e uma aresta y X e Y estão no intervalo (0,1) Vizinho de X e Y Defina X Y=y ~ Unif(0, y) X Y
UM 1º eemplo simples Apenas dois vértices, X e Y, e uma aresta y X e Y estão no intervalo (0,1) Vizinho de X e Y Defina X Y=y ~ Unif(0, y) pontos (X,Y) devem ser da forma X < Y X Y
UM 1º eemplo simples pontos (X,Y) devem ser da forma X < Y Vizinho de Y e X Defina Y X= ~ Unif(0, ) Devemos ter Y < X contradição X Y
UM 1º eemplo simples Apenas dois vértices, X e Y, e uma aresta y X e Y estão no intervalo (0,1) Vizinho de X e Y Defina X Y=y ~ Unif(0, y) Vizinho de Y e X Defina Y X= ~ Unif(0, )
Especificação das condicionais Precisamos ter cuidado para especificar uma distribuição sobre os vértices que seja consistente. Precisamos colar as distribuições condicionais de cada vértice dada a sua vizinhança.
Um 2º. Eemplo Em cada piel X i temos 0 (branco) ou 1 (preto) Especificar p(x 1, X 2,..., X 9 )
Piel central
Piels com 3 vizinhos
Piels dos 4 cantos
p(x 1,..., X 9 ) não eiste Não eiste nenhuma distribuição conjunta p(x 1,..., X 9 ) tal que suas distribuições condicionais sejam aquelas que escolhemos. Prova:
p(x 1,..., X 9 ) não eiste
Eiste uma saída: teorema de HC
Definições Complete set: se todo par de vértices distintos e formado por vizinhos par {6, 4} par {4, 5} par {2,5} par {2, 5, 1} Veja que o último complete set contem o penúltimo complete set. NÃO SÃO complete sets: {6, 3} e {1, 2, 5, 4}
Definições MAXIMAL Complete set: conjunto completo tal que se qualquer vértice e adicionado, ele deia de ser completo. OU complete set C tal que não eiste outro conjunto completo D tal que C esteja estritamente contido em D Maimal complete sets = CLIQUES par {4, 5} par {2, 5, 1} par {2, 5} e completo mas não e clique
Definições A graph with 23 1-verte complte sets (its vertices), 42 2-verte complete sets (its edges), 9 3-verte complete sets (the light and dark blue triangles), and 2 4-verte complete sets (dark blue areas). The si edges not associated with any triangle and the 11 light blue triangles form maimal cliques (cliques). The two dark blue 4-cliques are maimal (cliques).
Definição: Gibbs distribution
Eemplo Uma distribuição de Gibbs sobre o grafo G abaio e QUALQUER distribuição cuja densidade seja da seguinte forma: ),, ( ), ( ), ( ), ( ), ( ) ( ) ( ) ( ) ( ) ( 3 2 1 123 4 2 24 3 2 23 3 1 13 2 1 12 4 4 3 3 2 2 1 1 p p p p p p p p p p 1 2 3 4
Eemplo Podemos agrupar os fatores associados com as cliques maimais e ter apenas um fator para cada clique maimal: p( ) p24( 2, 4) p123( 1, 2, 3) 1 2 4 3
Teorema de Hammersley-Clifford
Teorema de Hammersley-Clifford
Teorema de Hammersley-Clifford WHY?? A outra direção da prova: ver livro
Não entendi... A prova da direção fácil: não e tão obvio assim que seja suficiente mostrar que a razão depende apenas da vizinhança. Uma prova mais direta e mostrada a seguir Etraída do livro de Stan Li, MRF modeling in image analysis
Prova Gibbs w.r.t. G MRF w.r.t. G
MRFs etremos MRF com clique maimal e o grafo completo p() =...????... p() Não eiste nenhuma economia em descrever como um MRF MRF com cliques maimais sendo os vertices individuais: p() = p 1 ( 1 )...p n ( n ) As variáveis nos vértices são independentes Não eiste interação real entre os vértices.
Os casos mais interessantes Os casos intermediários entre estes etremos são os mais interessantes. Um dos modelos MRF mais comuns usa apenas PARES de vértices como cliques maimais (pairwise interaction potentials) As vezes, escrevemos como j i j i ij i i i j i j i ij i i i e e cte p p cte p ~ ), ( ) ( ~ * ), ( ) ( * ) ( j i j i ij j i j i ij e cte p cte p ~ ), ( ~ * ), ( * ) (
Pair-wise MRF X is a pair-wise MRF if 1 P[ X ] i( i ) ij( Z i V ( ij) E i, j ) for some 2 and : R. i : R ij Z is called the partition function of the above epression. 1 X 1 12 X 2
Problem of Interest 1: Computing Maimum A Posteriori (MAP) MAP(Maimum A Posteriori) assignment Most likely assignment (mode of the distribution) NP-hard to compute in general Corresponds to an optimization problem Heuristics or approimation algorithms for specific MRFs are commonly used * n
Eample 1 : Image denoising We want to restore a binary (-1/+1) image Y of size 100 100 with noise added. Consider Y as an element of { 1,1} 10000. Y We will use an MRF model to restore the original image. The underlying graph is a grid graph of size 100 100.
Eample 1 : Image denoising We will utilize two properties of the original image It is similar to Y. It is smooth, i.e. number of edges with different color is small. Define the following MRF, where 10000 X { 1,1}. P[ X ] ep( v V Y v v C u ( u, v) E the original image * X MAP assignment ˆX * : an estimate of the original image v ). Y X * X *
O caso 1-dim Hidden Markov chain model Cadeia de Markov X 1, X 2, etc. NÃO OBSERVAMOS X t DIRETAMENTE Observamos uma versão corrompida de X t Serie temporal observada e Y 1, Y 2, etc. Em geral, a serie Y t não e uma cadeia de Markov
Modelo Gráfico Hidden Markov model: HMM A e a matriz de transição da cadeia de Markov X t distribuição inicial da cadeia de Markov (de X 0 ) B e a descrição probabilística de como X t e corrompido e transforma-se no Y t observado
Eemplo Imagine que temos os seguintes parâmetros: A(i,j) = P(X t+1 =j X t =i) (i) = P(X 0 = i) X começa sempre em 2 B(i,j) = P(Y t =j X t =i)
Processo observado Yt
Yt e Xt
Yt e Xt
Veja script em R Na pagina da disciplina, veja script em R para gerar e corromper gerando y. Em seguida, fazemos inferência sobre usando apenas y (e as matrizes do modelo)
Resultado: que tal? Nada mal, hum? Sequencia escondida Estimativa via Gibbs Sampler