23 3 Modelos de Markov Oculos 3.. Processos Esocásicos Um processo esocásico é definido como uma família de variáveis aleaórias X(), sendo geralmene a variável empo. X() represena uma caracerísica mensurável de ineresse no empo. Exemplificando, X() pode represenar o nível de esoque de um produo no fim do dia. Processos esocásicos são usados para descrever o comporameno ao longo de um período de empo de um sisema onde a incereza é significaiva. Em ermos mais formais, a variável aleaória X() represena o esado do sisema no insane. Os processos esocásicos podem ser classificados: Em relação ao esado: Esado discreo: X() é definido sobre um conuno enumerável ou finio, Esado conínuo: caso conrário. Em relação ao empo: Tempo discreo: é finio ou enumerável, Tempo conínuo: caso conrário. 3.2. Processos Markovianos Um processo esocásico é dio markoviano se a probabilidade do processo esar em um dado esado, em um insane qualquer no fuuro, condicionada à seqüência complea de esados aé o presene permanece a mesma quando condicionada apenas ao esado presene. Usando a noação q para designar a variável aleaória X(), as probabilidades condicionais P( q + = S q = Si ) são denominadas probabilidades
24 de ransição e represenam, a probabilidade do esado q + ser S no insane + dado que o esado q é S i no insane. 3.3. Cadeias de Markov Um processo markoviano é uma cadeia de Markov quando as variáveis aleaórias X() esão definidas em um espaço de esados discreo. Consideram-se sisemas que podem ser descrios como esando em qualquer insane de empo em um esado de um conuno de esados disinos (S, S 2,..., S ) como ilusrado na figura (onde = 3 para simplificar a explicação). a a 22 a 3 S a 2 a 2 a 3 S 2 a 23 S 3 a 33 Figura - Cadeia de Markov com 3 esados (S a S 3 ), onde as seas indicam as ransições possíveis enre os esados. Para insanes de empo igualmene espaçados, o sisema passa por uma mudança de esado (podendo reornar ao mesmo esado) de acordo com um conuno de probabilidades de ransição. Cada insane de empo, onde ocorrem as mudanças de esado, é descrio por =, 2,..., e o esado no empo é denoado com o símbolo q, considerando um espaço de empo discreo. Uma descrição probabilísica complea do sisema requer a especificação do esado presene (no empo ) e ambém dos esados aneriores. Para o caso especial de uma cadeia de Markov de primeira ordem, essa descrição pode ser runcada apenas no esado presene e no seu anecessor: P( q = S q = Si,q 2 = S k,...) = P( q = S q = Si ) Equação
25 Considerando processos em que o lado direio da equação é independene do empo, em-se um conuno de probabilidades de ransição de esado a i : a = q = S q = S ), i,. Equação 2 i P( i As probabilidades de ransição de esado êm as seguines propriedades: a 0 Equação 3a i= i a = Equação 3b i Quando as probabilidades de ransição não se aleram ao longo do empo, diz-se que o processo é esacionário. O processo esocásico mencionado acima poderia ser chamado de modelo de Markov observável uma vez que a saída do processo é um conuno de esados em cada insane de empo, onde cada esado corresponde a um eveno físico observável. 3.4. Modelos de Markov Oculos os modelos de Markov descrios aneriormene, cada esado corresponde a um eveno físico observável. Essa caracerísica orna esses modelos muio resrios para solução de diversos problemas de ineresse. Para eses casos aplicase uma exensão chamada de modelos de Markov oculos (do inglês: Hidden Markov Models - HMM), onde o esado não é direamene observável, mas uma observação é uma função probabilísica do esado. Um HMM é um processo duplamene esocásico composo por um processo laene que não é observável (hidden), mas que se manifesa aravés de um ouro processo esocásico o qual produz uma seqüência de símbolos observáveis (Bunke & Caelli, 200).
26 3.4.. Elemenos de um Modelo de Markov Oculo Em um HMM, as observações (v i ) são símbolos emiidos por esados não observáveis (S i ) de acordo com deerminadas funções probabilísicas, sendo que cada seqüência de esados é uma cadeia de Markov de primeira ordem. A figura 2 ilusra um HMM, sendo o número de esados do modelo (o conuno dos esados individuais é represenado por S = {S,,S } e o esado no empo pelo símbolo q ) e M o número de símbolos disinos observáveis (o conuno dos símbolos individuais é represenado por V = {v,, v M }). Um HMM básico é consiuído de 3 conunos de parâmeros principais:. as probabilidades de emissão de símbolo B = {b k } a probabilidade do símbolo v k ser emiido pelo esado S, i.e. b k = P( v em q = S ), e k M Equação 4 k 2. as probabilidades de ransição de esado A = {a i } a probabilidade de esar no esado S no insane de empo subseqüene dado que o esado aual é S i, i.e. a i = P( q + = S q = S ), i, Equação 5 i 3. A disribuição de probabilidade a priori π = {π i } do sisema esar em um dado esado S i no insane inicial de empo (não mosrado na Figura 2), i.e. π i = P( q = S ), i Equação 6 i Com respeio à figura 2, se o sisema pode passar de um esado S i para ouro S, a i >0 e se esses dois esados não são conecados, a i = 0. Apesar dos esados serem escondidos, em muias aplicações práicas, eses possuem significado físico relevane para o problema em quesão. Ese é o caso da aplicação alvo do presene rabalho, em que os esados esão associados aos eságios fenológicos de culuras agrícolas.
27 a a a 2 a 33 a a 2 S S 2 S b b b b 2 b M 2M b 3 b 22 b 23 b 2 b b 3 b M 2 v v 2 v 3 v M Figura 2 - Exemplo de um modelo de Markov Oculo (S i esados, v k símbolos observáveis, a i probabilidade de ransição de esado, b k probabilidade de emissão de símbolo). 3.4.2. Problemas básicos associados a HMMs A maioria das aplicações de HMMs envolve a solução de aé rês problemas principais: Problema : Considere uma seqüência de observações O = {O,, O M }. Dado o modelo λ = (A,B,π), calcular P(O λ) (a probabilidade de que o modelo λ gere a seqüência de observações O). Problema 2: Para uma seqüência de observações O = {O,, O M }, dado o modelo λ = (A,B,π), deerminar a seqüência dos esados Q = {q,,q }, de modo que P(S,O λ) (disribuição de probabilidade conuna das seqüências de observações, O, e de esados S, dado o modelo λ) sea máxima. Problema 3: Esimar os parâmeros do modelo λ = (A,B,π) de modo que P(O λ) ou P(S,O λ) sea maximizada. O problema de classificação de culuras agrícolas, que é o ema do presene rabalho, corresponde ao problema. O problema 2 consise em revelar a pare ocula do sisema, na aplicação alvo, deerminar o eságio fenológico em que se enconra cada culura em cada daa. Ambos os problemas são, porano relevanes nese rabalho.
28 O problema 3, em que se esimam os valores dos parâmeros do modelo, pressupõe a inexisência de dados de reinameno roulados. Para a aplicação alvo dese rabalho esá disponível um conuno de dados em que o modelo (culura), os esados (eságios fenológicos) e os símbolos emiidos (resposas especrais) são conhecidos. A parir desa informação, podem-se esimar direamene os parâmeros do modelo, como será descrio na Seção 4.2. Por isso o exo que se segue não apresena a solução do problema 3. Dealhes sobre méodos de solução do problema 3 podem ser enconrados, por exemplo, em (Rabiner, 989). 3.4.3. Soluções para os problemas e 2 associados a HMMs 3.4.3.. Solução do problema Desea-se calcular P(O λ), ou sea, a probabilidade de que o modelo dado λ produza a seqüência de observações, O = {O O 2 O T }, sendo T o número de observações na seqüência. Esa probabilidade pode ser calculada aravés de um procedimeno que consise de duas eapas, denominadas direa e reversa. A) A eapa direa: Sea α i a probabilidade (chamada usualmene na lieraura de direa) da seqüência parcial de observações, { O O... } O 2 =, aé o empo e de que o sisema esea no esado S i no empo, dado o modelo λ, ou sea, O α (i) = P( O O2...O,q = Si λ) Equação 7 O valor de α (i) pode ser calculado induivamene, pelos seguines rês passos:. Inicialização: α i) = b ( ), i Equação 8 ( π i i O 2. Indução: α + ( ) = α ( i) ai b ( O+ ), i T- e i= Equação 9
29 3. Terminação: P(O λ) = α ( i). i= T Equação 0 o primeiro passo a probabilidade direa é iniciada como a probabilidade conuna do esado S i e da observação inicial O. O passo de indução, a eapa mais imporane do cálculo, é ilusrada pela figura 3. Esa figura mosra que o esado S pode ser alcançado no insane + parindo-se de qualquer um dos esados possíveis, S i, i, no empo. Como α (i) é a probabilidade de O O2... O ser observada e o esado no empo ser S i, o produo α(i)a i é enão a probabilidade de O O2... ser observada e o esado S ser alcançado no empo + via o esado S i O no empo. Somando ese produo para odos os esados possíveis S i, i, no empo obém-se a probabilidade de esar em S no empo + com odas as observações parciais aneriores. Tendo sido calculado ese valor e conhecendo-se o esado S, é fácil noar que α + () é obido agregando-se a informação sobre a observação O + à informação sobre o esado S, ou sea, muliplicando-se o valor do somaório pela probabilidade b ( O + ). O cálculo da equação 9 é feio para odos os esados S,, e para =, 2,..., T-. O cálculo de P(O λ) é enão a soma das variáveis direas finais α T (i) á que α T (i) = P( O... O2 OT, qt = Si λ ). O cálculo da probabilidade direas é ilusrado pela esruura mosrada na figura 4. S S 2 a a 2 S a S α (i) + α + () Figura 3 - Ilusração das seqüências de operações necessárias para o cálculo da variável direa α + ().
30 S Esado S 2 S 2 3 T Observação, Figura 4 - Procedimeno de cálculo de α + () em função dos insanes das observações e dos esados S i B) A eapa reversa: De maneira similar ao procedimeno descrio aneriormene, sea a variável β (i) (chamada usualmene na lieraura de reversa) definida como β ( i ) = P( O+ O+ 2... OT q = Si, λ), Equação i.e., β (i) é a probabilidade da seqüência parcial de observações de + aé o fim, { O O... O } + +2 T dados o esado S i no empo e o modelo λ. O valor de β (i) pode ser calculado induivamene, segundo os seguines 3 passos:. Inicialização: 2. Indução: β ( i) =, i Equação 2 T ( i + + = β i) = a b ( O ) β ( ), = T-, T-2,..., e i Equação 3 A eapa de inicialização define β T (i) arbirariamene como para odos os valores de i. A eapa de indução, ilusrada na figura 5, mosra que, para esar no esado S i no empo endo em visa a seqüência de observações do empo + em diane, é preciso considerar a possibilidade de que o sisema modelado esará em qualquer um dos possíveis esados S no empo +. Iso é feio levando em cona a ransição de S i para S (o ermo a i ) para, assim como a observação O + no esado S o ermo b (O + ) e a seqüência parcial de observações resanes a
3 parir do esado S (o ermo β + ()). β (i) é calculdo para T e i. O cálculo da probabilidade reversa é ilusrado por uma esruura similar à mosrada na figura 4. a i a i2 S S 2 S i a i S β (i) + β + () Figura 5 - Ilusração das seqüências de operações necessárias para o cálculo da variável reversa β + (). ese rabalho foi escolhido o procedimeno direo apesar da resposa dos dois procedimenos ser semelhane. 3.4.3.2. Solução do problema 2 Diferenemene do problema para o qual uma solução exaa pode ser obida, exisem diversas maneiras possíveis de resolver o problema 2. Uma écnica formal para achar a melhor seqüência de esados exisene é o algorimo de Vierbi. Algorimo de Vierbi: Parar achar a seqüência óima de esados, Q = {q q 2...q T }, endo em visa uma dada seqüência de observações O = {O O 2...O T }, define-se a variável δ (i) : δ ( i) = max P( qq2... q = Si, OO2... O q, q2,..., q λ) Equação 4
32 i.e., δ (i) é a probabilidade do caminho (seqüência de esados) mais provável que leva ao esado S i no empo, considerando as primeiras observações. Para indução em-se δ + ( ) = max[ δ ( i) ai ]. b ( O+ ) Equação 5 i Para recuperar a seqüência de esados é necessário armazenar a informação sobre o argumeno que maximizou a equação 5, para cada e. Iso é feio aravés da variável ψ ( ). O procedimeno compleo de obenção da seqüência de esados pode ser resumido da seguine forma:. Inicialização: δ i) = b ( ), i ( π i i O ψ ( i) 0. = Equação 6 Equação 7 2. Recursão: δ ) = max [ δ ( i ) a ] b ( O ), 2 T e ( i i ψ ) = arg max[ δ ( i) a ], 2 T e ( i i Equação 8 Equação 9 3. Terminação: P * = max[ δ ( i)] i T Equação 20 q * T = arg max[ δ ( i)] i Equação 2 4. Levanameno da seqüência de esados: * q ( * = ψ + q+ ), = T-, T-2,... Equação 22 É imporane desacar que a implemenação do algorimo de Vierbi é similar (exceo pela eapa de levanameno da seqüência de esados) ao cálculo das equações 8 a 0 (procedimeno direo). A maior diferença é a maximização
33 (equação 8) dos esados aneriores que é usada no lugar do procedimeno de soma na equação 9. Cabe ressalar que a esruura mosrada na figura 4 ambém ilusra o algorimo de Vierbi. Mais dealhes sobre soluções dos problemas relacionados aos HMMs e aos HMMs em si enconram-se em (Rabiner, 989).