Modelos de Markov e Aplicações



Documentos relacionados
Probabilidade Intervalar e Cadeias de Markov Intervalares no Maple 1

MÓDULO 6 INTRODUÇÃO À PROBABILIDADE

Espaço Amostral ( ): conjunto de todos os

Cadeias de Markov. Geovany A. Borges

Cálculo das Probabilidades e Estatística I

Algoritmos e Estrutura de Dados III. Árvores

Arquitetura de Rede de Computadores

AV2 - MA (a) De quantos modos diferentes posso empilhá-los de modo que todos os CDs de rock fiquem juntos?

Eventos independentes

MAT 461 Tópicos de Matemática II Aula 3: Resumo de Probabilidade

Módulo VIII. Probabilidade: Espaço Amostral e Evento

Dois eventos são disjuntos ou mutuamente exclusivos quando não tem elementos em comum. Isto é, A B = Φ

PROBABILIDADE PROFESSOR: ANDRÉ LUIS

Universidade Federal do Paraná Departamento de Informática. Reconhecimento de Padrões. Revisão de Probabilidade e Estatística

CAP. I ERROS EM CÁLCULO NUMÉRICO

Bases Matemáticas. Aula 2 Métodos de Demonstração. Rodrigo Hausen. v /15

Simulado OBM Nível 2

a 1 x a n x n = b,

x0 = 1 x n = 3x n 1 x k x k 1 Quantas são as sequências com n letras, cada uma igual a a, b ou c, de modo que não há duas letras a seguidas?

PÓS GRADUAÇÃO EM CIÊNCIAS DE FLORESTAS TROPICAIS-PG-CFT INSTITUTO NACIONAL DE PESQUISAS DA AMAZÔNIA-INPA. 09/abril de 2014

PROBABILIDADE Prof. Adriano Mendonça Souza, Dr.

Somatórias e produtórias

UNIVERSIDADE DE SÃO PAULO. Faculdade de Arquitetura e Urbanismo

Diagrama de transição de Estados (DTE)

4 Avaliação Econômica

O conceito de probabilidade

Probabilidade. Definições e Conceitos

C Curso destinado à preparação para Concursos Públicos e Aprimoramento Profissional via INTERNET RACIOCÍNIO LÓGICO AULA 7

Autómatos Finitos Determinísticos

Análise de Arredondamento em Ponto Flutuante

Aula 11 Esperança e variância de variáveis aleatórias discretas

1. Avaliação de impacto de programas sociais: por que, para que e quando fazer? (Cap. 1 do livro) 2. Estatística e Planilhas Eletrônicas 3.

2. Método de Monte Carlo

Contagem I. Figura 1: Abrindo uma Porta.

Exercícios Resolvidos sobre probabilidade total e Teorema de Bayes

2aula TEORIA DE ERROS I: ALGARISMOS SIGNIFICATIVOS, ARREDONDAMENTOS E INCERTEZAS. 2.1 Algarismos Corretos e Avaliados

O que é a estatística?

Universidade Federal de Uberlândia Brasil

Exercícios Teóricos Resolvidos

Erros. Número Aproximado. Erros Absolutos erelativos. Erro Absoluto

A presente seção apresenta e especifica as hipótese que se buscou testar com o experimento. A seção 5 vai detalhar o desenho do experimento.

6.3 Equivalência entre Autômatos com Pilha Não-Determinísticos e Gramáticas Livre do Contexto

RELATÓRIO DE ANÁLISE DO COMPORTAMENTO

Regra do Evento Raro p/ Inferência Estatística:

O Problema do Troco Principio da Casa dos Pombos. > Princípios de Contagem e Enumeração Computacional 0/48

Capítulo 2 Endogamia. Acasalamentos Preferenciais. Introdução

UNIVERSIDADE ESTADUAL DE CAMPINAS. Instituto de Matemática, Estatística e Computação Científica

MLP (Multi Layer Perceptron)

Estruturas Discretas INF 1631

Material Teórico - Módulo de Divisibilidade. MDC e MMC - Parte 1. Sexto Ano. Prof. Angelo Papa Neto

Cálculo Numérico Aula 1: Computação numérica. Tipos de Erros. Aritmética de ponto flutuante

2 Modelo Clássico de Cramér-Lundberg

Modelagem e Simulação Material 02 Projeto de Simulação

BC-0005 Bases Computacionais da Ciência. Modelagem e simulação

Mestranda: Márcia Maria Horn. Orientador: Prof. Dr. Sandro Sawicki

Geração de Números Aleatórios e Simulação

CAPÍTULO 3 - TIPOS DE DADOS E IDENTIFICADORES

Lista de Exercícios 4: Soluções Sequências e Indução Matemática

O tornado de projeto é admitido, para fins quantitativos, com as seguintes características [15]:

Organizaçãoe Recuperaçãode Informação GSI521. Prof. Dr. Rodrigo Sanches Miani FACOM/UFU

Cláudio Tadeu Cristino 1. Julho, 2014

Contagem. Prof. Dr. Leandro Balby Marinho. Matemática Discreta. Fundamentos Inclusão/Exclusão Princípio da Casa dos Pombos Permutações Combinações

O ESPAÇO NULO DE A: RESOLVENDO AX = 0 3.2

6 Construção de Cenários

Universidade Federal do ABC. Sinais Aleatórios. Prof. Marcio Eisencraft

ISO/IEC 12207: Gerência de Configuração

Soluções Nível 1 5 a e 6 a séries (6º e 7º anos) do Ensino Fundamental

Expansão linear e geradores

2 A Derivada. 2.1 Velocidade Média e Velocidade Instantânea

3 Matemática financeira e atuarial

LINKAGE E OS MAPAS GENÉTICOS

MD Teoria dos Conjuntos 1

Computabilidade 2012/2013. Sabine Broda Departamento de Ciência de Computadores Faculdade de Ciências da Universidade do Porto

I. Experimentos Aleatórios

Dicas para a 6 a Lista de Álgebra 1 (Conteúdo: Homomorfismos de Grupos e Teorema do Isomorfismo para grupos) Professor: Igor Lima.

Lógica e Raciocínio. Decisão sob Risco Probabilidade. Universidade da Madeira.

Correlação e Regressão Linear

Histogramas. 12 de Fevereiro de 2015

4 Segmentação Algoritmo proposto

Guia Site Empresarial

7- Probabilidade da união de dois eventos

Simulação Transiente

Simulação Estocástica

Prof. Raul Sidnei Wazlawick UFSC-CTC-INE. Fonte: Análise e Projeto de Sistemas de Informação Orientados a Objetos, 2ª Edição, Elsevier, 2010.

Ivan Guilhon Mitoso Rocha. As grandezas fundamentais que serão adotadas por nós daqui em frente:

ANALISE COMBINATORIA Um pouco de probabilidade

APLICAÇÕES DA DERIVADA

VI SEMANA DE MATEMÁTICA DA UESC

Departamento de Matemática - UEL Ulysses Sodré. Arquivo: minimaxi.tex - Londrina-PR, 29 de Junho de 2010.

Cálculo do conjunto paralelo

RESOLUÇÃO DAS QUESTÕES DE RACIOCÍNIO LÓGICO-MATEMÁTICO

Matemática SSA 2 REVISÃO GERAL 1

AULA 6 LÓGICA DOS CONJUNTOS

INSTITUTO DE APLICAÇÃO FERNANDO RODRIGUES DA SILVEIRA (CAp/UERJ) MATEMÁTICA ENSINO MÉDIO - PROF. ILYDIO SÁ CÁLCULO DE PROBABILIDADES PARTE 1

Capítulo 7 Medidas de dispersão

Organização e Arquitetura de Computadores I

Conceitos e fórmulas

9. Derivadas de ordem superior

As fases na resolução de um problema real podem, de modo geral, ser colocadas na seguinte ordem:

Resíduos Quadráticos e Fatoração: uma aplicação à criptoanálise do RSA

Transcrição:

Modelos de Markov e Aplicações Graçaliz P Dimuro 1 Renata H S Reiser 1 Antônio C R Costa 12 Paulo L R Sousa 3 1 Escola de Informática Universidade Católica de Pelotas Rua Felix da Cunha 412 96010-140 Pelotas RS 2 Programa de Pós-Graduação em Computação Universidade Federal do Rio Grande do Sul Caixa Postal 15064 90501-970 Porto Alegre RS 3 Mestrado em Saúde e Comportamento Universidade Católica de Pelotas Rua Felix da Cunha 412 96010-140 Pelotas RS {lizreiserrocha}@atlasucpeltchebr Abstract This tutorial presents the basic concepts concerning Markov chains in particular regular and absorbing chains The principal concepts of Hidden Markov Models are also presented Some applications of these models are shown Resumo Este tutorial apresenta os conceitos básicos das cadeias de Markov ressaltando principalmente as cadeias regulares e as absorventes Também apresentam-se os principais conceitos sobre os modelos de Markov ocultos Exemplos ilustrativos foram incluídos para mostrar as potencialidades de aplicação destes modelos 1 Introdução Um processo de Markov é um processo estocástico cujo comportamento dinâmico é tal que as distribuições de probabilidade para o seu desenvolvimento fututo depende somente do estado presente não levando em consideração como o processo chegou em tal estado Os processos markovianos são modelados formalmente por sistemas de transições de estados onde os estados são representados em termos de seus vetores probabilísticos que podem variar no espaço temporal (discreto ou contínuo e as transições entre estados são probabilísticas e dependem apenas do estado corrente Se o espaço de estados é discreto (enumerável então o modelo de Markov é denominado de cadeia de Markov [17 19] As propriedades desses modelos são estudadas em termos das propriedades das matrizes de transições de estados que são utilizadas na sua descrição Existem processos de Markov que são modelados como aproximações do mundo real onde nem todos os estados são perfeitamente conhecidos Nestes casos diz-se que o modelo é escondido e a questão central em torno desses modelos é o grau com que são capazes de capturar a essência do processo escondido sob eles Este trabalho foi parcialmente financiado pela FAPERGS e CNPq

O estudo dos modelos de Markov têm uma aplicação muito ampla em várias áreas como por exemplo ciências sociais biológicas e administrativas Os modelos de Markov escondidos que surgiram originalmente no domínio de reconhecimento da fala atualmente têm sido empregados como modelos de computação natural the so-called brain s programs [2] em trabalhos sobre visão computacional [4] e reconhecimento de manuscritos de formas gestos e expressões faciais em biologia computacional entre outros (veja em http://www-sigenstfr/ cappe Este tutorial é fruto dos estudos sobre os modelos de Markov visando a sua aplicação em processos de tomada de decisão que está sendo desenvolvido junto ao Mestrado em Saúde Mental e Comportamento da UCPel 2 Modelos de Markov Uma modelo de Markov é um sistema de transições de estados onde a probabilidade do sistema estar em um certo estado futuro depende apenas do estado corrente do sistema Esta seção resume os principais conceitos básicos e propriedades desses modelos As provas das proposições e teoremas podem ser encontradas em [17 19] 21 Cadeias de Markov Um modelo de Markov onde o espaço de estados I é discreto é denominado de Cadeia de Markov e é completamente descrito por sua matriz de transição de estados Esta matriz é dinâmica pois permite que as probabilidades de transição se modifiquem em função do tempo t onde t é discreto Considere uma cadeia de Markov com N estados x n I e sejam x i x j I Denota-se x i (t para significar que o processo está no estado x i no tempo t Definição 1 Se p ij é a probabilidade de transição do estado x i (t para o estado x j (t+1 então a matriz N N dada por P [p ij ] denomina-se matriz de transição de estados da cadeia de Markov Observa-se que na Definição 1 a soma das linhas da matriz P deve ser sempre igual a 1 A matriz de transição também pode ser dada por um diagrama de transições de estados A Figura 1 mostra o diagrama de transições de estados para uma cadeia de Markov com apenas 2 estados Proposição 1 Para t arbitrário tem-se que: (i A probabilidade de transição do estado x i (t para o estado x j (t + n (em n passos é dada por p n ij; (ii A matriz de transição de n passos denotada por P n é calculada como a potência n da matriz de transição P isto é P n P n

p 01 p 00 x 0 x 1 p 11 p 10 Figura 1: Diagrama da matriz de transições de estados de uma cadeia de Markov de dois estados Para simular um processo de Markov considerando um estado inicial x 0 pode-se escolher um estado sucessor de acordo com as probabibilidades p 0j para j 1 N determinando um novo estado x 1 Repite-se o processo para gerar o próximo estado e assim sucessivamente Devido à natureza probabilística do modelo cada ves que esta simulação for repetida é provável que uma sequência diferente de estados seja obtida como resultado Portanto a única forma de analisar o proceso é manter o registro das probabilidades de estar em um estado Definição 2 Seja S i (t a probabilidade de que um processo de Markov esteja em um estado x i no tempo t Então o vetor s(t S 1 (t S 2 (t S N (t é denominado de vetor de distribuição de probabilidades de estado da cadeia de Markov no tempo t Seja s T (0 a distribuição inicial do processo 1 A evolução do vetor de distribuição é governada pela matriz de transição em t passos Proposição 2 Para qualquer tempo t tem-se que s T (t s T (0P t onde P t é calculada como em?? e s T é o vetor transposto de s 22 Cadeias Regulares Considerando que o vetor de distribuição evolui no tempo observa-se que há circunstâncias em que ocorre uma distribuição de probabilidade de equilíbrio v tal que lim s(t v t independentemente da distribuição inicial s(0 Isto ocorre em processos de Markov denominados de regulares 1 s T é o vetor transposto de s

Definição 3 Diz-se que um modelo de Markov é regular se sua matriz de transição inicial P é regular isto é alguma potência de P contém somente entradas positivas Segue da Definição 3 que um processo de Markov é regular se para algum t tem-se que P t > 0 Isto significa que em uma cadeia de Markov regular todo estado é acessível a partir de outro existindo um caminho de comprimento finito entre quaiquer dois estados possibilitando a comunicação entre todos os estados Seja w T [w 1 w 2 w N ] um vetor de comprimento N Diz-se que w é um vetor probabiístico se w 1 w 2 w N 0 e w 1 + w 2 + + w N 1 Teorema 1 Se um processo de Markov é regular então exite único vetor probabilístico v denominado de distribuição de equilíbrio tal que: (i v T P v T ; (ii lim t P t P onde P é formada por t linhas iguais a v T 23 Cadeias Não-Regulares Existem processos que podem apresentar estados que não acessíveis a partir de algum outro estado isto é a probabilidade de transição para tais estados é igual a zero Além disso um estado de um processo de Markov finito poderá eventualemnte atingir um estado de comunicação fechada absorvente cuja probabilidade é igual a 1 Um estado x i de uma cadeia de Markov é denominado de estado absorvente se uma vez nesse estado é impossível sair dele isto é p ii 1 Segue que p ij 0 para i j Definição 4 Diz-se que uma cadeia de Markov é absorvente se ela apresenta um estado absorvente e se de cada estado não absorvente é possível ir para algum estado absorvente em algum tempo t isto é para cada estado não absorvente x i (t existe um estado absorvente x j (t + 1 tal que p ij > 0 para algum t Observa-se que e uma cadeia de Markov absorvente o estado do sistema será eventualemente um dos estados absorventes Dada uma cadeia de Markov com k estados absorventes é possível redistribuir as linhas da matriz de transição P de modo que os estados absorventes fiquem nas k primeiras linhas Com isso um processo de Markon não regular pode ser sempre reorganizado em quatro submatrizes Definição 5 Seja P a matriz de transição de uma cadeia de Markov com k estados absorventes Então: (i A matriz canônica da cadeia é dada por: ( P Ik θ (ii A matriz fundamental é obtida por: P x a P x x F [I P x x ] 1

(iii A matriz de probabilidade de absorção é calculada como o produto: A F P x a onde I k é uma matriz diagonal unitária k k que representa os k estados absorventes θ é uma matriz nula P s a representa as probabilidades de transição de qualquer estado para todos os estados absorventes P s s representa as probabilidades de transição entre todos os estados não absorventes e a ij é a probabilidade de que o sistema venha a estar no estado absorvente x j (t para algum tempo t dado que esteja inicialmente no estado não absorvente x i 24 Aplicações de Cadeias Regulares à Genética Nesta seção introduz-se uma aplicação trivial das cadeias de Markov em problemas de Genética através de um exemplo extraído de [19] Certas características das plantas e dos animais são determinadas por um par de genes cada um dos quais podendo ser de dois tipos denotados por A e a Existem três genótipos possíveis: AA Aa e aa (os genótipos Aa e aa são idênticos Em alguns casos esses três genótipos resultam em três características distintas e em outros o AA e o Aa exibem uma mesma forma observável Nesta última situação diz-se que o gene A domina o gene a O indivíduo chama-se dominante se tem o genótipo AA heterozigoto se tem genótipo Aa e recessivo se tem o genótipo aa Por conveniência denota-se um indivíduo AA por D um Aa por H e um aa por R No caso de cruzamento o filho herda um gene de cada um dos pais Admita-se que as probabilidades dos genótipos dos filhos de acordo com os dos pais sejam as dadas nas Tabelas 1 2 e 3 a seguir Tabela 1: Probabilidades dos genótipos do filho de dois indivíduos H D (AA H (Aa R (aa 025 050 025 Tabela 2: Probabilidades dos genótipos do filho de um indivíduo H com outro D D (AA H (Aa R (aa 050 050 000 Tabela 3: Probabilidades dos genótipos do filho de um indivíduo H com outro R D (AA H (Aa R (aa 000 050 050 As cadeias de Markov intervalares podem auxiliar em cálculos sobre hereditariedade como descrito neste próximo exemplo

Exemplo 1 Suponha que no tempo 0 um indivíduo é acasalado com outro sendo este do tipo H No tempo 1 o produto do acasalamento é novamente acasalado com um indivíduo H O processo repete-se então da mesma maneira Considera-se como estado do sistema no tempo t o genótipo do t-ésimo filho Tem-se como resultado uma cadeia de Markov com três estados (D H R cuja matriz de transição é dada por: P 05 05 0 025 05 025 0 05 05 sendo a matriz de transição de 2 passos calculada como (com precisão igual a 2 no Maple: 1 P 2 038 050 013 025 050 025 013 050 038 (1 Observa-se que em 1 devido a erros de arredondamento tem-se que 3 j1 p 1j Pela observação da matriz de transição de dois passos P 2 dada em 1 que apresenta todas as entradas positivas conclui-se que esta matriz aproxima uma matriz real regular que tem uma distribuição de equilíbrio v aproximada pelo vetor probabilístico V [v 1 v 2 v 3 ] tal que V P V O sistema correpondente é: 5v 1 + 025v 2 v 1 5v 1 + 5v 2 + 5v 3 v 2 025v 2 + 05v 3 v 3 v 1 + v 2 + v 3 1 A solução do sistema resulta na distribuição real de equilíbrio v [25 5 25] 25 Aplicações de Cadeias Absorventes na Aprendizagem por Pares Associados Nesta seção apresenta-se o clássico modelo de Bower [3] de aprendizagem por pares associados Neste modelo uma lista de estímulos é apresentada a um paciente em ordem aleatória Os estímulos podem ser palavras números sílabas sem nexo figuras ou ítens similares A cada estímulo corresponde uma resposta correta que se supões que o paciente aprenda Antes que a experiência comece realmente o paciente pode ser informado de algum modo sobre o conjunto das respostas ou pode tomar cinhecimento delas gradulamente no decorrer da experiência A experiência consiste em apresentar ao paciente um estímulo de cada vez durante um breve período de tempo durante o qual solicita-se ao paciente tentar indicar a resposta correta Após o paciente ter dado sua resposta mostra-se a ele a resposta correta Isso serve como uma confirmação de uma resposta correta ou como uma correção de

uma resposta incorreta Depois de apresentada toda a lista de estímulos ela é novamente apresentada porém em ordem aleatória diferente da anterior Na situação experimental modelada por Bower os estímulos consistiam em 10 pares de consoantes enquanto as respostas eram os números 1 e 2 A cada par de consoantes atribuía-se aleatoriamente um desses números como resposta antes do início da experiência Os estímulos eram apresentados e pedia-se que o paciente para responder 1 ou 2 Após dar sua resposta o paciente era informado da resposta correta ao estímulo apresentado Depois de exibidos os 10 pares de consoantes (constituindo um ensaio os 10 cartões com estímulos eram baralhados e novamente apresentados ao paciente Esse processo era repetido até que o paciente coseguisse passar sem erros pela lista de estímulos por duas vezes consecutivas Ao acontecer isso considerava-se que o paciente tinha aprendido as respostas corretas Para analisar esse tipo de experiência utilizando cadeias de Markov considera-se os seguintes axiomas: 1 Cada par estímulo-resposta encontra-se em um estado dentre dois possíveis em qualquer ensaio n: condicionado (C(n ou palpite (P (n O estado de condicionamento do par estímulo-resposta corresponde ao paciente ter aprendido o par Caso contrário o paciente estará simplesmente adivinhando 2 Em qualquer ensaio n a probabilidade de transição de P (n para C(n + 1 é uma constante c(0 c 1; segue que a probabilidade de uma transição de P (n para P (n + 1 é 1 c 3 Em qualquer ensaio n a probabilidade de transição de C(n para C(n + 1 é 1; segue que a probabilidade de uma transição de C(n para P (n + 1 é 0 4 Se estiver em P (n em qualquer ensaio n a probabilidade de sucesso S(n (resposta correta ao estímulo é 1/N onde N ó número total de respostas possíveis 5 Cada ítem está no estado não condicionado (palpite no ensaio inicial Numa primeira modelagem considere uma cadeia de Markov com dois estados: condicionado (1 e palpite (2 De acordo com o axioma 5 a distribuição inicial é então: s T ( 000 100 Pelos axiomas 2 e 5 a matriz de transiçao inicial da cadeia de Markov é: ( 100 000 P c 1 c (2 P 5 Fazendo c 030 na equação 2 tem-se: P ( 100 000 030 070 Calcula-se algumas potências da matriz P (com precisão igual a 2: ( 100 000 083 017 ( 100 000 P 15 100 00047 ( 100 000 P 100 100 03210 15

Calcula-se a distribuição da cadeia de Markov nos diversos ensaios realizados: s(1 s(0p 1 ( 030 070 s(5 s(0p 5 ( 083 017 s(10 s(0p 10 ( 097 0028 s(15 s(0p 15 ( 100 00047 Observa-se que os resultados obtidos indicam por exemplo que no tempo 10 (ou seja logo após o décimo ensaio há uma probabilidade de aproximadamente 97% de um paciente sob teste estar no estado condicionado Já no tempo 15 há uma probabilidade virtual (pois o valor 1 está sujeito há erros de arredondamento de 100% de um paciente estar no estado condicionado Refina-se agora o modelo considerando-o como uma cadeia de Markov com três estados: condicionado (1 palpite errado (2 e palpite certo (3 Para determinar a matriz de transição da cadeia de Markov correpondente utiliza-se o axioma 4 juntamente com os outros axiomas Assim tem-se que p 11 1 p 12 0 p 13 0 p 21 c p 31 c Para calcular p 23 sejam G n+1 o evento o paciente tenta adivinhar no ensaio n + 1 S n+1 o evento o paciente responde corretamente no ensaio n + 1 e T n o evento o paciente faz um palpite errado no ensaio n Se P r(x denota a probabilidade de x e P r(x y denota a probabilidade condicional de x dado que y tenha ocorrido tem-se que: p 23 P r(s n+1 G n+1 T n P r(s n+1 G n+1 T n P r(g n+1 T n (3 Pelo axioma 2 tem-se que P r(g n+1 T n 1 c e pelo axioma 4 é válido que P r(s n+1 G n+1 T n 1/N onde N é o número total de respostas possíveis Da equação 3 segue que: p 23 1 (1 c N De forma análoga conclui-se que: p 22 (1 1 N (1 c p 32 (1 1 N (1 c p 33 1 (1 c N Assim a matriz de transição dessa cadeia de Markov é 100 000 000 P c (1 1 (1 c 1 (1 c (4 N N c (1 1 (1 c 1 (1 c N N que é uma cadeia absorvente com o estado 1 absorvente e os estados 2 e 3 não absorventes

Os axiomas 4 e 5 implicam que a distribuição inicial dessa cadeia é: s(0 ( 000 1 1 N 1 N Sejam c 030 e N 4 Então a equação 4 torna-se (com precisão igual a 3: P 1000 0000 0000 030 0525 0175 030 0525 0175 e a distribuição inicial é s(0 ( 0000 0750 0250 Calcula-se a distribuição da cadeia em vários tempos obtendo-se por exemplo: s(2 ( 0510 0368 0123 s(15 ( 0995 0356 011910 2 s(30 ( 1000 016910 4 056310 5 Observa-se que no trigésimo ensaio é virtualmente certo que (a incerteza é devido aos erros de arredondamento que o paciente esteja no estado condicionado Uma importante questão é saber qual o número de vezes em que o paciente se encontra no estado 2 ou seja o número de respostas incorretas dadas pelo paciente ao par estimulo-resposta em questão Em [19] há a prova de que o número de vezes que o paciente se encontra nos estados 2 ou 3 é finito isto é eventualmente ele estará no estado condicionado Observe que a matriz canônica dessa cadeia de Markov é: P 1000 0000 0000 0300 0525 0175 0300 0525 0175 onde P x x ( 0525 0175 0525 0175 P x a ( 0300 0300 O número médios esperado de vezes em que o paciente se encontra no estado 2 ou 3 é dado por ( 0750 0250 F

Tem-se que I P x x ( 1000 0000 0000 1000 ( 0525 0175 0525 0175 ( 0475 0175 0525 0825 e portanto F [I P x x ] 1 Consequentemente tem-se que ( 2750 0583 1750 1583 ( 0750 0250 F ( 2500 0833 o que significa que por exemplo o número esperado de respostas incorretas dadas pelo paciente ao ítem em questão é 25 Além disso tem-se que a matriz de probabilidade de absorção é dada por: A F P x a ( 1000 1000 significando que desconsiderando os erros de arredondamento há 100% de probabilidade de que o paciente venha a estar no estado condicionado eventualmente 3 Modelos de Markov Ocultos Em alguns casos existe a possibilidade de que se tenha uma descrição incompleta do ambiente em que ocorre um processo Markoviano onde o espaço de estados é desconhecido Nestes casos é possível definir um modelo de Markov considerando uma aproximação desse espaço Modelos deste tipo são denominados Modelos de Markov Ocultos (HMM [15] Esta seção apresenta uma discussão sobre esses modelos 31 Conceitos Básicos Definição 6 Um Modelos de Markov Ocultos (HMM é uma tripla M (s P B onde consideram-se: (i Um conjunto específico O k de observações do tipo k que resultam de um experimento; (ii Um conjunto X de estados x i onde em cada estado x i é possível realizar uma observação b i (k com i 1 N e k O k ; (iii Uma distribuição de probabilidade para o estado inicial dada pelo vetor s [s i ] onde s i P r(x i (0; (iv Uma distribuição de probabilidade para as transições de estados dada pela matriz P [p ij ] onde p ij P r(x j (t + 1 x i (t; (v Uma distribuição de probabilidade para as observações em cada estado dada pela matriz B [b j (k] onde b j (k P r(o k x j

p 11 p12 p 22 x begin p begin-1 x 1 x 2 p 2-end x end b 1 (m b 1 (n p 21 b 2 (m b 2 (n Figura 2: Diagrama de transições de estados de um modelo de Markov oculto de dois estados não terminais onde há a probabilidade de emissão de dois símbolos (m e n Pode-se pensar nesse tipo de modelo como um autômato finito (não determinístico com saída [9] cujas transiçoes são vazias e probabilísticas sendo que em cada estado poderá haver a emissão de símbolos (ítens observáveis segundo uma certa probabilidade Exemplo 2 Os modelos ocultos podem ser representados como diagramas de estados como por exemplo o modelo oculto com conjunto de estados X {x begin x 1 x 2 x end } da Figura 2 onde somente os estados não terminais x 1 e x 2 emitem os simbolos (ítens observáveis m e n Simulando um experimento a partir do estado x 1 é possível ir para o outro estado x 2 ou não de acordo com as probabilidades de transição p 12 ou P 11 respectivamente O mesmo acontece no estado x 2 Segue-se assim sucessivamente até atingir o estado final Em cada estado não terminal observa-se a emissão do símbolo m ou m de acordo com as probabilidades de emissão do símbolo m ou n no estado x 1 (b 1 (m b 1 (n e no estado x 2 (b 2 (m b 2 (n Como resultado obtém-se uma seqüencia oculta (que não é observada de estados percorridos e um seqüência de símbolos (que é observada Uma seqüência de símbolos que pode ser observada por exemplo é O m n m; uma seqüência possível de estados ocultos é I x begin x 1 x 1 x 2 x end A probabilidade do modelo percorrer os estado de I para produzir a seqüência de observações O é dada por: P r(o I M p begin 1 b 1 (m p 11 b 1 (n p 12 b 2 (m p 2 end Assim dada uma seqüência de observações não se conhece a seqüência de estados pela qual passa o modelo mas somente uma função probabilística deste caminho Exemplo 3 Um exemplo extraido de [2] consiste no modelo das urnas Suponha que exitem N urnas contendo L bolas coloridas (preto branco e cinza Uma pessoa inicia por uma das urnas retira uma bola e observa a sua cor recoloca-a na urna e vai para outra urna ou permanece na mesma urna com uma certa probabilidade e toma outra bola e assim sucessivamente O processo termina após W seqüencias de passos deste tipo Considere uma configuração específica de N 2 urnas e um tempo de observação W 3 como mostra a Figura 3 e uma distribuição de probabilidade dada por:

Estado 1 7 2 8 Estado 2 3 1 9 t 1 t 2 t 3 Figura 3: Esquema do experimento com o modelo de urna com 2 estados em 3 fases de tempo s ( 07 03 A matriz B define as probabilidades das possíveis observações para cada estado: ( ( b1 (Branco b B 1 (P reto b 1 (Cinza 01 04 05 b 2 (Branco b 2 (P reto b 2 (Cinza 06 02 02 A matriz das probabilidades de transição de estado é dada por: P ( 08 02 01 09 A Figura 3 mostra um esquema do experimento O modelo está representado na Figura 4 O algoritmo dado na Tabela 4 é utilizado para gerar as seqüências de observações Salienta-se que a seqüência mais provável é O {Cinza Cinza Cinza} Isto ocorre porque o estado inicial mais provável é o Estado 1 (urna 1 Cinza é a cor mais provável de ser observada no Estado 1 e a partir do Estado 1 o estado mais provável é ainda o Estado 1 A probabilidade de ocorrer esta seqüência dada a seqüência I {Estado1 Estado1 Estado1} de estados é calculada então como: P r(o I M s 1 b 1 (cinza p 11 b 1 (cinza p 11 b 2 (cinza 0056 Exemplo 4 Considere um jogo de cara de cara (h ou coroa (t no qual sabe-se que o lançador pode utilizar duas moedas uma normal e uma viciada A moeda normal oferece probabilidade de 50% tanto para cara como para coroa enquanto a moeda viciada oferece 75% de chance para cara e apenas 25% para coroa Sabe-se também o lançador pode iniciar o processo escolhendo qualquer uma das moedas com igual probabilidade entretanto uma vez tendo utilizado uma das moedas (normal ou viciada a probabilidade de que o lançador a troque por outra é de apenas 20%

8 2 1 7 3 branco 1 preto 4 cinza 5 9 Estado 1 Estado 2 branco 1 preto 4 cinza 5 Figura 4: Modelo de urna com 2 estados Tabela 4: Algoritmo gerador de seqüências de observações t 1 Escolha um estado inicial utilizando s Enquanto t < W : Escolha uma observação O utilizando B Escolha um novo estado utilizando P t t + 1 O modelo está representado na Figura 5 Tem-se então o conjunto de observações O {h t} o conjunto de estados X {N normal V viciada} a matriz B das possíveis observações para cada estado: B ( bn (h 050 b N (t 050 b V (h 075 b V (t 025 a matriz de transição: e a distribuição inicial: P s ( 08 02 02 08 ( 05 05 Observe que neste caso é mais difícil descobrir qual a seqüência mais provável observada em um dado experimento Considere então uma dada seqüência de observações O {h h t t} Em princípio não sabe-se a seqüência de estados que a gerou Entretanto considerando uma dada seqüência de estados (por exemplo a seqüência I {N N V N} é possível estimar qual a probabilidade da seqüência O ter sido gerada pelo modelo a partir desse caminho de estados: P r(o I M s N b N (h p NN b N (h p NV b V (t p V N b N (h 0 0005

8 2 8 N 5 V 5 b N (h 5 b N (t 5 02 b V (h 75 b V (h 25 Figura 5: Modelo das moedas 32 A Probabilidade de uma Seqüência de Observações Uma discussão interessante que pode ser feita a partir da análise dos exemplos 2 3 e 4 é o problema relacionado à descoberta da probabilidade de que uma dada seqüência de observações O tenha sido gerada por M Para calcular a probabilidade de que tal seqüência venha a ser observada deve-se considerar a soma das probabilidades da geração dessa seqüência sobre todos os possíveis caminhos que a geram Assim seja I x 1 x 2 x W uma seqüência particular de estados possível em W passos e considere a expansão de P r(o M em todos os estados dada por: P r(o M I P r(o I M (5 Para qualquer seqüência individual de estados pode-se usar a regra de Bayes na equação 5 obtendo: P r(o I M P r(o I MP r(i M (6 O primeiro termo do lado direito da equação 6 P r(o I M é a probabilidade de se ver uma dada seqüência de observações considerando um dado conjunto de estados Para os estados conhecidos considerando O k o cálculo é realizado como: P r(o I M j I b j (k O segundo termo do lado direito da equação 6 é dado pelo produto da probabilidade de iniciar no estado x 1 e passar pelos estados x 2 x W : P r(i M s 1 p 12 p 23 p (W 1W Assim a equação 5 pode ser escrita como: W 1 P r(o I M s 1 b 1 (k b i+1 (kp i(i+1 (7 i1

Tabela 5: Algoritmo para computar P r(o M Versão Iterativa Versão Recursiva α 1 [s i b i (1] Defina α(w : Para t em {1 W 1}: se W 1: α t+1 P [αib t i (t + 1] [s i b i (1] P r(o M N i1 αw i senão: P [α W 1 i b i (W ] P r(o M N i1 αw i Considerando um modelo onde se tem os estados distingüíveis x begin e x end (como o modelo da Figura 2 então a equação 7 para W +2 passos onde a sqüência é observada nos estados não terminais torna-se: onde x W +1 x end W P r(o I M p begin 1 b i (kp i(i+1 Uma crítica grave a esta formulação é que o custo computacional do somatório da equação 5 é muito alto (da ordem N W Entretanto é possível usar resultados parciais que são acumulados em um vetor α t conforme descrito no procedimento forward do algoritmo da Tabela 5 Exemplo 5 Considere o modelo das urnas apresentado no Exemplo 3 Define-se αi t como a probabilidade de acontecer a observação O t no estado x i Então se ( ( 07 05 s e B(Cinza 03 02 tem-se que o vetor inicial α 1 é dado por: α 1 [s i b i (1] Sucessivamente calcula-se: i1 ( s1 b 1 (Cinza s 2 b 2 (Cinza ( 035 006 α 2 P [αi 1 b i (2] ( ( 08 02 α 1 1 b 1 (Cinza 01 09 α2b 1 2 (Cinza ( ( 08 02 0175 01 09 0012 ( 0142 00283

e α 3 P [αi 2 b i (3] ( ( 08 02 α 2 1 b 1 (Cinza 01 09 α2b 2 2 (Cinza ( ( 08 02 0712 01 09 00566 ( 0581 0122 Finalmente a probabilidade de ver a seqüência CinzaCinzaCinza é dada por: P r(o M N αi W i1 2 αi 3 00703 i1 Exemplo 6 Considere o modelo das moedas apresentado no Exemplo 4 Define-se αi t como a probabilidade de acontecer a observação O t no estado x i Então se ( ( 05 05 s e B(h 05 075 tem-se que o vetor inicial α 1 é dado por: α 1 [s i b i (1] Sucessivamente calcula-se: ( s1 b 1 (h s 2 b 2 (h ( 025 0375 α 2 P [αi 1 b i (2] ( 08 02 01 09 ( 08 02 02 08 ( 0156 0250 ( α 1 1 b 1 (h α2b 1 2 (h ( 0125 0281 e α 3 P [αi 2 b i (3] ( ( 08 02 α 2 1 b 1 (t 02 08 α2b 2 2 (t ( ( 08 02 0781 02 08 0625 ( 0750 0656

α 4 P [αi 3 b i (4] ( ( 08 02 α 3 1 b 1 (t 02 08 α2b 3 2 (t ( ( 08 02 0375 02 08 0164 ( 0333 0206 Finalmente a probabilidade de ver a seqüência hhtt é dada por: P r(o M N αi W i1 2 αi 4 00539 i1 33 Caminho Gerador Ótimo Outra questão fundamental é dada um seqüência de observações O descobrir a seqüência de estados I mais provável que seja capaz de gerar O Um critério simples para tratar este problema é considerar a seqüência que torna cada um dos estados o mais provável 2 Observa-se que de forma análoga ao procedimento dado no algoritmo da Tabela 5 é possível definir um procedimento backward através de um vetor β(t que registra a probabilidade de alcançar um dos estados finais dado um determinado estado corrente Este vetor β(t pode ser utilizado para definir um algoritmo para prever a probabilidade de seqüências de estados de forma análoga ao algoritmo da Tabela 5 Seja γ t i a probabilidade de terminar no estado x i no tempo t dada a seqüência de observações O calculada como: γ t i P r(x i (t s i O M (8 Em 8 pode-se utilizar os vetores α(t e β(t para expressar γ t i obtendo: γ t [αt iβ t i] P r(o M (9 onde P r(o M é um fator de normalização tal que N i1 γt i 1 Dado γ t os estados mais prováveis são expressados pelos seus índices como: index t índice do max 1 i N {γ t i} Para computar a equação 9 pode-se utilizar o algoritmo de Viterbi onde para registrar os estados mais prováveis define-se um vetor r(t como mostra o algoritmo dado na Tabela 6 2 Pode acontecer que não exista um caminho entre estados sucessores mas isto geralmente não ocorre na prática

Tabela 6: Algoritmo para computar o caminho gerador ótimo Vesão Iterativa Versão Recursiva γ 1 [s i b i (1] Defina r(w: r(1 [index 1 ] Se W 1: Para t em {1 W 1}: γ 1 [s i b i (1] γ t+1 P [γib t i (t + 1] r(1 [index 1 ] r(t + 1 anexe(index t+1 r(t Senão: γ W P [γ W 1 i b i (W ] r(w anexe(index W r(w 1 Exemplo 7 Considerando o modelo das urnas trabalhado nos Exemplos 3 e 5 dada a seqüência de observações O {Cinza Cinza Cinza} pode-se calcular a seqüência de estados mais provável para produzí-la Primeiramente calcula-se: γ 1 [s i b i (1] ( s1 b 1 (Cinza s 2 b 2 (Cinza ( 35 06 onde max 1 i N {γ 1 i } 35 logo index 1 1(x 1 (1 e portanto r(1 [index 1 ] ( 1(x 1 (1 Calcula-se sucessivamente: γ 2 P [γi 1 b i (2] ( ( 8 2 γ 1 1 b 1 (Cinza 1 9 γ2b 1 2 (Cinza ( ( 8 2 175 1 9 012 ( 142 0283 onde max 1 i N {γ 2 i } 142 logo index 2 1(x 1 (2 e portanto r(2 ( 1(x 1 (1 1(x 1 (2 ; γ 3 P [δ 2 i b i (3]

( ( 8 2 γ 2 1 b 1 (Cinza 1 9 γ2b 2 2 (Cinza ( ( 8 2 0712 1 9 00566 ( 00581 00122 onde max 1 i N {γ 3 i } 0581 index 3 1(x 1 (3 e portanto r(3 ( 1(x 1 (1 1(x 1 (2 1(x 1 (3 Logo o caminho gerador ótimo da sequência cinzacinzacinza é x 1 x 1 x 1 como era esperado Exemplo 8 Considerando o modelo das moedas trabalhado nos Exemplos 4 e 6 dada a seqüência de observações O {h h t t} pode-se calcular a seqüência de estados mais provável para produzí-la Primeiramente calcula-se: γ 1 [s i b i (1] ( s1 b 1 (h s 2 b 2 (h ( 25 675 onde max 1 i 2 {γ 1 i } 675 logo index 1 2(x 2 (1 e portanto Calcula-se sucessivamente: r(1 [index 1 ] ( 2(x 2 (1 γ 2 P [γi 1 b i (2] ( ( 8 2 γ 1 1 b 1 (h 2 8 γ2b 1 2 (h ( ( 8 2 125 2 8 281 ( 156 250 onde max 1 i 2 {γ 2 i } 250 logo index 2 2(x 2 (2 e portanto r(2 ( 2(x 2 (1 2(x 2 (2 ; γ 3 P [γ 2 i b i (3]

( ( 8 2 γ 2 1 b 1 (t 2 8 γ2b 2 2 (t ( ( 8 2 0781 2 8 0625 ( 00750 00656 onde max 1 i 2 {γ 3 i } 075 index 3 1(x 1 (3 e portanto r(3 ( 2(x 2 (1 2(x 2 (2 1(x 1 (3 ; γ 4 P [γi 3 b i (4] ( ( 8 2 γ 3 1 b 1 (t 2 8 γ2b 3 2 (t ( ( 8 2 0375 2 8 0164 ( 00333 00206 onde max 1 i 2 {γ 4 i } 0333 index 4 1(x 1 (4 e portanto r(4 ( 2(x 2 (1 2(x 2 (2 1(x 1 (3 1(x 1 (4 Logo o caminho gerador ótimo da sequência hhtt é x 2 x 2 x 1 x 1 34 Aperfeiçoando o Modelo O principal problema em HMM é descobrir o melhor modelo M o que é muito difícil e não tem solução analítica conhecida Pode-se derivar uma aproximação que é melhor que a versão corrente Este procedimento pode ser repetido até que nehuma melhoria possa ser verificada Em linhas gerais esta estratégia iniciará com um conjunto inicial M (s P B e executar o modelo um número suficiente de vezes para estimar um novo conjunto de parâmetros M (s P B Estas estimativas são então utilizadas como o novo modelo e então o processo é repetido As estimativas de s e B são simples de calcular: e s γ t (10 b j (k W t1o t k γt j W t1 γt j (11

Tabela 7: Algoritmo de Baum-Welch Repita os seguintes passos até que os parâmetros do modelo estejam de acordo com a tolerância considerada: Estimar s utilizando a equação 10 Estimar B utilizando a equação 11 Estimar P utilizando a equação 12 Para estimar p ij calcula-se η ij como: η ij P r(x i (t s i x i (t + 1 s j M resultando em η ij αt ip ij b j (t + 1β t+1 j P r(o M de tal forma que a estimativa pode ser obtida como uma média ao longo do tempo: p ij W t1 η ij (12 W t1 γt j A Tabela 7 apresenta o algoritmo de Baum-Welch para aperfeiçoamento do modelo pelo cálculo sucessivo de estimativas para os parâmetros Referências [1] J F F Araújo G P Dimuro M A Campos Probabilidades Intervalares com Aplicações no Maple ESIN/UCPel Pelotas RS 2001 (http://gmcucpeltchebr/fmc [2] D H Ballard An Introduction to Natural Computation MIT Press Cambridge 1997 [3] G H Bower Applications of a Model to Paired-Associate Learning Psychometrika Vol 26 pp 225-2380 1961 [4] H Bunke T Caelli (Eds Hidden Markov Models Applied in Computer Vision in Machine Perception and Artificial Intelligence Vol 45 World Scientific N J 2001 [5] M A Campos Uma Extensão Intervalar para a Probabilidade Real Tese de Doutorado Centro de Informática/UFPE 1997 [6] M A Campos Interval probabilities application to discrete ramdom variables Seleta do XXII CNMAC (EXL de Andrade J M Balthazar S M Gomes G N Silva A Sri Langa eds TEMA Vol 12 pp 333-344 SBMAC 2000

[7] M A Campos G P Dimuro A C R Costa J F F Araujo A M Dias Probabilidade Intervalar e Cadeias de Markov Intervalares no Maple Seleta do XXIV CNMAC (EXL de Andrade J M Balthazar S M Gomes G N Silva A Sri Langa eds TEMA SBMAC 2002 [8] A M Dias G P Dimuro Matemática Intervalar com Aplicações no Maple ESIN/UCPel Pelotas 2000 (http://gmcucpeltchebr/mat-int [9] J Hopcroft and J D Ullman Introduction to Automata Theory Languages and Computation Addison-Wesley Reading 1979 [10] U W Kulisch W L Miranker Computer Arithmetic in Theory and Practice Academic Press New York 1981 [11] H E Kyburg Jr Interval-valued Probabilities http://wwwensmainrugacbe/ ipp [12] M B Monagan K O Geddes K M Heal G Labahn and S M Vorkoetter Maple V: Program Guide Springer N York 1998 [13] R E Moore Methods and Applications of Interval Analysis SIAM Philadelphia 1979 [14] A Neumaier Interval Methods for Systems of Equations Cambridge University Press Cambridge 1990 [15] L R Rabiner and B H Juang An Introduction to Hidden Markov Models IEEE ASSP Magazine 3(4:4-16 1986 [16] B Tessem Interval Probability Propagation International Journal of Approximate Reasoning 7:95-120 1992 [17] K S Trivedi Probability and Statistics with Reliability Queuing and Computer Science Applications Prentice-Hall Englewood Cliffs NJ 2000 [18] K Weichselberger Axiomatic foundations of the theory of interval-probability Symposia Gaussiana Conference B: Statistical Sciences pp 47-64 Munich Germany August 2-7 1993 [19] W Yoselogff Finite Mathematics Worth Publishing New York 1975 [20] I O Kozine and L V Utkin Interval-Valued Finite Markov Chains Reliable Computing 8(2: 97-113 2002