Um Estudo sobre Modelos Ocultos de Markov HMM - Hidden Markov Model

Tamanho: px
Começar a partir da página:

Download "Um Estudo sobre Modelos Ocultos de Markov HMM - Hidden Markov Model"

Transcrição

1 Pontifícia Universidade Católica do Rio Grande do Sul Faculdade de Informática Pós-Graduação em Ciência da Computação Um Estudo sobre Modelos Ocultos de Markov HMM - Hidden Markov Model Luciana da Silveira Espindola Orientador: Paulo Henrique Lemelle Fernandes Introdução à Pesquisa I Porto Alegre, junho de 2009

2 Sumário LISTA DE FIGURAS ii Capítulo 1: Introdução 1 Capítulo 2: Cadeias de Markov Definição Modelo Markoviano do Tempo Capítulo 3: Modelos Ocultos de Markov Definição Capítulo 4: Problemas Canônicos Solução do Problema Algoritmo Forward-Backward Solução do Problema Algoritmo de Viterbi Solução do Problema Algoritmo de Baum-Welch Capítulo 5: Considerações Finais 27 REFERÊNCIAS BIBLIOGRÁFICAS 28 i

3 Lista de Figuras 3.1 Markov de 3 estados e HMM correspondente (Fonte: Jelinek [1]) Dois estágios do trellis, correspondendo ao HMM binário da Figura 3.1 (Fonte: Jelinek [1]) Trellis para a sequência de observáveis relativa à Figura 3.1 (Fonte: Jelinek [1]) Trellis da Figura 4.1 contemplando apenas os caminhos que geram a sequência completa de observáveis (Fonte: Jelinek [1]) Ilustração da parte forward do algoritmo forward-backward (Fonte: Rabiner [3]) Ilustração da parte backward do algoritmo forward-backward (Fonte: Rabiner [3]) Trellis para a representação do algoritmo de Viterbi (Fonte: Jelinek [1]) Ilustração do algoritmo forward-backward aplicado à solução do Problema 3 (Fonte: Rabiner [3]) ii

4 Resumo Modelos Ocultos de Markov (Hidden Markov Models - HMM) trata-se de um formalismo Markoviano usado para modelar situações nas quais a fonte geradora dos sinais observados está oculta do observador. Esse formalismo pode ser usado tanto para estudar a natureza dessa fonte quanto para ajudar a prever observações futuras. Este trabalho tem caráter introdutório, sendo o escopo do mesmo limitado a modelos discretos tanto no espaço de estados quanto no tempo. Inicialmente, é feita a fundamentação de modelos Markovianos e Cadeias de Markov, princípio básico para o desenvolvimento do formalismo de HMM. Em seguida, descreve-se o formalismo propriamente dito e a resolução de uma série de problemas-controle, que auxiliam na calibração do modelo. O primeiro problema calcula a probabilidade de uma sequência de observáveis através da resolução da parte forward do algoritmo forward-backward; o segundo busca identificar, pelo uso do algoritmo de Viterbi, a sequência de estados mais provável, dada a sequência observada; o último problema-controle, resolvido pelo uso do algoritmo de Baum-Welch, trata de buscar melhores parâmetros para o modelo, otimizando a probabilidade de observação de uma dada sequência. Restrições adicionais a esse tratamento incluem a forma regular e homogênea da matriz de transição, a finitude do espaço de observáveis, a independência entre observações, e o fato de que toda transição entre estados da Markov embutida emite um observável. A intenção é aprofundar esse estudo em trabalhos futuros, buscando por uma descrição mais genérica através da eliminação das restrições acima relacionadas.

5 1 Introdução A grande maioria dos processos envolvendo sistemas reais são tão complexos que mesmo que haja forma analítica de resolvê-los, muitas vezes acaba sendo mais produtivo lançar mão do uso de teoria de probabilidade. Segundo Reichl [2], para aplicar teoria de probabilidade ao mundo real, é necessário introduzir o conceito de variável estocástica. Assim, X é dita variável estocástica se seu valor, dentre o conjunto {x i } de possíveis realizações, é determinado pelo resultado de um experimento. Talvez não seja possível observar diretamente a dinâmica estocástica que rege um dado processo do mundo real, mas muito provavelmente esse processo produz observáveis, também chamados sinais, a partir dos quais o sistema pode ser modelado. Esses sinais podem ou não ser de fonte estacionária (sistema em equilíbrio), ser de natureza discreta ou contínua, tratar-se de sinais limpos ou ruidosos, dentre outras características imagináveis. Poderíamos encontrar vários motivos para fazer modelagens baseadas em sinais. Rabiner [3] sugere que uma modelagem desse tipo pode servir para prover descrição teórica de uma ferramenta para processamento de sinais. Um exemplo de uso seria a otimização de um sinal de audio pela remoção de ruído e distorções de transmissão. Modelos de sinais também podem ajudar na compreensão de sua fonte, caso não seja possível observar o processo diretamente ou caso o custo dessa observação seja muito alto. Assim, a fonte pode ser simulada e muito pode-se aprender dessa simulação, [3]. São vários os modelos estocásticos baseados em sinais. Alguns exemplos são os modelos para processos Gaussianos, processos de Poisson, processos Markovianos e os modelos para processos ocultos de Markov, sobre o qual versa essa monografia. Encontramos o formalismo de Modelos Ocultos de Markov (Hidden Markov Models - HMM) sob os mais diversos nomes, dentre eles: Processos Ocultos de Markov (Hidden Markov Processes), Fontes Markovianas (Markov Sources), Cadeias de Markov Ocultas (Hidden Markov Chains), Funções Probabilísticas de Cadeias de Markov (Probabilistic Functions of Markov 1

6 Chains). O formalismo de Modelos Ocultos de Markov (HMM) é usado para modelar processos que são governados por um processo Markoviano embutido, cuja dinâmica não pode ser diretamente observada. Esse processo Markoviano evolui no tempo por meio de transições entre seus estados, as quais são responsáveis pela emissão de sinais observáveis. Todo modelo passa por uma fase de calibração, e para modelos em HMM não poderia ser diferente. Rabiner [3] aborda o assunto por meio da resolução de três problemas fundamentais, organização essa proposta por Jack Ferguson (IDA - Institute for Defense Analysis, USA). O primeiro problema consiste em, tendo a proposta de modelo em HMM, determinar a probabilidade de observação de uma determinada sequência de sinais. O segundo problema trata de descobrir qual a sequência de estados mais provável, no contexto desse modelo, que levou à sequência de sinais observados. E por fim, o terceiro problema trata da calibração propriamente dita, buscando aperfeiçoar os parâmetros do modelo, tendo em vista melhorar as probabilidades de geração, ou emissão, de sinais. Há vários tutoriais que tratam de HMM, [4], [5], [6], [7], [8], [9]. Contudo, as bases desse estudo sobre Modelos Ocultos de Markov são fundamentadas em duas fontes. Uma delas é o artigo A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, escrito por Lawrence Rabiner [3]. A outra fonte é o capítulo sobre Hidden Markov Models, do livro Estatistical Methods for Speech Recognition, de Frederick Jelinek [1]. Muitas das idéias desses autores são aqui reproduzidas, dando a essa monografia um caráter de Review. As fórmulas apresentadas no decorrer do texto são resultado de uma tentativa de unificação entre as notações usadas por esses autores. As figuras incluídas nessa monografia também foram todas obtidas desses dois trabalhos de Jelinek [1] e Rabiner [3]. Esse estudo sobre Modelos Ocultos de Markov está organizado da forma que segue. Num primeiro momento (Cap. 2), conceituam-se Cadeias de Markov, fundamental para a compreensão e desenvolvimento de modelagens em HMM. Após, trata-se de Modelos Ocultos de Markov (Cap. 3) de forma geral, definindo as bases do formalismo. O capítulo seguinte (Cap. 4) aborda com detalhes a resolução dos três problemas fundamentais (ou canônicos) desse formalismo. O fechamento do trabalho trata das considerações finais desse estudo e trabalhos futuros. 2

7 2 Cadeias de Markov Processos Markovianos são um tipo especial de processos estocásticos que têm aplicabilidade quase universal. Exemplos de aplicações podem ser encontrados junto à química, biologia, física, informática, entre outros, provavelmente abrangendo todas as áreas do conhecimento humano. Jelinek [1], de forma muito clara e precisa, define processos estocásticos de tempo discreto sobre um espaço de estados também discreto e finito. Seja uma sequência de variáveis estocásticas X 0 X 1 X t X T, onde 0 t T representa uma ordenação discreta no tempo, definidas para um mesmo espaço de estados discreto e finito. Se nada mais é dito, a probabilidade conjunta dessas váriáveis estocásticas é dada pela fórmula de Bayes: T P(X 0 X 1 X T ) = P(X t X 0 X 1 X t 1 ) (2.1) t=0 = P(X 0 )P(X 1 X 0 )P(X 2 X 0 X 1 ) P(X T X 0 X 1 X 2 X T 1 ) Um processo estocástico, tal como descrito pela equação 2.1, é dito Markoviano de grau 1 se satisfaz a seguinte propriedade: P(X t X 0 X 1 X 2 X t 1 ) = P(X t X t 1 ), (2.2) ou seja, dada a sequência temporal de realizações em um processo estocástico, a probabilidade desse processo evoluir para um estado qualquer do espaço de amostras no instante seguinte é dependente única e exclusivamente do estado corrente no qual o sistema se encontra. Em outras palavras, em um processo Markoviano de grau 1, a probabilidade do próximo passo, de X t 1 para X t, depende apenas do estado de origem desse passo, X t 1. Essa propriedade é conhecida como Markov property, ou propriedade de Markov, em tradução literal. Assim, em se tratando de processos Markovianos de grau 1, a equação 2.1 passa a ter a 3

8 seguinte forma: T P(X 0 X 1 X T ) = P(X t X t 1 ) (2.3) t=0 = P(X 0 )P(X 1 X 0 )P(X 2 X 1 )P(X 3 X 2 ) P(X T X T 1 ) O fato de estarmos tratando de processos estocásticos discretos tanto no espaço de estados quanto no tempo não implica em real restrição, trata-se apenas de uma forma de simplificar os cálculos para chegar mais rapidamente à definição de Cadeias de Markov, objetivo dessa seção. Assim, se desejado for, essas equações podem ser modificadas para representar a probabilidade conjunta e probabilidade condicional (de transição) para o caso de processos em espaço e tempo contínuos, assim como para processos em espaço de estados discreto e tempo contínuo. 2.1 Definição De acordo com a grande maioria dos autores, processos Markovianos 1 em espaços de estados discretos são chamados Cadeias de Markov (Markov Chains), podendo esses processos ser tanto de tempo discreto como contínuo. Reichl [2] restringe o termo para contemplar apenas processos Markovianos em espaços de estados discretos a tempos discretos. Independentemente de qual das definições é mais correta, optou-se aqui por tratar apenas de Cadeias de Markov de tempo discreto. Nesse trabalho, ainda são feitas restrições adicionais quanto à forma da matriz de transição. Trataremos apenas de matrizes de transição regulares e daremos preferência às homogḙneas. Matriz de transição, Â, é aquela que guarda em suas células as probabilidades de transição definidas para um espaço de estados, sendo que essas probabilidades podem ou não variar com o tempo. Dizemos que essa matriz é homogênea se Â(t) = Â, ou seja, se a matriz é estacionária, tendo probabilidades de transição independentes do tempo. De acordo com Reichl [2], a matriz  será regular se todos os elementos de alguma potência  N, N inteiro, forem não-nulos. Cadeias de Markov governadas por matrizes de transição regulares são ditas ergódicas, isto é, todos os estados são atingíveis através de sucessivas transições. Sistemas ergódicos tendem à estacionariedade após algum tempo, ou seja, a distribuição de probabilidade nos estados passa a ser constante. 1 Processos Markovianos são aqueles para os quais a propriedade de Markov é satisteita, ou seja, a probabilidade de um passo depende unicamente do estado atual do sistema. 4

9 Como lembra Trivedi [10], dizer que uma matriz de transição chegou à sua forma estacionária, ou homogênea, não é o mesmo que dizer que o sistema alcançou estacionariedade. Como vimos, a estacionariedade da matriz diz respeito às probabilidades de transição, enquanto que a estacionariedade do processo diz respeito à probabilidade conjunta das variáveis estocásticas. Sejam 1. Um espaço de estados S = {s 1, s 2, s 3,, s N } 2. Uma variável estocástica X a assumir valores do espaço de estados S em diferentes instantes de tempo 3. Uma distribuição de probabilidade inicial para cada estado ˆΠ = {π i }, tal que π i = P(X 0 = S i ) 4. Uma distribuição de probabilidade de transição entre estados  = {a ij}, tal que a ij = P(X t = s j X t 1 = s i ) As probabilidades de transição definidas pela matriz  possuem as seguintes propriedades: a ij 0 (2.4) N N a ij = P(X t = s j X t 1 = s i ) = 1 (2.5) j=1 j=1 A propriedade 2.4 determina que as probabilidades de transição são todas maiores ou iguais a zero. A propriedade 2.5, por sua vez, mostra que resulta em um a soma das probabilidades de todas as transições partindo do estado s i para os estados definidos no espaço de estados S. Como visto anteriormente, a equação 2.3 decorre da propriedade de Markov e, portanto, também vale para Cadeias de Markov. Considere, então, essa equação para a probabilidade conjunta das variáveis estocásticas X 0, X 1, X 2 P(X 0 X 1 X 2 ) = P(X 0 )P(X 1 X 0 )P(X 2 X 1 ). (2.6) Ao aplicarmos um somatório sobre a variável estocástica X 1, obtemos a probabilidade conjunta de X 0, X 2 P(X 0 X 2 ) = P(X 0 ) P(X 1 X 0 )P(X 2 X 1 ). (2.7) X 1 Se dividirmos a equação resultante por P(X 0 ), obteremos a probabilidade condicional, P(X 2 X 0 ), do sistema ocupar um determinado estado no instante t = 2 sendo que ocupou algum outro estado no instante t = 0. A equação 2.8, conhecida como equação de Chapman-Kolmogorov, 5

10 reflete esse raciocínio P(X 2 X 0 ) = X 1 P(X 1 X 0 )P(X 2 X 1 ). (2.8) A equação de Chapman-Kolmogorov evidencia a propriedade de Markov, pois a partir dela fica clara a independência entre passos sucessivos na evolução de um sistema governado por uma cadeia de Markov. Em outras palavras, a probabilidade de transição entre X 1 e X 2 não é afetada pelo fato de ter sido precedida pela transição entre X 0 e X 1. Ou, mais sucintamente, passos sucessivos são estatisticamente independentes, [2]. Redefinindo um dos termos da equação 2.8, temos: P(X 2 = s j X 1 = s i ) = a ij = (Â(t)) ij (2.9) onde a ij é um dos elementos da Matriz de Transição, Â(t). Como dito anteriormente, no decorrer desse estudo, daremos preferência ao estudo de matrizes de transição independentes do tempo, ou homogêneas: Â(t) = Â. Então, para  independente do tempo, temos: (Â) ij = a ij = P(X 2 = s j X 1 = s i ) = P(X 1 = s j X 0 = s i ) = P(X t = s j X t 1 = s i ). (2.10) Assim, tendo uma matriz de transição homogênea, podemos ampliar a equação de Chapman- Kolmogorov, 2.8, para dar conta de um número arbitrário de passos: P(X t = s j X t = s i ) = = P(X τ1 X t = s i )P(X τ2 X τ1 ) P(X τn X τn 1 )P(X t = s j X τn ) All (t t ) = t ) (Ât ij. (2.11) Com relação à equação 2.11, o número de termos no produto é o número de passos desde o instante t até o instante t. A cada par de passos, soma-se sobre todos os possíveis estados intermediários, como feito na equação 2.8, até que a sequência de passos seja completada. Isso é equivalente a elevar a matriz de transição  à potência (t t), que é justamente o número de passos, e escolher o valor guardado na célula (i,j) dessa nova matriz. Essa célula guarda a probabilidade de sair do estado s i e chegar ao estado s j em (t t) passos. 6

11 2.2 Modelo Markoviano do Tempo Em seu artigo sobre HMM e suas aplicações em reconhecimento de fala, Rabiner [3] usa um ótimo exemplo para ilustrar a aplicação de Cadeias de Markov de forma simples. O exemplo trata da modelagem do tempo no decorrer dos dias. Assim, seja a variável estocástica X, que representa o tempo e tem suas realizações definidas no conjunto discreto {S 1 = chuvoso, S 2 = nublado, S 3 = ensolarado}. Determina-se que as observações são feitas uma vez ao dia, que o resultado obtido será sempre um único desses três estados possíveis, sem combinação entre estados, e que as probabilidades de transição entre esses estados são dadas pela matriz  = {a ij } = a 11 a 12 a 13 a 21 a 22 a 23 a 31 a 32 a 33 = Dado que o tempo no dia 1 é ensolarado (X 0 = S 3 ), qual a probabilidade (de acordo com o modelo) de que o tempo para os próximos 7 dias seja ensolarado-ensolarado-chuvoso-chuvosoensolarado-nublado-ensolarado? Mais formalmente, definimos a sequência de observação O = {X 0 = S 3, X 1 = S 3, X 2 = S 3, X 3 = S 1, X 4 = S 1, X 5 = S 3, X 6 = S 2, X 7 = S 3 }. Queremos obter a probabilidade de O, dado o modelo: P(O Model) = P(S 3, S 3, S 3, S 1, S 1, S 3, S 2, S 3 Model) = P(S 3 )P(S 3 S 3 )P(S 3 S 3 )P(S 1 S 3 )P(S 1 S 1 )P(S 3 S 1 )P(S 2 S 3 )P(S 3 S 2 ) = π 3 a 33 a 33 a 31 a 11 a 13 a 32 a 23 = 1 (0.8)(0.8)(0.1)(0.4)(0.3)(0.1)(0.2) = onde a notação π i = P(X 0 = S i ), 1 i N (2.12) é usada para indicar a probabilidade inicial de cada estado. Outra questão de interesse é: dado que o modelo está em um estado conhecido, qual a probabilidade dele permanecer nesse estado por exatamente d dias? Essa probabilidade pode ser 7

12 avaliada como sendo a probabilidade da sequência de observação O = {S i, S i, S i,, S i, S j S i } d d+1 dado o modelo, a qual é P(O Model, X 0 = S i ) = (a ii ) d 1 (1 a ii ) = p i (d). (2.13) A quantidade p i (d) é a densidade de probabilidade de duração d no estado i. Essa duração exponencial é característica do tempo de permanência em um estado numa Cadeia de Markov. A partir de p i (d) podemos calcular o número médio de observações subseqüentes em um dado estado, condicionado ao fato desse ter sido o estado inicial d i = = d(p i (d)) (2.14) d=1 d=1 d((a ii ) d 1 (1 a ii )) = 1 1 a ii. (2.15) Assim, de acordo com o modelo, o número esperado de dias ensolarados consecutivos é 1/(0.2) = 5 (o atual, mais 4 dias de sol), de dias nublados é 2.5 e de dias chuvosos é

13 3 Modelos Ocultos de Markov No final da década de 1960, Leonard E. Baum e colaboradores publicaram uma série de artigos lançando as bases para o formalismo de Modelos Ocultos de Markov (Hidden Markov Models - HMM) 1. As primeira aplicações dessa modelagem estavam voltadas para o reconhecimento de fala, sendo os trabalhos de F. Jelinek (IBM) e J. K. Baker (Carnegie Mellon University - CMU), no começo dos anos 70, pioneiros no uso de HMM. Na segunda metade da década de 80, HMM foi aplicado em seqüenciamento de DNA, alcançando posteriormente grande importância em todo o campo da bioinformática. Nas palavras de Rabiner [3], na maioria dos processos Markovianos, cada estado corresponde a um observável 2 do sistema. Para esclarecer a idéia, consideremos o exemplo sobre modelagem do tempo, introduzido no capítulo 2, sobre Cadeias de Markov. Ao verificar a condição do tempo em um determinado dia, o observador obterá diretamente um dos estados da Markov como resposta, {S 1 = chuvoso, S 2 = nublado, S 3 = ensolarado}. Por outro lado, Modelos Ocultos de Markov são usados na modelagem de processos Markovianos que geram observáveis de forma indireta, em função das transições entre os estados da cadeia de Markov que governa o processo, mas que não pode ser diretamente observada. Em outras palavras, a evolução da cadeia de Markov está escondida do observador. Em comparação à proposta anterior de modelagem do tempo por Cadeias de Markov, uma possível modelagem em HMM poderia tratar da observação do comportamento de um trabalhador em sua forma de transporte ao trabalho. Esse trabalhador se locomove de bicicleta ou taxi em função do tempo ou de sua previsão. Geralmente vai ao trabalho de bicicleta, mas costuma pegar taxi em dias chuvosos. Assim, se esse trabalhador foi trabalhar de bicicleta em um determinado dia, há uma probabilidade maior de que o dia esteja ensolarado do que chuvoso, mas ainda assim pode se 1 Hidden Markov Models aparece na literatura sob diversos nomes, tais como Hidden Markov Processes, Markov Sources, Hidden Markov Chains, Probabilistic Functions of Markov Chains. 2 Observável, no contexto desse trabalho, é algo que pode ser observado. Para ilustrar, ao jogar uma moeda para cima, obteremos como resultado da observação um dos dois possíveis observáveis: cara ou coroa. 9

14 tratar de um dia de chuva. Assim, a diferença fundamental entre HMM e o resto dos formalismos Markovianos está na forma de se observar o sistema. Enquanto que na maioria dos processos Markovianos a observação é direta, pois os observáveis são os próprios estados, em HMM a observação é indireta, feita por inferência, pois os observáveis são funções probabilísticas dos estados da Markov ou das transições entre esses estados. 3.1 Definição No contexto desse trabalho, Modelos Ocultos de Markov são definidos como modelos Markovianos onde a observação da evolução do sistema se dá de forma indireta, como função probabilística da transição entre os estados definidos num espaço de estados discreto e finito. Por mais que conheçamos todos os parâmetros do modelo 3, continua oculta a evolução da Markov que governa esse processo. Em outras palavras, não se sabe qual o caminho ou sequência de passos exatos que levaram a uma determinada observação. Sejam 1. Um espaço de estados S = {s 1, s 2, s 3,, s N } 2. Um conjunto de observáveis Y = {y 1, y 2, y 3,, y M } 3. Uma variável estocástica Q a assumir valores do espaço de estados S em diferentes instantes de tempo 4. Uma variável estocástica O a assumir valores do conjunto de observáveis Y em diferentes instantes de tempo 5. Uma distribuição de probabilidade inicial para cada estado Π = {π i }, tal que π i = P(q 0 = s i ) 6. Uma distribuição de probabilidade de transição entre estados  = {a ij}, tal que a ij = P(q t = s j q t 1 = s i ) 7. Uma distribuição de probabilidade de observação ˆB = {b ij (k)}, tal que b ij (k) = P(O t = y k q t 1 = s i, q t = s j ) associada a transições do estado s i para o estado s j 3 São chamados parˆametros do modelo o conjunto de valores λ = (Â, ˆB, Π) que definem o modelo, onde Π é o vetor de probabilidade inicial de cada estado da Markov oculta,  é a matriz que define as probabilidades de transição entre esses estados e ˆB é a matriz de probabilidade de emissão de observáveis. 10

15 Jelinek [1] cita três possíveis definições para o formalismo de Modelos Ocultos de Markov. A primeira delas, adotada pelo próprio autor, trata dos observáveis como função das transições entre os estados da Markov oculta. Outra definição, adotada por Rabiner [3], trata dos observáveis como função dos próprios estados da Markov. A terceira definição, muito usada em modelos acústicos, remove a restrição quanto à finitude de Y. Em se tratando de mais uma variante de processos Markovianos, onde trabalhamos com uma cadeia de Markov que está escondida do observador, todas as equações que valem para Cadeias de Markov também valem para Modelos Ocultos de Markov. Como observado por Jelinek [1], se o espaço de estados da Markov não for muito grande, podemos usar autômatos para analisar graficamente as relações entre os estados, suas transições e os observáveis gerados. (a) Cadeia de Markov de 3 estados (b) HMM de 3 estados e observáveis y {0, 1} (c) HMM e observáveis para cada transição Figura 3.1. Markov de 3 estados e HMM correspondente (Fonte: Jelinek [1]) Suponha, então, a Cadeia de Markov de três estados mostrada na Figura 3.1. Algumas transições não são mostradas em (a), significando que a 21 = a 22 = a 33 = 0. A HMM correspondente, de três estados e observáveis y {0, 1}, pode ser vista em (b). Em (c) temos a representação da HMM evidenciando os observáveis gerados em função da ocorrência de transições entre os estados da Markov que governa o processo. Seguindo na abordagem adotada por Jelinek [1] no estudo de Modelos Ocultos de Markov (HMM), além de autômatos, usaremos outro artifício gráfico para nos ajudar na compreensão de HMM. Esse artifício é conhecido como trellis 4. Ele auxilia no cálculo da probabilidade de uma sequência de observáveis P(y 1 y 2 y k ), colocando em evidência a evolução temporal do processo gerador dessa sequência. O trellis consiste na concatenação de estágios elementares 4 Trellis, do inglês, significa treliça, um gradeado para plantas trepadeiras. No contexto desse trabalho, trellis é um artifício gráfico para entender a dinâmica de transições entre os estados da Markov, de momento a momento. Apesar da existência de uma tradução para o português, no decorrer do texto, opta-se pelo uso do termo em inglês. 11

16 atribuídos, um a um, a cada observável. Esses estágios, ilustrados na Figura 3.2 mostram as transições entre os estados da Markov que poderiam gerar aquele observável específico. Figura 3.2. Dois estágios do trellis, correspondendo ao HMM binário da Figura 3.1 (Fonte: Jelinek [1]) Voltaremos ao trellis várias vezes no decorrer desse estudo, como forma de ilustrar os problemas canônicos de HMM, abordados no capítulo 4, cujas resoluções são fundamentais na calibração de modelos criados com base no formalismo de Modelos Ocultos de Markov. 12

17 4 Problemas Canônicos Por definição [11], a modelagem de um sitema físico ou realidade qualquer é uma versão bastante simplificada da realidade propriamente dita. Dessa forma, não há modelo absoluto, existem apenas modelos mais ou menos adequados para uma dado sistema. Tendo isso em mente, poderíamos tratar o processo de modelagem como sendo composto de duas etapas: a definição dos parâmetros do modelo e o ajuste do mesmo pela resolução de uma série de problemas-controle. No contexto de modelagens em HMM, há três problemas fundamentais (ou canônicos) a serem resolvidos antes de fazer uso de um modelo, [3] 1. Esses problemas, responsáveis pelo ajuste fino de um modelo, são os seguintes: Problema 1: Probabilidade de uma Sequência de Observáveis Sejam o modelo λ = (Â, ˆB, π) e a sequência de observáveis O = O 1 O 2 O T. Como calcular de forma eficiente a probabilidade dessa sequência ser gerada pelo modelo, P(O λ)? Problema 2: Sequência Ótima de Estados Sejam o modelo λ = (Â, ˆB, π) e a sequência de observáveis O = O 1 O 2 O T. Dentre as diversas sequências de estados que poderiam ter gerado essa sequência de observáveis, qual é a mais provável? Problema 3: Maximização da Probabilidade de uma Sequência de Observáveis Como ajustamos os parâmetros λ = (Â, ˆB, π) do modelo para maximizar P(O λ)? 1 Rabiner [3] fundamenta essa abordagem nas idéias apresentadas por Jack Ferguson, do IDA, em apresentações nos Laboratórios Bell. 13

18 4.1 Solução do Problema 1 Sejam os parâmetros do modelo e a sequência de observáveis λ = (Â, ˆB, π); (4.1) O = O 1 O 2 O T. (4.2) Queremos calcular P(O λ), a problabilidade de gerar a sequência O a partir desse modelo. A maneira mais direta de realizar esse cálculo parte da identificação de cada sequência de estados Q que possa gerar O. Usando o jargão da área, essa seria a resolução à força bruta e, por consequência, tende a ser onerosa, pois dispende mais tempo e poder computacional. Veremos adiante um algoritmo mais eficiente, mas por ora vamos nos deter à análise dessa resolução mais direta. Para simplificar os cálculos, consideramos que cada transição entre estados q t 1 e q t gera um observável O t. Uma simplificação adicional é feita ao considerar que, além de ser ergódico, o sistema tem a característica especial de que a qt 1 q t > 0, t, ou seja, transições estão previstas entre quaisquer pares de estados do modelo. Dadas essas considerações, suponha que O tenha sido gerado pela seguinte sequência de estados Q = q 0 q 1 q T, (4.3) na qual o índice numérico é um inteiro, 0 t T, que indica um instante no tempo. Assim, q 0 significa o estado da Markov no instante t = 0, ou simplesmente o estado inicial. A probabilidade de Q é dada por P(Q λ) = π q0 a q0 q 1 a q1 q 2 a qt 1 q T (4.4) Assumindo que as observações são estatisticamente independentes entre si 2, podemos escrever P(O Q, λ) = de onde segue que T P(O t q t 1, q t, λ) (4.5) t=1 P(O Q, λ) = b q0 q 1 (O 1 ) b q1 q 2 (O 2 ) b qt 1 q T (O T ). (4.6) 2 A rigor, HMM não restringe quanto à natureza da relação entre os observáveis em uma sequência, podendo as observações ser ou não estatisticamente independentes, [1]. 14

19 Dessas equações, podemos escrever a probabilidade conjunta de O e Q P(O, Q λ) = P(O Q, λ) P(Q λ) (4.7) Fazendo o somatório de 4.7 sobre todas as sequências de estados Q = q 0 q 1 q T, tem-se P(O λ) = P(O Q, λ) P(Q λ) = π q0 a q(t 1) q t b q(t 1) q t (O t ) (4.8) allq allq t=1 = π q0 a q0 q 1 b q0 q 1 (O 1 ) a q1 q 2 b q1 q 2 (O 2 ) a q(t 1) q T b q(t 1) q T (O T ) (4.9) q 0 q 1 q 2 q T Para entender o significado dessa equação, considere uma única sequência de estados Q. A probalididade da Markov ocupar um dos N possíveis estados no instante t = 0 é dada por π q0. Em t = 1, o sistema sofre transição do estado q 0 para o estado q 1, gerando o observável O 1, de acordo com as propabilidades de transição e de observação, a q0 q 1 e b q0 q 1 (O 1 ), respectivamente. Esse procedimento se repete até t = T. Tendo calculado a probabilidade para uma dada sequência Q, passa-se à próxima, dentre as sequências restantes. A soma sobre todas as sequências resulta na probalididade do modelo gerar a sequência O de observáveis. O índice numérico 0 t T também pode ser visto como uma coluna do trellis, onde q 0 é o estado da Markov na coluna 0 do trellis, q 1 é o estado da Markov na coluna 1, e assim por diante. Na transição entre duas colunas do trellis, um observável é emitido. Essa dinâmica é mostrada nas Figuras 4.1 e 4.2 para a sequência de observação { }, referente ao exemplo apresentado em capítulo anterior para o caso de uma Markov de 3 estados, gerando observáveis y {0, 1} (ver Figura 3.1 para mais detalhes). T Figura 4.1. Trellis para a sequência de observáveis relativa à Figura 3.1 (Fonte: Jelinek [1]) 15

20 Figura 4.2. Trellis da Figura 4.1 contemplando apenas os caminhos que geram a sequência completa de observáveis (Fonte: Jelinek [1]) Da equação 4.9, observamos que existem N T sequências Q de T posições feitas a partir de N estados. Assim, há N T termos no somatório dessa equação, o que implica em N T 1 adições. Também existem T operações de multiplicação entre os termos a qt 1 q t b qt 1 q t (O t ), sendo que 1 t T, e são T 1 as multiplicações entre esse conjunto de termos e seus correlatos, desde a q0 q 1 b q0 q 1 (O 1 ) até a qt 1 q T b qt 1 q T (O T ). Assim, são (2T 1) multiplicações em cada termo do somatório, totalizando (2T 1) N T multiplicações. Portanto, a resolução da equação 4.9 envolve um total de 2TN T 1 operações. Esse cálculo talvez não seja computacionalmente impossível, mas certamente é muitíssimo oneroso. Como exemplo, considere um sistema com N = 5 estados e uma sequência de T = 100 observáveis. Para esse exemplo, a resolução de 4.9 envolve operações. Contudo, como frisa Rabiner [3], existe um procedimento muito mais eficiente para resolver o Problema 1. Esse algoritmo é conhecido como forward-backward procedure, do qual precisamos apenas da parte forward, por enquanto Algoritmo Forward-Backward Considere a variável forward, definida como α t (i) = P(O 1 O 2 O t, q t = S i λ) (4.10) isto é, a probabilidade da observação parcial da sequência de observáveis, de O 1 até O t, conjunta com a probabilidade de ocupação do estado S i da Markov no instante t. Como estamos 3 O algoritmo completo será usado na resolução do Problema 3. 16

21 trabalhando com sequências em função do tempo, podemos dizer que trabalhamos com conjuntos ordenados de eventos, o que nos permite assumir, por indução, que α t (i) vale para qualquer instante de tempo dentro dos limites do problema, 0 t T. Assim, resolvemos o Problema 1 pela aplicação do seguinte procedimento: 1. Inicialização: α 0 (i) = π i, 1 i N (4.11) 2. Indução: α t+1 (j) = N α t (i)a ij b ij (O t+1 ), 0 t T 1 (4.12) i=1 1 j N 3. Finalização: A figura 4.3 ilustra a situação. P(O λ) = N α T (i) (4.13) i=1 Figura 4.3. Ilustração da parte forward do algoritmo forward-backward (Fonte: Rabiner [3]) A Indução é a parte mais importante desse procedimento, então vamos tentar compreendêla. O termo α t (i) é a probabilidade conjunta da observação parcial O = O 1 O 2 O t ; ocupação do estado q t = S i. Ao multiplicar a ij e por b ij (O t+1 ) estamos calculando a probabilidade conjunta de 17

22 transição do estado q t = S i para o estado q t+1 = S j ; emissão do observável O t+1 em consequência da transição a ij. Multiplicando, então, os termos α t (i), a ij e b ij (O t+1 ), e somando sobre todos os estados 1 i N, obtemos a probabilidade conjunta de observação parcial O = O 1 O 2 O t ; ocupação do estado q t+1 = S j, qualquer que tenha sido o estado no instante anterior; emissão do observável O t+1 em consequência de todas as transições com destino a q t+1 = S j ; que nada mais é do que a o valor de α t+1 (j) (equação 4.12). Para finalizar o procedimento, faz-se o somatório de α T (i) sobre todos os estados 1 i N. Isso faz todo o sentido quando analisamos a definição da variável forward por ocasião do último instante de observação T : α T (i) = P(O 1 O 2 O T, q T = S i λ) (4.14) Essa equação nada mais é do que a probabilidade conjunta da sequência completa de observação com a probabilidade de ocupar o estado S i no instante T. Dessa forma, ao somarmos a equação 4.14 sobre todos os estados, obtemos a probabilidade de que um dado modelo λ = (Â, ˆB, π) gere a sequência de observáveis O = O 1 O 2 O T, ou seja, obtemos O procedimento inteiro, até a obtenção da equação 4.13, envolve 2N 2 T multiplicações e (N 1)NT adições, totalizando (3N 1)NT operações 4. Nesse momento, cabe comparar a eficiência desse procedimento com relação ao anterior. Para tal, usamos o mesmo exemplo, com espaço de estados N = 5 e uma sequência de T = 100 observáveis. Enquanto que o método de resolução por força bruta envolve aproximadamente operações, a parte forward do procedimento forward-backward precisa de 7000 operações, uma diferença de ordens de grandeza. Com esse exemplo, não há o que discutir sobre a superioridade do forward-backward nas resolução do Problema 1. 4 No procedimento original, encontrado no artigo [3], de Rabiner, a parte Indutiva é dada pela equação α t+1 (j) = [ N i=1 α t(i)a ij ]b j (O t+1 ), o que resulta (N + 1)NT multiplicações, dando um total de 2N 2 T operações. Assim, para N = 5 e T = 100, seriam 5000 operações quando o observável é gerado em função do estado, contra as 7000 operações quando o observável é gerado em função da transição entre estados. 18

23 Considere agora a variável backward, definida como β t (i) = P(O t+1 O t+2 O T q t = S i, λ), (4.15) ou seja, a probabilidade conjunta de a Markov estar no estado S i no instante t com a probabilidade da observação parcial, O t+1 O t+2 O T, nos instantes subseqüentes a t. A parte backward do procedimento forward-backward é muito semelhante ao que acabamos de ver para a parte forward. Logo, por analogia, segue: 1. Inicialização: β T (i) = 1, 1 i N (4.16) 2. Indução: β t (i) = N a ij b ij (O t+1 )β t+1 (j), (4.17) j=1 t = T 1, T 2,, 0 1 i N Rabiner [3] não apresenta uma finalização para esse procedimento, contudo, se assumirmos que o modelo tem um determinado estado inicial, S i, com probabilidade P(S i ) = 1, podemos dizer que o que buscamos calcular é justamente β 0, que é a probabilidade da sequência completa de observação, dado que o estado inicial foi q 0 = S i : β 0 (i) = P(O 1 O 2 O T q 0 = S i, λ) (4.18) A figura 4.4 ilustra a situação. De acordo com Jelinek [1], a inicialização apresentada nesse procedimento trata-se de uma questão de convenção. Para facilitar a compreensão, vamos desenvolver os primeiros termos desse procedimento. Assim: β T 1 (j) = N k=1 a jk b jk (O T ) β T (k) = }{{} 1 N a jk b jk (O T ) (4.19) k=1 β T 2 (i) = = N a ij b ij (O T 1 )β T 1 (j) (4.20) j=1 [ N a ij b ij (O T 1 ) j=1 k=1 ] N a jk b jk (O T ) (4.21) 19

24 Figura 4.4. Ilustração da parte backward do algoritmo forward-backward (Fonte: Rabiner [3]) Assumindo que as observações são independentes, podemos escrever: [ N ] [ N ] N β T 2 (i) = a ij b ij (O T 1 ) a jk b jk (O T ) j=1 } {{ } P(O T 1 q T 2 =S i ) j=1 k=1 } {{ } P(O T ) (4.22) = P(O T 1 O T q T 2 = S i ) (4.23) Assim, a sequência de observação está se criando de trás para a frente. 4.2 Solução do Problema 2 Esse é o problema de achar a sequência ótima de estados associada à sequência de observáveis. Rabiner [3] defende que a dificuldade nesse problema é a de se estabelecer um critério de otimização, dentre vários que possam existir. Assim, a resolução do Problema 2 poderia se dar de diferentes formas, indicando diferentes sequências supostamente ótimas, tudo em função do critério de otimização escolhido. Já Jelinek [1] nem entra nesse mérito, passando direto ao estudo do algoritmo de Viterbi (seção 4.2.1). Para ilustrar a dificuldade na escolha do critério de otimização, num primeiro momento, Rabiner [3] resolve o problema adotando o seguinte critério: a cada instante t escolhe-se o estado individualmente mais provável. No desenvolvimento dessa solução, Rabiner [3] usa as definições das partes do algoritmo forward-backward, como veremos adiante. Agora considere a definição da seguinte variável: γ t (i) = P(q t = S i O, λ). (4.24) 20

25 Por definição, γ t (i) é a probabilidade de que, dado um modelo λ = (Â, ˆB, π) e uma sequência completa de observáveis O 1 O 2 O T, o sistema tenha ocupado o estado S i no instante t. Essa equação pode ser posta em termos das variáveis forward e backward vistas na seção 4.1.1: γ t (i) = α t(i)β t (i) P(O λ) = α t (i)β t (i) N i=1 α t(i)β t (i) (4.25) Como cita Rabiner [3], o fator de normalização P(O λ) = N i=1 α t(i)β t (i) faz de γ t (i) uma medida de probabilidade, tal que N γ t (i) = 1 (4.26) i=1 Assim, descobrimos o estado q t individualmente mais provável no instante t através da busca pelo argumento i que retorna o maior valor de γ t (i) naquele instante (equação 4.25): q t = argmax [γ t (i)], 0 t T (4.27) 1 i N Contudo, obter o estado mais provável no instante t 1 para, em seguida, obter o estado mais provável no instante t não é garantia de termos a sequência parcial {q t 1 = S i, q t = S j } mais provável, pois pode acontecer que a transição entre S i e S j não esteja prevista. Assim, Rabiner [3] explica que essa solução não se aplica para o caso em que a ij = 0 para algum par (i, j) de estados do modelo. Realmente, o critério do estado mais provável no instante t só faz sentido se o sistema, além de ergódico, tiver a ij > 0, 1 i, j N. Parece ser, então, mais simples passar direto à resolução pelo algoritmo de Viterbi (abordagem adotada por Jelinek [1]), pois ele comtempla apenas transições possíveis, não apresentando o problema que acabamos de ver Algoritmo de Viterbi Segundo Forney [12], o algoritmo de Viterbi, proposto em 1967 e desde então usado em uma grande gama de aplicações, é uma solução ótima recursiva para o problema de estimar a sequência de estados de um processo Markoviano de estado finito e tempo discreto. De acordo com Rabiner [3] o critério mais usado para a resolução do Problema 2 é o de achar a melhor, ou mais provável, sequência completa de estados, e o algoritmo de Viterbi seria a técnica formal usada em vista desse critério. Ora, esse critério é na verdade o enunciado do Problema 2, o que justifica passar direto ao algoritmo de Viterbi, como fez Jelinek [1]. Ainda, achar a sequência de estados mais provável, Q = q 1 q 2 q T, dada a sequência de observação O = O 1 O 2 O T, ou mais formalmente, maximizar P(Q O, λ) é equivalente a 21

26 maximizar P(Q, O λ), pois ambas as operações de maximização vão devolver a sequência de estados mais provável. Seja, então, a seguinte definição: δ t (j) = max P [q 1 q 2 q t = S j, O 1 O 2 O t q 0 = S i, λ] (4.28) q 1 q 2 q t 1 ou seja, δ t (j) guarda a probabilidade do caminho (ou sequência de estados) mais provável que leva ao estado S j no instante t, gerando os primeiros t observáveis. Por indução, temos: δ t+1 (k) = max [δ t (j) a jk b jk (O t+1 )] (4.29) j Para guardar a sequência de estados, usamos um vetor auxiliar ψ t (k) que guarda em cada posição t o índice j do estado q t 1 = S j que maximiza a sequência até o estado q t = S k. O procedimento completo é mostrado a seguir: 1. Inicialização: δ 1 (j) = a ij b ij (O 1 ), 1 j N (4.30) ψ 1 (j) = 0 (4.31) 2. Indução: δ t (k) = max 1 j N [δ t 1(j) a jk b jk (O t )], 2 t T (4.32) 1 k N ψ t (k) = argmax [δ t 1 (j) a jk ], 2 t T (4.33) 1 j N 1 k N 3. Finalização: 4. Recriação do Caminho (sequência de estados): P = max 1 k N [δ T(k)] (4.34) qt = argmax [δ T (k)] (4.35) 1 k N qt = {ψ t+1, {qt+1 }}, t = T 1, T 2,, 1 (4.36) 22

27 (a) HMM e observáveis para cada transição (b) Trellis com a sequência mais provável de estados Figura 4.5. Trellis para a representação do algoritmo de Viterbi (Fonte: Jelinek [1]) A Figura 4.5 mostra a sequência mais provável para cada um dos estados finais, de acordo com o algoritmo de Viterbi, para um dado modelo λ e sequência O de observáveis. Assim, a sequência mais provável que leva ao estado 1 é { }, a sequência mais provável que leva ao estado 2 é { }, e aquela levando ao estado 3 é { }. Ao invés de prover explicações formais para cada uma das equações que compõem o algoritmo de Viterbi, vamos explicar informalmente, através do uso do trellis, como funciona esse algoritmo. Para facilitar, useremos a notação (estado) coluna para indicar em que coluna está o estado do qual falamos. Não vamos recriar as sequências que levam aos três estados da última coluna do trellis, e sequer vamos calcular uma sequência completa. Para ilustrar o método, basta nos atermos ao estado 2 2. Assim, dois possíveis caminhos levam a 2 2, são eles: {1 1 2} e {1 3 2}. O estado 1 1 só pode ter sido precedido pelo estado 1 0, então atribuímos peso 1 a essa transição; enquanto que o estado 3 1 pode ter sido precedido tanto por 1 0 quanto por 2 0, assim, atribuímos peso 0.5 a cada uma dessas transições. O estado 2 2 pode ter sido precedido tanto por 1 1 quanto por 3 1, e mais uma vez atribuímos peso 0.5 a cada uma das transições. Se multiplicarmos esses pesos, teremos o valor 0.25 para a sequência parcial {1 3 2} e o valor 0.5 para a sequência parcial {1 1 2}, fazendo desta última a sequência parcial mais provável, como mostra a Figura 4.5. Como dito anteriormente, a Figura 4.5 mostra a sequência mais provável para cada um dos estados finais (coluna 4 do trellis). Essas sequências são { }, { } e { }. Para descobrir qual dentre essas três é de fato a mais provável, basta seguir o procedimento 23

28 recém explicado e obteremos probabilidades iguais para as duas primeiras sequências, sendo que a última é menos provável que as anteriores. O algoritmo de Viterbi resolve esse problema escolhendo arbitrariamente uma dentre as duas sequências igualmente prováveis. 4.3 Solução do Problema 3 Rabiner [3] menciona que, dentre os três Problemas Canˆonicos, este é de longe o mais difícil de resolver, pois não existe método analítico que permita obter os parâmetros λ = (Â, ˆB, π) que maximizam a probabilidade de um modelo gerar a sequência completa de observáveis, P(O λ) λ = argmax λ P(O λ) (4.37) No entanto, existe um algoritmo capaz de maximizar a probabilidade local. Esse algoritmo, de acordo com Jelinek [1] é citado na literatura sob diferentes nomes, tais como algoritmo de Baum, Baum-Welch ou algoritmo forward-backward. Passemos então ao método Algoritmo de Baum-Welch Considere a seguinte definição 5 : ξ t (i, j) = P(q t = S i, q t+1 = S j O, λ); (4.38) ou seja, ξ t (i, j) é a probabilidade conjunta de estar no estado S i no instante t e no estado S j no instante t + 1, dado o modelo inicial λ = (Â, ˆB, π) e a sequência de treinamento O. Essa variável pode ser expressa em termos das variáveis forward (equação 4.10) e backward (equação 4.15), tomando a seguinte forma: ξ t (i, j) = P(q t = S i, q t+1 = S j O, λ) = P(q t = S i, q t+1 = S j, O λ) P(O λ) α t (i) a ij b ij (O t+1 ) β t+1 (j) = P(O λ) α t (i) a ij b ij (O t+1 ) β t+1 (j) = N N i=1 j=1 α t(i) a ij b ij (O t+1 ) β t+1 (j) (4.39) [3]. 5 O desenvolvimento do algoritmo de Baum-Wech apresentado nesse trabalho é baseado no artigo de Rabiner, 24

29 Agora, façamos o somatório da equação 4.39 sobre o índice j, 1 j N: N ξ t (i, j) = j=1 = N α t (i) a ij b ij (O t+1 ) β t+1 (j) P(O λ) j=1 [ N ] α t (i) j=1 a ijb ij (O t+1 ) β t+1 (j) = α t(i) β t (i) P(O λ) P(O λ) (4.40) A Figura 4.6 ilustra a situação. Figura 4.6. Ilustração do algoritmo forward-backward aplicado à solução do Problema 3 (Fonte: Rabiner [3]) A parte entre colchetes na equação 4.40 é exatamente a equação 4.17, relativa à variável backward no instante t. Logo, a equação 4.40 se iguala à equação 4.25, apresentada durante a resolução do Problema 2, que define γ t (i) em função das variáveis forward e backward. Portanto, N γ t (i) = ξ t (i, j) (4.41) j=1 Se fizermos o somatório de γ t (i) sobre o tempo de observação, T, obteremos a estimativa do número de vezes que o estado S i é visitado em todo esse período. Se quisermos saber o número de transições a partir de S i, basta levar o somatório até o instante T 1. Analogamente, ao fazer o somatório de ξ t (i, j) até T 1, obtemos a estimativa do número de vezes que ocorreram 25

30 transições entre os estados q t 1 = S i e q t = S j. Formalmente: T 1 γ t (i) = número esperado de transições a partir de S i (4.42) t=0 T 1 ξ t (i, j) = número esperado de transições de S i para S j (4.43) t=0 Usando essas fórmulas, podemos usar o seguinte método para reestimar os parâmetros de um modelo: π i = número esperado de vezes no estado q 0 = S i = γ 1 (i) (4.44) ā ij = número esperado de transições do estado S i para o estado S j número esperado de transições a partir do estado S i T 1 t=0 = ξ t(i, j) T 1 t=0 γ t(i) (4.45) bij (k) = número esperado de transições entre os estados (i,j) e observações do símbolo y k número esperado de transições entre os estados (i,j) = T t=0 s.t.o t=y k γ t (j) T t=0 γ t(j) (4.46) Se definirmos o modelo atual como λ = (Â, ˆB, π) e usarmos esses parâmetros para calcular os parâmetros do novo modelo, λ = ( Â, ˆB, π), foi provado por Baum e seus colegas que 1. ou λ = λ, o que significa que λ define um ponto crítico da função de probabilidade e, portanto, o modelo λ é aquele que maximiza a sequência de observação; 2. ou λ é mais provável que λ, pois P(O λ) > P(O λ), significando que achamos um novo modelo, λ, de onde é mais provável que a sequência de observação O tenha sido gerada. Esse processo é executado iterativamente, quantas vezes forem necessárias, até que λ = λ. 26

31 5 Considerações Finais Esse trabalho tratou das bases do formalismo de Modelos Ocultos de Markov (Hidden Markov Models - HMM), como fundamentado por Rabiner [3] e Jelinek [1]. Antes de mais nada, conceituou-se Cadeias de Markov, visto que há sempre uma Markov governando uma modelagem em HMM. Logo após, apresentou-se a definição de HMM, seguida da apresentação dos problemas canônicos que, uma vez resolvidos, permitem fazer os devidos ajustes para finalização da modelagem. Assim, um dos problemas se dedicava a calcular a probabilidade de um modelo gerar uma sequência de observáveis; outro problema tratou de identificar, dentre as possíveis sequências de estados na Markov embutida, aquela que tivesse a maior probabilidade de gerar uma determinada sequência; o último problema buscava novos parâmetros para o modelo, tentando elevar a probabilidade de geração da sequência observada. Conduzimos esses tópicos tratando de uma classe muito restrita de problemas, a começar pelo fato de termos trabalhado apenas com modelos Markovianos discretos no espaço de estados e no tempo. Outras restrições foram quanto à forma da matriz de transição, pois atacamos apenas matrizes estacionárias, regulares e, na sua grande maioria, homogêneas; quanto à finitude do espaço de observáveis e à independência entre observações. Ainda, não consideramos nesse trabalho a probabilidade de transições entre estados da Markov não emitirem observáveis. Essas simplificações são justificadas por esse se tratar de um trabalho de caráter introdutório ao assunto. Em trabalhos futuros, pretendemos expandir o conceito com o objetivo de criar modelos mais realistas, eliminando as restrições acima enumeradas e aplicando a problemas de interesse. Dentre as atividades planejadas para a continuação desse estudo, está a identificação de uma forma de relacionar HMM com Rede de Autômatos Estocásticos (Stochastic Automata Network - SAN), um formalismo Markoviano muito utilizado em nosso grupo de pesquisa (Performance Evaluation Group - PEG). 27

32 Referências Bibliográficas [1] F. Jelinek. Statistical Methods for Speech Recognition. The MIT Press, [2] L. E. Reichl. A Modern Course in Statistical Physics. WILEY-VCH, second edition, [3] L. R. Rabiner. A tutorial on hidden markov models and selected applications in speech recognition. Proceedings of the IEEE, 77(2): , [4] S.E. Levinson, L.R. Rabiner, and M.M. Sondhi. An introduction to the application of the theory of probabilistic functions of a markov process to automatic speech recognition. The Bell System Technical Journal, 62(4): , [5] B. H. Juang. On the hidden markov model and dynamic time warping for speech recognition - a unified view. The Bell System Technical Journal, 63(7): , [6] L. R. Rabiner and B. H. Juang. An introduction to hidden markov models. IEEE ASSP Magazine, 3(1):4 16, [7] J. S. Bridle. Stochastic models and template matching: some important relationships between two apparently different techniques for automatic speech recognition. In Proceedings of the Institute of Acoustics (Autumn Conference), pages 1 8, [8] J. Makhoul, S. Roucos, and H. Gish. Vector quantization in speech coding. Proceedings of the IEEE, 73(11): , [9] S.E. Levinson. Structural methods in automatic speech recognition. Proceedings of the IEEE, 73(11): , [10] G. Bolch, S. Greiner, H. de Meer, and K. S. Trivedi. Queueing Networks and Markov Chains: Modeling and Performance Evaluation with Computer Science Applications. John Wiley & Sons, second edition,

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov

Plano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov Plano Esta apresentação é para pessoas sem conhecimento prévio de HMMs Introdução aos Modelos Escondidos de Markov 2004 Objetivos: Ensinar alguma coisa, não tudo (Visão geral, sem muitos detalhes). Tentar

Leia mais

Modelagem e Avaliação de Desempenho

Modelagem e Avaliação de Desempenho Modelagem e Avaliação de Desempenho Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2018 Exemplos usados na apresentação foram obtidos de Introduction to Probability, C.M.Grinstead

Leia mais

Noções de Processos Estocásticos e Cadeias de Markov

Noções de Processos Estocásticos e Cadeias de Markov Noções de Processos Estocásticos e Cadeias de Markov Processo Estocástico Definição: Processo Estocástico é uma coleção de variáveis aleatórias indexadas por um parâmetro t R (entendido como tempo). X={

Leia mais

Processos Estocásticos

Processos Estocásticos Processos Estocásticos Quarta Lista de Exercícios 12 de fevereiro de 2014 1 Sejam X e Y duas VAs que só podem assumir os valores 1 ou -1 e seja p(x, y) = P (X = x, Y = y), x, y { 1, 1} a função de probabilidade

Leia mais

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Classificação Seqüencial. HMMs e MEMMs. Cadeias de Markov. Especificação Formal

Aula de Hoje. Processamento Estatístico da Linguagem Natural. Classificação Seqüencial. HMMs e MEMMs. Cadeias de Markov. Especificação Formal Processamento Estatístico da Linguagem Natural Aula 13 Professora Bianca (Sala 302 Bloco E) bianca@ic.uff.br http://www.ic.uff.br/~bianca/peln/ Aula de Hoje Cap. 6 Jurafsky & Martin Hidden Markov and Maximum

Leia mais

Teoria de Filas Aula 10

Teoria de Filas Aula 10 Aula Passada Comentários sobre a prova Teoria de Filas Aula 10 Introdução a processos estocásticos Introdução a Cadeias de Markov Aula de Hoje Cadeias de Markov de tempo discreto (DTMC) 1 Recordando...

Leia mais

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000)

5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) 5 Filtro de Kalman Aplicado ao Modelo de Schwartz e Smith (2000) A primeira parte deste capítulo, referente à passagem dos modelos estocásticos para as equações do Filtro de Kalman, já foi previamente

Leia mais

Processos Estocásticos e Cadeias de Markov Discretas

Processos Estocásticos e Cadeias de Markov Discretas Processos Estocásticos e Cadeias de Markov Discretas Processo Estocástico(I) Definição: Um processo estocástico é uma família de variáveis aleatórias {X(t) t T}, definidas em um espaço de probabilidades,

Leia mais

MODELOS PROBABILÍSTICOS

MODELOS PROBABILÍSTICOS Disciplina de BIOLOGIA COMPUTACIONAL Mestrado em ENGENHARIA BIOMÉDICA 4º Ano, 1º Semestre 2007/08 MODELOS PROBABILÍSTICOS Relatório 4 Ana Calhau Ângela Pisco Nuno Santos 54605 55748 55746 Palavras-Chave:

Leia mais

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro

Tópicos Especiais em Inteligência Artificial COS746. Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro Tópicos Especiais em Inteligência Artificial COS746 Vítor Santos Costa COPPE/Sistemas Universidade Federal do Rio de Janeiro Agradecimento Copiado dos slides de Mark Craven/C. David Page para BMI/CS 576,

Leia mais

Cadeias de Markov em Tempo Continuo

Cadeias de Markov em Tempo Continuo Cadeias de Markov em Tempo Continuo Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Capitulos 6 Taylor & Karlin 1 / 44 Análogo ao processo

Leia mais

3 Aprendizado por reforço

3 Aprendizado por reforço 3 Aprendizado por reforço Aprendizado por reforço é um ramo estudado em estatística, psicologia, neurociência e ciência da computação. Atraiu o interesse de pesquisadores ligados a aprendizado de máquina

Leia mais

IA - Planejamento II

IA - Planejamento II PO IA - Planejamento II Professor Paulo Gurgel Pinheiro MC906A - Inteligência Articial Instituto de Computação Universidade Estadual de Campinas - UNICAMP 16 de Novembro de 2010 1 / 48 PO http://www.ic.unicamp.br/

Leia mais

Aluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva

Aluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva Aluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva Interação humano-computador Interação humano-computador Interfaces naturais Interação humano-computador Interfaces naturais

Leia mais

MOQ-12 Cadeias de Markov

MOQ-12 Cadeias de Markov Instituto Tecnológico de Aeronáutica Divisão de Engenharia Mecânica-Aeronáutica MOQ-12 Cadeias de Markov Professora: Denise Beatriz T. P. do Areal Ferrari denise@ita.br Roteiro Introdução Processos Estocásticos

Leia mais

Modelos Probabilísticos

Modelos Probabilísticos Modelos Probabilísticos Somente para lembrar... Modelos são extremamente importantes para o estudo do desempenho de um sistema antes de implementá-lo na prática! Foguete proposto tem confiabilidade? Devemos

Leia mais

TE802 Processos Estocásticos em Engenharia

TE802 Processos Estocásticos em Engenharia TE802 Processos Estocásticos em Engenharia Cadeias de Markov 20/11/2017 Andrei Markov Em 1907, Andrei Markov iniciou um estudo sobre processos onde o resultado de um experimento depende do resultado de

Leia mais

4 Método Proposto CR AD PA NDVI Descrição geral do modelo

4 Método Proposto CR AD PA NDVI Descrição geral do modelo 34 4 Método Proposto 4.1. Descrição geral do modelo Neste trabalho, cada classe (cobertura vegetal) possui um HMM específico. Os estágios fenológicos correspondem a estados e os símbolos observáveis a

Leia mais

3 Filtro de Kalman Discreto

3 Filtro de Kalman Discreto 3 Filtro de Kalman Discreto As medidas realizadas por sensores estão sujeitas a erros, como pode ser visto no Capítulo 2. Os filtros são aplicados aos sinais medidos pelos sensores para reduzir os erros,

Leia mais

Notas de Aula Aula 2, 2012/2

Notas de Aula Aula 2, 2012/2 Lógica para Ciência da Computação Notas de Aula Aula 2, 2012/2 Renata de Freitas & Petrucio Viana Departamento de Análise, IME UFF 23 de janeiro de 2013 Sumário 1 Conteúdo e objetivos 1 2 Legibilidade

Leia mais

Sílvio A. Abrantes. Uns pequenos truques que facilitam alguns cálculos de Códigos e Teoria da Informação

Sílvio A. Abrantes. Uns pequenos truques que facilitam alguns cálculos de Códigos e Teoria da Informação Sílvio A. Abrantes Livro de receitas. Receitas?! Uns pequenos truques que facilitam alguns cálculos de Códigos e Teoria da Informação Abril 00 Codificação aritmética: Representação binária de números reais

Leia mais

Modelos Probabilísticos de Desempenho. Profa. Jussara M. Almeida 1º Semestre de 2014

Modelos Probabilísticos de Desempenho. Profa. Jussara M. Almeida 1º Semestre de 2014 Modelos Probabilísticos de Desempenho Profa. Jussara M. Almeida 1º Semestre de 2014 Modelos Probabilísticos Processos Estocásticos Processos de Poisson Filas M/M/1, M/G/1... Mais genericamente: modelos

Leia mais

ESTATÍSTICA COMPUTACIONAL

ESTATÍSTICA COMPUTACIONAL ESTATÍSTICA COMPUTACIONAL Ralph dos Santos Silva Departamento de Métodos Estatísticos Instituto de Matemática Universidade Federal do Rio de Janeiro Sumário Considere o problema de encontrar o valor que

Leia mais

Probabilidade Revisão de Conceitos

Probabilidade Revisão de Conceitos Probabilidade Revisão de Conceitos Espaço de Amostras A totalidade dos possíveis resultados de um experimento aleatório. Exemplo: jogar dados S = {(1,1),(1,),... (,1),(,)... (6,6)} S é dito o número de

Leia mais

3. CADEIA DE MARKOV EM TEMPO DISCRETO

3. CADEIA DE MARKOV EM TEMPO DISCRETO 3. CADEIA DE MARKOV EM TEMPO DISCRETO 3. Definição Uma Cadeia de Markov em Tempo Discreto é um processo estocástico em que a variável t representa intervalos de tempo, { }e que segue a propriedade de Markov,

Leia mais

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2011

Modelagem e Avaliação de Desempenho. Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2011 Modelagem e Avaliação de Desempenho Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2011 Cadeias de Markov Em 1907, Andrew Markov iniciou um estudo sobre um modelo onde o resultado

Leia mais

UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO. Realização:

UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO. Realização: UNIVERSIDADE FEDERAL DO CEARÁ CENTRO DE TECNOLOGIA PROGRAMA DE EDUCAÇÃO TUTORIAL APOSTILA DE CÁLCULO Realização: Fortaleza, Fevereiro/2010 1. LIMITES 1.1. Definição Geral Se os valores de f(x) puderem

Leia mais

Modelagem e Avaliação de Desempenho

Modelagem e Avaliação de Desempenho Modelagem e Avaliação de Desempenho Pós Graduação em Engenharia Elétrica - PPGEE Prof. Carlos Marcelo Pedroso 2016 Exemplos usados na apresentação foram obtidos de Introduction to Probability, C.M.Grinstead

Leia mais

Material Teórico - Módulo Equações do Segundo Grau. Equações de Segundo Grau: outros resultados importantes. Nono Ano do Ensino Funcamental

Material Teórico - Módulo Equações do Segundo Grau. Equações de Segundo Grau: outros resultados importantes. Nono Ano do Ensino Funcamental Material Teórico - Módulo Equações do Segundo Grau Equações de Segundo Grau: outros resultados importantes Nono Ano do Ensino Funcamental Autor: Prof. Fabrício Siqueira Benevides Revisor: Prof. Antonio

Leia mais

1 Congruências e aritmética modular

1 Congruências e aritmética modular 1 Congruências e aritmética modular Vamos considerar alguns exemplos de problemas sobre números inteiros como motivação para o que se segue. 1. O que podemos dizer sobre a imagem da função f : Z Z, f(x)

Leia mais

Interpolação polinomial: Diferenças divididas de Newton

Interpolação polinomial: Diferenças divididas de Newton Interpolação polinomial: Diferenças divididas de Newton Marina Andretta ICMC-USP 16 de maio de 2012 Baseado no livro Análise Numérica, de R. L. Burden e J. D. Faires. Marina Andretta (ICMC-USP) sme0500

Leia mais

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA

étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA étodos uméricos SISTEMAS DE EQUAÇÕES LINEARES (Continuação) Prof. Erivelton Geraldo Nepomuceno PROGRAMA DE PÓS-GRADUAÇÃO EM ENGENHARIA ELÉTRICA UNIVERSIDADE DE JOÃO DEL-REI PRÓ-REITORIA DE PESQUISA CENTRO

Leia mais

Métodos de Análise Transiente

Métodos de Análise Transiente Métodos de Análise Transiente Tópicos Avançados de Avaliação de Desempenho Prof. Paulo Maciel / Prof. Ricardo Massa Apresentação de: Ana Carolina Veloso Renata Pedrosa Dantas Introdução Visão real das

Leia mais

Cadeias de Markov de Tempo Contínuo (CTMC)

Cadeias de Markov de Tempo Contínuo (CTMC) Cadeias de Markov de Tempo Contínuo (CTMC) Cadeia de Markov Contínua (1) A análise de cadeias de Markov contínuas (CTMCs) é bem similar a análise em tempo discreto, com a diferença de que as transições

Leia mais

Metodologia de inversão

Metodologia de inversão 6 Metodologia de inversão Nesta tese, a transformação de velocidades em pressão de poros é encarada como um problema de inversão. Pela natureza do problema, essa transformação apresenta caráter não único

Leia mais

Método Simplex dual. Marina Andretta ICMC-USP. 24 de outubro de 2016

Método Simplex dual. Marina Andretta ICMC-USP. 24 de outubro de 2016 Método Simplex dual Marina Andretta ICMC-USP 24 de outubro de 2016 Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Marina Andretta (ICMC-USP) sme0211 - Otimização

Leia mais

Modelo de Markov e Simulação de Monte Carlo do Jogo do Monopólio

Modelo de Markov e Simulação de Monte Carlo do Jogo do Monopólio Modelação e Simulação 2011/12 Trabalho de Laboratório nº4 Modelo de Markov e Simulação de Monte Carlo do Jogo do Monopólio Objectivo Após realizar este trabalho, o aluno deverá ser capaz de Construir um

Leia mais

1/7 1/ se hoje não chove, amanhã não vai chover com probabilidade p 00 = 6/7;

1/7 1/ se hoje não chove, amanhã não vai chover com probabilidade p 00 = 6/7; 6/7 nao chove 1/7 chove 1/3 "0" /3 "1" Figura 1: Todas as transições com suas respectivas probabilidades representadas através de um grafo. Notem que para cada estado, a soma das probabilidades das flechas

Leia mais

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO DEPARTAMENTO DE CIÊNCIAS DA COMPUTAÇÃO. 4 a Lista de Exercícios Gabarito de algumas questões.

UNIVERSIDADE FEDERAL DO RIO DE JANEIRO DEPARTAMENTO DE CIÊNCIAS DA COMPUTAÇÃO. 4 a Lista de Exercícios Gabarito de algumas questões. UNIVERSIDADE FEDERAL DO RIO DE JANEIRO DEPARTAMENTO DE CIÊNCIAS DA COMPUTAÇÃO MATEMÁTICA COMBINATÓRIA 4 a Lista de Exercícios Gabarito de algumas questões. Este gabarito foi feito direto no computador

Leia mais

Fis.Rad.I /1 Notas de aula (Prof. Stenio Dore) (Dated: May 28, 2004)

Fis.Rad.I /1 Notas de aula (Prof. Stenio Dore) (Dated: May 28, 2004) INTRODUÇÃO À ESTATÍSTICA DE CONTAGEM Fis.Rad.I - 24/1 Notas de aula (Prof. Stenio Dore) (Dated: May 28, 24) I. PROBABILIDADE: E E OU Vimos que, para nossas finalidades podemos definir a probabilidade de

Leia mais

ROTEIRO DA APRESENTAÇÃO PROCESSOS ESTOCÁSTICOS

ROTEIRO DA APRESENTAÇÃO PROCESSOS ESTOCÁSTICOS ROTEIRO DA APRESENTAÇÃO MODELOS ESTOCÁSTICOS APLICADOS À INDÚSTRIA Prof. Lupércio França Bessegato Departamento de Estatística Universidade Federal de Juiz de Fora lupercio.bessegato@ufjf.edu.br www.ufjf.br/lupercio_bessegato

Leia mais

Estudo sobre decodificação iterativa usando códigos de treliça

Estudo sobre decodificação iterativa usando códigos de treliça Revista de Engenharia e Pesquisa Aplicada, Volume 2, Número 1, 2016 Estudo sobre decodificação iterativa usando códigos de treliça Souza, I. M. M. Escola Politécnica de Pernambuco Universidade de Pernambuco

Leia mais

Quantização por Integrais de Trajetória:

Quantização por Integrais de Trajetória: Teoria Quântica de Campos I 14 Representações Fermiônicas: é possível mostrar que existem representações impossíveis de se obter através do simples produto de Λ s. Em especial o objeto: ( eq. 14.1 ) Matrizes

Leia mais

MATRIZES - PARTE Mais exemplos Multiplicação de duas matrizes AULA 26

MATRIZES - PARTE Mais exemplos Multiplicação de duas matrizes AULA 26 AULA 26 MATRIZES - PARTE 2 26. Mais exemplos Nesta aula, veremos mais dois algoritmos envolvendo matrizes. O primeiro deles calcula a matriz resultante da multiplicação de duas matrizes e utiliza três

Leia mais

Método Simplex. Marina Andretta ICMC-USP. 19 de outubro de 2016

Método Simplex. Marina Andretta ICMC-USP. 19 de outubro de 2016 Método Simplex Marina Andretta ICMC-USP 19 de outubro de 2016 Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Marina Andretta (ICMC-USP) sme0211 - Otimização linear

Leia mais

Marina Andretta. 10 de outubro de Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis.

Marina Andretta. 10 de outubro de Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Solução básica viável inicial Marina Andretta ICMC-USP 10 de outubro de 2016 Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Marina Andretta (ICMC-USP) sme0211

Leia mais

Tópicos Especiais em Qualidade

Tópicos Especiais em Qualidade Tópicos Especiais em Qualidade Processos estocásticos, Distribuições de probabilidade e Ajustamento de dados Qualquer sistema real opera sempre em ambientes onde a incerteza impera, principalmente quando

Leia mais

Note que este funcional gerador agora tem sempre potências ímpares de J, de forma que as funções de n pontos serão nulas para n par:

Note que este funcional gerador agora tem sempre potências ímpares de J, de forma que as funções de n pontos serão nulas para n par: Teoria Quântica de Campos I 98 de onde fica claro que a lógica por trás do Teorema de Wick (conectar os pontos externos de todas as formas possíveis) aqui é implementada pela regra do produto da derivada.

Leia mais

Funções de Correlação. Com isso, nossa amplitude de transição fica em uma forma bastante reveladora: Paremos aqui um momento para notar duas coisas:

Funções de Correlação. Com isso, nossa amplitude de transição fica em uma forma bastante reveladora: Paremos aqui um momento para notar duas coisas: Teoria Quântica de Campos II 13 ( eq. 13.1 ) Com isso, nossa amplitude de transição fica em uma forma bastante reveladora: ( eq. 13.2 ) Paremos aqui um momento para notar duas coisas: (1) As equações 10.1

Leia mais

Álgebra Linear Semana 01

Álgebra Linear Semana 01 Álgebra Linear Semana 01 Diego Marcon 27 de Março de 2017 Conteúdo 1 Estrutura do Curso 1 2 Sistemas Lineares 1 3 Formas escalonadas e formas escalonadas reduzidas 4 4 Algoritmo de escalonamento 5 5 Existência

Leia mais

Propriedade Markoviana

Propriedade Markoviana Cadeias de Markov Cadeias de Markov É um tipo especial de processo estocástico, que satisfaz as seguintes condições: o parâmetro n é discreto (ex: tempo) o espaço de estados E é discreto (coleção de estados

Leia mais

Material Teórico - Sistemas Lineares e Geometria Anaĺıtica. Sistemas com três variáveis - Parte 1. Terceiro Ano do Ensino Médio

Material Teórico - Sistemas Lineares e Geometria Anaĺıtica. Sistemas com três variáveis - Parte 1. Terceiro Ano do Ensino Médio Material Teórico - Sistemas Lineares e Geometria Anaĺıtica Sistemas com três variáveis - Parte 1 Terceiro Ano do Ensino Médio Autor: Prof Fabrício Siqueira Benevides Revisor: Prof Antonio Caminha M Neto

Leia mais

Integral de Trajetória de Feynman

Integral de Trajetória de Feynman Teoria Quântica de Campos II 7 No estado fundamental, ou vácuo, defindo por a energia é: Energia de ponto zero ou do vácuo Podemos definir um hamiltoniano sem esta energia de ponto zero, definindo o ordenamento

Leia mais

6 Modelo Gamma-Cetuc (GC)

6 Modelo Gamma-Cetuc (GC) 6 Modelo Gamma-Cetuc (GC) Um modelo de sintetização de séries temporais de atenuação por chuva envolve a geração de dados aleatórios que satisfaçam especificações de estatísticas de primeira e de segunda

Leia mais

Parte 1 - Matrizes e Sistemas Lineares

Parte 1 - Matrizes e Sistemas Lineares Parte 1 - Matrizes e Sistemas Lineares Matrizes: Uma matriz de tipo m n é uma tabela com mn elementos, denominados entradas, e formada por m linhas e n colunas. A matriz identidade de ordem 2, por exemplo,

Leia mais

Classificadores. André Tavares da Silva.

Classificadores. André Tavares da Silva. Classificadores André Tavares da Silva andre.silva@udesc.br Reconhecimento de padrões (etapas) Obtenção dos dados (imagens, vídeos, sinais) Pré-processamento Segmentação Extração de características Obs.:

Leia mais

Cálculo Numérico BCC760

Cálculo Numérico BCC760 Cálculo Numérico BCC760 Resolução de Sistemas de Equações Lineares Simultâneas Departamento de Computação Página da disciplina http://www.decom.ufop.br/bcc760/ 1 Introdução! Definição Uma equação é dita

Leia mais

Aprendizado Bayesiano Anteriormente...

Aprendizado Bayesiano Anteriormente... Aprendizado Bayesiano Anteriormente... Conceito de Probabilidade Condicional É a probabilidade de um evento A dada a ocorrência de um evento B Universidade de São Paulo Instituto de Ciências Matemáticas

Leia mais

Aula 7: Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k

Aula 7: Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k Aula 7: Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k Diego Passos Universidade Federal Fluminense Fundamentos de Arquiteturas de Computadores Diego Passos (UFF)

Leia mais

Processos Estocásticos

Processos Estocásticos Processos Estocásticos Quinta Lista de Exercícios 2 de fevereiro de 20 Suponha que um organismo unicelular pode estar somente em dois estágios distintos A ou B Um indivíduo no estágio A passa para o estágio

Leia mais

Calculo - Aula 1. Artur Soares

Calculo - Aula 1. Artur Soares Calculo - Aula 1 Artur Soares Irei resumir este curso em uma palavra: Praticidade. Iremos abordar tal assunto de forma que o aluno saia deste curso sabendo aplicar cálculo a uma questão e entender o que

Leia mais

Capítulo 9: Linguagens sensíveis ao contexto e autômatos linearmente limitados.

Capítulo 9: Linguagens sensíveis ao contexto e autômatos linearmente limitados. Capítulo 9: Linguagens sensíveis ao contexto e autômatos linearmente limitados. José Lucas Rangel 9.1 - Introdução. Como já vimos anteriormente, a classe das linguagens sensíveis ao contexto (lsc) é uma

Leia mais

Modelagem Computacional. Parte 8 2

Modelagem Computacional. Parte 8 2 Mestrado em Modelagem e Otimização - RC/UFG Modelagem Computacional Parte 8 2 Prof. Thiago Alves de Queiroz 2/2016 2 [Cap. 10 e 11] BURDEN, R. L.; FAIRES, J. D. Numerical Analysis (9th ed). Cengage Learning,

Leia mais

Problema 5a by

Problema 5a by Problema 5a by fernandopaim@paim.pro.br Resolva o sistema linear por escalonamento S = x y z=1 x y z= 1 2x y 3z=2 Resolução Utilizaremos quatro métodos para ilustrar a resolução do sistema linear acima.

Leia mais

Material Teórico - Módulo de Função Exponencial. Equações Exponenciais. Primeiro Ano - Médio

Material Teórico - Módulo de Função Exponencial. Equações Exponenciais. Primeiro Ano - Médio Material Teórico - Módulo de Função Exponencial Equações Exponenciais Primeiro Ano - Médio Autor: Prof. Angelo Papa Neto Revisor: Prof. Antonio Caminha M. Neto 3 de novembro de 018 No material da aula

Leia mais

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo

Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Sexta Lista: Geração de Números Pseudo-Aleatórios e Método de Monte Carlo Antônio Carlos Roque da Silva Filho e Cristiano R. F. Granzotti 26 de junho de 2017 Os exercícios desta lista devem ser resolvidos

Leia mais

Matrizes e Sistemas Lineares

Matrizes e Sistemas Lineares MATEMÁTICA APLICADA Matrizes e Sistemas Lineares MATRIZES E SISTEMAS LINEARES. Matrizes Uma matriz de ordem mxn é uma tabela, com informações dispostas em m linhas e n colunas. Nosso interesse é em matrizes

Leia mais

Avaliação Quantitativa de Sistemas

Avaliação Quantitativa de Sistemas Avaliação Quantitativa de Sistemas Contexto A Avaliação Quantitativa de Sistemas permite a avaliação de sistemas antes mesmo da sua implementação física. Dessa forma, é possível avaliar um sistema projetado

Leia mais

Estratégias para Aumentar a Acurácia do Sensoriamento de Espectro

Estratégias para Aumentar a Acurácia do Sensoriamento de Espectro Estratégias para Aumentar a Acurácia do Sensoriamento de Espectro André Lauar Sampaio MEIRELLES, Kleber Vieira CARDOSO, Instituto de Informática (INF) Universidade Federal de Goiás (UFG) {andremeirelles,

Leia mais

Aula demonstrativa Apresentação... 2 Relação das Questões Comentadas... 8 Gabaritos... 11

Aula demonstrativa Apresentação... 2 Relação das Questões Comentadas... 8 Gabaritos... 11 Aula demonstrativa Apresentação... Relação das Questões Comentadas... 8 Gabaritos... 11 1 Apresentação Olá pessoal! Saiu o edital para o TJ-SP. A banca organizadora é a VUNESP e esta é a aula demonstrativa

Leia mais

4 Canais Iônicos Estocásticos

4 Canais Iônicos Estocásticos 4 Canais Iônicos Estocásticos 4.1 Processos Estocásticos e o Modelo de Hodgkin e Huxley O modelo de Hodgkin e Huxley clássico, macroscópico, tem como fundamento a variação dos valores das condutâncias

Leia mais

BIE Ecologia de Populações

BIE Ecologia de Populações - Ecologia de Populações Roberto André Kraenkel http://www.ift.unesp.br/users/kraenkel Apontamentos de Cálculo e Integral Parte III Sumário 1 Sumário 1 2 Sumário 1 2 3 Sumário 1 2 3 4 Sumário 1 2 3 4 5

Leia mais

Combinando inequações lineares

Combinando inequações lineares Combinando inequações lineares A multiplicação por um número > 0 não altera uma inequação 2x x 5 4x 2x 0 2 2 A soma de duas inequações (com o mesmo sentido) produz uma inequação válida x 3x + x 3 2 + 5x

Leia mais

1). Tipos de equações. 3). Etapas na resolução algébrica de equações numéricas. 4). Os dois grandes cuidados na resolução de equações

1). Tipos de equações. 3). Etapas na resolução algébrica de equações numéricas. 4). Os dois grandes cuidados na resolução de equações 1). Tipos de equações LIÇÃO 7 Introdução à resolução das equações numéricas Na Matemática, nas Ciências e em olimpíadas, encontramos equações onde a incógnita pode ser número, função, matriz ou outros

Leia mais

Capítulo 2: Procedimentos e algoritmos

Capítulo 2: Procedimentos e algoritmos Capítulo 2: Procedimentos e algoritmos Para estudar o processo de computação de um ponto de vista teórico, com a finalidade de caracterizar o que é ou não é computável, é necessário introduzir um modelo

Leia mais

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo

Ricardo Ehlers Departamento de Matemática Aplicada e Estatística Universidade de São Paulo Geração de Números Aleatórios Ricardo Ehlers ehlers@icmc.usp.br Departamento de Matemática Aplicada e Estatística Universidade de São Paulo 1 / 61 Simulando de Distribuições Discretas Assume-se que um

Leia mais

Modelos de Markov Ocultos no Reconhecimento da Língua LIBRAS

Modelos de Markov Ocultos no Reconhecimento da Língua LIBRAS Modelos de Markov Ocultos no Reconhecimento da Língua LIBRAS Prof. Dr. Hemerson Pistori GPEC - Grupo de Pesquisa em Engenharia e Computação UCDB - Universidade Católica Dom Bosco Sumário Conceitos Fundamentais

Leia mais

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD

)XQGDPHQWRVGHSUREDELOLGDGHHHVWDWtVWLFD )XQGDPHQWRVGHUREDELOLGDGHHHVWDWtVWLFD,QWURGXomR A história da estatística pode ser dividida em três fases. De acordo com PEANHA (00), a estatística inicialmente não mantinha nenhuma relação com a probabilidade,

Leia mais

Física Computacional 18 matrizes: inversão, valores próprios e sol. da eq. De Schrödinger

Física Computacional 18 matrizes: inversão, valores próprios e sol. da eq. De Schrödinger Física Computacional 18 matrizes: inversão, valores próprios e sol. da eq. De Schrödinger 1. Trabalhar com matrizes, e aplicá-las a um problema físico a. Inversão da matriz, eliminação de Gauss b. Determinante

Leia mais

Conceitos Básicos INTRODUÇÃO 1 VETORES 1.1 REPRESENTAÇÃO DOS VETORES

Conceitos Básicos INTRODUÇÃO 1 VETORES 1.1 REPRESENTAÇÃO DOS VETORES Conceitos Básicos INTRODUÇÃO Esse material foi criado por um motivo: o curso de álgebra linear II da UFRJ parte do princípio que o aluno de Engenharia da UFRJ que faz a disciplina já conhece alguns conceitos

Leia mais

Avaliação de Desempenho

Avaliação de Desempenho Avaliação de Desempenho Aula passada Métricas, Técnicas, Erros Aula de hoje Conceitos importantes de probabilidade Como fazer a análise de desempenho? Modelos Matemáticos Modelos de Simulação Como fazer

Leia mais

Introduzir os conceitos de base e dimensão de um espaço vetorial. distinguir entre espaços vetoriais de dimensão fnita e infinita;

Introduzir os conceitos de base e dimensão de um espaço vetorial. distinguir entre espaços vetoriais de dimensão fnita e infinita; META Introduzir os conceitos de base e dimensão de um espaço vetorial. OBJETIVOS Ao fim da aula os alunos deverão ser capazes de: distinguir entre espaços vetoriais de dimensão fnita e infinita; determinar

Leia mais

lnteligência Artificial Introdução ao Processo Decisório de Markov

lnteligência Artificial Introdução ao Processo Decisório de Markov lnteligência Artificial Introdução ao Processo Decisório de Markov Aprendizado - paradigmas Aprendizado supervisionado O crítico comunica a EA o erro relativo entre a ação que deve ser tomada idealmente

Leia mais

Descodificação iterativa

Descodificação iterativa Sílvio A. Abrantes DEEC/FEUP 26 Descodificação iterativa 2 Descodificação de códigos LDPC por transferência de mensagens em grafos de Tanner Introdução Diagrama de blocos de um sistema genérico de codificação

Leia mais

PROCESSOS ESTOCÁSTICOS

PROCESSOS ESTOCÁSTICOS PROCESSOS ESTOCÁSTICOS Definições, Principais Tipos, Aplicações em Confiabilidade de Sistemas CLARKE, A. B., DISNEY, R. L. Probabilidade e Processos Estocásticos, Rio de Janeiro: Livros Técnicos e Científicos

Leia mais

PESQUISA OPERACIONAL

PESQUISA OPERACIONAL PESQUISA OPERACIONAL Uma breve introdução. Prof. Cleber Almeida de Oliveira Apostila para auxiliar os estudos da disciplina de Pesquisa Operacional por meio da compilação de diversas fontes. Esta apostila

Leia mais

Álgebra Linear Semana 04

Álgebra Linear Semana 04 Álgebra Linear Semana 04 Diego Marcon 17 de Abril de 2017 Conteúdo 1 Produto de matrizes 1 11 Exemplos 2 12 Uma interpretação para resolução de sistemas lineares 3 2 Matriz transposta 4 3 Matriz inversa

Leia mais

Espaços Euclidianos. Espaços R n. O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais:

Espaços Euclidianos. Espaços R n. O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais: Espaços Euclidianos Espaços R n O conjunto R n é definido como o conjunto de todas as n-uplas ordenadas de números reais: R n = {(x 1,..., x n ) : x 1,..., x n R}. R 1 é simplesmente o conjunto R dos números

Leia mais

Aula 4: Gráficos lineares

Aula 4: Gráficos lineares Aula 4: Gráficos lineares 1 Introdução Um gráfico é uma curva que mostra a relação entre duas variáveis medidas. Quando, em um fenômeno físico, duas grandezas estão relacionadas entre si o gráfico dá uma

Leia mais

Aprendizado por Reforço

Aprendizado por Reforço Aprendizado por Reforço Fabrício Olivetti de França Universidade Federal do ABC Tópicos 1. Aprendizado por Reforço 2. Q-Learning 3. SARSA 4. Outras ideias 1 Aprendizado por Reforço Problemas de decisão

Leia mais

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 05 / Detecção Binária Baseada em

Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 05 / Detecção Binária Baseada em Disciplina: Processamento Estatístico de Sinais (ENGA83) - Aula 05 / Detecção Binária Baseada em Múltiplas Observações e Detecção com Múltiplas Hipóteses Prof. Eduardo Simas (eduardo.simas@ufba.br) Programa

Leia mais

INF 1771 Inteligência Artificial

INF 1771 Inteligência Artificial INF 1771 Inteligência Artificial Aula 15 Incerteza Edirlei Soares de Lima Agentes Vistos Anteriormente Agentes baseados em busca: Busca cega Busca heurística Busca local Agentes

Leia mais

Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k

Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k Representações de Números Inteiros: Sinal e Magnitude e Representação em Excesso de k Cristina Boeres Instituto de Computação (UFF) Fundamentos de Arquiteturas de Computadores Material de Fernanda Passos

Leia mais

Teoria de dualidade. Marina Andretta ICMC-USP. 19 de outubro de 2016

Teoria de dualidade. Marina Andretta ICMC-USP. 19 de outubro de 2016 Teoria de dualidade Marina Andretta ICMC-USP 19 de outubro de 2016 Baseado no livro Introduction to Linear Optimization, de D. Bertsimas e J. N. Tsitsiklis. Marina Andretta (ICMC-USP) sme0211 - Otimização

Leia mais

Quantização do Campo Escalar por Path Integrals

Quantização do Campo Escalar por Path Integrals Teoria Quântica de Campos I 91 Quantização do Campo Escalar por Path Integrals (Nastase 9, Peskin 9.2, Ryder 6.1 a 6.5, Ramond 3.1 e 3.2) Usaremos as idéias das últimas 20 página para quantizar o campo

Leia mais

5.7 Projeções Ortogonais

5.7 Projeções Ortogonais 5.7. PROJEÇÕES ORTOGONAIS 5.7 Projeções Ortogonais V espaço vetorial de dimensão n; H V subespaço vetorial de dimensão p; γ = { u, u,..., u p } base ortogonal de H; β = { u, u,..., u p, u p+,..., u n }

Leia mais