Plano Esta apresentação é para pessoas sem conhecimento prévio de HMMs Introdução aos Modelos Escondidos de Markov 2004 Objetivos: Ensinar alguma coisa, não tudo (Visão geral, sem muitos detalhes). Tentar explicar porque Sr. Markov esta escondido embaixo de sua mesa Exemplos: Mostrar como HMMs podem ser aplicados em Inteligência Artificial Aspectos Relevantes de HMMs Em muitos problemas de classificação e processamento de padrões seqüenciais, uma das maiores dificuldades é: modelar simultaneamente as variações estatísticas da seqüência e dos features (atributos). HMMs estão baseados em um teoria matemática rigorosa. Modelos gerados por um processo de treinamento em grandes conjuntos de dados Performance robusta (ao ruído/incertezas) Teoria de HMMs HMM é uma técnica estocástica para o estudo de problemas associados a séries temporais. Processo Markoviano: Para qualquer seqüência de eventos no domínio do tempo, a probabilidade condicional de um evento atual dados todos os eventos passados e presentes, depende somente dos k eventos mais recentes. Exemplo (Processo Markoviano de 1 a ordem): Previsão do tempo 3 símbolos (R, S, C) estados deterministicos probabilidade de transição ( P(R R), P(R S), P(C R), )
Teoria de HMMs Exemplo (Processo Markoviano de 1a ordem): Previsão do tempo 3 símbolos (R, S, C) estados deterministicos probabilidade de transição ( P(R R), P(R S), P(C R), ) Teoria de HMMs Em HMMs a saída de cada estado corresponde a distribuição de probabilidade de emissão ao invés de um evento deterministico. As probabilidades de emissão impõem dessa maneira, uma venda entre a seqüência de estados e o observador da seqüência temporal, i.e., a seqüência de estados está escondida. Exemplo (urnas e bolas): Teoria de HMMs Cada urna contém bolas coloridas sendo que existem 4 cores distintas Escolher de acordo com um processo aleatório uma urna, pegue uma bola e observe sua cor. Recolocar a bola na urna Selecionar uma outra urna e repita os passos acima As cores das bolas são observadas, porém, a seqüência de urnas escolhida é oculta. Teoria de HMMs Interesse: Como construir um modelo estocástico de acordo com a seqüência de bolas coloridas para explicar o comportamento do experimento conduzido atrás da venda.
Parâmetros de um HMM λ = ( A, B, π ) Problemas Básicos e Algoritmos Símbolo N Significado Número de estados Exemplo Número de urnas Três problemas básicos devem ser resolvidos para a utilização de HMMs em problemas reais: M A Número de símbolos distintos Distribuição de probabilidade de transição de estados Número de cores distintas Processo aleatório para selecionar uma nova urna Problema de avaliação: Qual a probabilidade que o modelo λ produziu a seqüência de observações o 1,o 2,,o T? algoritmo forward backward B π Distribuição de probabilidade de observação de um símbolo Distribuição de estado inicial Distribuição de cores em cada urna Probabilidade de selecionar um urna inicial Problema de estimação: Como ajustar os parâmetros do modelo (maximizar P(o λ) ), dadas seqüências (de observações) de treinamento? algoritmo Baum Welch Problemas Básicos e Algoritmos Exemplo: Modelamento do Clima Problema de decodificação: Qual a seqüência de estados mais provável, dada uma seqüência de observações algoritmo de Viterbi Temper. Vento Pressão Medidas Climáticas 1 dia As soluções matemáticas formais para estes 3 problemas não serão abordadas nesta apresentação Quantização Vetorial: Clustering Tempo
Hidden Markov Models Hidden Markov Models Exemplos de treinamento: Dada as 5 seqüências: Autômato finito capaz de gerar as seqüências acima: Podemos gerar este simples HMM (ordem 0) Estado de inserção (regiões de alta variabilidade) Estados principais Cadeia de Markov de 1 a Ordem Cadeia de Markov de 2 a Ordem Ex. P(ACACATC) = (0.8*1)*(0.8*1)*(0.8*0.6)*(0.4*0.6)*(1*1)*(0.8*1)*(0.8) A C A C A T C Modelando Escrita com HMMs Modelando Escrita com HMMs A = Ascender D = Descender N = Nada HMM modelando a fonte que gera as palavras twenty Model Esquerda-Direita: estado inicial, estado final, somente transições à frente permitidas estado inicial, início da palavra estado final, término da palavra Treinamento: Automático com o algoritmo Baum Welch (máxima probabilidade)
HMM versus NN HMM versus Redes Neurais HMM gera probabilidades condicionais P(input class) NN pode gerar probabilidades a posteriori P(class input) Combinação pode ser feita através do teorema de Bayes: P( input class) P( class) P ( class input) = P( input) HMM e NN: Diferenças Modelamento: HMM modela a fonte gerador das seqüências NN modela as fronteiras entre as classes Treinamento: HMM não leva em contra outras classes, somente a sua própria com o treinamento baseado em máxima probabilidade NN é treinada para ser discriminante HMM discriminante: Treinamento MMI Complexidade Computacional TN 2 onde: T: seqüência de observações N: número de estados do modelo Exemplo: Reconhecimento de Palavras Manuscritas em um Grande Vocabulário: TN 2 H L V =245 GFLOPS H: número de modelos por caracteres L: número de caracteres em uma palavra V: tamanho do vocabulário Assumindo valores típicos dos parâmetros (T=30, L=10, N=10, V=80,000, H=2) e o algoritmo de Viterbi Porém os computadores pessoais atuais são capazes de realizar entre 1 GFLOPS e 3 GFLOPS!
Gene Recognition: Exemplo Gene Recognition HMMs Modelo probabilístico Utiliza uma descrição da estrutura do gene (e.g. junções, regiões codificadas, codons iniciais e finais, etc. ) Seqüência DNA Simplificada VEIL (Viterbi Exon-Intron Locator) Promoter StartCodon CodingRegion StopCodon intergenicregion Promoter StartCodon HMM combinado para exons, introns, intergenic regions, splice sites exon intron exon intron exon ATG Donor site Acceptor site TAA, TAG, TGA A idéia é ter HMMs para cada uma destas regiões do gene e combinar (concatenar) estes modelos em um único HMM. Algoritmo ML para treinar o modelo e Algoritmo de Viterbi para alinhar novas seqüências Resultados Experimentais 53% das extremidades do exon localizadas corretamente 49% dos exons são corretamente extraídos
Exon and Stop Codon models in VEIL Intron model (VEIL) 2 estados em branco em ambos os lados podem produzir qualquer base. (permite o alinhamento ao frame de leitura adequado. Donor site (5 splice site)- VEIL HMMs: Vantagens e Limitações A aplicação de maior sucesso é em reconhecimento da fala. HMMs podem lidar com variações temporais e distorção em freqüências. Além disso, HMMs vem sendo utilizadas com sucesso em reconhecimento de escritura, bioinformática, processamento de imagens e outros problemas de IA. Possui algoritmos poderosos de treinamento e decodificação Fronteira do Exon-intron - Modelos de primeira ordem
HMMs: Vantagens e Limitações Questões Entretanto: As simplificações que fazem a otimização possível, limitam sua generalização: Discriminação fraca devido ao algoritmo de treinamento que maximiza probabilidades ao invés de probabilidade à posteriori. A escolha a priori da topologia dos modelos e distribuições estatísticas Simplificação: as seqüências de estados são cadeias de Markov de 1a ordem Simplificação: observações não estão correlacionadas no tempo.