Reconhecimento da voz baseado em segmento

Transcrição

1 Reconhecimento da voz baseado em segmento Introdução Pesquisando gráficos baseados no espaço de observações Modelamento antifonema Modelamento Near -miss Modelamento por marcas Modelamento fonológico 1

2 Reconhecimento da voz baseado em segmento Pesquisa probabilística acha os fonemas e fluxos de palavras mais prováveis. 2

3 Reconhecimento da voz baseado em segmento Modelamento acústico é feito sobre um inteiro segmento Segmentos tipicamente correspondem a unidades semelhantes a fonemas Vantagens potenciais : Melhor estrutura de modelamento conjunto tempo/espectro Medidas acústicas baseadas em segmento ou marcas Desvantagens potenciais: Significante aumento no modelo e calculo na pesquisa Dificuldade em treinar robustamente os parâmetros do modelo 3

4 Modelamento Acústico-Fonético Hierárquico Medidas homogêneas podem comprometer o desempenho Consoantes nasais são mais bem classificadas com um janela de analise mais longa Consoantes de parada são mais bem classificadas com um janela de analise mais curta Extração de informação especifica á classe pode reduzir o erro 4

5 Classificação fonética baseada em comissão Variação da base temporal afeta erro entre classes Suave variação da base co-seno é melhor para vogais que para nasais Divisão por partes de forma constante é melhor para fricativas e paradas Combinando as fontes de informação pode reduzir o erro 5

6 Experimentos de classificação de fonemas TIMIT corpus acústico-fonético (A. Halberstadt, 1998) Somente classificação Independente do contexto 462 vozes de treinamento no corpus, 24 vozes de base no conjunto de testes Metodologia de avaliação padrão, 39 classes fonéticas comuns Várias diferentes representações acústicas incorporadas Várias resoluções tempo-freqüência (Janela de Hamming10-30 ms) Diferentes representações espectrais (MFCCs, PLPCCs, etc) Transformada co-seno vs Funções divisão por partes de forma constante MAP hierárquico calculado é métodos baseados em comissão 6

7 Procedimento Estatístico Para RAV Dada à observação acústica, A, escolha uma seqüência, W*, que maximiza a probabilidade posteriori, P(W A) W * = argmax P W ( w A) A regra de Bayes é tipicamente utilizada para decompor P(W A) e termos acústicos e lingüísticos P ( ) ( A W ) P( W ) P W A = P A ( ) 7

8 Considerações Sobre a Procura no RAV Uma procura completa considera todas as possíveis segmentações, S, e unidades, U, para cada seqüência de palavras hipotizada, W ( A) = arg max P( WUS A) * W = arg max P W w Pode procurar pelo melhor caminho para simplificar a procura usando programação dinâmica (por ex., Viterbi)ou gráficos de busca (por ex., A*) W *, U *, S * W, U, S A decomposição Bayesana modificada tem quatro termos: ( A) P WUS = P No HMM estes correspondem acústica, estado, e probabilidades do modelo de linguagem ou verossimilhança W S U ( A) arg max P WUS ( A SUW ) P( S UW ) P( U W ) P( W ) P( A) 8

9 HMM Exemplo de procedimentos baseados em segmento Taxa variável de quadro (Ponting et al., 1991, Alwan et al., 2000) HMM baseado em segmento (Marcus, 1993) HMM segmentado (Russell et al., 1993) Modelamento da trajetória Modelos estocásticos de segmento (Ostendorf et al., 1989) Modelos de trajetória paramétricos (Ng, 1993) Modelos de trajetória Estatísticos (Goldenthal, 1994) Baseado em características FEATURE (Cole et al., 1983) SUMMIT (Zue et al., 1989) LAFF (Stevens et al., 1992) 9

10 Modelamento baseado em segmento no MIT Modelamento básico baseado em segmento incorpora : Médias e derivadas de coeficientes espectrais (por ex., MFCCs) Normalização da dimensionalidade através da analise das principais componentes Estimação PDF via Mistura de Gaussianas Exemplo investigações modelamento acústico-fonético, Alternativa para classificadores probabilísticos (por ex.., Leung, Meng) Medida de características conhecidas automaticamente (e.g., Phillips, Muzumdar) Modelos estatística da trajetória (Goldenthal) Hierarquia de características probabilísticas (e.g., Chun, Halberstadt) Modelamento Near-miss (Chang) Segmentação probabilística (Chang, Lee) Classificadores baseados em comissão (Halberstadt) 10

11 SUMMIT SUMMIT reconhecimento de voz é baseado em segmentos fonéticos: O instante de inicio e fim de fonemas explícitos são supostos durante a procura; Difere dos métodos convencionais baseados em quadros (por ex., HMMs); Possibilita modelamento acústico fonético baseado em segmento; Medidas podem ser extraídas de marcas e segmentos. Reconhecimento é obtido pela pesquisa de um gráfico fonético: Gráficos podem ser determinados via critério acústico ou modelos probabilísticos; Segmentos que competem fazem uso de diferentes espaços de observações; Decodificação probabilística deve ser considerada para gráficos baseados no espaço de observações. 11

12 Reconhecimento de voz Baseada em Quadro Espaço de observações, A, corresponde a uma seqüência temporal de quadros acústicos (Por ex.,fatias espectrais). Cada segmento suposto, si, é representado por uma série de quadros calculados entre os instantes de início e fim do segmento. A verossimilhança acústica, P(A SW), é derivada a partir do mesmo espaço de observações para todas as hipóteses sobre a palavra. P(a1 a2 a3 SW) P(a1 a2 a3 SW) P(a1 a 2 a3 SW) 12

13 Reconhecimento da voz Baseado em Características Cada segmento, si, é representado por um único vetor característica, a i Dada uma particular segmentação, S, A consiste de X, o vetor característica associado com S, como também Y, o vetor característica associado com segmentos não em S: A = X Y 13

14 Reconhecimento da voz Gráficos de procura baseados no espaço de observações: O modelo Anti-fonema Baseado em Características α Crie uma unidade,, para modelar segmentos que não são fonemas Para uma segmentação, S, atribua anti-fonema para segmentos extra Todos os segmentos são considerados estar no gráfico fonético Caminhos alternativos através do gráfico podem ser legitimamente comparados Caminhos verossímeis podem ser decompostos em dois termos: 1. A verossimolhança de todos os segmentos produzidos pelo antifonema (uma constante) 2. A razão do fonema para o anti-fonema verossímil de todos os segmentos de caminho Formulação MAP para a seqüência de palavras mais provável, W, dada por: W * = arg max W, S N s i P P ( xi ui ) ( ) P( s u ) P( U W ) P( W ) i i x α i 14

15 Modelando unidades não léxicas: O anti-fonema Dada uma particular segmentação, S, A consiste de X, os segmentos associados com S, como também Y, os segmentos não associados com S: P(A SU) = P(XY SU) Dada à segmentação S, atribua vetores característica em X a unidades válidas,e todos os outros em Y para o antifonema Desde que P(XY α ) é uma constante, K, podemos escrever P(XY SU) supondo independência entre X e Y ( X α ) ( X α ) P P ( XY SU ) = P( XY U ) = P( X U ) P( Y α ) = P P k P ( X U ) ( X α ) Precisamos considerar somente segmentos em S durante cada procura: W * = arg max W, U, S N s C i P P ( X i U ) ( ) P( s u ) P( U W ) P( W ) i i X α i 15

16 SUMMIT 16

17 Propriedades Básicas Anti-fonema Modele o espaço inteiro de observações, usando tanto os exemplos positivos como os negativos. As pontuações do log da verossimilhança são normalizadas pelo anti-fonema: Boas pontuações são positivas, pontuações ruins são negativa; Todos os segmentos pobres tem pontuação negativa; Útil para eliminação e/ou rejeição; Anti-fonema não é utilizado para acesso léxico; Não são utilizadas probabilidades à priori ou posteriori durante a pesquisa: Permite cálculos sob demanda e/ou rápida equivalência; Subconjuntos de dados podem ser utilizados para treinamento; Modelos independentes ou dependentes do contexto podem ser utilizados. Útil para problemas de casamento de padrões em geral com gráficos baseados no espaço de observações. 17

18 Além dos anti-fonemas: Modelamento near-miss Modelamento anti-fonema particiona o espaço de observações em duas partes (ou seja dentro ou fora de uma segmentação hipotética). Modelamento near-miss particiona o espaço das observações em um conjunto de sub conjuntos mutuamente exclusivos. Um subconjunto near-miss pré-calculado para cada segmento no gráfico. Critério temporal pode garantir a geração apropriada de subconjuntos near-missed (por ex., segmento A é um near-miss de Base o ponto médio de A é estendido por B). Durante o reconhecimento, observações em um subconjunto near-miss são mapeadas em um modelo near-miss de um fonema hipotético. Modelos near-miss podem ser apenas um anti-fonema, mas podem potencialmente ser mais sofisticados (por ex., fonema dependente). 18

19 Criando subconjuntos near-miss Subconjuntos near-miss, A i, associados com qualquer segmentação, S, devem ser mutuamente t exclusivos e exaustivos: A = U Ai Ai S. Critério Temporal garante subconjuntos near-miss apropriados: Confinando segmentos em S estes são contabilizados uma única vez; Determinando todos os segmentos estendidos cria subconjuntos near-miss. 19

20 Modelando Marcas Podemos também incorporar vetores característicos adicionais calculados em marcas hipotéticas ou contornos de fonemas. Toda segmentação considera todas as marcas: Algumas marcas serão a transição entre unidades léxicas; Outras marcas serão consideradas internas a unidade. Tanto unidades independentes ou dependentes do contexto são possíveis Modela efetivamente transições entre fonemas (por ex., difonemas). Modelos baseados em quadros podem ser usados para gerar grafo de segmento. 20

21 Modelando Marcas Medidas baseadas em quadros: Calculado a cada 5 mili segundos; Vetor característica de 14 Mel-Scala Coeficientes Cepstrais Coefficients (MFCCs). Medidas baseadas em marcas: Calcule a media de MFCCs sobre 8 regiões em torno da marca 8 regiões X 14 MFCC médias = vetor de 112 dimensões. 112 dims Reduzidas para 50 usando analise de componente principal. 21

22 Segmentação Probabilística Use procura de Viterbi para frente inicialmente para achar o melhor caminho Limiares relativos e absolutos para acelerar a pesquisa 22

23 Segmentação Probabilística (continuação) Em um Segundo passo use procura para A* para achar os N- melhores caminhos O traço de Viterbi é usado como estimador da pontuação dos caminhos Processamento em bloco garante cálculo contínuo 23

24 Experimentos de reconhecimento fonético TIMIT corpus acústico-fonético: Corpus com 462 vozes de treinamento, 24 vozes fundamentais no conjunto de teste; Metodologia padrão de avaliação, 39 classes fonéticas comuns. Representações de segmentos e marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração. PCA usado para normalização de dados e redução. Modelos acústicos baseados na aglomeração de gaussianas misturadas. Modelo de linguagem baseado em fonema bigrama. Segmentação Probabilística calculada a partir de modelos difonema. 24

25 Modelamento fonológico Palavras descritas por formas básicas fonéticas. Regras fonológicas expandem formas básicas em gráficos, por ex.: Eliminação de rajadas de stop (por ex., laptop); Eliminação de /t/ em várias situações (por ex., intersection, destination, crafts); Geminação de fricativas e nasais (por ex., this side, in nome); Assimilação de lugar (ex.: did you (/d ih jh uw/)). Probabilidades tais como, P(U W), podem ser treinadas. A maioria dos HM não tem componentes fonológicas. 25

26 Exemplo fonológico Exemplo de what you expandido no reconhecedor SUMMIT Final /t/ em what pode ser interpretado como released, unreleased, palatalized, ou stop glotal, ou flap. 26

27 Experimentos de reconhecimento de palavra Jupiter baseada em conversação telefônica, perguntas sobre meteorologia corpus. Conjunto de frases de treinamento, 1806 no domínio do conjunto de frases testes. Modelos Acústicos baseados em Gaussianas misturadas. Representações de Segmento e Marcas baseadas em medias e derivadas de 14 MFCCs, energia e duração. PCA usado para normalização de dados e redução. 715classes de contorno dependentes do contexto. 935 tri-fonema, 1160 difonema, classes segmento dependentes do contexto. Gráfico de pronuncia incorpora probabilidades de pronuncia. Modelo de linguagem baseado em classes bigrama e trigrama. Melhor desempenho obtido pela combinação de modelos. 27

28 Resumo Algumas técnicas de reconhecimento baseadas em segmento transformam o espaço de observação de quadro para gráfico. Gráficos baseados no espaço de observação permitem uma ampla variedade de métodos de modelamento alternativos para procedimentos baseados em quadros. Anti-fonema e modelamento near-miss fornecem um mecanismo para pesquisar gráficos baseados no espaço de observações. Bons resultados tem sido alcançados para reconhecimento fonético Muito trabalho resta a ser feito! 28

29 Referências J. Glass, A Probabilistic Framework for Segment-Based Speech Recognition, to appear in Computer, Speech & Language, D. Halberstadt, Heterogeneous Acoustic Measurements and Multiple Classifiers for Speech Recognition, Ph.D. Thesis, MIT, M. Ostendorf, et al., From HMMs to Segment Models: A Unified View of Stochastic Modeling for Speech Recognition, Trans. Speech & Audio Proc., 4(5),