O Manual do sam. Peter H. Grasch

Peter H. Grasch

Conteúdo 1 Introdução 5 1.1 Fundo............................................. 5 1.1.1 Testes efectivos................................... 5 2 Usar o sam 6 2.1 Ficheiros de entrada & saída................................ 6 2.2 Adaptar os cenários..................................... 7 2.3 Criar um modelo...................................... 8 2.4 Testar o modelo....................................... 9 2.5 Resultados do teste..................................... 10 2.5.1 Pontuação...................................... 10 2.5.2 Palavra........................................ 10 2.5.3 Frases........................................ 11 2.5.4 Ficheiros....................................... 12 3 Perguntas e Respostas 13 4 Créditos e Licença 14 A Instalação 15

O sam é um gestor de modelos acústicos. Resumo

Capítulo 1 Introdução O sam é uma ferramenta para criar e testar modelos acústicos. Pode compilar novos modelos de fala, usar os modelos criados pelo Simon e produzir que modelos que podem ser usados mais tarde pelo Simon. Está destinado para pessoas que desejem mais controlo sobre o seu modelo acústico e oferece um acesso de nível mais baixo ao processo de compilação. O sam é destinado principalmente para os profissionais da fala que desejem melhorar o seu modelo acústico. Para mais informações sobre a arquitectura do pacote Simon, veja por favor o manual do Simon. 1.1 Fundo Esta secção irá fornecer alguma informação de fundo sobre o processo de compilação e testes. 1.1.1 Testes efectivos Uma das funcionalidades mais importantes do sam é testar os modelos acústicos gerados. O procedimento de testes básico é executar o reconhecimento sobre as amostras onde a transcrição já é conhecida e comparando os resultados. O sam também recebe o valor de confiança do reconhecimento em conta para medir quão robusto é o sistema criado. Devido à forma como são criados os modelos acústicos, tanto a precisão do reconhecimento como a confiança serão altamente desviados quando as mesmas amostras são usadas para treino e para testes. Isto é chamado de testes de conteúdo (as amostras usada para testes estão também no seu conteúdo de treino). Embora o teste de conteúdo lhe possa indicar se o processo de compilação foi mal-sucedido ou produziu resultados pouco satisfatórios, não lhe irá dizer qual a taxa de reconhecimento real do modelo criado. Como tal, recomenda-se que faça um teste sem conteúdo : usar amostras diferentes para o treino e para os testes. Para os testes fora de conteúdo, basta dividir o seu ficheiro de mensagens em duas partes: uma usada para compilar o modelo e outra para o testar. Obviamente, o conjunto de testes não precisa ser muito grande para obter um resultado representativo. Se não tiver muitos dados de teste, poderá também dividir o conteúdo completo em dez partes. Compile 10 modelos, onde cada um trata de uma parte do conteúdo. Depois faça testes individuais (sempre com o conjunto de testes que foi excluído durante a compilação) e faça uma média dos resultados. 5

Capítulo 2 Usar o sam O sam oferece uma interface gráfica dividida em cinco áreas. A ordem das páginas representa um fluxo de trabalho completo do sam, desde a criação de um modelo até aos seus testes. 2.1 Ficheiros de entrada & saída Defina os ficheiros com que deseja trabalhar. Poderá gravar e carregar esta configuração, usando os botões Gravar e Carregar, respectivamente. ATENÇÃO Os menus Gravar e Carregar apenas gravam os locais e opções aqui definidas. Não gravam os ficheiros associados! 6

Se quiser compilar e / ou testar o modelo do Simon, poderá usar a opção Modificar o modelo do Simon para carregar os ficheiros apropriados. Ambos os cenários e mensagens serão serializados de forma apropriada. Quando o Simon compila o modelo, irá remover automaticamente as palavras não-treinadas durante a serialização, assim como vai adaptando as mensagens de forma apropriada. Isto também irá ocorrer ao seleccionar a opção Modificar o modelo do Simon. Se, porventura, os serializar em separado com as opções Serializar os cenários e Serializar as mensagens, esta adaptação não será efectuada e você será o responsável pela validação dos ficheiros de entrada. Se indicar directamente os nomes dos ficheiros, isto ainda se aplicará com maior certeza. A selecção de um modelo estático como tipo de modelo usado, irá compilar à mesma o modelo da língua, tal como aconteceria com o Simon. Também copia os ficheiros de entrada do modelo de base para os locais de saída. O sam permite ao utilizador fornecer dois tipos de ficheiros de mensagens: um ficheiro de mensagens para compilar o modelo e outro para o testar. Para mais informações, veja a secção sobre testes efectivos. 2.2 Adaptar os cenários O Sim guarda o modelo da língua em cenários. Quando os quiser usar para compilar o modelo, precisa primeiro de os serializar para ficheiros lidos pelo Julius e pelo HTK. 7

Para o fazer, seleccione o botão Serializar os cenários na página de Entrada/saída. os cenários do Simon serão também serializados ao usar as opções para Modificar o modelo do Simon. Nesta página poderá encontrar a informação de estado da adaptação e ler as mensagens de erro detalhadas, caso ocorra algum erro. 2.3 Criar um modelo Aqui poderá compilar o modelo, usando os ficheiros de entrada e saída definidos na secção de entradas & saídas. O processo de compilação é idêntico ao usado pelo Simond. Ao contrário do Simond, contudo, o registo completo com todos os programas externos invocados, o seu resultado, assim como a informação de progresso, é mostrado quer a compilação tenha sido bem-sucedida ou não. 8

Se usar este resultado descritivo, é muito mais fácil descobrir problemas com os dados de entrada. 2.4 Testar o modelo Aqui poderá testar o modelo de fala. O sam irá testar o modelo definido pela secção de Ficheiros de saída na secção de entrada & saída. Durante os testes, o Julius irá executar para reconhecer os ficheiros de entrada definidos pelas mensagens de testes. Os erros de palavras e frases resultantes serão contados, assim como a robustez global, analisando os índices de confiança do reconhecimento. Para testar o modelo com sucesso, também irá necessitar de ter o SoX instalado e na sua PATH. Enquanto o teste está em execução, poderá acompanhar o reconhecimento actual no protocolo de testes. 9

Assim que o teste esteja terminado, os resultados dos testes serão apresentados automaticamente. 2.5 Resultados do teste Depois de testar o modelo com sucesso, poderá obter um relatório detalhado da precisão do reconhecimento aqui. 2.5.1 Pontuação Para reflectir melhor a performance do reconhecimento, o sam usa vários resultados com classificações para os testes. Uma palavra ou frase reconhecida correctamente será classificada com o índice de confiança que a palavra obteve e a palavra será apresentada como reconhecida, ainda que exista outro resultado de reconhecimento mais elevado que o correcto. Se, por exemplo, a amostra flores for reconhecida como flor (90%), flores (70%), maçã (12%), ele será marcado como reconhecido com uma pontuação de 70%. A taxa de reconhecimento global é a média da taxa de reconhecimentos das palavras (média para cada palavra) e da taxa de reconhecimento de frases (média para cada frase). 2.5.2 Palavra O sam irá enumerar a precisão do reconhecimento para cada palavra individual. 10

Se tiver amostras que contêm mais que uma palavra, estas serão segmentadas durante o reconhecimento. Cada palavra será classificada individualmente, ainda que as diferentes palavras influenciem-se umas às outras, como é óbvio. 2.5.3 Frases Esta secção apresentada cada mensagem como uma frase. As mensagens que foram gravadas mais que uma vez serão combinadas. 11

2.5.4 Ficheiros Na secção dos ficheiros, poderá ver os resultados do reconhecimento para cada ficheiro. Cada um deles irá apresentar os 10 resultados mais prováveis na área de detalhes quando a seleccionar. Quando identificar amostras com problemas, poderá voltar a gravá-las (ou removê-las), seleccionando-as e carregando em Editar a amostra. Poderá ordenar os ficheiros por cada coluna, bastando para tal carregar no cabeçalho da coluna. Desta forma, é muito fácil de descobrir amostras inválidas, ordenando pela taxa de reconhecimento. 12

Capítulo 3 Perguntas e Respostas Num esforço para manter esta secção sempre actualizada, a mesma está disponível na nossa Wiki online. 13

Capítulo 4 Créditos e Licença sam Programa com copyright 2008-2010 de Peter Grasch peter.grasch@bedahr.org Documentação com copyright (c) 2009-2010 de Peter Grasch peter.grasch@bedahr.org Tradução de José Nuno Pires zepires@gmail.com A documentação está licenciada ao abrigo da GNU Free Documentation License. Este programa está licenciado ao abrigo da GNU General Public License. 14

Apêndice A Instalação Por favor, consulte as instruções de instalação na nossa Wiki. 15