MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA MPCOMP. Universidade Estadual do Ceará - UECE

Transcrição

1 ! MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA MPCOMP Universidade Estadual do Ceará - UECE Centro de Ciências Tecnológicas - CCT Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE Pró-Reitoria de Pós-Graduação ProPG Luiz Fausto de Souza Brito Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta Rio de Janeiro 2015

2 i Luiz Fausto de Souza Brito Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta Dissertação apresentada ao Programa de Mestrado Integrado Profissional em Computação Aplicada da Universidade Estadual do Ceará e do Instituto Federal de Educação, Ciência e Tecnologia do Ceará, como requisito parcial para obtenção do Grau de Mestre em Computação Aplicada. Orientador: Prof. D.Sc. Flávio Luis de Mello. Rio de Janeiro 2015

3 ii Dados Internacionais de Catalogação na Publicação Universidade Estadual do Ceará Biblioteca Central Prof. Antônio Martins Filho Brito, Luiz Fausto de Souza. Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta [recurso eletrônico] / Luiz Fausto de Souza Brito CD-ROM: il. ; 4 ¾ pol. CD-ROM contendo o arquivo no formato PDF do trabalho acadêmico com 108 folhas, acondicionado em caixa de DVD Slim (19 x 14 cm x 7 mm). Dissertação (mestrado profissional) Universidade Estadual do Ceará, Centro de Ciências e Tecnologia, Mestrado Profissional em Computação Aplicada, Rio de Janeiro, Área de Concentração: Computação Aplicada. Orientação: Prof. Dr. Flávio Luis de Mello. 1. Computação. 2. Sistemas de Apoio à Decisão. 3. Legenda Oculta. 4. Reconhecimento Automático de Voz. I. Título.

4 _ ' y LUIZ FAUSTO DE SOUZA BRITO SISTEMA DE DECISÃO AUTOMATICOPARA CONVERSÃO DE AUDIO EM TEXTO NA GERAÇAO DE LEGENDA OCULTA Dissertação apresentada ao Programa de Mestrado Integrado Profissional em Colnputação Aplicada da Universidade Estadual do Ceará e do Instituto Federal de Educação, Ciência e Tecnologia do Ceará, como requisito parcial para obtenção do Grau de Mestre em Computação Aplicada. Defesa em: 27/04/2015 z Flávio Luís de Mello, D.SC. (UFRJ) Presidente (Orientador) Marcos Jose' egreiros Sc. CE) Membro Interno.u /7/ l jr z._ ' A, Á/Vln//L/z' FrangsíeâÍíie/Çríque de Er/eítáfs Viana, DSQÍCEFET/RJ) Membro Externo á /TÃ/...; - Luiz Wagner Perei 'scaínho, D.Sc. (UFRJ) MÕIDbTOWEXÍCIDO

5 À memória do meu pai, meu maior mestre nessa vida. À minha mãe, fonte de serenidade. À minha esposa, meu apoio incondicional. Aos meus filhos, minha eterna alegria. Ao meu Deus, fonte da perseverança. iv

6 v AGRADECIMENTOS A Deus, verdadeira fonte de toda sabedoria. À minha esposa, por todo suporte que me dá. Aos meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educação que me deram. Aos professores Flávio Mello e Edilberto Strauss, pela paciência, compreensão e apoio. A todos que, de alguma forma, me ajudaram a chegar até aqui, o meu muito obrigado.

7 Assim também vós: se vossa língua só profere palavras ininteligíveis, como se compreenderá o que dizeis? Sereis como quem fala ao vento. (1Cor 14, 9) vi

8 vii RESUMO O presente trabalho se propõe a analisar uma solução computacional para o problema de geração de legenda oculta em programas de televisão produzidos ao vivo e que contenham fala espontânea, decidindo automaticamente a melhor transcrição de um sinal de áudio em Português do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de Reconhecimento Automático de Voz em Português do Brasil, tendo em vista a otimização da acurácia. A busca de tal solução se torna crítica pela falta de opções satisfatórias no mercado, pela necessidade de garantir a acessibilidade do conteúdo televisivo para as pessoas com deficiência auditiva e também para o cumprimento de legislação específica. A análise dos resultados obtidos demonstra que é possível desenvolver um sistema a partir de software livre e de bases de dados disponíveis publicamente que obtenha um desempenho superior à estenotipia e aos sistemas comerciais de Reconhecimento Automático de Voz em Português do Brasil atualmente disponíveis. Palavras-Chave: Computação, Sistemas de Apoio à Decisão, Legenda Oculta, Reconhecimento Automático de Voz.

9 viii ABSTRACT This study aims to analyze a computational solution to the problem of generating closed captions on live television programs containing spontaneous speech. The system may automatically decide the best transcription of an audio signal in Brazilian Portuguese to the corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech Recognition systems in order to optimize their accuracy. The search for such a solution becomes critical due to the lack of satisfactory options in the market, the need to provide television content accessibility for hearing impaired people and also the compulsory fulfillment of specific legislation. The analysis of the results that have been achieved shows that it is possible to develop a system based on free software and publicly available databases that gets a superior performance compared to stenotyping and currently available commercial Brazilian Portuguese Automatic Speech Recognition systems. Keywords: Computing, Decision Support Systems, Closed Caption, Automatic Speech Recognition.

10 ix LISTA DE TABELAS TABELA 1: PRAZOS E CARGAS HORÁRIAS MÍNIMAS PARA DISPONIBILIZAÇÃO DE CLOSED CAPTION POR FAIXA HORÁRIA... 20! TABELA 2: PRAZOS DE ADEQUAÇÃO DA INFRAESTRUTURA DAS ESTAÇÕES ANALÓGICAS PARA TRANSMISSÃO DE CLOSED CAPTION, DE ACORDO COM A POPULAÇÃO DA CIDADE ONDE A ESTAÇÃO ESTIVER LOCALIZADA... 20! TABELA 3: COMPARAÇÃO DE TEXTOS COM E SEM ALINHAMENTO... 51! TABELA 4: EXEMPLO DE TRECHO DE CLOSED CAPTION EXTRAÍDO EM DOIS FORMATOS: APENAS TEXTO E TEXTO COM MARCAÇÃO DE TEMPO DE CADA CARACTERE... 53! TABELA 5: ACURÁCIA DA ESTENOTIPIA... 54! TABELA 6: ACURÁCIA DA RELOCUÇÃO... 60! TABELA 7: ACURÁCIA DO IBM VIAVOICE... 66! TABELA 8: TAXA DE PALAVRAS FORA DO DICIONÁRIO E PERPLEXIDADE DO MODELO DE LINGUAGEM... 79! TABELA 9: IMPACTO SOBRE A ACURÁCIA DO NÚMERO DE SENONES E GAUSSIANAS DO MODELO ACÚSTICO TREINADO COM UMA ÚNICA VOZ MASCULINA... 83! TABELA 10: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS MAIS REDUZIDO, COM APENAS UMA VOZ MASCULINA... 87! TABELA 11: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS INTERMEDIÁRIO, COM VOZES MASCULINAS APENAS... 90! TABELA 12: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS MAIOR, COM VOZES MASCULINAS E FEMININAS... 94! TABELA 13: RESUMO DOS RESULTADOS DE ACURÁCIA OBTIDOS NOS TESTES... 98!

11 x LISTA DE FIGURAS FIGURA 1: RECONHECIMENTO AUTOMÁTICO DE VOZ... 24! FIGURA 2: PROCESSAMENTO DIGITAL DE SINAIS EMPREGADO NO RAV... 28! FIGURA 3: REPRESENTAÇÃO ESQUEMÁTICA DA PREPARAÇÃO DO MATERIAL DE TESTE... 49! FIGURA 4: EXTRAÇÃO DE ARQUIVO VRO DO DISCO RÍGIDO... 50! FIGURA 5: EXTRAÇÃO DE CLOSED CAPTION DE ARQUIVO VRO... 52! FIGURA 6: EXTRAÇÃO DE ÁUDIO EM FORMATO WAV A PARTIR DE ARQUIVO MPEG... 57! FIGURA 7: EXEMPLO DE MARCAÇÃO DE TEMPO DE FIM DE FRASE NO ÁUDIO DO PROGRAMA E NO TEXTO EXTRAÍDO DO CLOSED CAPTION... 58! FIGURA 8: FORMATOS DE ARQUIVOS E SOFTWARES UTILIZADOS NA RELOCUÇÃO... 59! FIGURA 9: AMBIENTE DE EXECUÇÃO DO IBM VIAVOICE... 63! FIGURA 10: EXTRAÇÃO DOS TEXTOS DA GLOBO.COM... 65! FIGURA 11: FLUXO DO SINAL DE ÁUDIO UTILIZADO NA ADAPTAÇÃO DE LOCUTOR DO IBM VIAVOICE... 66! FIGURA 12: FORMATOS DE ARQUIVOS E SOFTWARES UTILIZADOS NA AVALIAÇÃO DA LATÊNCIA DO IBM VIAVOICE... 70! FIGURA 13: TRECHO DO CORPUS DE TEXTO... 71! FIGURA 14: SEGMENTAÇÃO AUTOMÁTICA DO ÁUDIO... 72! FIGURA 15: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA BOM DIA BRASIL COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 73! FIGURA 16: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA BEM ESTAR COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 74! FIGURA 17: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA DOMINGÃO DO FAUSTÃO COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 75! FIGURA 18: FERRAMENTAS UTILIZADAS PARA CRIAÇÃO DOS DICIONÁRIOS E DOS MODELOS DE LINGUAGEM... 76! FIGURA 19: LISTA DOS SÍMBOLOS FONÉTICOS UTILIZADOS... 78! FIGURA 20: TRECHO DO DICIONÁRIO... 78! FIGURA 21: REPRESENTAÇÃO ESQUEMÁTICA DO TREINAMENTO DO MODELO ACÚSTICO INDEPENDENTE DE LOCUTOR... 81! FIGURA 22: REPRESENTAÇÃO ESQUEMÁTICA DA ADAPTAÇÃO DE LOCUTOR... 84! FIGURA 23: REPRESENTAÇÃO ESQUEMÁTICA DA DECODIFICAÇÃO... 86! FIGURA 24: VARIAÇÃO DA ACURÁCIA COM PESO DO MODELO DE LINGUAGEM, PARA O PROGRAMA BOM DIA BRASIL, UTILIZANDO O MODELO ACÚSTICO TREINADO COM CORPUS MAIOR... 86!

12 xi LISTA DE SIGLAS E ABREVIATURAS ABNT Associação Brasileira de Normas Técnicas AC-3 Audio Codec 3 CC Closed Caption CMU Carnegie Mellon University CPU Central Processing Unit DCT Discrete Cosine Transform DCT-II Type-II Discrete Cosine Transform DFT Discrete Fourier Transform FFT Fast Fourier Transform HMM Hidden Markov Model HTML HyperText Markup Language IBGE Instituto Brasileiro de Geografia e Estatística IBM International Business Machines Corporation LDA Linear Discriminant Analysis MAP Maximum a Posteriori MB Mega Bytes MFCC Mel-Frequency Cepstral Coefficients MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transform MOV QuickTime Movie MPEG Moving Picture Experts Group MPEG-2 Moving Picture Experts Group Standard 2 NHK Nippon Hōsō Kyōkai PCM Pulse-Code Modulation RAM Random-Access Memory RAV Reconhecimento Automático de Voz SD Standard Definition TV Televisão UFPA Universidade Federal do Pará VRO Video Recording Object File WAV Waveform Audio File Format WER Word Error Rate

13 xii SUMÁRIO CAPÍTULO 1! INTRODUÇÃO... 14! 1.1 -! TEMA... 14! 1.2 -! DELIMITAÇÃO... 14! 1.3 -! JUSTIFICATIVA... 14! 1.4 -! OBJETIVOS... 15! 1.5 -! METODOLOGIA... 15! 1.6 -! ORGANIZAÇÃO DA DISSERTAÇÃO... 16! CAPÍTULO 2! LEGENDA OCULTA... 17! 2.1 -! ACESSIBILIDADE... 17! 2.2 -! LEGISLAÇÃO... 19! 2.3 -! ESTENOTIPIA... 21! 2.4 -! RECONHECIMENTO AUTOMÁTICO DE VOZ... 22! CAPÍTULO 3! RECONHECIMENTO AUTOMÁTICO DE VOZ (RAV)... 24! 3.1 -! UNIDADE FONÉTICA... 25! 3.2 -! DICIONÁRIO... 26! 3.3 -! PROCESSAMENTO DIGITAL DE SINAIS... 27! 3.4 -! MODELOS ESTATÍSTICOS EMPREGADOS NOS MODELOS ACÚSTICOS... 31! 3.5 -! MODELOS ESTATÍSTICOS EMPREGADOS NOS MODELOS DE LINGUAGEM... 34! 3.6 -! DECODIFICAÇÃO... 36! CAPÍTULO 4! GERAÇÃO DE LEGENDA OCULTA COM RAV NO MUNDO... 39! 4.1 -! JAPÃO... 39! 4.2 -! PORTUGAL... 40! 4.3 -! REINO UNIDO... 40! 4.4 -! CANADÁ... 40! 4.5 -! ESLOVÊNIA... 41! 4.6 -! BRASIL... 42! CAPÍTULO 5! AVALIAÇÃO DE DESEMPENHO... 48! 5.1 -! MATERIAL DE TESTE... 48! 5.2 -! AVALIAÇÃO DA ESTENOTIPIA... 51! ! Acurácia... 53! ! Latência... 57! 5.3 -! AVALIAÇÃO DA RELOCUÇÃO... 58! ! Acurácia... 59! ! Latência... 63! 5.4 -! AVALIAÇÃO DO IBM VIAVOICE... 63! ! Adaptação do Dicionário e do Modelo de Linguagem... 64! ! Adaptação do Modelo Acústico... 65! ! Acurácia... 66! ! Latência... 69! ! Consumo de recursos computacionais... 70! 5.5 -! AVALIAÇÃO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE... 70! ! Criação do Dicionário e do Modelo de Linguagem... 71! ! Taxa de palavras fora do dicionário e perplexidade do modelo de linguagem 78! ! Treinamento do Modelo Acústico... 79! ! Adaptação do Modelo Acústico... 83! ! Acurácia... 85!

14 xiii ! Latência... 97! ! Consumo de recursos computacionais... 97! 5.6 -! ANÁLISE DOS RESULTADOS... 97! CAPÍTULO 6! CONCLUSÃO E TRABALHOS FUTUROS ! 6.1 -! CONCLUSÃO ! 6.2 -! TRABALHOS FUTUROS ! REFERÊNCIAS BIBLIOGRÁFICAS !

15 14 Capítulo 1 Introdução Tema O tema deste trabalho é o desenvolvimento de um sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta a partir de software livre e de bases de dados disponíveis publicamente Delimitação Este trabalho pretende examinar os sistemas computacionais por trás do Reconhecimento Automático de Voz (RAV) na geração de legenda oculta, ou seja, sistemas capazes de realizar um processo de decisão automática para conversão de áudio em texto na geração de closed caption, utilizando o português do Brasil. Neste trabalho não se pretende desenvolver os algoritmos de processamento digital de sinais ou os modelos estatísticos envolvidos no Reconhecimento Automático de Voz. Pretende-se, ao contrário, avaliar soluções de RAV disponíveis, os recursos necessários ao treinamento para o Português do Brasil e as possibilidades de otimização da acurácia, levando em consideração as informações disponíveis sobre a experiência internacional no uso desse tipo de solução e as otimizações específicas para a aplicação de RAV na geração de legenda oculta já implementadas Justificativa Na análise de maturidade de tecnologias emergentes ( Hype Cycle ) da consultoria Gartner publicada em 2014 (GARTNER, 2014), considera-se que a tecnologia de reconhecimento de voz já está no patamar de produtividade, ou seja, que já se trata de uma tecnologia relativamente madura com aplicações no mercado. No entanto, não se pode considerar que essa tecnologia esteja tão madura no Português do Brasil quanto está em outras línguas, como o Inglês. Este trabalho é motivado pela falta de opções satisfatórias de sistemas comerciais atuais de Reconhecimento Automático de Voz em Português do Brasil para a aplicação na geração de legenda oculta ao vivo.

16 Objetivos O objetivo deste trabalho é treinar e avaliar uma das opções de software livre disponíveis, tendo em vista a aplicação na geração de legenda oculta para programas de televisão ao vivo com fala espontânea em Português do Brasil, com Reconhecimento Automático de Voz (RAV) e utilizando relocução (repetição das falas por um locutor específico em um ambiente acusticamente controlado). O treinamento para o Português do Brasil utilizará bases de dados disponíveis publicamente. O desempenho desse sistema será comparado ao obtido por Estenotipia e pelo IBM ViaVoice. Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos estatísticos utilizados por sistemas de RAV. Por fim, pretende-se também verificar a experiência das emissoras de televisão ao redor do mundo na utilização de sistemas de Reconhecimento Automático de Voz em seus respectivos idiomas para a aplicação em questão, com foco nas otimizações implementadas que possam ser aproveitadas para o Brasil Metodologia A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma ampla revisão bibliográfica, tanto da fundamentação necessária sobre o atual estado da arte de sistemas de Reconhecimento Automático de Voz (RAV), quanto das ferramentas e recursos disponíveis publicamente, da aplicação do Reconhecimento Automático de Voz na geração de legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realização de testes comparativos de desempenho de um sistema de RAV para o Português do Brasil a ser desenvolvido a partir de ferramentas e recursos disponíveis publicamente com o desempenho do IBM ViaVoice e da Estenotipia.

17 Organização da Dissertação O Capítulo 2 descreve o uso de Legenda Oculta na televisão, sua motivação e os sistemas utilizados para geração ao vivo: Estenotipia e Reconhecimento Automático de Voz. No Capítulo 3 é apresentada uma fundamentação teórica sobre o funcionamento de sistemas de Reconhecimento Automático de Voz. No Capítulo 4 são apresentadas algumas experiências relatadas por diversos autores ao redor do mundo sobre a implementação de sistemas de Reconhecimento Automático de Voz na geração de Legenda Oculta. O Capítulo 5 apresenta os resultados de testes comparativos de desempenho de um sistema de RAV desenvolvido a partir de ferramentas e recursos disponíveis publicamente com o desempenho do IBM ViaVoice e da Estenotipia. As conclusões e propostas de trabalhos futuros são apresentadas no Capítulo 6.

18 17 Capítulo 2 Legenda Oculta Acessibilidade De acordo com os resultados do Censo Demográfico 2010 do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2012), cerca de 5,1% da população brasileira (quase 10 milhões de pessoas) possuem deficiência auditiva. Para que essa população tenha acesso ao conteúdo dos programas de televisão, é necessário que tais programas disponham de legendas, contendo não apenas a transcrição textual do que é falado, como também descrições de músicas e efeitos sonoros que sejam necessários para a melhor compreensão do conteúdo sendo exibido. Tais legendas, porém, não devem estar visíveis para todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no receptor de TV. Isso é possível, tanto na transmissão de TV analógica (CONSUMER ELECTRONICS ASSOCIATION, 2008), quanto na transmissão de TV digital (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2011), através de um recurso denominado legenda oculta ou closed caption (CC). Outra possibilidade de prover acessibilidade do conteúdo televisivo à população com deficiência auditiva, é o uso de uma janela superposta ao vídeo com um intérprete de Libras (Língua Brasileira de Sinais). Esse meio de acessibilidade atenderia particularmente à população com deficiência auditiva não alfabetizada (notese que, de acordo com os resultados do Censo Demográfico 2010 do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2012), o analfabetismo é mais prevalente na população com deficiência auditiva do que na população geral). Entretanto, se por um lado nem todos os deficientes auditivos são alfabetizados, por outro nem todos utilizam a Língua Brasileira de Sinais. Dessa forma, a Legenda Oculta e a janela com intérprete de Libras seriam complementares no provimento da acessibilidade do conteúdo televisivo à população com deficiência auditiva. Deve-se notar, entretanto, que a Legenda Oculta é muito mais utilizada que a janela com intérprete de Libras, por diversos motivos:

19 18 de acordo com a Lei nº , de 24 de abril de 2002 (BRASIL, 2002), no que se refere ao ensino público a "Língua Brasileira de Sinais - Libras não poderá substituir a modalidade escrita da língua portuguesa", o que significa que todos os deficiente auditivos, assim como todos as demais pessoas, deveriam ser alfabetizados e dessa forma teriam acesso à Legenda Oculta; a Língua Brasileira de Sinais é muito pouco conhecida na população geral, sendo a modalidade escrita da língua portuguesa essencial para a integração da população com deficiência auditiva, no que a Legenda Oculta poderia ser um estímulo e uma ferramenta adicional do processo de alfabetização; o uso da janela com intérprete de Libras na televisão é obrigatório apenas na propaganda político-partidária e eleitoral, nas campanhas institucionais e informativos de utilidade pública do governo (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006), e nas vinhetas de classificação indicativa (BRASIL. MINISTÉRIO DA JUSTIÇA., 2007); de acordo com a ABNT NBR 15290:2005 (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2005), a janela de Libras deve ocupar metade da altura e um quarto da largura da tela, no que poderia comprometer significativamente a visualização integral do vídeo; embora a Norma Complementar 01, aprovada pela Portaria nº 310 do Ministério das Comunicações (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006), mencione que "o desenvolvimento e implementação da televisão digital no Brasil deverá permitir o acionamento opcional da janela com intérprete de LIBRAS", tal recurso é opcional na norma de receptores (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2008a) e na norma de codificação de dados (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2008b) do Sistema Brasileiro de TV Digital Terrestre e

20 19 a codificação de tal recurso não foi padronizada, de forma que a única alternativa atualmente disponível para utilização da janela de Libras é incluí-la no sinal de vídeo principal, tornando-a visível a todos os telespectadores e não apenas aos que desejariam ativar esse recurso. Embora a maior motivação para utilizar legendas ocultas na programação da televisão seja para garantir a acessibilidade aos telespectadores com deficiência auditiva, tal recurso também é interessante para o público geral em algumas situações específicas, a saber: em ambientes nos quais a necessidade de silêncio não permite que o som da TV seja reproduzido ou pelo menos não com volume suficiente para uma compreensão adequada (e.g. hospitais); em ambientes muito barulhentos em que não seria possível compreender o áudio da televisão, ainda que reproduzido com volume razoável (e.g. bares e restaurantes); em ambientes com sonorização musical (e.g. academia); para permitir que diferentes televisores reproduzam programas diferenciados em um mesmo ambiente para atender a um público heterogêneo; em ambiente residencial para permitir que se assista TV à noite sem incomodar os demais moradores; para aprendizagem da língua por parte de estrangeiros ou pessoas em processo de alfabetização Legislação No Brasil, a Lei nº de 2000 (BRASIL, 2000), criada para estabelecer normas de acessibilidade, já previa que os serviços de radiodifusão de sons e imagens deveriam adotar medidas técnicas com o objetivo de permitir o uso de subtitulação, para garantir o direito de acesso à informação às pessoas portadoras de deficiência auditiva. Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria nº 310 do Ministério das Comunicações (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006) estabeleceu prazos, obrigando os radiodifusores a uma utilização progressiva de legendas ocultas nas suas programações. De acordo com o cronograma estabelecido, em 2017 a totalidade da programação diária das emissoras e retransmissoras deverá dispor de legendas ocultas, como pode ser verificado na Tabela 1:

21 20 Tabela 1: Prazos e cargas horárias mínimas para disponibilização de closed caption por faixa horária Prazo Faixa Horária Carga Horária 27/06/ :00-14:00 1 h 20:00-02:00 1 h 27/06/ :00-14:00 2 h 18:00-02:00 2 h 27/06/ :00-14:00 3 h 18:00-02:00 3 h 27/06/ :00-14:00 4 h 18:00-02:00 4 h 27/06/ :00-14:00 6 h 18:00-02:00 6 h 27/04/ :00-02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programação As estações transmissoras ou retransmissoras analógicas que não suportarem a transmissão de closed caption devem se adequar de acordo com um prazo estabelecido conforme a população da cidade onde a estação estiver localizada, como pode ser observado na Tabela 2. As estações transmissoras ou retransmissoras digitais devem suportar a transmissão de closed caption desde o princípio da operação. Tabela 2: Prazos de adequação da infraestrutura das estações analógicas para transmissão de closed caption, de acordo com a população da cidade onde a estação estiver localizada Prazo População 27/06/2008 > /06/2010 > /06/2012 > /06/2014 > /06/2016 Qualquer Além disso, a Norma Complementar 01 de 2006 do Ministério das Comunicações estabelece que a produção e veiculação de legendas ocultas deve atender os critérios e requisitos técnicos da ABNT NBR 15290:2005. Dentre esses requisitos, consta que o texto das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas com legenda pré-gravada e deve ter no mínimo 98% de acerto com no máximo 4 segundos de atraso para programas com legenda ao vivo (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2005). Não consta na norma a metodologia a ser utilizada na aferição desses valores.

22 21 Tais exigências afetam todas as emissoras de televisão do Brasil, independente do porte. Mesmo as retransmissoras ou afiliadas das redes de televisão localizadas em cidades de pequeno e médio porte deverão veicular legendas ocultas para sua programação e comercialização, inclusive local, atendendo os requisitos técnicos especificados. O descumprimento das disposições da norma sujeita as emissoras ou retransmissoras às penalidades prescritas no Código Brasileiro de Telecomunicações. Maximizar a taxa de acerto das legendas ocultas é importante não apenas para cumprir a legislação, como também para viabilizar a compreensão das mensagens sendo veiculadas. Por vezes, apenas uma palavra errada é suficiente para modificar profundamente o significado de um texto. O maior desafio está na produção de legendas ocultas ao vivo, sobretudo quando há fala espontânea (sem que haja um texto pré-definido em roteiro). Essa situação ocorre com bastante frequência na programação televisiva: programas de entrevistas, auditório, religiosos, variedades, reality shows etc. Existem atualmente duas formas de produzir as legendas ocultas que se aplicam à transcrição da fala espontânea ao vivo: Estenotipia e Reconhecimento Automático de Voz. Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser utilizado como legenda oculta. Para a parte da programação que não é produzida ao vivo, a legenda oculta pode ser inserida por digitadores durante o processo de pós-produção Estenotipia No caso da estenotipia, um profissional especializado digita as palavras na velocidade em que as ouve, utilizando símbolos fonéticos em um equipamento com teclado especial (estenótipo), conectado a um computador, que utilizando um dicionário específico converte as sequências de símbolos em palavras. Um curso de formação profissional em estenotipia dura de seis meses a um ano, mas normalmente é necessário pelo menos dois anos de prática para obter a velocidade necessária para legendagem ao vivo (cerca de 180 palavras por minuto). É uma mão-de-obra relativamente cara, escassa e difícil de repor. De acordo com

23 22 matéria publicada na revista Galileu de maio de 2012, existem apenas 400 desses profissionais no Brasil (SANT'ANA, 2012), em geral concentrados nas cidades de maior porte. Erros no processo de estenotipia podem ocorrer tanto por falha humana na digitação, quanto pela ocorrência de palavras fora do dicionário Reconhecimento Automático de Voz O Reconhecimento Automático de Voz é o processo de conversão do sinal acústico da voz em uma transcrição textual correspondente. Um sistema que implemente tal processo inclui a captação do sinal de voz, sua digitalização, processamento digital de sinais e modelos estatísticos. Na aplicação de Reconhecimento Automático de Voz para a geração de closed caption, normalmente é utilizado um relocutor, que ouve a fala espontânea através de um fone de ouvido e a repete em um estúdio (AHMER, 2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011). Com o uso da relocução, o sistema pode ser adaptado à voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por não precisar considerar a variabilidade fonética entre indivíduos. Além disso, como a relocução se dá em um ambiente acusticamente controlado, proporciona uma razão sinal/ruído melhor para o sistema de reconhecimento. Outra vantagem de utilizar a relocução, é que o relocutor pode reformular a fala, corrigindo as disfluências comuns na linguagem oral, tornando-a mais adequada a uma transcrição para a linguagem escrita. Em caso de fala muito rápida (e.g. locução esportiva), o relocutor pode resumir a fala, para que a velocidade de exibição do texto seja suficientemente lenta para permitir a leitura. Para facilitar o processo de reconhecimento, o relocutor pode ainda falar ou digitar os sinais de pontuação que devem ser utilizados e acrescentar pausas entre as palavras. Para realizar a relocução, não é necessário um curso de formação profissional específico, sendo uma mão-de-obra mais barata, fácil e rápida de repor do que um estenotipista. Pela experiência profissional do autor desta dissertação, o custo operacional da relocução é aproximadamente a metade do custo da estenotipia.

24 23 Erros no processo de reconhecimento de voz podem ser atribuídos a problemas com a qualidade da captação e digitalização do sinal de voz, ao ruído ambiente, às limitações dos algoritmos de processamento de sinais e modelos estatísticos empregados, à limitação e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como às diferenças entre a base de dados utilizada no treinamento e a fala a ser reconhecida (diferenças acústicas, de vocabulário, de linguagem etc.) (HUANG, ACERO e HON, 2001). Pode-se notar que a criticidade para o emprego da estenotipia está no fator humano, enquanto a criticidade para emprego do reconhecimento de voz está em um sistema computacional. Em princípio, a solução utilizando reconhecimento de voz é mais atrativa para as emissoras, por possuir um custo operacional menor.

25 24 Capítulo 3 Reconhecimento Automático de Voz (RAV) Como já foi descrito no capítulo anterior, o Reconhecimento Automático de Voz é o processo de conversão do sinal acústico da voz em uma transcrição textual correspondente. Um sistema que implemente tal processo inclui a captação do sinal de voz, sua digitalização, processamento digital de sinais e modelos estatísticos. Uma representação esquemática de um sistema de Reconhecimento Automático de Voz, em sua arquitetura mais frequente (AHMER, 2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011), pode ser visualizada na Figura 1: Figura 1: Reconhecimento Automático de Voz O sinal de áudio é obtido pela captação (realizada através de um microfone) e digitalização (que consiste em um processo de amostragem no tempo e quantização da amplitude) da fala. Esse sinal passa por um processamento digital que se destina a extrair parâmetros que possam ser úteis no processo de reconhecimento de padrões fonéticos. O dicionário fonético e os modelos estatísticos utilizados no reconhecimento (modelo acústico e modelo de linguagem) são específicos para cada idioma, podendo

26 25 ser otimizados para determinadas características de voz, vocabulário e linguagem. São gerados a partir de uma base de dados que deve conter: um conjunto de textos (corpus de texto) e um conjunto de gravações de fala em segmentos de curta duração com as transcrições textuais correspondentes (corpus de voz) (HUANG, ACERO e HON, 2001) Unidade Fonética Na implementação de um sistema de Reconhecimento Automático de Voz, deve-se escolher qual será a unidade fonética empregada, ou seja, quais serão as menores partes da fala que serão consideradas no treinamento e, consequentemente, no reconhecimento realizado pelo sistema (HUANG, ACERO e HON, 2001). A utilização de palavras como unidade fonética em um sistema de RAV apresenta grandes dificuldades para a aplicação em fala contínua com vocabulário extenso, embora possa ser empregada em aplicações de RAV para comando de voz, em que a fala não seja contínua e o vocabulário do sistema seja limitado. Na fala contínua, muitas vezes não há pausas entre as palavras, o que torna difícil a detecção dos limites de cada palavra no tempo dentro de um sinal de voz. Como o reconhecimento de voz é um tipo de reconhecimento de padrões, a utilização de um vocabulário extenso (dezenas ou até centenas de milhares de palavras) torna difícil a obtenção de exemplos de áudio com transcrição suficientes para treinar de forma confiável os modelos estatísticos de cada palavra. Além disso, com o aumento da quantidade de padrões a serem reconhecidos, aumenta a probabilidade de confusão entre eles (CINCAREK, 2008). A utilização de sílabas como unidade fonética, embora reduza a quantidade de padrões a serem reconhecidos, pode representar uma quantidade de padrões ainda relativamente alta dependendo do idioma considerado, além de também apresentar problemas para a detecção de início e fim das sílabas (AHMER, 2002). A menor unidade sonora distintiva da fala é denominada fonema. Pode-se considerar essa unidade análoga ao grafema (menor unidade distintiva da linguagem escrita, que nas línguas com escrita alfabética é um caractere). Note-se, entretanto, que não há uma relação biunívoca entre grafema e fonema (um grafema pode corresponder

27 26 a mais de um fonema e vice-versa). Um aspecto interessante da analogia entre fonema e grafema é que ambos são conceitos abstratos, com uma variedade praticamente infinita de realizações concretas. No caso do grafema, essa variedade se deve às diferenças de formatação ou caligrafia; no caso do fonema, deve-se às diferenças fisiológicas (e.g. voz mais grave ou mais aguda), psicológicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, além dos efeitos coarticulatórios (o som de um fonema é afetado pelo contexto de vizinhança fonética). A realização concreta de um fonema é denominada fone (HUANG, ACERO e HON, 2001). A quantidade de fonemas existentes em qualquer idioma é bem inferior à quantidade de palavras ou sílabas existentes, sendo por isso o fonema uma unidade mais adequada ao treinamento e ao reconhecimento. A duração dos fonemas também apresenta variabilidade menor que a duração das palavras ou sílabas, o que facilita a detecção de início e fim (AHMER, 2002). As variações fonéticas devidas aos falantes podem ser mitigadas através do uso de relocução (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variações devidas aos efeitos coarticulatórios podem ser levadas em consideração diferenciando os fonemas pelo contexto de vizinhança fonética, utilizando trifones (um trifone representa um único fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilização de trifones aumenta a quantidade de padrões a serem reconhecidos, o que demanda uma base de dados maior para o treinamento do sistema. Por vezes, uma solução de compromisso é o agrupamento de informações em modelos de trifones semelhantes (CINCAREK, 2008) Dicionário Como palavras fora do dicionário não serão reconhecidas pelo sistema, é comum a necessidade de atualização frequente do dicionário, incorporando novas palavras, sobretudo nomes próprios (AHMER, 2002; HUANG, ACERO e HON, 2001). Contudo, deve-se destacar que quanto maior o vocabulário considerado pelo sistema, maior a probabilidade de confusão entre palavras. Portanto, para maximizar a acurácia do sistema, também pode ser interessante retirar do vocabulário palavras que não sejam mais utilizadas. Uma estratégia comum é extrair o vocabulário a partir da

28 27 análise das palavras mais comuns do conjunto de textos da base de dados do treinamento (BROUSSEAU, BEAUMONT, et al., 2003; MARTINS, TEIXEIRA e NETO, 2010). Dessa forma, também podem ser construídos dicionários especializados, segmentando o conjunto de textos por assunto (MEINEDO, CASEIRO, et al., 2003; MIYASAKA, 2004). A transcrição fonética das palavras do dicionário pode ser realizada de forma automática, utilizando um conjunto de regras de conversão grafema-fonema (SILVA, 2010). Eventualmente, uma mesma palavra no dicionário pode conter mais de uma transcrição fonética, o que é particularmente útil se o sistema precisar suportar variações regionais de pronúncia (HUANG, ACERO e HON, 2001) Processamento Digital de Sinais Como já mencionado, o processamento digital de sinais empregado no Reconhecimento Automático de Voz se destina a extrair do sinal de áudio correspondente à voz captada e digitalizada parâmetros que possam ser úteis no processo de reconhecimento de padrões fonéticos. Considerando a técnica de extração de parâmetros mais utilizada (MFCC Mel-Frequency Cepstral Coefficients Coeficientes Cepstrais em Frequência Mel) (SILVA, 2010; YOUNG, EVERMANN, et al., 2009), tal processo será descrito a seguir e está ilustrado na Figura 2:

29 28 Figura 2: Processamento Digital de Sinais empregado no RAV Tipicamente, o processamento de sinais utilizado nesta aplicação é iniciado por uma filtragem com a finalidade de maximizar a razão sinal/ruído. Nesse sentido, os componentes com frequência acima do espectro da voz são filtrados e o sinal é reamostrado a 16 khz (HUANG, ACERO e HON, 2001), o que também ajuda a reduzir a quantidade de dados a serem processados. É utilizado ainda um filtro de préênfase para compensar o decaimento de energia nos componentes de frequência mais alta da fala, que são essenciais para a distinção fonética. Esse filtro também ajuda a reduzir o ruído de baixa frequência. A seguir, o sinal é segmentado no tempo, tipicamente com um segmento a cada 10 ms, tendo cada segmento a duração entre 20 e 30 ms, curto o bastante para que as características do sinal de voz possam ser consideradas uniformes dentro do segmento. Em cada um desses segmentos é aplicada uma função de janelamento,

30 29 normalmente a de Hamming, para reduzir o vazamento espectral produzido na análise desses segmentos (SEGBROECK, 2010). Das janelas resultantes, são extraídos os coeficientes MFCC, conforme os passos descritos a seguir. As janelas são processadas por uma DFT (Discrete Fourier Transform Transformada Discreta de Fourier), uma vez que as diferenças fonéticas são mais facilmente observadas no domínio da frequência do que no domínio do tempo. Para otimização de desempenho computacional, a DFT é normalmente calculada através de uma FFT (Fast Fourier Transform Transformada Rápida de Fourier). Como a fase da Transformada de Fourier não contribui para a diferenciação fonética, calcula-se o espectro de potência através do quadrado do módulo da transformada (MESEGUER, 2009). O espectro de potência calculado dessa forma possui escala de frequência linear. Entretanto, é possível verificar que a utilização de uma escala de frequência subjetivamente linear ( Mel ) é benéfica para o reconhecimento de voz. O mapeamento do espectro de potência para a escala de frequência Mel é realizado através de um banco de filtros. São utilizados normalmente de 24 a 40 filtros triangulares uniformemente espaçados na escala Mel. Dessa forma, o banco de filtros também reduz a dimensionalidade dos dados. Como a percepção humana de intensidade sonora é logarítmica, é calculado o logaritmo da energia resultante na saída de cada filtro (CINCAREK, 2008). Para reduzir ainda mais a dimensionalidade, descorrelacionando o vetor resultante da etapa anterior, é calculada a DCT-II (Type-II Discrete Cosine Transform Transformada Discreta do Cosseno, Tipo 2), da qual permanecemos apenas com os 12 primeiros componentes (que concentram a maior parte da informação). A quantidade de bandas do banco de filtros e a quantidade de componentes utilizados da DCT foi determinada empiricamente para otimizar a relação performance / custo computacional (MESEGUER, 2009). A transformada do logaritmo do espectro de potência é denominada de cepstro (termo derivado da palavra espectro ). O termo MFCC se justifica porque no processo anteriormente descrito, calculamos os coeficientes cepstrais utilizando a transformada do logaritmo do espectro de potência na escala de frequência Mel. O

31 30 cepstro é uma representação do sinal no domínio da quefrência (termo derivado da palavra frequência ), que tem a dimensão de tempo (HUANG, ACERO e HON, 2001). Uma forma de justificar a utilização de uma transformação cepstral do sinal para a extração de parâmetros úteis na diferenciação fonética é considerando um modelo linear de produção fonética com fonte (sinal produzido pela passagem do ar através das pregas vocais) e canal (filtro acústico da cavidade oronasal, controlado pela abertura da boca e pela posição da língua, do palato mole e dos lábios). No domínio do tempo, pode-se caracterizar o canal através da sua resposta ao impulso e o sinal de fala resultante através da convolução da fonte com a resposta ao impulso do canal. No domínio da frequência a convolução é substituída pelo produto dos espectros. No domínio da quefrência a convolução é substituída pela soma dos cepstros (HUANG, ACERO e HON, 2001). Uma transformação que converta uma convolução em uma soma é denominada homomórfica. Embora a transformação empregada no cálculo dos coeficientes MFCC não seja rigorosamente homomórfica por causa da utilização do banco de filtros, ela pode ser considerada aproximadamente homomórfica para filtros com espectro suave, como é o caso do filtro acústico oronasal. Dessa forma, a MFCC favorece a separação entre fonte e canal. Isso favorece o reconhecimento porque a maior parte da diferenciação fonética se deve às características do canal. Da fonte, interessa saber apenas se as cordas vocais estão tensionadas e, portanto vibrando (como é o caso nas vogais e nas consoantes sonoras, nas quais o sinal da fonte é periódico) ou relaxadas e, portanto, não vibrando (como é o caso nas consoantes surdas, nas quais o sinal da fonte não é periódico) (HUANG, ACERO e HON, 2001). Nas línguas tonais, como o chinês, que utilizam a variação de afinação (que está relacionada à frequência de vibração das pregas vocais) como elemento de diferenciação fonética, é necessário extrair a informação da afinação, além dos coeficientes MFCC. Nas línguas não-tonais, como o português, a variação de afinação é frequentemente utilizada como elemento de diferenciação prosódica, para distinguir afirmativas de interrogativas, para indicar ironia etc. Entretanto, os sistemas de

32 31 Reconhecimento Automático de Voz normalmente não se propõe a analisar a prosódia, portanto essa informação não é extraída do áudio (HUANG, ACERO e HON, 2001). Além dos 12 coeficientes MFCC é normalmente adicionado ao vetor de parâmetros um componente que representa a energia média do sinal, aspecto também considerado importante na diferenciação fonética. A esses 13 componentes, são ainda adicionados a primeira e a segunda derivada, denominados de coeficientes dinâmicos, delta ou vetores de velocidade e aceleração, que ajudam a caracterizar os efeitos coarticulatórios, formando um vetor de parâmetros ou de características com 39 coeficientes (SEGBROECK, 2010). O vetor de parâmetros ou de características é utilizado no modelo acústico para reconhecimento dos padrões fonéticos. É possível otimizar esses parâmetros utilizando uma transformação linear que melhore a separabilidade entre os padrões a serem reconhecidos, o que produz um impacto positivo sobre a acurácia do sistema. Além disso, tal transformação descorrelaciona as dimensões do vetor de parâmetros e é possível reduzir a dimensão desse vetor (por exemplo, de 39 para 32) sem reduzir significativamente a acurácia, o que reduz o custo computacional do reconhecimento. Duas transformações conhecidas que podem ser utilizadas em conjunto para aumentar a acurácia e reduzir o custo do reconhecimento são LDA (Linear Discriminant Analysis) e MLLT (Maximum Likelihood Linear Transform) (HUANG, ACERO e HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012) Modelos Estatísticos Empregados nos Modelos Acústicos As transcrições textuais das gravações de fala contidas na base de dados utilizada no treinamento do sistema de Reconhecimento Automático de Voz são convertidas para uma sequência de fonemas de acordo com o dicionário, para que sejam identificados nos parâmetros extraídos do sinal de áudio, pela etapa de processamento digital de sinais, padrões correspondentes aos fonemas empregados. A modelagem estatística desses padrões fonéticos é denominada Modelo Acústico. Diferentemente do dicionário, as gravações de fala utilizadas no treinamento não precisam conter todas as palavras do vocabulário do sistema, mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os contextos de

33 32 vizinhança fonética possíveis (uma vez que cada fonema pode ter suas características alteradas de acordo com o antecessor e o sucessor) (HUANG, ACERO e HON, 2001). Os modelos acústicos treinados com a voz de diferentes locutores são ditos independentes de locutor. Contudo, a acurácia é máxima quando o sistema pode ser treinado com a voz a ser reconhecida, produzindo modelos acústicos dependentes de locutor. Mas como, na prática, é difícil obter gravações suficientes para treinar adequadamente o modelo acústico, uma solução de compromisso comum é o que se denomina adaptação de locutor, em que há um treinamento independente de locutor, que é posteriormente adaptado para a voz de um locutor específico utilizando uma base de treinamento relativamente pequena. Se a base de treinamento independente de locutor for suficientemente grande e diversificada, também é possível segmentá-la, gerando modelos acústicos independentes de locutor, mas agrupados por sexo, idade, sotaque etc. A adaptação de locutor também pode ser feita a partir dos modelos acústicos desses agrupamentos (AHMER, 2002; SILVA, 2010). Dada uma sequência de vetores de parâmetros X extraída de um sinal de voz através do Processamento Digital de Sinais anteriormente descrito, a tarefa do Reconhecimento Automático de Voz é determinar a sequência correspondente de palavras W mais provável. Em termos probabilísticos, deseja-se descobrir a sequência de palavras W que maximiza a probabilidade condicional P(W X). Como essa probabilidade não é conhecida a priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional (CINCAREK, 2008; SILVA, 2010):!!! =!(!!)!(!)!(!) (1) Como a maximização de P(W X) é calculada com X fixo, isso equivale a maximizar:!(!!)!(!) (2) Isso permite a separação do problema do Reconhecimento Automático de Voz em dois problemas distintos, um modelo acústico, P(X W), que será tratado agora, e um modelo de linguagem, P(W), que será abordado adiante. O modelo acústico utiliza, tipicamente, HMM (Hidden Markov Model Modelo Oculto de Markov). Nesse modelo, assume-se que o processo segue uma sequência de estados que não são diretamente observáveis. A observação indireta, no

34 33 caso, corresponde a um vetor de características extraído do sinal de voz. Os estados poderiam ser associados aos fonemas (ou trifones), mas para maior acurácia do sistema, divide-se cada fonema (ou trifone) em três estados, denominados senones, sendo o primeiro correspondente ao início do fonema, cuja observação é influenciada pelo efeito coarticulatório da transição a partir do fonema anterior, o segundo estado corresponde à parte intermediária e mais estável do fonema e o terceiro estado corresponde à parte final do fonema, cuja observação é influenciada pelo efeito coarticulatório da transição para o próximo fonema (HUANG, ACERO e HON, 2001). Um modelo HMM é caracterizado pelas probabilidades iniciais dos estados (representadas por um vetor), pelas probabilidades de transição entre os estados (representadas por uma matriz) e pelas probabilidades de observação. As probabilidades de observação são modeladas, normalmente, por uma mistura de gaussianas, pela flexibilidade que tal mistura oferece de aproximar qualquer distribuição de probabilidade. Uma mistura de gaussianas é representada pelo vetor das médias e matriz de covariância de cada componente e por um vetor com os pesos de cada componente (SEGBROECK, 2010). Para reduzir a dimensionalidade do modelo pode-se associar as probabilidades dos estados (senones) semelhantes, tais como os estados intermediários dos trifones que representam o mesmo fonema e os estados inicial e final dos trifones que representam o mesmo fonema e que podem ser agrupadas por categorias fonéticas dos fonemas anteriores e posteriores, respectivamente (YOUNG, EVERMANN, et al., 2009). Em alguns idiomas, como o japonês, em que a duração é um fator de diferenciação fonética, é necessário modelar a probabilidade de transição de estados como uma função do tempo. Nos demais idiomas, como o português, embora a duração possa servir para diferenciação prosódica, indicando ênfase ou mesmo o estado emocional do falante, como os sistemas de Reconhecimento Automático de Voz normalmente não se propõem a analisar a prosódia, essa modelagem não é utilizada (HUANG, ACERO e HON, 2001). O treinamento de um modelo acústico é o processo de estimação das probabilidades que caracterizam o modelo HMM. O algoritmo mais utilizado para essa

35 34 estimação é o de Baum-Welch. A transcrição textual dos áudios empregados no treinamento é utilizada para gerar, baseada no dicionário, a transcrição fonética das palavras e, a partir daí, a sequência de estados correspondentes aos trifones, inserindo estados opcionais de silêncio entre as palavras. O algoritmo por si busca o melhor alinhamento temporal dos estados em relação à sequência de vetores de características extraída do sinal de áudio e estima as probabilidades do modelo HMM (AHMER, 2002). Na adaptação de um modelo acústico para a voz de um locutor específico (adaptação de locutor), duas técnicas são empregadas com frequência: MLLR (Maximum Likelihood Linear Regression) e MAP (Maximum a Posteriori). A técnica MLLR calcula matrizes de transformação dos vetores de médias das gaussianas do modelo acústico independente de locutor de forma a maximizar a probabilidade de observação dos vetores de parâmetros extraídos do corpus de adaptação. A técnica MAP ajusta todos os parâmetros do modelo acústico, interpolando o modelo original com um novo modelo treinado a partir do corpus de adaptação. O hiperparâmetro τ (tau) é usado para controlar o peso do modelo disponível a priori. A técnica MLLR possui custo computacional mais baixo e resulta em maior acurácia caso o corpus de adaptação seja muito pequeno. A técnica MAP possui custo computacional mais alto e resulta em maior acurácia caso o corpus de adaptação seja um pouco maior. A combinação das técnicas MLLR e MAP resulta na melhor acurácia para qualquer tamanho de corpus de adaptação (HUANG, ACERO e HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012) Modelos Estatísticos Empregados nos Modelos de Linguagem O conjunto de textos da base de dados de treinamento do sistema de RAV é utilizado na modelagem da probabilidade de palavras e sequências de palavras, no que se denomina Modelo de Linguagem (SILVA, 2010; SEGBROECK, 2010). Para maximizar a acurácia, os textos devem possuir similaridade de vocabulário e estilo de linguagem com a fala a ser reconhecida (HUANG, ACERO e HON, 2001). Para um sistema com uso previsto em situações com assuntos (e, portanto, vocabulários e estilos de linguagem) muito distintos, é comum segmentar a base de dados de textos

Exibir mais