MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA MPCOMP. Universidade Estadual do Ceará - UECE
|
|
- Giuliana Madeira Miranda
- 7 Há anos
- Visualizações:
Transcrição
1 ! MESTRADO INTEGRADO PROFISSIONAL EM COMPUTAÇÃO APLICADA MPCOMP Universidade Estadual do Ceará - UECE Centro de Ciências Tecnológicas - CCT Instituto Federal de Educação, Ciência e Tecnologia do Ceará - IFCE Pró-Reitoria de Pós-Graduação ProPG Luiz Fausto de Souza Brito Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta Rio de Janeiro 2015
2 i Luiz Fausto de Souza Brito Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta Dissertação apresentada ao Programa de Mestrado Integrado Profissional em Computação Aplicada da Universidade Estadual do Ceará e do Instituto Federal de Educação, Ciência e Tecnologia do Ceará, como requisito parcial para obtenção do Grau de Mestre em Computação Aplicada. Orientador: Prof. D.Sc. Flávio Luis de Mello. Rio de Janeiro 2015
3 ii Dados Internacionais de Catalogação na Publicação Universidade Estadual do Ceará Biblioteca Central Prof. Antônio Martins Filho Brito, Luiz Fausto de Souza. Sistema de Decisão Automático para Conversão de Áudio em Texto na Geração de Legenda Oculta [recurso eletrônico] / Luiz Fausto de Souza Brito CD-ROM: il. ; 4 ¾ pol. CD-ROM contendo o arquivo no formato PDF do trabalho acadêmico com 108 folhas, acondicionado em caixa de DVD Slim (19 x 14 cm x 7 mm). Dissertação (mestrado profissional) Universidade Estadual do Ceará, Centro de Ciências e Tecnologia, Mestrado Profissional em Computação Aplicada, Rio de Janeiro, Área de Concentração: Computação Aplicada. Orientação: Prof. Dr. Flávio Luis de Mello. 1. Computação. 2. Sistemas de Apoio à Decisão. 3. Legenda Oculta. 4. Reconhecimento Automático de Voz. I. Título.
4 _ ' y LUIZ FAUSTO DE SOUZA BRITO SISTEMA DE DECISÃO AUTOMATICOPARA CONVERSÃO DE AUDIO EM TEXTO NA GERAÇAO DE LEGENDA OCULTA Dissertação apresentada ao Programa de Mestrado Integrado Profissional em Colnputação Aplicada da Universidade Estadual do Ceará e do Instituto Federal de Educação, Ciência e Tecnologia do Ceará, como requisito parcial para obtenção do Grau de Mestre em Computação Aplicada. Defesa em: 27/04/2015 z Flávio Luís de Mello, D.SC. (UFRJ) Presidente (Orientador) Marcos Jose' egreiros Sc. CE) Membro Interno.u /7/ l jr z._ ' A, Á/Vln//L/z' FrangsíeâÍíie/Çríque de Er/eítáfs Viana, DSQÍCEFET/RJ) Membro Externo á /TÃ/...; - Luiz Wagner Perei 'scaínho, D.Sc. (UFRJ) MÕIDbTOWEXÍCIDO
5 À memória do meu pai, meu maior mestre nessa vida. À minha mãe, fonte de serenidade. À minha esposa, meu apoio incondicional. Aos meus filhos, minha eterna alegria. Ao meu Deus, fonte da perseverança. iv
6 v AGRADECIMENTOS A Deus, verdadeira fonte de toda sabedoria. À minha esposa, por todo suporte que me dá. Aos meus filhos, por inspirarem e alegrarem os meus dias. Aos meus pais, pela educação que me deram. Aos professores Flávio Mello e Edilberto Strauss, pela paciência, compreensão e apoio. A todos que, de alguma forma, me ajudaram a chegar até aqui, o meu muito obrigado.
7 Assim também vós: se vossa língua só profere palavras ininteligíveis, como se compreenderá o que dizeis? Sereis como quem fala ao vento. (1Cor 14, 9) vi
8 vii RESUMO O presente trabalho se propõe a analisar uma solução computacional para o problema de geração de legenda oculta em programas de televisão produzidos ao vivo e que contenham fala espontânea, decidindo automaticamente a melhor transcrição de um sinal de áudio em Português do Brasil para o texto correspondente. Trata-se, portanto, do estudo de sistemas de Reconhecimento Automático de Voz em Português do Brasil, tendo em vista a otimização da acurácia. A busca de tal solução se torna crítica pela falta de opções satisfatórias no mercado, pela necessidade de garantir a acessibilidade do conteúdo televisivo para as pessoas com deficiência auditiva e também para o cumprimento de legislação específica. A análise dos resultados obtidos demonstra que é possível desenvolver um sistema a partir de software livre e de bases de dados disponíveis publicamente que obtenha um desempenho superior à estenotipia e aos sistemas comerciais de Reconhecimento Automático de Voz em Português do Brasil atualmente disponíveis. Palavras-Chave: Computação, Sistemas de Apoio à Decisão, Legenda Oculta, Reconhecimento Automático de Voz.
9 viii ABSTRACT This study aims to analyze a computational solution to the problem of generating closed captions on live television programs containing spontaneous speech. The system may automatically decide the best transcription of an audio signal in Brazilian Portuguese to the corresponding text. To that end, it investigates Brazilian Portuguese Automatic Speech Recognition systems in order to optimize their accuracy. The search for such a solution becomes critical due to the lack of satisfactory options in the market, the need to provide television content accessibility for hearing impaired people and also the compulsory fulfillment of specific legislation. The analysis of the results that have been achieved shows that it is possible to develop a system based on free software and publicly available databases that gets a superior performance compared to stenotyping and currently available commercial Brazilian Portuguese Automatic Speech Recognition systems. Keywords: Computing, Decision Support Systems, Closed Caption, Automatic Speech Recognition.
10 ix LISTA DE TABELAS TABELA 1: PRAZOS E CARGAS HORÁRIAS MÍNIMAS PARA DISPONIBILIZAÇÃO DE CLOSED CAPTION POR FAIXA HORÁRIA... 20! TABELA 2: PRAZOS DE ADEQUAÇÃO DA INFRAESTRUTURA DAS ESTAÇÕES ANALÓGICAS PARA TRANSMISSÃO DE CLOSED CAPTION, DE ACORDO COM A POPULAÇÃO DA CIDADE ONDE A ESTAÇÃO ESTIVER LOCALIZADA... 20! TABELA 3: COMPARAÇÃO DE TEXTOS COM E SEM ALINHAMENTO... 51! TABELA 4: EXEMPLO DE TRECHO DE CLOSED CAPTION EXTRAÍDO EM DOIS FORMATOS: APENAS TEXTO E TEXTO COM MARCAÇÃO DE TEMPO DE CADA CARACTERE... 53! TABELA 5: ACURÁCIA DA ESTENOTIPIA... 54! TABELA 6: ACURÁCIA DA RELOCUÇÃO... 60! TABELA 7: ACURÁCIA DO IBM VIAVOICE... 66! TABELA 8: TAXA DE PALAVRAS FORA DO DICIONÁRIO E PERPLEXIDADE DO MODELO DE LINGUAGEM... 79! TABELA 9: IMPACTO SOBRE A ACURÁCIA DO NÚMERO DE SENONES E GAUSSIANAS DO MODELO ACÚSTICO TREINADO COM UMA ÚNICA VOZ MASCULINA... 83! TABELA 10: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS MAIS REDUZIDO, COM APENAS UMA VOZ MASCULINA... 87! TABELA 11: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS INTERMEDIÁRIO, COM VOZES MASCULINAS APENAS... 90! TABELA 12: ACURÁCIA DO SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE UTILIZANDO MODELO ACÚSTICO TREINADO COM CORPUS MAIOR, COM VOZES MASCULINAS E FEMININAS... 94! TABELA 13: RESUMO DOS RESULTADOS DE ACURÁCIA OBTIDOS NOS TESTES... 98!
11 x LISTA DE FIGURAS FIGURA 1: RECONHECIMENTO AUTOMÁTICO DE VOZ... 24! FIGURA 2: PROCESSAMENTO DIGITAL DE SINAIS EMPREGADO NO RAV... 28! FIGURA 3: REPRESENTAÇÃO ESQUEMÁTICA DA PREPARAÇÃO DO MATERIAL DE TESTE... 49! FIGURA 4: EXTRAÇÃO DE ARQUIVO VRO DO DISCO RÍGIDO... 50! FIGURA 5: EXTRAÇÃO DE CLOSED CAPTION DE ARQUIVO VRO... 52! FIGURA 6: EXTRAÇÃO DE ÁUDIO EM FORMATO WAV A PARTIR DE ARQUIVO MPEG... 57! FIGURA 7: EXEMPLO DE MARCAÇÃO DE TEMPO DE FIM DE FRASE NO ÁUDIO DO PROGRAMA E NO TEXTO EXTRAÍDO DO CLOSED CAPTION... 58! FIGURA 8: FORMATOS DE ARQUIVOS E SOFTWARES UTILIZADOS NA RELOCUÇÃO... 59! FIGURA 9: AMBIENTE DE EXECUÇÃO DO IBM VIAVOICE... 63! FIGURA 10: EXTRAÇÃO DOS TEXTOS DA GLOBO.COM... 65! FIGURA 11: FLUXO DO SINAL DE ÁUDIO UTILIZADO NA ADAPTAÇÃO DE LOCUTOR DO IBM VIAVOICE... 66! FIGURA 12: FORMATOS DE ARQUIVOS E SOFTWARES UTILIZADOS NA AVALIAÇÃO DA LATÊNCIA DO IBM VIAVOICE... 70! FIGURA 13: TRECHO DO CORPUS DE TEXTO... 71! FIGURA 14: SEGMENTAÇÃO AUTOMÁTICA DO ÁUDIO... 72! FIGURA 15: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA BOM DIA BRASIL COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 73! FIGURA 16: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA BEM ESTAR COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 74! FIGURA 17: VARIAÇÃO DA PERPLEXIDADE DO MODELO DE LINGUAGEM DO PROGRAMA DOMINGÃO DO FAUSTÃO COM O NÚMERO DE REPETIÇÕES DA TRANSCRIÇÃO DE PARTE DO PROGRAMA NO CORPUS DE TEXTO... 75! FIGURA 18: FERRAMENTAS UTILIZADAS PARA CRIAÇÃO DOS DICIONÁRIOS E DOS MODELOS DE LINGUAGEM... 76! FIGURA 19: LISTA DOS SÍMBOLOS FONÉTICOS UTILIZADOS... 78! FIGURA 20: TRECHO DO DICIONÁRIO... 78! FIGURA 21: REPRESENTAÇÃO ESQUEMÁTICA DO TREINAMENTO DO MODELO ACÚSTICO INDEPENDENTE DE LOCUTOR... 81! FIGURA 22: REPRESENTAÇÃO ESQUEMÁTICA DA ADAPTAÇÃO DE LOCUTOR... 84! FIGURA 23: REPRESENTAÇÃO ESQUEMÁTICA DA DECODIFICAÇÃO... 86! FIGURA 24: VARIAÇÃO DA ACURÁCIA COM PESO DO MODELO DE LINGUAGEM, PARA O PROGRAMA BOM DIA BRASIL, UTILIZANDO O MODELO ACÚSTICO TREINADO COM CORPUS MAIOR... 86!
12 xi LISTA DE SIGLAS E ABREVIATURAS ABNT Associação Brasileira de Normas Técnicas AC-3 Audio Codec 3 CC Closed Caption CMU Carnegie Mellon University CPU Central Processing Unit DCT Discrete Cosine Transform DCT-II Type-II Discrete Cosine Transform DFT Discrete Fourier Transform FFT Fast Fourier Transform HMM Hidden Markov Model HTML HyperText Markup Language IBGE Instituto Brasileiro de Geografia e Estatística IBM International Business Machines Corporation LDA Linear Discriminant Analysis MAP Maximum a Posteriori MB Mega Bytes MFCC Mel-Frequency Cepstral Coefficients MLLR Maximum Likelihood Linear Regression MLLT Maximum Likelihood Linear Transform MOV QuickTime Movie MPEG Moving Picture Experts Group MPEG-2 Moving Picture Experts Group Standard 2 NHK Nippon Hōsō Kyōkai PCM Pulse-Code Modulation RAM Random-Access Memory RAV Reconhecimento Automático de Voz SD Standard Definition TV Televisão UFPA Universidade Federal do Pará VRO Video Recording Object File WAV Waveform Audio File Format WER Word Error Rate
13 xii SUMÁRIO CAPÍTULO 1! INTRODUÇÃO... 14! 1.1 -! TEMA... 14! 1.2 -! DELIMITAÇÃO... 14! 1.3 -! JUSTIFICATIVA... 14! 1.4 -! OBJETIVOS... 15! 1.5 -! METODOLOGIA... 15! 1.6 -! ORGANIZAÇÃO DA DISSERTAÇÃO... 16! CAPÍTULO 2! LEGENDA OCULTA... 17! 2.1 -! ACESSIBILIDADE... 17! 2.2 -! LEGISLAÇÃO... 19! 2.3 -! ESTENOTIPIA... 21! 2.4 -! RECONHECIMENTO AUTOMÁTICO DE VOZ... 22! CAPÍTULO 3! RECONHECIMENTO AUTOMÁTICO DE VOZ (RAV)... 24! 3.1 -! UNIDADE FONÉTICA... 25! 3.2 -! DICIONÁRIO... 26! 3.3 -! PROCESSAMENTO DIGITAL DE SINAIS... 27! 3.4 -! MODELOS ESTATÍSTICOS EMPREGADOS NOS MODELOS ACÚSTICOS... 31! 3.5 -! MODELOS ESTATÍSTICOS EMPREGADOS NOS MODELOS DE LINGUAGEM... 34! 3.6 -! DECODIFICAÇÃO... 36! CAPÍTULO 4! GERAÇÃO DE LEGENDA OCULTA COM RAV NO MUNDO... 39! 4.1 -! JAPÃO... 39! 4.2 -! PORTUGAL... 40! 4.3 -! REINO UNIDO... 40! 4.4 -! CANADÁ... 40! 4.5 -! ESLOVÊNIA... 41! 4.6 -! BRASIL... 42! CAPÍTULO 5! AVALIAÇÃO DE DESEMPENHO... 48! 5.1 -! MATERIAL DE TESTE... 48! 5.2 -! AVALIAÇÃO DA ESTENOTIPIA... 51! ! Acurácia... 53! ! Latência... 57! 5.3 -! AVALIAÇÃO DA RELOCUÇÃO... 58! ! Acurácia... 59! ! Latência... 63! 5.4 -! AVALIAÇÃO DO IBM VIAVOICE... 63! ! Adaptação do Dicionário e do Modelo de Linguagem... 64! ! Adaptação do Modelo Acústico... 65! ! Acurácia... 66! ! Latência... 69! ! Consumo de recursos computacionais... 70! 5.5 -! AVALIAÇÃO DE UM SISTEMA DE RAV BASEADO EM SOFTWARE LIVRE... 70! ! Criação do Dicionário e do Modelo de Linguagem... 71! ! Taxa de palavras fora do dicionário e perplexidade do modelo de linguagem 78! ! Treinamento do Modelo Acústico... 79! ! Adaptação do Modelo Acústico... 83! ! Acurácia... 85!
14 xiii ! Latência... 97! ! Consumo de recursos computacionais... 97! 5.6 -! ANÁLISE DOS RESULTADOS... 97! CAPÍTULO 6! CONCLUSÃO E TRABALHOS FUTUROS ! 6.1 -! CONCLUSÃO ! 6.2 -! TRABALHOS FUTUROS ! REFERÊNCIAS BIBLIOGRÁFICAS !
15 14 Capítulo 1 Introdução Tema O tema deste trabalho é o desenvolvimento de um sistema de decisão automático para conversão de áudio em texto na geração de legenda oculta a partir de software livre e de bases de dados disponíveis publicamente Delimitação Este trabalho pretende examinar os sistemas computacionais por trás do Reconhecimento Automático de Voz (RAV) na geração de legenda oculta, ou seja, sistemas capazes de realizar um processo de decisão automática para conversão de áudio em texto na geração de closed caption, utilizando o português do Brasil. Neste trabalho não se pretende desenvolver os algoritmos de processamento digital de sinais ou os modelos estatísticos envolvidos no Reconhecimento Automático de Voz. Pretende-se, ao contrário, avaliar soluções de RAV disponíveis, os recursos necessários ao treinamento para o Português do Brasil e as possibilidades de otimização da acurácia, levando em consideração as informações disponíveis sobre a experiência internacional no uso desse tipo de solução e as otimizações específicas para a aplicação de RAV na geração de legenda oculta já implementadas Justificativa Na análise de maturidade de tecnologias emergentes ( Hype Cycle ) da consultoria Gartner publicada em 2014 (GARTNER, 2014), considera-se que a tecnologia de reconhecimento de voz já está no patamar de produtividade, ou seja, que já se trata de uma tecnologia relativamente madura com aplicações no mercado. No entanto, não se pode considerar que essa tecnologia esteja tão madura no Português do Brasil quanto está em outras línguas, como o Inglês. Este trabalho é motivado pela falta de opções satisfatórias de sistemas comerciais atuais de Reconhecimento Automático de Voz em Português do Brasil para a aplicação na geração de legenda oculta ao vivo.
16 Objetivos O objetivo deste trabalho é treinar e avaliar uma das opções de software livre disponíveis, tendo em vista a aplicação na geração de legenda oculta para programas de televisão ao vivo com fala espontânea em Português do Brasil, com Reconhecimento Automático de Voz (RAV) e utilizando relocução (repetição das falas por um locutor específico em um ambiente acusticamente controlado). O treinamento para o Português do Brasil utilizará bases de dados disponíveis publicamente. O desempenho desse sistema será comparado ao obtido por Estenotipia e pelo IBM ViaVoice. Pretende-se ainda examinar os algoritmos de processamento de sinais e modelos estatísticos utilizados por sistemas de RAV. Por fim, pretende-se também verificar a experiência das emissoras de televisão ao redor do mundo na utilização de sistemas de Reconhecimento Automático de Voz em seus respectivos idiomas para a aplicação em questão, com foco nas otimizações implementadas que possam ser aproveitadas para o Brasil Metodologia A metodologia a ser empregada no desenvolvimento deste trabalho envolve uma ampla revisão bibliográfica, tanto da fundamentação necessária sobre o atual estado da arte de sistemas de Reconhecimento Automático de Voz (RAV), quanto das ferramentas e recursos disponíveis publicamente, da aplicação do Reconhecimento Automático de Voz na geração de legendas ocultas ao redor do mundo e do contexto brasileiro. Envolve ainda a realização de testes comparativos de desempenho de um sistema de RAV para o Português do Brasil a ser desenvolvido a partir de ferramentas e recursos disponíveis publicamente com o desempenho do IBM ViaVoice e da Estenotipia.
17 Organização da Dissertação O Capítulo 2 descreve o uso de Legenda Oculta na televisão, sua motivação e os sistemas utilizados para geração ao vivo: Estenotipia e Reconhecimento Automático de Voz. No Capítulo 3 é apresentada uma fundamentação teórica sobre o funcionamento de sistemas de Reconhecimento Automático de Voz. No Capítulo 4 são apresentadas algumas experiências relatadas por diversos autores ao redor do mundo sobre a implementação de sistemas de Reconhecimento Automático de Voz na geração de Legenda Oculta. O Capítulo 5 apresenta os resultados de testes comparativos de desempenho de um sistema de RAV desenvolvido a partir de ferramentas e recursos disponíveis publicamente com o desempenho do IBM ViaVoice e da Estenotipia. As conclusões e propostas de trabalhos futuros são apresentadas no Capítulo 6.
18 17 Capítulo 2 Legenda Oculta Acessibilidade De acordo com os resultados do Censo Demográfico 2010 do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2012), cerca de 5,1% da população brasileira (quase 10 milhões de pessoas) possuem deficiência auditiva. Para que essa população tenha acesso ao conteúdo dos programas de televisão, é necessário que tais programas disponham de legendas, contendo não apenas a transcrição textual do que é falado, como também descrições de músicas e efeitos sonoros que sejam necessários para a melhor compreensão do conteúdo sendo exibido. Tais legendas, porém, não devem estar visíveis para todos os telespectadores, apenas para aqueles que assim as desejarem, ativando tal recurso no receptor de TV. Isso é possível, tanto na transmissão de TV analógica (CONSUMER ELECTRONICS ASSOCIATION, 2008), quanto na transmissão de TV digital (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2011), através de um recurso denominado legenda oculta ou closed caption (CC). Outra possibilidade de prover acessibilidade do conteúdo televisivo à população com deficiência auditiva, é o uso de uma janela superposta ao vídeo com um intérprete de Libras (Língua Brasileira de Sinais). Esse meio de acessibilidade atenderia particularmente à população com deficiência auditiva não alfabetizada (notese que, de acordo com os resultados do Censo Demográfico 2010 do IBGE (INSTITUTO BRASILEIRO DE GEOGRAFIA E ESTATÍSTICA, 2012), o analfabetismo é mais prevalente na população com deficiência auditiva do que na população geral). Entretanto, se por um lado nem todos os deficientes auditivos são alfabetizados, por outro nem todos utilizam a Língua Brasileira de Sinais. Dessa forma, a Legenda Oculta e a janela com intérprete de Libras seriam complementares no provimento da acessibilidade do conteúdo televisivo à população com deficiência auditiva. Deve-se notar, entretanto, que a Legenda Oculta é muito mais utilizada que a janela com intérprete de Libras, por diversos motivos:
19 18 de acordo com a Lei nº , de 24 de abril de 2002 (BRASIL, 2002), no que se refere ao ensino público a "Língua Brasileira de Sinais - Libras não poderá substituir a modalidade escrita da língua portuguesa", o que significa que todos os deficiente auditivos, assim como todos as demais pessoas, deveriam ser alfabetizados e dessa forma teriam acesso à Legenda Oculta; a Língua Brasileira de Sinais é muito pouco conhecida na população geral, sendo a modalidade escrita da língua portuguesa essencial para a integração da população com deficiência auditiva, no que a Legenda Oculta poderia ser um estímulo e uma ferramenta adicional do processo de alfabetização; o uso da janela com intérprete de Libras na televisão é obrigatório apenas na propaganda político-partidária e eleitoral, nas campanhas institucionais e informativos de utilidade pública do governo (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006), e nas vinhetas de classificação indicativa (BRASIL. MINISTÉRIO DA JUSTIÇA., 2007); de acordo com a ABNT NBR 15290:2005 (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2005), a janela de Libras deve ocupar metade da altura e um quarto da largura da tela, no que poderia comprometer significativamente a visualização integral do vídeo; embora a Norma Complementar 01, aprovada pela Portaria nº 310 do Ministério das Comunicações (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006), mencione que "o desenvolvimento e implementação da televisão digital no Brasil deverá permitir o acionamento opcional da janela com intérprete de LIBRAS", tal recurso é opcional na norma de receptores (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2008a) e na norma de codificação de dados (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2008b) do Sistema Brasileiro de TV Digital Terrestre e
20 19 a codificação de tal recurso não foi padronizada, de forma que a única alternativa atualmente disponível para utilização da janela de Libras é incluí-la no sinal de vídeo principal, tornando-a visível a todos os telespectadores e não apenas aos que desejariam ativar esse recurso. Embora a maior motivação para utilizar legendas ocultas na programação da televisão seja para garantir a acessibilidade aos telespectadores com deficiência auditiva, tal recurso também é interessante para o público geral em algumas situações específicas, a saber: em ambientes nos quais a necessidade de silêncio não permite que o som da TV seja reproduzido ou pelo menos não com volume suficiente para uma compreensão adequada (e.g. hospitais); em ambientes muito barulhentos em que não seria possível compreender o áudio da televisão, ainda que reproduzido com volume razoável (e.g. bares e restaurantes); em ambientes com sonorização musical (e.g. academia); para permitir que diferentes televisores reproduzam programas diferenciados em um mesmo ambiente para atender a um público heterogêneo; em ambiente residencial para permitir que se assista TV à noite sem incomodar os demais moradores; para aprendizagem da língua por parte de estrangeiros ou pessoas em processo de alfabetização Legislação No Brasil, a Lei nº de 2000 (BRASIL, 2000), criada para estabelecer normas de acessibilidade, já previa que os serviços de radiodifusão de sons e imagens deveriam adotar medidas técnicas com o objetivo de permitir o uso de subtitulação, para garantir o direito de acesso à informação às pessoas portadoras de deficiência auditiva. Contudo, foi somente em 2006, que a Norma Complementar 01, aprovada pela Portaria nº 310 do Ministério das Comunicações (BRASIL. MINISTÉRIO DAS COMUNICAÇÕES., 2006) estabeleceu prazos, obrigando os radiodifusores a uma utilização progressiva de legendas ocultas nas suas programações. De acordo com o cronograma estabelecido, em 2017 a totalidade da programação diária das emissoras e retransmissoras deverá dispor de legendas ocultas, como pode ser verificado na Tabela 1:
21 20 Tabela 1: Prazos e cargas horárias mínimas para disponibilização de closed caption por faixa horária Prazo Faixa Horária Carga Horária 27/06/ :00-14:00 1 h 20:00-02:00 1 h 27/06/ :00-14:00 2 h 18:00-02:00 2 h 27/06/ :00-14:00 3 h 18:00-02:00 3 h 27/06/ :00-14:00 4 h 18:00-02:00 4 h 27/06/ :00-14:00 6 h 18:00-02:00 6 h 27/04/ :00-02:00 16 h 27/04/2015 Dia Inteiro 20 h 27/06/2017 Dia Inteiro Totalidade da Programação As estações transmissoras ou retransmissoras analógicas que não suportarem a transmissão de closed caption devem se adequar de acordo com um prazo estabelecido conforme a população da cidade onde a estação estiver localizada, como pode ser observado na Tabela 2. As estações transmissoras ou retransmissoras digitais devem suportar a transmissão de closed caption desde o princípio da operação. Tabela 2: Prazos de adequação da infraestrutura das estações analógicas para transmissão de closed caption, de acordo com a população da cidade onde a estação estiver localizada Prazo População 27/06/2008 > /06/2010 > /06/2012 > /06/2014 > /06/2016 Qualquer Além disso, a Norma Complementar 01 de 2006 do Ministério das Comunicações estabelece que a produção e veiculação de legendas ocultas deve atender os critérios e requisitos técnicos da ABNT NBR 15290:2005. Dentre esses requisitos, consta que o texto das legendas deve ter 100% de acerto acompanhando o tempo exato da cena para programas com legenda pré-gravada e deve ter no mínimo 98% de acerto com no máximo 4 segundos de atraso para programas com legenda ao vivo (ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS, 2005). Não consta na norma a metodologia a ser utilizada na aferição desses valores.
22 21 Tais exigências afetam todas as emissoras de televisão do Brasil, independente do porte. Mesmo as retransmissoras ou afiliadas das redes de televisão localizadas em cidades de pequeno e médio porte deverão veicular legendas ocultas para sua programação e comercialização, inclusive local, atendendo os requisitos técnicos especificados. O descumprimento das disposições da norma sujeita as emissoras ou retransmissoras às penalidades prescritas no Código Brasileiro de Telecomunicações. Maximizar a taxa de acerto das legendas ocultas é importante não apenas para cumprir a legislação, como também para viabilizar a compreensão das mensagens sendo veiculadas. Por vezes, apenas uma palavra errada é suficiente para modificar profundamente o significado de um texto. O maior desafio está na produção de legendas ocultas ao vivo, sobretudo quando há fala espontânea (sem que haja um texto pré-definido em roteiro). Essa situação ocorre com bastante frequência na programação televisiva: programas de entrevistas, auditório, religiosos, variedades, reality shows etc. Existem atualmente duas formas de produzir as legendas ocultas que se aplicam à transcrição da fala espontânea ao vivo: Estenotipia e Reconhecimento Automático de Voz. Quando a fala ao vivo utiliza a leitura de um teleprompt, o texto do teleprompt pode ser utilizado como legenda oculta. Para a parte da programação que não é produzida ao vivo, a legenda oculta pode ser inserida por digitadores durante o processo de pós-produção Estenotipia No caso da estenotipia, um profissional especializado digita as palavras na velocidade em que as ouve, utilizando símbolos fonéticos em um equipamento com teclado especial (estenótipo), conectado a um computador, que utilizando um dicionário específico converte as sequências de símbolos em palavras. Um curso de formação profissional em estenotipia dura de seis meses a um ano, mas normalmente é necessário pelo menos dois anos de prática para obter a velocidade necessária para legendagem ao vivo (cerca de 180 palavras por minuto). É uma mão-de-obra relativamente cara, escassa e difícil de repor. De acordo com
23 22 matéria publicada na revista Galileu de maio de 2012, existem apenas 400 desses profissionais no Brasil (SANT'ANA, 2012), em geral concentrados nas cidades de maior porte. Erros no processo de estenotipia podem ocorrer tanto por falha humana na digitação, quanto pela ocorrência de palavras fora do dicionário Reconhecimento Automático de Voz O Reconhecimento Automático de Voz é o processo de conversão do sinal acústico da voz em uma transcrição textual correspondente. Um sistema que implemente tal processo inclui a captação do sinal de voz, sua digitalização, processamento digital de sinais e modelos estatísticos. Na aplicação de Reconhecimento Automático de Voz para a geração de closed caption, normalmente é utilizado um relocutor, que ouve a fala espontânea através de um fone de ouvido e a repete em um estúdio (AHMER, 2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011). Com o uso da relocução, o sistema pode ser adaptado à voz do relocutor, reduzindo a complexidade do reconhecimento de voz, por não precisar considerar a variabilidade fonética entre indivíduos. Além disso, como a relocução se dá em um ambiente acusticamente controlado, proporciona uma razão sinal/ruído melhor para o sistema de reconhecimento. Outra vantagem de utilizar a relocução, é que o relocutor pode reformular a fala, corrigindo as disfluências comuns na linguagem oral, tornando-a mais adequada a uma transcrição para a linguagem escrita. Em caso de fala muito rápida (e.g. locução esportiva), o relocutor pode resumir a fala, para que a velocidade de exibição do texto seja suficientemente lenta para permitir a leitura. Para facilitar o processo de reconhecimento, o relocutor pode ainda falar ou digitar os sinais de pontuação que devem ser utilizados e acrescentar pausas entre as palavras. Para realizar a relocução, não é necessário um curso de formação profissional específico, sendo uma mão-de-obra mais barata, fácil e rápida de repor do que um estenotipista. Pela experiência profissional do autor desta dissertação, o custo operacional da relocução é aproximadamente a metade do custo da estenotipia.
24 23 Erros no processo de reconhecimento de voz podem ser atribuídos a problemas com a qualidade da captação e digitalização do sinal de voz, ao ruído ambiente, às limitações dos algoritmos de processamento de sinais e modelos estatísticos empregados, à limitação e/ou baixa qualidade da base de dados empregada no treinamento do sistema, bem como às diferenças entre a base de dados utilizada no treinamento e a fala a ser reconhecida (diferenças acústicas, de vocabulário, de linguagem etc.) (HUANG, ACERO e HON, 2001). Pode-se notar que a criticidade para o emprego da estenotipia está no fator humano, enquanto a criticidade para emprego do reconhecimento de voz está em um sistema computacional. Em princípio, a solução utilizando reconhecimento de voz é mais atrativa para as emissoras, por possuir um custo operacional menor.
25 24 Capítulo 3 Reconhecimento Automático de Voz (RAV) Como já foi descrito no capítulo anterior, o Reconhecimento Automático de Voz é o processo de conversão do sinal acústico da voz em uma transcrição textual correspondente. Um sistema que implemente tal processo inclui a captação do sinal de voz, sua digitalização, processamento digital de sinais e modelos estatísticos. Uma representação esquemática de um sistema de Reconhecimento Automático de Voz, em sua arquitetura mais frequente (AHMER, 2002; INTERNATIONAL TELECOMMUNICATION UNION, 2011), pode ser visualizada na Figura 1: Figura 1: Reconhecimento Automático de Voz O sinal de áudio é obtido pela captação (realizada através de um microfone) e digitalização (que consiste em um processo de amostragem no tempo e quantização da amplitude) da fala. Esse sinal passa por um processamento digital que se destina a extrair parâmetros que possam ser úteis no processo de reconhecimento de padrões fonéticos. O dicionário fonético e os modelos estatísticos utilizados no reconhecimento (modelo acústico e modelo de linguagem) são específicos para cada idioma, podendo
26 25 ser otimizados para determinadas características de voz, vocabulário e linguagem. São gerados a partir de uma base de dados que deve conter: um conjunto de textos (corpus de texto) e um conjunto de gravações de fala em segmentos de curta duração com as transcrições textuais correspondentes (corpus de voz) (HUANG, ACERO e HON, 2001) Unidade Fonética Na implementação de um sistema de Reconhecimento Automático de Voz, deve-se escolher qual será a unidade fonética empregada, ou seja, quais serão as menores partes da fala que serão consideradas no treinamento e, consequentemente, no reconhecimento realizado pelo sistema (HUANG, ACERO e HON, 2001). A utilização de palavras como unidade fonética em um sistema de RAV apresenta grandes dificuldades para a aplicação em fala contínua com vocabulário extenso, embora possa ser empregada em aplicações de RAV para comando de voz, em que a fala não seja contínua e o vocabulário do sistema seja limitado. Na fala contínua, muitas vezes não há pausas entre as palavras, o que torna difícil a detecção dos limites de cada palavra no tempo dentro de um sinal de voz. Como o reconhecimento de voz é um tipo de reconhecimento de padrões, a utilização de um vocabulário extenso (dezenas ou até centenas de milhares de palavras) torna difícil a obtenção de exemplos de áudio com transcrição suficientes para treinar de forma confiável os modelos estatísticos de cada palavra. Além disso, com o aumento da quantidade de padrões a serem reconhecidos, aumenta a probabilidade de confusão entre eles (CINCAREK, 2008). A utilização de sílabas como unidade fonética, embora reduza a quantidade de padrões a serem reconhecidos, pode representar uma quantidade de padrões ainda relativamente alta dependendo do idioma considerado, além de também apresentar problemas para a detecção de início e fim das sílabas (AHMER, 2002). A menor unidade sonora distintiva da fala é denominada fonema. Pode-se considerar essa unidade análoga ao grafema (menor unidade distintiva da linguagem escrita, que nas línguas com escrita alfabética é um caractere). Note-se, entretanto, que não há uma relação biunívoca entre grafema e fonema (um grafema pode corresponder
27 26 a mais de um fonema e vice-versa). Um aspecto interessante da analogia entre fonema e grafema é que ambos são conceitos abstratos, com uma variedade praticamente infinita de realizações concretas. No caso do grafema, essa variedade se deve às diferenças de formatação ou caligrafia; no caso do fonema, deve-se às diferenças fisiológicas (e.g. voz mais grave ou mais aguda), psicológicas (e.g. estado emocional) e culturais (e.g. sotaque) dos falantes, além dos efeitos coarticulatórios (o som de um fonema é afetado pelo contexto de vizinhança fonética). A realização concreta de um fonema é denominada fone (HUANG, ACERO e HON, 2001). A quantidade de fonemas existentes em qualquer idioma é bem inferior à quantidade de palavras ou sílabas existentes, sendo por isso o fonema uma unidade mais adequada ao treinamento e ao reconhecimento. A duração dos fonemas também apresenta variabilidade menor que a duração das palavras ou sílabas, o que facilita a detecção de início e fim (AHMER, 2002). As variações fonéticas devidas aos falantes podem ser mitigadas através do uso de relocução (INTERNATIONAL TELECOMMUNICATION UNION, 2011). As variações devidas aos efeitos coarticulatórios podem ser levadas em consideração diferenciando os fonemas pelo contexto de vizinhança fonética, utilizando trifones (um trifone representa um único fonema, dados o fonema anterior e o fonema posterior). Contudo, a utilização de trifones aumenta a quantidade de padrões a serem reconhecidos, o que demanda uma base de dados maior para o treinamento do sistema. Por vezes, uma solução de compromisso é o agrupamento de informações em modelos de trifones semelhantes (CINCAREK, 2008) Dicionário Como palavras fora do dicionário não serão reconhecidas pelo sistema, é comum a necessidade de atualização frequente do dicionário, incorporando novas palavras, sobretudo nomes próprios (AHMER, 2002; HUANG, ACERO e HON, 2001). Contudo, deve-se destacar que quanto maior o vocabulário considerado pelo sistema, maior a probabilidade de confusão entre palavras. Portanto, para maximizar a acurácia do sistema, também pode ser interessante retirar do vocabulário palavras que não sejam mais utilizadas. Uma estratégia comum é extrair o vocabulário a partir da
28 27 análise das palavras mais comuns do conjunto de textos da base de dados do treinamento (BROUSSEAU, BEAUMONT, et al., 2003; MARTINS, TEIXEIRA e NETO, 2010). Dessa forma, também podem ser construídos dicionários especializados, segmentando o conjunto de textos por assunto (MEINEDO, CASEIRO, et al., 2003; MIYASAKA, 2004). A transcrição fonética das palavras do dicionário pode ser realizada de forma automática, utilizando um conjunto de regras de conversão grafema-fonema (SILVA, 2010). Eventualmente, uma mesma palavra no dicionário pode conter mais de uma transcrição fonética, o que é particularmente útil se o sistema precisar suportar variações regionais de pronúncia (HUANG, ACERO e HON, 2001) Processamento Digital de Sinais Como já mencionado, o processamento digital de sinais empregado no Reconhecimento Automático de Voz se destina a extrair do sinal de áudio correspondente à voz captada e digitalizada parâmetros que possam ser úteis no processo de reconhecimento de padrões fonéticos. Considerando a técnica de extração de parâmetros mais utilizada (MFCC Mel-Frequency Cepstral Coefficients Coeficientes Cepstrais em Frequência Mel) (SILVA, 2010; YOUNG, EVERMANN, et al., 2009), tal processo será descrito a seguir e está ilustrado na Figura 2:
29 28 Figura 2: Processamento Digital de Sinais empregado no RAV Tipicamente, o processamento de sinais utilizado nesta aplicação é iniciado por uma filtragem com a finalidade de maximizar a razão sinal/ruído. Nesse sentido, os componentes com frequência acima do espectro da voz são filtrados e o sinal é reamostrado a 16 khz (HUANG, ACERO e HON, 2001), o que também ajuda a reduzir a quantidade de dados a serem processados. É utilizado ainda um filtro de préênfase para compensar o decaimento de energia nos componentes de frequência mais alta da fala, que são essenciais para a distinção fonética. Esse filtro também ajuda a reduzir o ruído de baixa frequência. A seguir, o sinal é segmentado no tempo, tipicamente com um segmento a cada 10 ms, tendo cada segmento a duração entre 20 e 30 ms, curto o bastante para que as características do sinal de voz possam ser consideradas uniformes dentro do segmento. Em cada um desses segmentos é aplicada uma função de janelamento,
30 29 normalmente a de Hamming, para reduzir o vazamento espectral produzido na análise desses segmentos (SEGBROECK, 2010). Das janelas resultantes, são extraídos os coeficientes MFCC, conforme os passos descritos a seguir. As janelas são processadas por uma DFT (Discrete Fourier Transform Transformada Discreta de Fourier), uma vez que as diferenças fonéticas são mais facilmente observadas no domínio da frequência do que no domínio do tempo. Para otimização de desempenho computacional, a DFT é normalmente calculada através de uma FFT (Fast Fourier Transform Transformada Rápida de Fourier). Como a fase da Transformada de Fourier não contribui para a diferenciação fonética, calcula-se o espectro de potência através do quadrado do módulo da transformada (MESEGUER, 2009). O espectro de potência calculado dessa forma possui escala de frequência linear. Entretanto, é possível verificar que a utilização de uma escala de frequência subjetivamente linear ( Mel ) é benéfica para o reconhecimento de voz. O mapeamento do espectro de potência para a escala de frequência Mel é realizado através de um banco de filtros. São utilizados normalmente de 24 a 40 filtros triangulares uniformemente espaçados na escala Mel. Dessa forma, o banco de filtros também reduz a dimensionalidade dos dados. Como a percepção humana de intensidade sonora é logarítmica, é calculado o logaritmo da energia resultante na saída de cada filtro (CINCAREK, 2008). Para reduzir ainda mais a dimensionalidade, descorrelacionando o vetor resultante da etapa anterior, é calculada a DCT-II (Type-II Discrete Cosine Transform Transformada Discreta do Cosseno, Tipo 2), da qual permanecemos apenas com os 12 primeiros componentes (que concentram a maior parte da informação). A quantidade de bandas do banco de filtros e a quantidade de componentes utilizados da DCT foi determinada empiricamente para otimizar a relação performance / custo computacional (MESEGUER, 2009). A transformada do logaritmo do espectro de potência é denominada de cepstro (termo derivado da palavra espectro ). O termo MFCC se justifica porque no processo anteriormente descrito, calculamos os coeficientes cepstrais utilizando a transformada do logaritmo do espectro de potência na escala de frequência Mel. O
31 30 cepstro é uma representação do sinal no domínio da quefrência (termo derivado da palavra frequência ), que tem a dimensão de tempo (HUANG, ACERO e HON, 2001). Uma forma de justificar a utilização de uma transformação cepstral do sinal para a extração de parâmetros úteis na diferenciação fonética é considerando um modelo linear de produção fonética com fonte (sinal produzido pela passagem do ar através das pregas vocais) e canal (filtro acústico da cavidade oronasal, controlado pela abertura da boca e pela posição da língua, do palato mole e dos lábios). No domínio do tempo, pode-se caracterizar o canal através da sua resposta ao impulso e o sinal de fala resultante através da convolução da fonte com a resposta ao impulso do canal. No domínio da frequência a convolução é substituída pelo produto dos espectros. No domínio da quefrência a convolução é substituída pela soma dos cepstros (HUANG, ACERO e HON, 2001). Uma transformação que converta uma convolução em uma soma é denominada homomórfica. Embora a transformação empregada no cálculo dos coeficientes MFCC não seja rigorosamente homomórfica por causa da utilização do banco de filtros, ela pode ser considerada aproximadamente homomórfica para filtros com espectro suave, como é o caso do filtro acústico oronasal. Dessa forma, a MFCC favorece a separação entre fonte e canal. Isso favorece o reconhecimento porque a maior parte da diferenciação fonética se deve às características do canal. Da fonte, interessa saber apenas se as cordas vocais estão tensionadas e, portanto vibrando (como é o caso nas vogais e nas consoantes sonoras, nas quais o sinal da fonte é periódico) ou relaxadas e, portanto, não vibrando (como é o caso nas consoantes surdas, nas quais o sinal da fonte não é periódico) (HUANG, ACERO e HON, 2001). Nas línguas tonais, como o chinês, que utilizam a variação de afinação (que está relacionada à frequência de vibração das pregas vocais) como elemento de diferenciação fonética, é necessário extrair a informação da afinação, além dos coeficientes MFCC. Nas línguas não-tonais, como o português, a variação de afinação é frequentemente utilizada como elemento de diferenciação prosódica, para distinguir afirmativas de interrogativas, para indicar ironia etc. Entretanto, os sistemas de
32 31 Reconhecimento Automático de Voz normalmente não se propõe a analisar a prosódia, portanto essa informação não é extraída do áudio (HUANG, ACERO e HON, 2001). Além dos 12 coeficientes MFCC é normalmente adicionado ao vetor de parâmetros um componente que representa a energia média do sinal, aspecto também considerado importante na diferenciação fonética. A esses 13 componentes, são ainda adicionados a primeira e a segunda derivada, denominados de coeficientes dinâmicos, delta ou vetores de velocidade e aceleração, que ajudam a caracterizar os efeitos coarticulatórios, formando um vetor de parâmetros ou de características com 39 coeficientes (SEGBROECK, 2010). O vetor de parâmetros ou de características é utilizado no modelo acústico para reconhecimento dos padrões fonéticos. É possível otimizar esses parâmetros utilizando uma transformação linear que melhore a separabilidade entre os padrões a serem reconhecidos, o que produz um impacto positivo sobre a acurácia do sistema. Além disso, tal transformação descorrelaciona as dimensões do vetor de parâmetros e é possível reduzir a dimensão desse vetor (por exemplo, de 39 para 32) sem reduzir significativamente a acurácia, o que reduz o custo computacional do reconhecimento. Duas transformações conhecidas que podem ser utilizadas em conjunto para aumentar a acurácia e reduzir o custo do reconhecimento são LDA (Linear Discriminant Analysis) e MLLT (Maximum Likelihood Linear Transform) (HUANG, ACERO e HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012) Modelos Estatísticos Empregados nos Modelos Acústicos As transcrições textuais das gravações de fala contidas na base de dados utilizada no treinamento do sistema de Reconhecimento Automático de Voz são convertidas para uma sequência de fonemas de acordo com o dicionário, para que sejam identificados nos parâmetros extraídos do sinal de áudio, pela etapa de processamento digital de sinais, padrões correspondentes aos fonemas empregados. A modelagem estatística desses padrões fonéticos é denominada Modelo Acústico. Diferentemente do dicionário, as gravações de fala utilizadas no treinamento não precisam conter todas as palavras do vocabulário do sistema, mas devem conter exemplos suficientes de todos os fonemas, preferencialmente em todos os contextos de
33 32 vizinhança fonética possíveis (uma vez que cada fonema pode ter suas características alteradas de acordo com o antecessor e o sucessor) (HUANG, ACERO e HON, 2001). Os modelos acústicos treinados com a voz de diferentes locutores são ditos independentes de locutor. Contudo, a acurácia é máxima quando o sistema pode ser treinado com a voz a ser reconhecida, produzindo modelos acústicos dependentes de locutor. Mas como, na prática, é difícil obter gravações suficientes para treinar adequadamente o modelo acústico, uma solução de compromisso comum é o que se denomina adaptação de locutor, em que há um treinamento independente de locutor, que é posteriormente adaptado para a voz de um locutor específico utilizando uma base de treinamento relativamente pequena. Se a base de treinamento independente de locutor for suficientemente grande e diversificada, também é possível segmentá-la, gerando modelos acústicos independentes de locutor, mas agrupados por sexo, idade, sotaque etc. A adaptação de locutor também pode ser feita a partir dos modelos acústicos desses agrupamentos (AHMER, 2002; SILVA, 2010). Dada uma sequência de vetores de parâmetros X extraída de um sinal de voz através do Processamento Digital de Sinais anteriormente descrito, a tarefa do Reconhecimento Automático de Voz é determinar a sequência correspondente de palavras W mais provável. Em termos probabilísticos, deseja-se descobrir a sequência de palavras W que maximiza a probabilidade condicional P(W X). Como essa probabilidade não é conhecida a priori, podemos utilizar o teorema de Bayes para inverter essa probabilidade condicional (CINCAREK, 2008; SILVA, 2010):!!! =!(!!)!(!)!(!) (1) Como a maximização de P(W X) é calculada com X fixo, isso equivale a maximizar:!(!!)!(!) (2) Isso permite a separação do problema do Reconhecimento Automático de Voz em dois problemas distintos, um modelo acústico, P(X W), que será tratado agora, e um modelo de linguagem, P(W), que será abordado adiante. O modelo acústico utiliza, tipicamente, HMM (Hidden Markov Model Modelo Oculto de Markov). Nesse modelo, assume-se que o processo segue uma sequência de estados que não são diretamente observáveis. A observação indireta, no
34 33 caso, corresponde a um vetor de características extraído do sinal de voz. Os estados poderiam ser associados aos fonemas (ou trifones), mas para maior acurácia do sistema, divide-se cada fonema (ou trifone) em três estados, denominados senones, sendo o primeiro correspondente ao início do fonema, cuja observação é influenciada pelo efeito coarticulatório da transição a partir do fonema anterior, o segundo estado corresponde à parte intermediária e mais estável do fonema e o terceiro estado corresponde à parte final do fonema, cuja observação é influenciada pelo efeito coarticulatório da transição para o próximo fonema (HUANG, ACERO e HON, 2001). Um modelo HMM é caracterizado pelas probabilidades iniciais dos estados (representadas por um vetor), pelas probabilidades de transição entre os estados (representadas por uma matriz) e pelas probabilidades de observação. As probabilidades de observação são modeladas, normalmente, por uma mistura de gaussianas, pela flexibilidade que tal mistura oferece de aproximar qualquer distribuição de probabilidade. Uma mistura de gaussianas é representada pelo vetor das médias e matriz de covariância de cada componente e por um vetor com os pesos de cada componente (SEGBROECK, 2010). Para reduzir a dimensionalidade do modelo pode-se associar as probabilidades dos estados (senones) semelhantes, tais como os estados intermediários dos trifones que representam o mesmo fonema e os estados inicial e final dos trifones que representam o mesmo fonema e que podem ser agrupadas por categorias fonéticas dos fonemas anteriores e posteriores, respectivamente (YOUNG, EVERMANN, et al., 2009). Em alguns idiomas, como o japonês, em que a duração é um fator de diferenciação fonética, é necessário modelar a probabilidade de transição de estados como uma função do tempo. Nos demais idiomas, como o português, embora a duração possa servir para diferenciação prosódica, indicando ênfase ou mesmo o estado emocional do falante, como os sistemas de Reconhecimento Automático de Voz normalmente não se propõem a analisar a prosódia, essa modelagem não é utilizada (HUANG, ACERO e HON, 2001). O treinamento de um modelo acústico é o processo de estimação das probabilidades que caracterizam o modelo HMM. O algoritmo mais utilizado para essa
35 34 estimação é o de Baum-Welch. A transcrição textual dos áudios empregados no treinamento é utilizada para gerar, baseada no dicionário, a transcrição fonética das palavras e, a partir daí, a sequência de estados correspondentes aos trifones, inserindo estados opcionais de silêncio entre as palavras. O algoritmo por si busca o melhor alinhamento temporal dos estados em relação à sequência de vetores de características extraída do sinal de áudio e estima as probabilidades do modelo HMM (AHMER, 2002). Na adaptação de um modelo acústico para a voz de um locutor específico (adaptação de locutor), duas técnicas são empregadas com frequência: MLLR (Maximum Likelihood Linear Regression) e MAP (Maximum a Posteriori). A técnica MLLR calcula matrizes de transformação dos vetores de médias das gaussianas do modelo acústico independente de locutor de forma a maximizar a probabilidade de observação dos vetores de parâmetros extraídos do corpus de adaptação. A técnica MAP ajusta todos os parâmetros do modelo acústico, interpolando o modelo original com um novo modelo treinado a partir do corpus de adaptação. O hiperparâmetro τ (tau) é usado para controlar o peso do modelo disponível a priori. A técnica MLLR possui custo computacional mais baixo e resulta em maior acurácia caso o corpus de adaptação seja muito pequeno. A técnica MAP possui custo computacional mais alto e resulta em maior acurácia caso o corpus de adaptação seja um pouco maior. A combinação das técnicas MLLR e MAP resulta na melhor acurácia para qualquer tamanho de corpus de adaptação (HUANG, ACERO e HON, 2001; CARNEGIE MELLON UNIVERSITY, 2012) Modelos Estatísticos Empregados nos Modelos de Linguagem O conjunto de textos da base de dados de treinamento do sistema de RAV é utilizado na modelagem da probabilidade de palavras e sequências de palavras, no que se denomina Modelo de Linguagem (SILVA, 2010; SEGBROECK, 2010). Para maximizar a acurácia, os textos devem possuir similaridade de vocabulário e estilo de linguagem com a fala a ser reconhecida (HUANG, ACERO e HON, 2001). Para um sistema com uso previsto em situações com assuntos (e, portanto, vocabulários e estilos de linguagem) muito distintos, é comum segmentar a base de dados de textos
USO DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM PORTUGUÊS DO BRASIL NA GERAÇÃO DE CLOSED CAPTION
USO DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM PORTUGUÊS DO BRASIL NA GERAÇÃO DE CLOSED CAPTION Luiz Fausto (Rede Globo) Edilberto Strauss (UFRJ) Flávio Mello (UFRJ) Agenda Closed Caption e Acessibilidade
Leia maisProcessamento de Som com Escala de Mel para Reconhecimento de Voz
PONTIFÍCIA UNIVERSIDADE CATÓLICA DO RIO DE JANEIRO DEPARTAMENTO DE INFORMÁTICA Processamento de Som com Escala de Mel para Reconhecimento de Voz INF2608 FUNDAMENTOS DE COMPUTAÇÃO GRÁFICA Professor: Marcelo
Leia maisMétodos Matemáticos e Computacionais em Música
Métodos Matemáticos e Computacionais em Música Luiz Velho, Paulo Cesar Carvalho, Sergio Krakowski, Marcelo Cicconet IMPA Processamento de Sinais Sonoros Luiz Velho Som - Sinal 1 D Música e Som Musica
Leia mais3 Os Atributos MFCC e PNCC do Sinal de Voz
3 Os Atributos MFCC e PNCC do Sinal de Voz No sinal de voz incorporam-se informações importantes do falante, que são altamente perceptíveis, tais como, dialeto, contexto, estilo de falar, estado emocional,
Leia maisParâmetros importantes de um Analisador de Espectros: Faixa de frequência. Exatidão (frequência e amplitude) Sensibilidade. Resolução.
Parâmetros importantes de um Analisador de Espectros: Faixa de frequência Exatidão (frequência e amplitude) Sensibilidade Resolução Distorção Faixa dinâmica Faixa de frequência: Determina as frequências
Leia maisPORTARIA Nº 310, DE 27 DE JUNHO DE 2006.
PORTARIA Nº 310, DE 27 DE JUNHO DE 2006. O MINISTRO DE ESTADO DAS COMUNICAÇÕES, no uso das atribuições que lhe confere o art. 87, parágrafo único, inciso II da Constituição, e CONSIDERANDO os comentários
Leia maisDESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA
DESENVOLVIMENTO DO MÓDULO DE PRÉ-ENFASE PARA SISTEMAS DE RECONHECIMENTO AUTOMÁTICO DE VOZ EM FPGA Autor 1 Autor 2 Autor 3 Abstract. O reconhecimento automático de voz tem sido o foco de muitos trabalhos
Leia maisO áudio. O áudio. O áudio Wilson de Pádua Paula Filho 1. Propriedades físicas do som Representação digital do som Processamento digital de som
O áudio O áudio Representação digital do som Processamento digital de som As vibrações sonoras: propagam-se como ondas de pressão atmosférica; convertidas em sinais elétricos por transdutores; transdutores
Leia maisRECONHECIMENTO DE FALANTE
MARCOS PAULO RIKI YANASE RECONHECIMENTO DE FALANTE Trabalho da disciplina de Processamento Digital de Sinais do curso de Engenharia Elétrica, Setor de Tecnologia da Universidade Federal do Paraná. Prof.
Leia mais3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes
3 Identificação de Locutor Usando Técnicas de Múltiplos Classificadores em Sub-bandas Com Pesos Não-Uniformes Neste capítulo, é apresentada uma nova proposta de combinação de múltiplos classificadores
Leia maisdetecção de voz cantada em sinais de áudio polifônicos
detecção de voz cantada em sinais de áudio polifônicos Aplicações, Abordagens e Desafios Shayenne Moura 23. April 2018 Instituto de Matemática e Estatística Universidade de São Paulo o problema Detecção
Leia mais3 Reconhecimento de Voz Distribuído
3 Reconhecimento de Voz Distribuído O conceito de reconhecimento de voz distribuído (DSR Distributed Speech Recognition) foi desenvolvido como uma forma eficiente de transladar a tecnologia de reconhecimento
Leia maisProf. Fabiano Taguchi
Prof. Fabiano Taguchi fabianotaguchi@gmail.com http://fabianotaguchi.wordpress.com (66) 9953-7642 1 Efeito audível produzido por movimentos de corpos vibratórios propagando na forma de ondas. AUDIÇÃO é
Leia maisTecnologias Computacionais Aplicadas À Análise De Sinais De Voz
Tecnologias Computacionais Aplicadas À Análise De Sinais De Voz Charles Alexandre Blumm, José Luis Gómez Cipriano Instituto de Ciências Exatas e Tecnológicas (ICET) Centro Universitário Feevale Campus
Leia maisApresentação... 1 Introdução... 1
Apresentação O objetivo principal deste texto é servir como material básico para uma disciplina introdutória sobre sistemas de comunicações em um curso de Engenharia Elétrica. Ele tem abrangência limitada,
Leia maisTeoria das Comunicações
1 - Introdução Enlace de um Sistema de Comunicação fonte mensagem transdutor Transmissor Modulador canal ruído receptor transdutor destino mensagem (estimada) sinal de entrada sinal com distorção sinal
Leia maisComunicações Digitais
1 - Introdução Enlace de um Sistema de Comunicação fonte mensagem transdutor Transmissor Modulador canal ruído receptor transdutor destino mensagem (estimada) sinal de entrada sinal com distorção sinal
Leia maisREDES DE COMPUTADORES E TELECOMUNICAÇÕES MÓDULO 4
REDES DE COMPUTADORES E TELECOMUNICAÇÕES MÓDULO 4 Índice 1. Transmissão de Sinais Digitais...3 1.1 Modulação... 3 1.2 Banda passante... 4 1.3 Taxa de transmissão (BIT RATE)... 5 2 1. TRANSMISSÃO DE SINAIS
Leia maisPlano. Aspectos Relevantes de HMMs. Teoria de HMMs. Introdução aos Modelos Escondidos de Markov
Plano Esta apresentação é para pessoas sem conhecimento prévio de HMMs Introdução aos Modelos Escondidos de Markov 2004 Objetivos: Ensinar alguma coisa, não tudo (Visão geral, sem muitos detalhes). Tentar
Leia mais2 Trabalhos relacionados
2 Trabalhos relacionados Há diversas abordagens na literatura para os problemas analisados nesta dissertação. Podemos dividir os trabalhos pesquisados inicialmente entre os que trabalham no domínio comprimido
Leia maisUMA RESPONSABILIDADE SOCIAL DE INSERÇÃO DO INDIVIDUO COM DEFICIÊNCIA.
TEMA: O atendimento às regras de acessibilidade na televisão - A necessidade de adaptação dos programas das televisões brasileiras com os recursos de acessibilidade vai mais além do simples cumprimento
Leia maisSistemas Multimídia. O Áudio (Parte III)
Sistemas Multimídia O Áudio (Parte III) Sistemas Multimídia Tópico: Manipulação de Sinais de Voz Compressão Formatos Manipulação de Sinais de Áudio Descrição simplificada de uma placa de som Fonte: http://paginas.terra.com.br/lazer/py4zbz/teoria/digitaliz.htm
Leia maisConceitos Básicos de Áudio Digital
Aula 07 Conceitos Básicos de Áudio Digital Diogo Pinheiro Fernandes Pedrosa Universidade Federal do Rio Grande do Norte Departamento de Ciências Exatas e Naturais Ciência da Computação Som Conceitos Iniciais
Leia maisUniversidade de Pernambuco Escola Politécnica de Pernambuco
Universidade de Pernambuco Escola Politécnica de Pernambuco TV Analógica e Digital Codificação de Fonte Prof. Márcio Lima E-mail:marcio.lima@poli.br 12.06.2014 Introdução A principal função de um sistema
Leia maisSRTV/Sul Quadra 701, Bloco H, Sala 502 Edifício Record CEP: Tel./Fax: (0xx-61) Brasília DF
PORTARIA Nº 378, DE 22 DE JANEIRO DE 2016 O MINISTRO DE ESTADO DAS COMUNICAÇÕES, no uso das atribuições que lhe confere o art. 87, parágrafo único, inciso II, da Constituição, tendo em vista o disposto
Leia maisTransformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais
Transformada de Fourier: fundamentos matemáticos, implementação e aplicações musicais MAC 0337 Computação Musical Jorge H. Neyra-Araoz IME USP 22/11/2007 Resumo Série de Fourier para funções periódicas
Leia maisLuiz Fausto de Souza Brito, Flávio Luis de Mello
1 Avaliação do Desempenho de um Sistema de Reconhecimento Automático de Voz em Português do Brasil Baseado em Software Livre para Geração de Closed Caption Luiz Fausto de Souza Brito, Flávio Luis de Mello
Leia maisA codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade.
A codificação primária é a representação digital de um canal de voz, sem a inclusão de bits de sincronismo e de verificação de paridade. 50 8.1. Formas de representação digital do sinal de voz Há várias
Leia maisModems Baud rate e Bit rate
Na aula passada......conceituação básica de fibras ópticas SSC-0144 Redes de Alto Desempenho 2010 Vantagens & desvantagens tipos atenuação medidas de desempenho usos de fibras processo de fusão Provinha
Leia maisAnalisador de espectros por FFT
Analisador de espectros por FFT A transformada de Fourier (FT) é uma ferramenta matemática utilizada essencialmente para decompor ou separar uma função ou forma de onda em senóides de diferentes frequências
Leia maisAnalisador de Espectros
Analisador de Espectros O analisador de espectros é um instrumento utilizado para a análise de sinais alternados no domínio da freqüência. Possui certa semelhança com um osciloscópio, uma vez que o resultado
Leia maisAula de Processamento de Sinais I.B De Paula. Tipos de sinal:
Tipos de sinal: Tipos de sinal: Determinístico:Sinais determinísticos são aqueles que podem ser perfeitamente reproduzidos caso sejam aplicadas as mesmas condições utilizadas sua geração. Periódico Transiente
Leia maisREDES II. e Heterogêneas. Prof. Marcos Argachoy
Convergentes e Heterogêneas Prof. Marcos Argachoy REDES CONVERGENTES Cont./ Convergência Refere-se a redução para uma única conexão de rede, fornecendo todos os serviços, com conseqüente economia de escala.
Leia maisModulação SSB e Transmissão Digital
Modulação SSB e Transmissão Digital 1 Modulação em SSB Vimos que na modulação AM, a portadora é mantida e o sinal modulante produz dois sinais laterais com a informação que estamos transmitindo. Fig. 1
Leia maisPrincípios de Telecomunicações AULA 1. Elementos de um sistema de comunicações. Prof. Eng. Alexandre Dezem Bertozzi, Esp.
Princípios de Telecomunicações AULA 1 Elementos de um sistema de comunicações Prof. Eng. Alexandre Dezem Bertozzi, Esp. COMUNICAÇÃO TRANSMISSÃO DE INFORMAÇÃO DE UM PONTO A OUTRO, ATRAVÉS DE UMA SUCESSÃO
Leia mais4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído
4 Resultados de Simulação e Avaliação das Técnicas Utilizadas para o Reconhecimento de Locutor Independente do Texto em Presença de Ruído Neste capítulo serão apresentadas, avaliadas e comparadas as técnicas
Leia maisDETERMINAÇÃO DO GÊNERO DO LOCUTOR USANDO A TRANSFORMADA RÁPIDA DE FOURIER
Revista Ciências Exatas ISSN: 1516-893 Vol. 1 Nº. Ano 015 Natanael M. Gomes Universidade de Taubaté Marcio Abud Marcelino Universidade Estadual Paulista Universidade de Taubaté Francisco José Grandinetti
Leia maisCepstrum. Walter Roberto Godefroid Steiger
Walter Roberto Godefroid Steiger Cepstrum Trabalho apresentado como parte da avaliação da disciplina Processamento Digital de Sinais, do Departamento de Engenharia elétrica da Universidade Federal do Paraná.
Leia mais3 Extração de Atributos
3 Extração de Atributos o capítulo 2, a sequência de vetores O = {O 1, O 2,, O T } representa as informações (também chamadas de atributos) extraídas do sinal de voz. ada foi dito sobre como encontrá-las.
Leia maisTransformada Discreta de Fourier
Processamento Digital de Sinais Transformada Discreta de Fourier Prof. Dr. Carlos Alberto Ynoguti Jean Baptiste Joseph Fourier Nascimento: 21 de março de 1768 em Auxerre, Bourgogne, França Morte: 16 de
Leia maisFormatos de Áudio e Vídeo Digital Introdução ao Áudio Digital
Redes Multimídia 2016.2 Formatos de Áudio e Vídeo Digital Curso Superior de Tecnologia em Sistemas para Internet Turma: TEC.SIS.4T Redes Multimídia Conteúdo Programático :: 1 a Unidade 1. Aplicações multimídia
Leia maisADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR
ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR DANIELA BARUDE FERNANDES MARÇO/2011 INSTITUTO NACIONAL DE TELECOMUNICAÇÕES INATEL MESTRADO EM TELECOMUNICAÇÕES ADAPTAÇÃO AO LOCUTOR USANDO A TÉCNICA MLLR DANIELA
Leia maisIntrodução aos Sistemas de Comunicações
aos Sistemas de Comunicações Edmar José do Nascimento () http://www.univasf.edu.br/ edmar.nascimento Universidade Federal do Vale do São Francisco Colegiado de Engenharia Elétrica Roteiro 1 Sistemas de
Leia maisDesenvolvimento de algoritmo de análise automática da curva de frequência por meio de convoluções gaussianas do histograma de alturas 15
http://dx.doi.org/10.4322/978-85-99829-84-4-15 Desenvolvimento de algoritmo de análise automática da curva de frequência por meio de convoluções gaussianas do histograma de alturas 15 André Ricardo de
Leia maisTECNOLOGIA APLICADA A MÚSICA I. Prof Evandro Manara Miletto IFRS - Campus Porto Alegre
TECNOLOGIA APLICADA A MÚSICA I Prof Evandro Manara Miletto IFRS - Campus Porto Alegre Conceitos básicos sobre o som Som? O que é o som? Como percebemos o som? Que características possui o som? Elementos
Leia maisComputação Gráfica. Prof. MSc André Y. Kusumoto
Computação Gráfica Prof. MSc André Y. Kusumoto andrekusumoto.unip@gmail.com Compressão de Imagem Definição Formas de diminuir a área de armazenamento dos dados, reduzindo a quantidade de bits para representar
Leia maisCurso Profissional Técnico de Gestão e Programação de Sistemas Informáticos Disciplina- Redes de Comunicação 2013/2014 Módulo1-Comunicação de Dados
Curso Profissional Técnico de Gestão e Programação de Sistemas Informáticos Disciplina- Redes de Comunicação 2013/2014 Módulo1-Comunicação de Dados O decibel: Definição; Historia do uso do bel e do decibel;
Leia maisProcessamento Digital de Sinais:
Processamento Digital de Sinais: Conceitos e Aplicações Joseana Macêdo Fechine Régis de Araújo IC-DSC-UFCG 1 Por que estudar PDS? 2 PDS Conceitos Básicos Sinais Padrões de variações que representam uma
Leia maisMECDAISY PARA LEITURA DE LIVROS DIGITAIS BENTO GONÇALVES
MECDAISY PARA LEITURA DE LIVROS DIGITAIS BENTO GONÇALVES Setembro de 2015 Sumário Apresentação do Mecdaisy... 4 O que é?... 4 Objetivos... 4 Links Úteis... 5 Navegação pelos Livros... 6 Instruções Iniciais...
Leia maisTransformada Discreta de Fourier
Processamento Digital de Sinais Transformada Discreta de Fourier Prof. Dr. Carlos Alberto Ynoguti Jean Baptiste Joseph Fourier Nascimento: 21 de março de 1768 em Auxerre, Bourgogne, França Morte: 16 de
Leia maisTE060 Princípios de Comunicação. Sistemas de Comunicação Digital Notes. Por quê Digital? Notes. Notes. Evelio M. G. Fernández. 5 de novembro de 2013
TE060 Princípios de Comunicação Modulação de Pulso 5 de novembro de 2013 Sistemas de Comunicação Digital Sistema digital no sentido de utilizar uma sequência de símbolos pertencentes a um conjunto finito
Leia maisMinicurso: Inteligência Artificial Aplicada a Sistemas Elétricos
Minicurso: Inteligência Artificial Aplicada a Sistemas Elétricos Introdução a Machine Learning: Teoria, Aplicações e IA na Arquitetura Intel Vitor Hugo Ferreira, DSc - UFF Flávio Mello, DSc UFRJ e Ai2Biz
Leia maisOsciloscópio Digital. Diagrama em blocos:
Osciloscópio Digital Neste tipo de osciloscópio, o sinal analógico de entrada é inicialmente convertido para o domínio digital através de um conversor A/D rápido, sendo em seguida armazenado em uma memória
Leia maisFigura 1 Sinais e Transformadas de Fourier (HAYKIN; VAN VEEN, 2001).
Processamento Digital de Sinais Aula 3 Professor Marcio Eisencraft março 22 Aula 3 TFD: Transformada de Fourier Discreta Bibliografia OPPEHEIM, A. V.; SCHAFER, R W.; BUCK, J. R. Discrete-time signal processing,
Leia maisMÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ
MÁSCARAS DE ÁUDIO PARA EMULAÇÃO DE VOZ Acadêmico: Marcos Rodrigo da Silva Orientador: Paulo César Rodacki Gomes Sumário 2 Introdução Objetivo Fundamentação teórica Conceitos básicos Contexto atual do tema
Leia maisIntrodução a filtros digitais. Theo Pavan e Adilton Carneiro TAPS
Introdução a filtros digitais Theo Pavan e Adilton Carneiro TAPS Filtro anti-aliasing Com um sinal já digitalizado não é possível distinguir entre uma frequência alias e uma frequência que realmente esteja
Leia maisProcessamento de Imagem. Prof. MSc. André Yoshimi Kusumoto
Processamento de Imagem Prof. MSc. André Yoshimi Kusumoto andrekusumoto.unip@gmail.com Definição Compressão de Imagem Formas de diminuir a área de armazenamento dos dados, reduzindo a quantidade de bits
Leia maisARTIGO EM PUBLICAÇÃO PERIÓDICA TÉCNICA E/OU CIENTÍFICA IMPRESSA ABNT 6022:2018
ARTIGO EM PUBLICAÇÃO PERIÓDICA TÉCNICA E/OU CIENTÍFICA IMPRESSA ABNT 6022:2018 REFERÊNCIA NORMATIVA Documentos indispensáveis para consulta e aplicação deste documento ABNT NBR 6022 - Artigo em publicação
Leia maisTRADUÇÃO PROFISSIONAL. Artigos Científicos. Documentos Oficiais
Artigos Científicos TRADUÇÃO Textos utilizados por laboratórios, institutos de pesquisa e outras entidades envolvidas no âmbito da ciência precisam de uma tradução clara e objetiva. Contamos com tradutores
Leia maisEntrega Digital. Vantagens da entrega digital
A TV 1OO% DIGITAL Entrega digital de materiais para exibição moderniza ainda mais as operações comerciais. A adoção do formato 16:9 Letterbox nas transmissões analógicas é mais um passo na transição do
Leia mais7 Extração de Dados Quantitativos
Capítulo 7 - Extração de Dados Quantitativos 119 7 Extração de Dados Quantitativos A técnica de medição desenvolvida e descrita nos capítulos anteriores produz como resultado a variação temporal da espessura
Leia maisProcessamento de texto escrito em Linguagem Natural para um Sistema Conversor Texto-fala. Acadêmico: Thiago M. Oechsler Orientadora: Joyce Martins
Processamento de texto escrito em Linguagem Natural para um Sistema Conversor Texto-fala Acadêmico: Thiago M. Oechsler Orientadora: Joyce Martins Roteiro Introdução Objetivos do trabalho Fundamentação
Leia mais6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1
6 Análise dos Atributos de Voz em Reconhecimento Distribuído com a Utilização do Codec de Voz ITU-T G.723.1 Neste capítulo serão examinados os sistemas de reconhecimento da Fig. 3.11, com exceção do reconhecedor
Leia mais6 Modelo Gamma-Cetuc (GC)
6 Modelo Gamma-Cetuc (GC) Um modelo de sintetização de séries temporais de atenuação por chuva envolve a geração de dados aleatórios que satisfaçam especificações de estatísticas de primeira e de segunda
Leia maisCurso: Análise e Desenvolvimento de Sistemas. (Introdução à Comunicação e Transmissão de Sinais)
Curso: Análise e Desenvolvimento de Sistemas Disciplina Processamento de Mídias e Sinais (Introdução à Comunicação e Transmissão de Sinais) Prof. Wagner Santos C. de Jesus wsantoscj@gmail.com Breve Histórico
Leia maisFiltros Digitais. Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros
Filtros Digitais Filtros básicos, parâmetros no domínio do tempo e frequência, classificação de filtros Filtros são usados basicamente para dois propósitos: Separação de sinais combinados; Restauração
Leia maisManoel Campos da Silva Filho Mestre em Engenharia Elétrica / UnB 16 de novembro de 2011
Sistemas Pós graduação em Telemática - Introdução à TV Digital Manoel Campos da Silva Filho Mestre em Engenharia Elétrica / UnB http://manoelcampos.com Instituto Federal de Educação, Ciência e Tecnologia
Leia maisProcessamento Digital de Imagens
Ciência da Computação Processamento Digital de Imagens Prof. Sergio Ribeiro Tópicos Introdução Espectro Eletromagnético Aquisição e Digitalização de Imagens Efeitos da Digitalização Digitalização Sensoriamento
Leia maisProcessamento Digital de Imagens
1 Ciência da Computação Processamento Digital de Imagens Prof. Sergio Ribeiro Tópicos Introdução Espectro Eletromagnético Aquisição e de Imagens Sensoriamento Remoto 2 Introdução Espectro Eletromagnético
Leia maisSUMÁRIO FUNDAMENTOS E VISÃO GERAL 19 CAPÍTULO 1 PROCESSOS ALEATÓRIOS 49
SUMÁRIO FUNDAMENTOS E VISÃO GERAL 19 1. O processo de comunicação 19 2. Principais recursos de comunicação 21 3. Fontes de informação 21 4. Redes de comunicação 27 5. Canais de comunicação 33 6. Processo
Leia maisDiferenças entre o Português Europeu e o Português Brasileiro: Um Estudo Preliminar sobre a Pronúncia no Canto Lírico
Diferenças entre o Português Europeu e o Português Brasileiro: Um Estudo Preliminar sobre a Pronúncia no Canto Lírico Marilda Costa, Luis M.T. Jesus, António Salgado, Moacyr Costa Filho UNIVERSIDADE DE
Leia maisMODULAÇÃO POR CÓDIGO DE PULSO PCM
Instituto Federal de Santa Catarina Curso Técnico Integrado em Telecomunicações PRT- Princípios de Telecomunicações MODULAÇÃO POR CÓDIGO DE PULSO PCM Prof. Deise Monquelate Arndt Fontes: Princípios de
Leia maisAluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva
Aluno: Tiago Andrade Togores Orientador: Professor Flávio Soares Côrrea da Silva Interação humano-computador Interação humano-computador Interfaces naturais Interação humano-computador Interfaces naturais
Leia maisSBC - Sistemas Baseados em Conhecimento
Siglas, Símbolos, Abreviaturas DW - Data Warehouse KDD Knowledge Discovery in Database MD Mineração de Dados OLAP - On-line analytical processing SBC - Sistemas Baseados em Conhecimento 1. INTRODUÇÃO O
Leia maisPRINCÍPIOS DE COMUNICAÇÃO
PRINCÍPIOS DE COMUNICAÇÃO MODULAÇÃO DE PULSO Evelio M. G. Fernández - 2011 Sistemas de Comunicações Digitais Sistema digital no sentido de utilizar uma seqüência de símbolos pertencentes a um conjunto
Leia maisUm filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado);
Filtros Digitais Filtros Digitais Um filtro digital é uma implementação de um filtro através de operações matemáticas aplicadas em um sinal amostrado (e quantizado); São usados para dois propósitos básicos:
Leia maisEngenharia Civil. Representação da Informação. Introdução à Computação
Engenharia Civil Representação da Informação Introdução à Computação Sumário Retomada... Representação de informação Bit, byte Conversão numérica Exercício Referência link na página 2.2.1 O bit, o byte,
Leia maisClosed Caption ao vivo baseado em voz. Uma nova tendência
Closed Caption ao vivo baseado em voz Uma nova tendência Tipos de Closed Caption Offline Online Tempo de preparação maior Mais informações Informações não literais Informação de música e fundo musical
Leia maisIntrodução ao Processamento de Imagens Digitais Aula 01
Introdução ao Processamento de Imagens Digitais Aula 01 Douglas Farias Cordeiro Universidade Federal de Goiás 06 de julho de 2015 Mini-currículo Professor do curso Gestão da Informação Formação: Graduação
Leia maisDESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING. Aluno José Lino Uber. Orientador Paulo Roberto Dias
DESCOBERTA DO CONHECIMENTO COM O USO DE TEXT MINING APLICADA AO SAC TEXT MINING Aluno José Lino Uber Orientador Paulo Roberto Dias Dezembro/2004 Roteiro Introdução Objetivo Conceitos Motivação / Tipos
Leia maisInformática I. Aula 2. Ementa
Informática I Aula 2 http://www.ic.uff.br/~bianca/informatica1/ Aula 2-29/08/2007 1 Ementa Noções Básicas de Computação (Hardware, Software e Internet) HTML e Páginas Web Internet e a Web Javascript e
Leia maisUm Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina
Um Ambiente para Processamento Digital de Sinais Aplicado à Comunicação Vocal Homem-Máquina Márcio G. Passos e Patric L. Silva marcio_passos@yahoo.com.br e lacouth@gmail.com Silvana Luciene do N. Cunha
Leia maisPodemos extrair áudio através de microfones, vídeos, compact disc (CD), digital vídeo disc (DVD) entre outras.
Aula 08 Áudio Arquivos sonoros Em computação arquivo de som ou arquivo sonoro é um formato de arquivo que permite armazenamento de áudio digital. Em geral este arquivo armazena amostras de som em intervalos
Leia maisAPI para obtenção da Frequência de um Sinal de Som por meio da FFT em Java ME
API para obtenção da Frequência de um Sinal de Som por meio da FFT em Java ME Marcelo Ruaro Departamento de Engenharias e Ciência da Computação Universidade Regional Integrada do Alto Uruguai e das Missões
Leia maisSISTEMA DE RECONHECIMENTO DE VOZ PARA GERAÇÃO DE TEXTO PARA AUXILIAR INDIVÍDUOS COM DEFICIÊNCIA
SISTEMA DE RECONHECIMENTO DE VOZ PARA GERAÇÃO DE TEXTO PARA AUXILIAR INDIVÍDUOS COM DEFICIÊNCIA Valber Antônio Gonçalves, Luciene Chagas de Oliveira Universidade de Uberaba - Uniube, Campos Uberlândia
Leia maisFACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS
FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS UNIVERSITÁRIO DE SINOP CURSO DE ENGENHARIA ELÉTRICA Princípios de Comunicações Aulas 01 e 02 Milton Luiz Neri Pereira (UNEMAT/FACET/DEE) 1 1.1 Informações,
Leia maisCOMUNICADO. Qualificação do profissional RADIALISTA LOCUTOR PROFISSIONAL. Página 1 de 5. COMUNICADO DIR N o 01/2016
COMUNICADO DIR N o 01/2016 CURSO DE EXTENSÃO: RADIALISTA LOCUTOR PROFISSIONAL A Diretora Geral Interina das Faculdades Integradas Machado de Assis FEMA, mantida pela Fundação Educacional Machado de Assis,
Leia maisUNIDADE 2 CONCEITOS BÁSICOS DE MULTIMÉDIA. Objectivos
UNIDADE 2 CONCEITOS BÁSICOS DE MULTIMÉDIA Objectivos 1 2 Objectivos Caracterizar os diferentes tipos de media existentes Definir o conceito de multimédia Diferenciar o conceito de multimédia Diferenciar
Leia mais6 Conclusão Contribuições da Dissertação
6 Conclusão Neste trabalho, foi apresentado um sistema colaborativo capaz de controlar as versões das edições de um vídeo no formato MPEG-2, sem que os editores estejam no mesmo local, ao mesmo tempo.
Leia maisCONVERSORES AD/DA (ÁUDIO CODEC)
MICROPROCESSADORES II (EMA864315) CONVERSORES AD/DA (ÁUDIO CODEC) 1 O SEMESTRE / 2017 Alexandro Baldassin MOTIVAÇÃO Sistemas digitais são usados para processar informação Informação no mundo real é analógica
Leia maisInformática I. Aula Aula 22-12/11/2007 1
Informática I Aula 22 http://www.ic.uff.br/~bianca/informatica1/ Aula 22-12/11/2007 1 Ementa Noções Básicas de Computação (Hardware, Software e Internet) HTML e Páginas Web Internet e a Web Javascript
Leia maisDEFEITOS EM IMAGENS RADIOGRÁFICAS DE JUNTAS SOLDADAS EM TUBULAÇÕES: SEGMENTAÇÃO E EXTRAÇÃO DE DEFEITOS
DEFEITOS EM IMAGENS RADIOGRÁFICAS DE JUNTAS SOLDADAS EM TUBULAÇÕES: SEGMENTAÇÃO E EXTRAÇÃO DE DEFEITOS * Aluno do curso Tecnologia em Sistemas de Telecomunicações da UTFPR jvrsschaid@gmail.com ** Aluno
Leia maisFACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS
FACULDADE DE CIÊNCIAS EXATAS E TECNOLÓGICAS CAMPUS UNIVERSITÁRIO DE SINOP CURSO DE ENGENHARIA ELÉTRICA Princípios de Comunicações Aulas 01 e 02 Milton Luiz Neri Pereira (UNEMAT/FACET/DEE) 1 1.1 Informações,
Leia maisPós-Graduação em Engenharia de Materiais - POSMAT
CENTRO FEDERAL DE EDUCAÇÃO TECNOLÓGICA DE MINAS GERAIS Pós-Graduação em Engenharia de Materiais - POSMAT NORMAS DOS TRABALHOS ESCRITOS baseados na ABNT 14724, de17 de março de 2011. FORMATAÇÃO I. Deve-se
Leia maisAprendizado de Máquina (Machine Learning)
Ciência da Computação (Machine Learning) Aula 02 Representação dos dados Pré-processamento Max Pereira Tipo de Dados Os atributos usados para descrever objetos de dados podem ser de diferentes tipos: Quantitativos
Leia maisPrincípios de Telecomunicações. PRT60806 Aula 19: Modulação por Código de Pulso (PCM) Professor: Bruno Fontana da silva 2014
1 Princípios de Telecomunicações PRT60806 Aula 19: Modulação por Código de Pulso (PCM) Professor: Bruno Fontana da silva 2014 Bloco de Comunicação Genérico Emissor sinais analógicos x sinais digitais Sinais
Leia maisCompressão de Textos. Introdução. Introdução. Introdução. O volume de informação textual disponível on-line é imenso:
Compressão de Textos Estrutura de Dados II Prof. Guilherme Tavares de Assis Universidade Federal de Ouro Preto UFOP Instituto de Ciências Exatas e Biológicas ICEB Departamento de Computação DECOM O volume
Leia maisProcessamento de áudio em tempo real utilizando dispositivos não convencionais:
Processamento de áudio em tempo real utilizando dispositivos não convencionais: Processamento paralelo com Pure Data e GPU. André Jucovsky Bianchi ajb@ime.usp.br Departamento de Ciência da Computação Instituto
Leia mais